메인 칼럼 개발일지 작업물 연락처
← ocul-pm 프로젝트
ocul-pm

단순 텍스트 쪼개기에서 AST 파싱으로 진화

ASTParsing

기존의 RAG 방식은 단순히 파일을 줄 단위나 글자 수로 무식하게 쪼갰다. 그러다 보니 함수 중간이 뚝 잘리거나, 클래스 껍데기만 들어가서 LLM이 헛소리를 하는 경우가 잦았다.

이걸 해결하려면 코드를 코드답게 이해해서 쪼개야 한다. 결국 AST(추상 구문 트리) 파서를 도입하기로 결정했다. 이제 코드를 읽을 때 ‘아, 이건 함수 블록이구나’, ‘이건 인터페이스 선언이구나’를 인식해서 의미 단위로 청킹을 한다. 종속성 해결 로직과 플래닝 대시보드도 UI에 붙였는데, 코드를 의미 단위로 검색할 수 있게 되니 챗봇의 답변 퀄리티가 수직 상승했다. 조금 복잡하긴 했지만 이 선택은 정말 신의 한 수였다.

김현빈 Developer & Writer

기술, 포스팅 관련 질문, 프로젝트 협업 등 연락주시면 언제든지 회신 드립니다.