오늘의 메인 디쉬, 로컬 폴더를 스캔해서 LLM에게 먹일 컨텍스트를 만드는 작업을 했다. Anthropic 모델을 붙이고 기본적인 RAG 파이프라인을 짰다. 채팅 패널에서 프로젝트를 선택하면, AI가 자동으로 상위 K개의 관련 코드 청크를 가져와 답변에 인용(Citation) 뱃지까지 달아주는 그림이다.
근데 인덱싱을 돌려놓고 커피를 내리고 왔더니, 엔진이 뻗어있었다.
알고보니 package-lock.json 같은 거대한 락파일이나 node_modules, 미니파이된 JS 파일까지 전부 파싱하려고 들었던 거다.
결국 인덱서 로직을 뜯어고쳐서 락파일과 불필요한 캐시 파일들을 스킵하도록 예외 처리를 잔뜩 집어넣었다.
.gitignore 로직도 싹 갈아엎고 나서야 드디어 매끄럽게 돌아간다. RAG는 정말 전처리 싸움이라는 걸 다시금 느꼈다.