1. 서론 (Introduction)
RAG(Retrieval-Augmented Generation) 시스템은 최근 LLM의 한계를 보완하는 매우 강력한 방법으로 자리잡고 있다.
하지만 현재 대부분의 RAG 시스템 설계는 다음과 같은 특징을 가진다.
- 임베딩 모델, 벡터 검색 시스템, 검색 쿼리 생성 방법, LLM 입력 프롬프트 구성이 개별적으로 선택되거나 최적화된다.
- 이로 인해 검색-생성 파이프라인 전체가 통합적으로 최적화되지 않아 최종 출력 품질이 저하되는 문제가 발생한다.
핵심 문제
- 검색 품질이 생성 품질에 미치는 영향을 무시하는 설계가 많다.
- 개별 컴포넌트 최적화로는 전체 RAG 시스템의 품질을 보장할 수 없다.
목표:
→ RAG 시스템 전체를 end-to-end 관점에서 통합 최적화하여 최상의 성능을 끌어내는 프레임워크를 제안
2. 문제 정의 (Problem Formulation)
- 주어진 비즈니스 도메인(ex. 금융, 의료, 기술 지원 등)에 대해
- retrieval + generation 파이프라인 전체를 최적화하여
- 답변의 정확성, 관련성, 근거 기반성을 극대화하는 방법 탐색
최적화 대상
- 임베딩 모델 선택
- 벡터 검색기 선택 및 설정
- 검색 쿼리 생성 방식
- 검색 결과 필터링
- 생성 프롬프트 구성
3. 제안하는 프레임워크 (Proposed Framework)
3.1 전체 개요
프레임워크 구성
1. Input Setting | 사용 가능한 임베딩 모델, 검색 시스템, 평가 기준을 설정 |
2. Candidate Generation | 다양한 임베딩/검색 조합을 생성 |
3. Evaluation | 각 조합을 평가 지표에 따라 측정 |
4. Best Path Recommendation | 최고의 조합을 추천하거나 자동으로 선택 |
3.2 Input Setting
- 사용자 입력
- 사용할 수 있는 임베딩 모델 리스트
- 연결 가능한 벡터 검색 엔진 리스트
- 평가할 기준 지표 (Groundedness, Answer Relevance, Context Relevance)
- 입력의 유연성:
- 이미 구축된 시스템 개선
- 새로운 시스템을 처음부터 구성
3.3 Candidate Generation
- 가능한 모든 조합
- 다양한 임베딩 모델 × 다양한 검색 엔진 × 다양한 검색 매개변수
- 조합 예시:
- OpenAI Ada-002 임베딩 + Pinecone 검색기
- HuggingFace MiniLM 임베딩 + FAISS 검색기 등
- 검색 매개변수 튜닝:
- Top-k 값 설정
- Similarity metric 설정 (cosine, dot product 등)
3.4 Evaluation
평가 지표
Groundedness | LLM이 생성한 답변이 검색된 문서에 기반하는 정도 |
Answer Relevance | 답변이 사용자의 질문에 대해 적절하고 정확한지 |
Context Relevance | 검색된 문서가 질문에 대해 얼마나 관련성 있는지 |
- 평가 방식:
- 정량적 평가를 위해 자동화된 평가 지표와 수동 어노테이션을 함께 사용
- ROUGE, BLEU 점수 등을 보조적으로 활용 가능
3.5 Best Path Recommendation
- 평가 결과를 분석하여 최적의 임베딩 + 검색 엔진 + 검색 설정 조합을 추천
- 필요할 경우 검색 쿼리 생성 방식 (ex. 질문을 직접 쿼리로 쓰느냐, 요약하느냐)까지 조정 가능
4. 최적화 대상 상세 (Optimization Dimensions)
최적화
임베딩 모델 | 다양한 text embedding 모델 비교 및 선택 |
검색 엔진 | FAISS, Pinecone, Weaviate, Vespa 등 선택 |
검색 매개변수 | Top-k, distance metric, index type 조정 |
검색 쿼리 | 질문을 직접 쓸지 요약할지 결정 |
생성 프롬프트 | 검색 결과를 어떤 형식으로 LLM 입력에 포함할지 결정 |
5. 실험 및 결과 (Experiments and Results)
5.1 데이터셋 및 설정
- 다양한 비즈니스 도메인 데이터셋 사용
- 임베딩 모델: OpenAI Ada-002, HuggingFace BGE Base
- 검색기: FAISS, Pinecone
5.2 비교 방법
- Baseline:
- 전통적인 retrieval-only 최적화
- generation-only 최적화
- End-to-End Optimization:
- 본 논문이 제안하는 프레임워크를 사용한 통합 최적화
5.3 주요 결과
- Groundedness:
- 전통적 방법 대비 20%포인트 향상
- Answer Relevance:
- 전통적 방법 대비 15%포인트 향상
- Context Relevance:
- 전통적 방법 대비 18%포인트 향상
→ 특히, retrieval과 generation을 별도로 최적화했을 때보다, 엔드투엔드로 통합 최적화했을 때 성능 향상 폭이 2배 이상이었다.
6. 토의 (Discussion)
- 단순히 검색 시스템을 고르는 것 이상의 문제가 있다.
- 검색과 생성은 서로 상호작용하기 때문에 검색 결과가 조금만 달라져도 생성 품질이 크게 변할 수 있다.
- 따라서 retrieval ↔ generation을 통합적으로 최적화해야 한다는 점이 가장 중요하다.
7. 결론 (Conclusion)
Retrieval-Augmented Generation 시스템의 성능을 극대화하기 위해 엔드투엔드 최적화 프레임워크 제안
- 다양한 임베딩/검색기/매개변수 조합을 평가하고
- Groundedness, Answer Relevance, Context Relevance를 기준으로
- 최적 조합을 자동으로 추천하거나 선택할 수 있도록 함
의의:
단순 retrieval 또는 generation 최적화에 그치는 것이 아니라,
RAG 전체 파이프라인을 하나의 유기적 시스템으로 보고 최적화하는 관점을 처음으로 체계화하였음