논문 리뷰

[논문] An End-to-End Framework Towards Improving RAG Based Application Performance

aaa0843 2025. 4. 20. 14:35

1. 서론 (Introduction)

RAG(Retrieval-Augmented Generation) 시스템은 최근 LLM의 한계를 보완하는 매우 강력한 방법으로 자리잡고 있다.
하지만 현재 대부분의 RAG 시스템 설계는 다음과 같은 특징을 가진다.

  • 임베딩 모델, 벡터 검색 시스템, 검색 쿼리 생성 방법, LLM 입력 프롬프트 구성이 개별적으로 선택되거나 최적화된다.
  • 이로 인해 검색-생성 파이프라인 전체가 통합적으로 최적화되지 않아 최종 출력 품질이 저하되는 문제가 발생한다.

핵심 문제

  • 검색 품질이 생성 품질에 미치는 영향을 무시하는 설계가 많다.
  • 개별 컴포넌트 최적화로는 전체 RAG 시스템의 품질을 보장할 수 없다.

목표:
RAG 시스템 전체를 end-to-end 관점에서 통합 최적화하여 최상의 성능을 끌어내는 프레임워크를 제안


2. 문제 정의 (Problem Formulation)

  • 주어진 비즈니스 도메인(ex. 금융, 의료, 기술 지원 등)에 대해
  • retrieval + generation 파이프라인 전체를 최적화하여
  • 답변의 정확성, 관련성, 근거 기반성을 극대화하는 방법 탐색

최적화 대상

  • 임베딩 모델 선택
  • 벡터 검색기 선택 및 설정
  • 검색 쿼리 생성 방식
  • 검색 결과 필터링
  • 생성 프롬프트 구성

3. 제안하는 프레임워크 (Proposed Framework)

3.1 전체 개요

프레임워크 구성

1. Input Setting 사용 가능한 임베딩 모델, 검색 시스템, 평가 기준을 설정
2. Candidate Generation 다양한 임베딩/검색 조합을 생성
3. Evaluation 각 조합을 평가 지표에 따라 측정
4. Best Path Recommendation 최고의 조합을 추천하거나 자동으로 선택

3.2 Input Setting

  • 사용자 입력
    • 사용할 수 있는 임베딩 모델 리스트
    • 연결 가능한 벡터 검색 엔진 리스트
    • 평가할 기준 지표 (Groundedness, Answer Relevance, Context Relevance)
  • 입력의 유연성:
    • 이미 구축된 시스템 개선
    • 새로운 시스템을 처음부터 구성

3.3 Candidate Generation

  • 가능한 모든 조합
    • 다양한 임베딩 모델 × 다양한 검색 엔진 × 다양한 검색 매개변수
  • 조합 예시:
    • OpenAI Ada-002 임베딩 + Pinecone 검색기
    • HuggingFace MiniLM 임베딩 + FAISS 검색기 등
  • 검색 매개변수 튜닝:
    • Top-k 값 설정
    • Similarity metric 설정 (cosine, dot product 등)

3.4 Evaluation

평가 지표

Groundedness LLM이 생성한 답변이 검색된 문서에 기반하는 정도
Answer Relevance 답변이 사용자의 질문에 대해 적절하고 정확한지
Context Relevance 검색된 문서가 질문에 대해 얼마나 관련성 있는지
  • 평가 방식:
    • 정량적 평가를 위해 자동화된 평가 지표와 수동 어노테이션을 함께 사용
    • ROUGE, BLEU 점수 등을 보조적으로 활용 가능

3.5 Best Path Recommendation

  • 평가 결과를 분석하여 최적의 임베딩 + 검색 엔진 + 검색 설정 조합을 추천
  • 필요할 경우 검색 쿼리 생성 방식 (ex. 질문을 직접 쿼리로 쓰느냐, 요약하느냐)까지 조정 가능

4. 최적화 대상 상세 (Optimization Dimensions)

최적화

임베딩 모델 다양한 text embedding 모델 비교 및 선택
검색 엔진 FAISS, Pinecone, Weaviate, Vespa 등 선택
검색 매개변수 Top-k, distance metric, index type 조정
검색 쿼리 질문을 직접 쓸지 요약할지 결정
생성 프롬프트 검색 결과를 어떤 형식으로 LLM 입력에 포함할지 결정

5. 실험 및 결과 (Experiments and Results)

5.1 데이터셋 및 설정

  • 다양한 비즈니스 도메인 데이터셋 사용
  • 임베딩 모델: OpenAI Ada-002, HuggingFace BGE Base
  • 검색기: FAISS, Pinecone

5.2 비교 방법

  • Baseline:
    • 전통적인 retrieval-only 최적화
    • generation-only 최적화
  • End-to-End Optimization:
    • 본 논문이 제안하는 프레임워크를 사용한 통합 최적화

5.3 주요 결과

  • Groundedness:
    • 전통적 방법 대비 20%포인트 향상
  • Answer Relevance:
    • 전통적 방법 대비 15%포인트 향상
  • Context Relevance:
    • 전통적 방법 대비 18%포인트 향상

특히, retrieval과 generation을 별도로 최적화했을 때보다, 엔드투엔드로 통합 최적화했을 때 성능 향상 폭이 2배 이상이었다.


6. 토의 (Discussion)

  • 단순히 검색 시스템을 고르는 것 이상의 문제가 있다.
  • 검색과 생성은 서로 상호작용하기 때문에 검색 결과가 조금만 달라져도 생성 품질이 크게 변할 수 있다.
  • 따라서 retrieval ↔ generation을 통합적으로 최적화해야 한다는 점이 가장 중요하다.

7. 결론 (Conclusion)

Retrieval-Augmented Generation 시스템의 성능을 극대화하기 위해 엔드투엔드 최적화 프레임워크 제안

  • 다양한 임베딩/검색기/매개변수 조합을 평가하고
  • Groundedness, Answer Relevance, Context Relevance를 기준으로
  • 최적 조합을 자동으로 추천하거나 선택할 수 있도록 함

의의:
단순 retrieval 또는 generation 최적화에 그치는 것이 아니라,
RAG 전체 파이프라인을 하나의 유기적 시스템으로 보고 최적화하는 관점을 처음으로 체계화하였음