[RAG] RAG를 사용하는 이유

기존 LLM 모델의 단점

우리 주위에는 ChatGPT, Gemini, Claude, LLaMa 등 수도없이 많은 대형 모델들이 존재한다. 대형 모델은 많은 매개변수를 가지고 있기 때문에, 다른 모델보다 뛰어난 성능을 보여준다. 하지만 이러한 성능이 항상 좋은 결과물을 보장하는 것은 아니다. 대형 모델들이 가지는 주요 단점은 다음과 같다.

모델의 크기와 자원 소모 대형 모델들은 방대한 매개변수를 포함하고 있어, 저장 공간과 메모리 사용량이 매우 크다. 이로 인해 모델을 실행하기 위한 하드웨어 요구사항이 높아지며, 특히 실시간 애플리케이션이나 모바일 디바이스에서는 적용이 어려울 수 있다.
높은 계산 비용과 지연 시간 모델의 크기가 클수록 추론 과정에서 필요한 계산량이 증가한다. 이는 응답 속도를 늦추고, 실시간 서비스 제공에 장애가 될 수 있다. 또한, 대규모 데이터센터에서 운영할 경우 에너지 소비와 유지 비용도 크게 증가한다.
도메인 특화 지식 부족 일반적으로 훈련된 대형 모델은 다양한 주제에 대해 폭넓은 지식을 가지고 있지만, 특정 도메인에 대한 깊이 있는 이해는 부족할 수 있다. 이는 전문적인 분야에서의 정확도와 신뢰성을 저하시킬 수 있다.
일반화와 편향 문제 대형 모델은 대량의 데이터를 기반으로 학습되기 때문에 데이터의 편향성을 그대로 반영할 수 있다. 이로 인해 특정 그룹이나 주제에 대해 편향된 응답을 생성할 위험이 있다.

이러한 대형 모델의 단점을 보완하기 위해 RAG(Retrieval-Augmented Generation)나 파인튜닝과 같은 기법이 사용된다.

RAG와 파인튜닝의 비교

파인튜닝과 RAG는 모두 대형 모델의 성능을 향상시키고 특정 요구사항에 맞추기 위한 접근법이다. 하지만 두 방법은 그 방식과 장단점에서 차이가 있다.

파인튜닝(Fine-Tuning)

파인튜닝은 사전 학습된 대형 모델을 특정 도메인이나 작업에 맞게 추가로 학습시키는 과정이다. 이를 통해 모델은 특정 분야에 대한 더 깊이 있는 지식을 습득하게 된다. 파인튜닝의 장점은 특정 작업에서의 성능 향상과 맞춤형 응답 생성이 가능하다는 점이다. 그러나 단점으로는 추가적인 학습 데이터와 시간이 필요하며, 모델의 크기가 여전히 크기 때문에 자원 소모 문제가 완전히 해결되지 않는다는 점이 있다.

RAG(Retrieval-Augmented Generation)

RAG는 생성 모델과 정보 검색 시스템을 결합한 방식이다. 모델이 질문에 답변을 생성할 때, 외부 데이터베이스나 문서에서 관련 정보를 실시간으로 검색하여 이를 기반으로 응답을 생성한다. RAG의 주요 장점은 다음과 같다.

정보의 최신성 유지 외부 데이터 소스를 실시간으로 참조하기 때문에 모델이 훈련된 이후의 최신 정보도 반영할 수 있다.
효율적인 자원 사용 모델 자체의 크기를 줄이면서도 필요한 정보를 동적으로 검색하여 사용할 수 있어 자원 소모를 줄일 수 있다.
도메인 적응성 특정 도메인에 특화된 외부 데이터 소스를 활용함으로써 다양한 분야에 유연하게 대응할 수 있다.

RAG를 사용하는 이유

RAG를 사용하는 주요 이유는 다음과 같다.

최신 정보 반영 RAG는 외부 데이터 소스를 실시간으로 검색하기 때문에, 모델이 훈련된 이후의 최신 정보나 변화된 데이터를 반영할 수 있다. 이는 특히 빠르게 변화하는 분야에서 중요한 장점이다.
자원 효율성 RAG는 필요한 정보를 실시간으로 검색하여 활용하기 때문에, 모델 자체의 크기를 줄일 수 있다. 이는 저장 공간과 메모리 사용량을 절감하고, 더 적은 자원으로도 높은 성능을 유지할 수 있게 한다.
유연한 도메인 적용 다양한 도메인에 맞는 외부 데이터 소스를 쉽게 연결할 수 있어, 특정 분야에 특화된 응답을 생성할 수 있다. 이는 파인튜닝과 비교하여 더 유연한 접근법을 제공한다.

RAG의 작동 원리

RAG는 크게 두 부분으로 구성된다. 첫째, **검색기(retriever)**는 사용자의 질의에 대해 관련성이 높은 문서나 정보를 외부 데이터베이스에서 검색한다. 둘째, **생성기(generator)**는 검색된 정보를 바탕으로 자연스러운 응답을 생성한다. 이 과정은 다음과 같이 이루어진다.

질의 입력 사용자가 질문을 입력하면, 검색기가 해당 질의와 관련된 문서를 외부 데이터 소스에서 찾는다.
정보 검색 검색기는 벡터 검색이나 키워드 기반 검색을 통해 가장 관련성 높은 문서들을 선택한다.
응답 생성 생성기는 검색된 문서를 참고하여 사용자의 질문에 대한 답변을 생성한다. 이때 생성기는 검색된 정보의 내용을 통합하여 더 정확하고 신뢰성 있는 응답을 제공한다.
결과 반환 최종적으로 생성된 응답이 사용자에게 반환된다.

이러한 RAG의 구조는 모델이 단순히 사전 학습된 지식에 의존하는 것이 아니라, 실시간으로 필요한 정보를 검색하여 활용함으로써 보다 정확하고 최신성 있는 응답을 가능하게 한다. 또한, 특정 도메인에 대한 깊이 있는 지식을 요구하는 경우에도 외부 데이터 소스를 통해 이를 보완할 수 있어, 다양한 응용 분야에서 효과적으로 활용될 수 있다.

결론

대형 언어 모델은 뛰어난 성능을 제공하지만, 그 크기와 자원 소모, 도메인 특화 지식 부족 등의 단점을 가지고 있다. 이러한 문제를 해결하기 위해 RAG와 파인튜닝과 같은 기법이 사용되며, 특히 RAG는 정보 검색과 생성 모델의 장점을 결합하여 효율적이고 유연한 응답 생성을 가능하게 한다. 앞으로도 이러한 하이브리드 접근법을 통해 대형 모델의 한계를 극복하고, 다양한 응용 분야에서 보다 효과적으로 활용될 수 있을 것으로 기대된다.

https://fastcampus.co.kr/data_online_teddy?referral=c05fe404ac6c01964567f9d26d63c989

테디노트의 RAG 비법노트 : 랭체인을 활용한 GPT부터 로컬 모델까지의 RAG 가이드 | 패스트캠퍼스

2만 구독자의 설문을 기반으로 만든 "테디노트의 RAG 비법노트" RAG의 기초부터 심화까지 체계적으로 마스터할 수 있는 40시간 분량의 로드맵을 확인하세요. 수강생 전용 테디노트의 RAG 커뮤니티 +

fastcampus.co.kr

블로그) 이 포스팅은 패스트캠퍼스 러닝메이트 크루 활동의 일환으로, 판매 수익의 일부를 수수료로 제공받습니다.

기존 LLM 모델의 단점

RAG와 파인튜닝의 비교

파인튜닝(Fine-Tuning)

RAG(Retrieval-Augmented Generation)

RAG를 사용하는 이유

RAG의 작동 원리

결론

티스토리툴바