# 1. 검색 증강 생성 개요
## 1.1 텍스트 임베딩
- 인공지능 모델은 수많은 숫자로 이루어진 벡터를 사용하여 데이터를 처리하고 학습합니다.
- 텍스트를 수치화된 벡터로 변환하여 이를 분석합니다. 이러한 변환 과정을 임베딩이라고 부릅니다.
- 워드 임베딩 : 단어를 벡터로 변환
- 문장 임베딩 : 문장을 벡터로 변환
- 문서 임베딩 : 문서를 벡터로 변환
- 텍스트를 벡터로 변환하는 과정은 다양한 인공지능 모델을 활용하여 수행할 수 있습니다.
- 벡터 유사도 계산을 통해 텍스트의 의미적 연관성을 파악할 수 있습니다.

## 1.2 코사인 유사도
[ch02_VECTOR_SIMILARITY.ipynb](ch02_VECTOR_SIMILARITY.ipynb)


## 1.3 랭체인 임베딩 API 활용
[ch02_LANGCHAIN_EMBEDDING.ipynb](ch02_LANGCHAIN_EMBEDDING.ipynb)

# 2. 문서 로더

랭체인의 문서 로더는 다양한 데이터 소스와 형식을 랭체인 프레임워크에서 사용핳 수 있도록 표준화된 문서 형식으로 변환하는 도구입니다.  
주요 문서로더는 다음과 같습니다.  

- WebBaseLoader : 웹 페이지의 내용을 로드하는 기능을 제공합니다.
- PyPDFLoader : PDF 파일을 로드하고 필요에 따라 페이지 단위로 분할하는 기능을 제공합니다.
- CSVLoader : CSV 파일을 로드하는 기능을 제공합니다.
- DirectoryLoader : 지정된 디렉토리 내의 모든 파일을 로드하는 기능을 제공합니다.
- UnstructuredLoader : 다양한 형식의 파일을 로드하는 기능을 제공합니다.

https://python.langchain.com/docs/integrations/document_loaders/

[ch02_DOCUMENT_LOADER.ipynb](ch02_DOCUMENT_LOADER.ipynb)

# 3. 텍스트 분할
- 언어 모델은 입력 길이에 제한이 있기 때문에, 긴 문서를 적절한 크기로 분할하는 것이 중요합니다.
- 랭체인에서는 다양한 텍스트 분할도구를 제공합니다.
- 랭체인에서 제공하는 분할기 중 가장 널리 사용되는 것은 재귀적 문자 텍스트 분할기 RecursiveCharacterTextSplitter 문자 수나 특정 구분자를 기준으로 체계적으로 분할합니다.
- 텍스트의 유사성을 고려하여 분할하는 SemanticChunker도 있으며, 다양한 텍스트 분할기가 있습니다.

https://python.langchain.com/docs/concepts/text_splitters

[ch02_TEXT_SPLITTER.ipynb](ch02_TEXT_SPLITTER.ipynb)

# 4. 벡터 데이터베이스
- 벡터 데이터베이스는 임베딩 저장과 검색을 목적으로 특별히 설계된 도구로, 많은 양의 임베딩을 효과적으로 관리하고 검색 속도를 크게 향상시킬수 있습니다.

|벡터 데이터베이스|벡터 매트릭|로컬 배포|클라우드 배포|인증 및 암호화|데이터 백업|
|--|--|--|--|--|--|
|밀버스(Milvus)|유클리드, 코사인, IP, L2, 해밍, 자카드|O|O(자체호스팅)|O|O|
|파이스(Faiss)|L2, 코사인, IP, L1, Linf|O|X|X|X|
|크로마(Chroma)|코사인, 유클리드, 내적|O|O(자체 호스팅)|X|O|
|파이콘(Pinecone)|코사인, 유클리드, 내적|X|O(관리형)|O|O|
|쿼드런트(Qdrant)|코사인, 내적, L2|O|O(자체 호스팅)|O|O|
|엘라스틱서치(Elasticsearch)|코사인, 내적, L1, L2|O|O(자체 호스팅)|O|O|
|위비에이트(Weaviate)|코사인|O|O(자체 호스팅)|O|O|

- https://python.langchain.com/docs/integrations/vectorstores

[ch02_VECTOR_DATABASE.ipynb](ch02_VECTOR_DATABASE.ipynb)

# RAG 챗봇 실습
## 인덱싱 과정
- 인덱싱 과정에서는 문서를 수집하고, 검색이 용이하도록 데이터베이스에 적재합니다.  
1. 문서 준비 및 분할: 다양한 문서를 수집하고 이를 작은 조각으로 나눕니다. 청크들은 의미 단위로 나누어지며, 적절한 크기로 설정하는것이 중요합니다. 너무 작으면 정보가 부족하고, 너무 크면 검색시 정확도가 떨어질 수 있습니다.
2. 임베딩 생성 및 저장: 임베딩 모델을 사용해 벡터 형태로 변환합니다. 청크의 의미를 숫자로 변환한 벡터로, 벡터 DB에 저장되어 관련 정보를 빠르게 찾는데 사용됩니다.
3. 데이터베이스 적재 및 관리: 변환된 임베딩 벡터는 벡터DB에 저장되며, 검색 효율성을 높입니다.
- 문서 유형에 따라 분할과 처리 방법이 달라질 수 있습니다. 비디오 컨텐츠는 전사 과정을 거쳐야 할 수 있습니다
- 임베딩 전략을 변경할 때는 모든 청크를 다시 인덱싱 해야 합니다.

## 쿼리과정
- 사용자가 질문을 입력하면 관련 정보를 실시간으로 검색하고 답변을 생성하는 단계입니다.
1. 질문 입력 및 변환: 사용자가 질문을 입력하면, 데이터베이스 검색에 사용할 수 있도록 벡터로 변환합니다. 이 과정에서 질문은 이전 대화 맥락을 반영해 재작성될 수 있습니다.
2. 검색 및 재정렬: 변환된 질문 벡터는 DB에서 관련성 높은 문서 청크들을 검색하는 데 사용됩니다. 검색된 청크들은 유사도 점수에 따라 상위k개의 청크가 선택됩니다. 원한다면 LLM을 이용하여 재정렬과정을 거쳐 가장 관련성이 높은 청크로 다시 추출할 수 있습니다.
3. 프롬프트 템플릿 설정: 사용자 질문에 적절히 답변을 생성하도록 프롬프트 템플릿을 설정합니다. 프롬프트 템플릿은 답변 생성과정에서 입력된 질문과 검색된 문서 청크를 결합해 대화형 응답을 만듭니다.
4. 문맥 구성: 검색된 청크들을 조합해 질문에 맞는 문맥을 형성합니다. 이때, 생성 모델이 가진 토큰 수 제한을 고려하여 필요한 부분만 포함하여 최적의 답변을 생성하도록 조정합니다.
5. 답변 생성 및 응답 제공: 최종적으로 구성된 문맥과 질문을 함께 LLM에 입력해 답변을 생성합니다. 생성된 답변은 필요한 형식과 스타일로 정제하여 사용자에게 최종 응답으로 제공됩니다.

[ch02_RAG_CHATBOT.ipynb](ch02_RAG_CHATBOT.ipynb)