# 1. 검색 증강 생성 개요
## 1.1 텍스트 임베딩
- 인공지능 모델은 수많은 숫자로 이루어진 벡터를 사용하여 데이터를 처리하고 학습합니다.
- 텍스트를 수치화된 벡터로 변환하여 이를 분석합니다. 이러한 변환 과정을 임베딩이라고 부릅니다.
- 워드 임베딩 : 단어를 벡터로 변환
- 문장 임베딩 : 문장을 벡터로 변환
- 문서 임베딩 : 문서를 벡터로 변환
- 텍스트를 벡터로 변환하는 과정은 다양한 인공지능 모델을 활용하여 수행할 수 있습니다.
- 벡터 유사도 계산을 통해 텍스트의 의미적 연관성을 파악할 수 있습니다.

## 1.2 코사인 유사도
[ch02_VECTOR_SIMILARITY.ipynb](ch02_VECTOR_SIMILARITY.ipynb)


## 1.3 랭체인 임베딩 API 활용
[ch02_LANGCHAIN_EMBEDDING.ipynb](ch02_LANGCHAIN_EMBEDDING.ipynb)

# 2. 문서 로더

랭체인의 문서 로더는 다양한 데이터 소스와 형식을 랭체인 프레임워크에서 사용핳 수 있도록 표준화된 문서 형식으로 변환하는 도구입니다.  
주요 문서로더는 다음과 같습니다.  

- WebBaseLoader : 웹 페이지의 내용을 로드하는 기능을 제공합니다.
- PyPDFLoader : PDF 파일을 로드하고 필요에 따라 페이지 단위로 분할하는 기능을 제공합니다.
- CSVLoader : CSV 파일을 로드하는 기능을 제공합니다.
- DirectoryLoader : 지정된 디렉토리 내의 모든 파일을 로드하는 기능을 제공합니다.
- UnstructuredLoader : 다양한 형식의 파일을 로드하는 기능을 제공합니다.

https://python.langchain.com/docs/integrations/document_loaders/

[ch02_DOCUMENT_LOADER.ipynb](ch02_DOCUMENT_LOADER.ipynb)

# 3. 텍스트 분할
- 언어 모델은 입력 길이에 제한이 있기 때문에, 긴 문서를 적절한 크기로 분할하는 것이 중요합니다.
- 랭체인에서는 다양한 텍스트 분할도구를 제공합니다.
- 랭체인에서 제공하는 분할기 중 가장 널리 사용되는 것은 재귀적 문자 텍스트 분할기 RecursiveCharacterTextSplitter 문자 수나 특정 구분자를 기준으로 체계적으로 분할합니다.
- 텍스트의 유사성을 고려하여 분할하는 SemanticChunker도 있으며, 다양한 텍스트 분할기가 있습니다.

https://python.langchain.com/docs/concepts/text_splitters

[ch02_TEXT_SPLITTER.ipynb](ch02_TEXT_SPLITTER.ipynb)

# 4. 벡터 데이터베이스
- 벡터 데이터베이스는 임베딩 저장과 검색을 목적으로 특별히 설계된 도구로, 많은 양의 임베딩을 효과적으로 관리하고 검색 속도를 크게 향상시킬수 있습니다.

|벡터 데이터베이스|벡터 매트릭|로컬 배포|클라우드 배포|인증 및 암호화|데이터 백업|
|--|--|--|--|--|--|
|밀버스(Milvus)|유클리드, 코사인, IP, L2, 해밍, 자카드|O|O(자체호스팅)|O|O|
|파이스(Faiss)|L2, 코사인, IP, L1, Linf|O|X|X|X|
|크로마(Chroma)|코사인, 유클리드, 내적|O|O(자체 호스팅)|X|O|
|파이콘(Pinecone)|코사인, 유클리드, 내적|X|O(관리형)|O|O|
|쿼드런트(Qdrant)|코사인, 내적, L2|O|O(자체 호스팅)|O|O|
|엘라스틱서치(Elasticsearch)|코사인, 내적, L1, L2|O|O(자체 호스팅)|O|O|
|위비에이트(Weaviate)|코사인|O|O(자체 호스팅)|O|O|

- https://python.langchain.com/docs/integrations/vectorstores

[ch02_VECTOR_DATABASE.ipynb](ch02_VECTOR_DATABASE.ipynb)