# 5-1 LLM 사용 준비

## 주의할 점

### 1. 보안문제
- 개인 정보 보호(프라이버시 침해 주의, 민감 정보 필터링)
- 데이터 저장 및 전송( 암호화, 데이터 저장 최소화)
- 모델 학습 데이터

### 2. API 개념 잡기

### 3. 백터DB와 LangChain 활용하기

#### 1) 벡터DB란?
- 이미지, 텍스트 데이터를 숫자화하여 유사한 데이터를 찾는다.

#### 2) LangChain이란?
- LLM과 벡터DB를 연결해주는 프레임워크로 데이터 흐름을 관리하고 API호출을 더 간편하게 한다.

## LLM + 벡터 DB + LangChain 구축 플로우

### 1. 첵스트 임베딩 생성
- LLM을 통해 텍스트 데이터를 벡터로 (임베딩) 변환

### 2. 벡터DB 저장

### 3. 질문 처리
- 사용자 질문을 받아 벡터로 변환하고 유사한 벡터를 찾는다.

### 4. 답변 생성

### 5. API로 제공

-----------------

# 5-2 VactorDB & RAG 개념

## 1. VactorDB란?
- 데이터를 벡터형식(임베딩)으로 저장하고, 그 벡터들을 효율적으로 검색할 수 있는 데이터베이스.
- **유사한 벡터 간의 검색**

### 1) Faiss
-  Facebook AI Research에서 개발한 벡터 검색 엔진으로, Vector DB를 구현할 때 자주 사용

### 2) 임베딩 개념
- 임베딩은 이미지, 텍스트 등의 데이터를 고차원 공간에서 벡터로 변환 시키는 작업

## 2. RAG 개념
- LLM(대규모 언어 모델)과 검색 시스템을 결합한 개념
- LLM만으로는 해결할 수 없는 문제를, 외부 정보 검색을 통해 보완

### 1) RAG의 동작 원리
1. Retrieval(검색)단계 : 사용자가 질문을 하면, 벡터 DB에서 질문과 유사한 문서나 데이터를 검색

2. Generation(생성)단계: 검색된 문서를 LLM에 전달하고, 이를 바탕으로 자연스러운 답변을 생성

## 3. VectorDB와 RAG 결합
- Vector DB는 유사한 문서를 검색해주고, RAG는 검색된 문서를 바탕으로 정확한 답변을 생성하는 과정

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-10-31%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%207.05.26.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-10-31%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%207.05.26.png)

--------------

# 5-3 텍스트 처리의 핵심 기법과 임베딩 활용

## 1. 텍스트 처리 기법

### 1) 토큰화
- 텍스트를 단어 또는 서브워드 단위로 나누는 작업
- **단어 단위 토큰화:** 텍스트를 단어 단위로 나누는 기본 방법
- **서브워드 토큰화:** 단어를 더 작은 의미단위로 분리해 새로운 단어를 처리할 수 있게 한다.

### 2) 정규화
- 텍스트를 표준화된 형식으로 변환하는 작업
- 대소문자, 특수문자 등을 일관되게 변환하여, 모델이 불필요한 변동에 혼란을 겪지 않도록 한다.

### 3) 불용어 제거
- **불용어:** 자주 등장하지만 정보가 없는 단어
- 예를 들어, "그리고", "이", "는" 같은 단어들은 문맥에 큰 영향을 미치지 않기 때문에 불용어로 처리

### 4) 형태소 분석

### 5) 어간 추출과 표어제 추출
- 어간 추출은 단어에서 어미를 제거하고, 기본 어간만 남긴다.
- 표제어 추출은 단어를 사전적 기본형으로 변환

### 6) 문장 분리 및 길이 조정
- 텍스트가 너무 길거나 복잡할 경우 사용

## 2. 임베딩의 기법들

### 1) Bag of Words(BoW)
- 단어의 빈도만을 기반으로 텍스트를 벡터화하는 가장 단순한 방법
- 간단한 문서 분류나 텍스트 분석에 유용
- 단어의 순서나 문백을 고려하지 않음

### 2) TF-IDF(Term Frequency-Inverse Document Frequency)
- 단순한 단어 빈도 외에도 단어의 중요도를 반영한 임베딩 기법
- ex) 정 단어가 문서 내에서 자주 등장하지만 전체 문서에서 드물게 등장한다면, 그 단어는 해당 문서에서 중요한 단어로 간주

### 3) Word2Vec, GloVe
- 단어 간의 의미적 유사성을 반영하는 임베딩 기법
- 단어를 고차원 벡터로 변환하여, 단어 간의 관계를 학습
- **Word2Vec:** 주위 단어들에 기반해 단어의 의미를 학습
- **GloVe:** 전체 문맥을 기반으로 단어 간의 공통 패턴을 학습

### 4) Transformer 임베딩(BERT, GPT)
- 문장의 문맥을 고려하여 더 깊이 있는 의미를 반영
- 문장 단위로 텍스트를 벡터화할 수 있어 문장 간의 유사도를 정확하게 파악한다.
- **BERT:** 양방향으로 문맥을 고려한 임베딩 생성
- **GPT:** 자동 완성 및 생성에 강점을 둔 임베딩 생성

---------------

# 5-4 LangChain: 개념과 활용

## 1. LangChain
- 언어 모델을 중심으로 다양한 데이터 소스와 툴을 연결
- 체인 기반 애플리케이션을 구축할 수 있는 Python 기반 프레임워크
- 하나의 언어 모델 응답만 받는다.
- 여러 단계로 구성된 체인구조를 통해 다양한 연산과 데이터 처리, 멀티 스텝 분석이 가능

### 1) 장점
- **유연한 구성:** 다양한 컴포넌트를 쉽게 연결
- **모듈화된 컴포넌트:** 필요에 따라 컴포넌트를 조합할 수 있다.
- **체인과 에이전트:** 체인(여러 작업을 순차적으로 실행한다), 에이전트(행동을 결정한다.(자동화))
- **강력한 통합 기능:** 다양한 언어 모델, 벡터 데이터베이스와 통합이 가능(데이터 소스 확장, 빠른 검색)

### 2) 주요 개념
1. **언어 모델(LLM):** LangChain은 OpenAI의 GPT 모델을 포함해 다양한 언어 모델과의 통합을 지원
2. **프롬프트 템플릿:** 프롬프트를 동적으로 생성하는 데 사용
3. **체인:** 여러 단계를 거치는 워크플로우를 하나로 묶어주는 기능
4. **에이전트:** 동적으로 필요한 작업을 결정하고 수행하는 컴포넌트
5. **벡터 데이터베이스:** 텍스트를 벡터로 변환해 저장하고, 이후 유사한 벡터를 빠르게 검색할 수 있게 한다.

### 3) 사용 사례
1. **검색기반 생성(RAG)**
2. **FAQ시스템:** 답변을 벡터 데이터베이스에 저장하고, 유사성 검색을 통해 빠르게 적절한 답변을 제공
3. **다단계 챗봇 워크플로우:** 복잡한 질문에 대해 여러 단계를 거쳐 답변을 구성하는 챗봇을 설계
4. **지능형 에이전트:** 주식 가격을 확인하거나 뉴스 데이터를 검색해 최신 정보를 제공하는 챗봇 에이전트를 구현

-------------

# 5-5 Python LangChain과 FAISS

## 1. LangChain 

### 1) 설치 및 기본 설정
- faiss의 경우 벡터연산 지연하기 때문에 GPU를 사용하면 더 빠르다.

```python
pip install langchain langchain-openai faiss-cpu

import os
from getpass import getpass

os.environ["OPENAI_API_KEY"] = getpass("OpenAI API key 입력: ")
```
### 2) 언어 모델 초기화
- LangChain을 처음 사용할 때 일반적으로 모델 초기화를 한다.
- 해당 코드의 메시지 전달은 LLM을 바로 사용하는 경우
- HumanMessage는 LangChain 라이브러리에서 사람이 보낸 메세지를 정의하고 구조화한다.(모델과의 상호작용에서 사람이 입력한 대화 내용을 포맷팅하고 모델에 전달)
- HumanMessage는 사람이 보낸 일반적인 텍스트 데이터이다.
- invoke: 실제 프롬프트를 생성하고 result에 저장하는 부분(다양한 변수 값들이 포함된 딕셔너리를 전달해서 템플릿에서 변수자리에 적당한 값으로 채워주는 역할) 

```python
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage

# 모델 초기화
model = ChatOpenAI(model="gpt-4")

# 모델에 메시지 전달
response = model.invoke([HumanMessage(content="안녕하세요, 무엇을 도와드릴까요?")])
print(response.content)
```

### 3) 프롬프트 템플릿 사용하기
- 시스템 메세지를 만들고 프롬프트 템플릿에 전달해서 원하는 형태로 변환
- 대화형 인공지능 어플리케이션에서 언어모델에게 요청을 효과적으로 전달하기 위해 메세지를 구조화하고 포맷하는 도구
- 특정 작업이나 질문을 수행할 때 기대한 대답을 제공하도록 유도한다.(프롬프트 엔지니어린을 도와주는 도구)
- 고정텍스트: 질문의 틀이나 지침 등 매번 동일하게 반복되는 부분
- 변수: 템플릿에서 변경할 수 있는 요소로 입력 데이터나 사용자로부터 얻은 정보를 반영( 라그 시스템에서 얻은 추가 설명이나 컨테스트도 제공 가능)
- ChatPromptTemplate: 채팅형태의 대화를 위한 프롬프트 템플릿을 생성하는데 사용(시스템과 사용자 메세지를 설정해서 모델이 맥락을 이해하도록 돕는다)
- language: 변수로 특정 언어 이름이 채워질 것
- from_messages: 객체(prompt_template)를 생성해준다. (시스템과 사용자 메세지를 순서대로 설정해서 대화의 흐름을 구성)

```python
from langchain_core.prompts import ChatPromptTemplate

# 시스템 메시지 설정
system_template = "Translate the following sentence from English to {language}:"

# 사용자 텍스트 입력
prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_template),
    ("user", "{text}")
])

# 프롬프트 생성
result = prompt_template.invoke({"language": "French", "text": "How are you?"})
print(result.to_messages())
```

### 4) LCEL 체인 연결
- parser: LangChain 라이브러리에서 모델의 출력을 처리하고 문자열 형태로 반환(모델의 출력을 다루기 쉽고 구조화된방식으로 변환하기 위해 존재, 현재 parser는 가장 기본적인 형태)

```python
from langchain_core.output_parsers import StrOutputParser

# 응답을 파싱하는 파서 초기화
parser = StrOutputParser()

# 템플릿, 모델, 파서를 체인으로 연결
chain = prompt_template | model | parser

# 체인 실행
response = chain.invoke({"language": "Spanish", "text": "Where is the library?"})
print(response)
```


## 2. FAISS를 활용한 벡터 데이터베이스 구성 및 쿼리
- FAISS는 벡터 유사성 검색을 위한 라이브러리

### 1) Step 1: OpenAI 임베딩 모델로 벡터 임베딩 생성
- VectorDB에 저장하는 값이 벡터이기에 임베딩 모델 활용

```python
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
```

### 2) Step 2: FAISS 인덱스 초기화
- LangChain라이브러리와 Faiss를 사용해 벡터 스토어를설정하는 과정
- 주어진 임벵딩 데이터를 기반으로 검색할 수 있는 Faiss 인덱서를 생성하는 것
- InMemoryDocstore: 문서저장소로 메모리에 문서를 저장해 검색할 수 있게 도와준다.
- 인덱스 생성 부분은 벡터간의 유클리드 거리를 기반으로 검색을 수행하는 인덱스 설정하는 구간
- len: 인덱스에 필요한 벡터의 차원을 지정
- 벡터 스토어: 벡터 검색과 문서 참조 기능 제공
- embeddings: 임베딩을 생성하는 함수로 주어진 텍스트를 벡터형식으로 변환
- index: Faiss인덱스를 지정해서 벡터데이터에 저장과 검색을 수행
- index_to_docstore_id={}: 벡터와 문서의 ID를 연결하는 딕셔너리(각 벡터가 특정 문서와 맵핑 되도록도와준다)
- 임베딩을 진행하고 나면 원래 어떤 문서인지 구분하기 어렵기 때문에 고유 ID를 생성해주고 해당 문서를 추가해준다

```python
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore

# FAISS 인덱스 생성
index = faiss.IndexFlatL2(len(embeddings.embed_query("hello world")))
vector_store = FAISS(
    embedding_function=embeddings,
    index=index,
    docstore=InMemoryDocstore(),
    index_to_docstore_id={}
)
```

### 3) Step 3: 벡터 데이터베이스에 문서 추가
- documents: LangChain 코어에 documents를 사용해서 텍스트 데이터와 메타데이터를 함께저장하는 객체 생성(주로 검색 기능 구현에 사용)
- uuid4는 고유한 식별자를 생성(문서마다 고유한 아이디 부여하는데 활용)
- vector_store.add_documents: 백터스토어 객체에 add_documents를 호출해서 문서와 id를 백터 스토어에 추가

```python
from langchain_core.documents import Document
from uuid import uuid4

# 문서 생성
documents = [
    Document(page_content="LangChain을 사용해 프로젝트를 구축하고 있습니다!", metadata={"source": "tweet"}),
    Document(page_content="내일 날씨는 맑고 따뜻할 예정입니다.", metadata={"source": "news"}),
    Document(page_content="오늘 아침에는 팬케이크와 계란을 먹었어요.", metadata={"source": "personal"}),
    Document(page_content="주식 시장이 경기 침체 우려로 하락 중입니다.", metadata={"source": "news"}),
]

# 고유 ID 생성 및 문서 추가
uuids = [str(uuid4()) for _ in range(len(documents))]
vector_store.add_documents(documents=documents, ids=uuids)
```

### 4) Step 4: 벡터 데이터베이스 쿼리
- similarity_search: 검색내용, 몇개를 불러올지, 필터 설정
- similarity_search: 기본 유사성 검색
- similarity_search_with_score: 점수와 함께 유사성 검색  

```python
# 기본 유사성 검색
results = vector_store.similarity_search("내일 날씨는 어떨까요?", k=2, filter={"source": "news"})
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

# 점수와 함께 유사성 검색
results_with_scores = vector_store.similarity_search_with_score("LangChain에 대해 이야기해주세요.", k=2, filter={"source": "tweet"})
for res, score in results_with_scores:
    print(f"* [SIM={score:.3f}] {res.page_content} [{res.metadata}]")
```

### 5) FAISS 인덱스의 저장 및 로드
```python
# 인덱스 저장
vector_store.save_local("faiss_index")

# 저장된 인덱스 로드
new_vector_store = FAISS.load_local("faiss_index", embeddings)
```

### 6) FAISS 데이터베이스 병합
```python
db1 = FAISS.from_texts(["문서 1 내용"], embeddings)
db2 = FAISS.from_texts(["문서 2 내용"], embeddings)

# 병합
db1.merge_from(db2)
```

## 3. RAG체인에 FAISS 통합

### 1) Step 1: Retriever로 변환
- as_retriever: LangChain의 벡터 스토어를 사용하고 있기 때문에 as_retriever로 Faiss를 retriever변환

```python
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 1})
```

### 2) Step 2: RAG 체인 생성
- 이 코드는 LangChain과 Faiss를 활용한 RAG체인을 구현하며 각 단계를 디버깅하고 문서리스트를 텍스트로 변환하는 구조
- RunnablePassthrough: 입력 데이터를 그대로 다음 단계로 전달하는 클래스(커스텀 기능 추가 가능)

#### 프롬프트 템플릿 정의
- contextual_prompt: 프롬프트 템플릿 생성

#### DebugPassThrough Class
- DebugPassThrough: RunnablePassthrough를 상속해서 각 단계를 디버깅 하는 기능만을 활용하도록 클래스를 새로 만든 것
- invoke: RunnablePassthrough의 invoke메서드를 호출해서 입력을 그대로 전달하되 출력결과를 프린트문으로 전달해서 중간 결과를 확인할 수 있게한다.

#### ContextToText Class
- ContextToText: RunnablePassthrough를 그대로 상속하는데 문서리스트를 텍스트로 결합해 단일 문자열로 변환(이렇게 함으로써 K개를 search해도 정상적으로 RAG시스템에 전달할 수 있게 도와준다.)

#### RAG 체인에서 각 단계마다 DebugPassThrough 추가
- 파이프 연산자 '|'(| 연산자가 딕셔너리 병합, 중복된 키가 있을 경우 오른쪽 딕셔너리의 값이 우선)
- 파이프연산자를 사용해서 각 단계를 연결해줄 수 있고, 각 단계마다 DebugPassThrough를 삽입해 중간결과를 확인해주고 있다.
- "context": retriever: retriever를 통해 검색 된 문서를 가져온다
- "question": DebugPassThrough(): 사용자 질문을 그대로 전달
- ContextToText: 들어온 문서리스트를 텍스트로 변환해서 context로 제공
- contextual_prompt: 설정한 프롬프트 템플릿을 통해 진행문과 문맥을 포함한 최종 프롬프트를 생겅
- model: 모델을 통과 함으로써 전체적인 싸이클이 끝나게 된다.

```python
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])


class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output
# 문서 리스트를 텍스트로 변환하는 단계 추가
class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  # config 인수 추가
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# RAG 체인에서 각 단계마다 DebugPassThrough 추가
rag_chain_debug = {
    "context": retriever,                    # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()        # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
}  | DebugPassThrough() | ContextToText()|   contextual_prompt | model

# 질문 실행 및 각 단계 출력 확인
response = rag_chain_debug.invoke("강사이름은?")
print("Final Response:")
print(response.content)
```
