# 1.필요 패키지 설치 및 허깅페이스 토큰 등록

In [None]:
!pip install langchain langchain_community faiss-cpu
!pip install -U sentence-transformers

In [None]:
from huggingface_hub import notebook_login
# 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
notebook_login()

# 2.csv 변환 및 Vector DB 저장

## 2-1. csv 변환 – 문서 분할 및 청킹  

- 긴 문서를 모델과 호환되고 정확하고 명확한 결과를 생성하는 작은 덩어리로 분할하는 작업
- TokenTextSplitter 사용

### 2-1-1. list of document형태로 데이터 프레임 변환
- langchain의 CSVLoader를 이용해서 csv 파일을 임베딩할 수 있는 document 형태로 읽음

In [None]:
from langchain_community.document_loaders.csv_loader import CSVLoader

loader_file = CSVLoader(
						file_path='/content/JEJU_MCT_DATA_modified.csv',
                        encoding='utf-8' # cp949 or utf-8
)

file = loader_file.load()

# 시험용으로 10개만 추출
file = file[:5]

In [None]:
print(len(file))

### 2-1-2. 문서 분할 및 청킹
- 임베딩 모델인 **jhgan/ko-sroberta-multitask**는 **128토큰**이 최대 입력 한도이다. 따라서 **토큰 수에 따른 데이터 청킹이 필요하다.**

In [None]:
!pip install tiktoken

In [None]:
from langchain_text_splitters import TokenTextSplitter

text_splitter = TokenTextSplitter(
    chunk_size=200,  # 청크 크기를 100으로 설정
    chunk_overlap=0,  # 청크 간 중복을 0으로 설정
    add_start_index=True # 청크의 시작 인덱스 표기
)

# csv파일을 청크로 분할
splits = text_splitter.split_documents(file) # document 형식으로 불러온 file을 청크로 분할
print("분할된 csv의 첫번재 청크 : ",splits[0])
print("분할된 청크의 개수 : ", len(splits))


## 2-2. VectorDB로 저장
- 텍스트 청크를 추출한 후 RAG 애플리케이션을 사용하여 향후 검색을 위해 이를 저장하고 색인화함  
- 일반적인 접근 방식은 각 분할의 콘텐츠를 임베딩하고 이러한 임베딩을 벡터 저장소에 저장하는 것
- jhgan/ko-sroberta-multitask 사용

### 2-2-1. 임베딩 모델 import 후 embeddings 인스턴스 정의

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings

modelPath = "jhgan/ko-sroberta-multitask"
model_kwargs = {'device':'cpu'}
encode_kwargs = {'normalize_embeddings': True} # 벡터간의 cosine similarity 계산에서 더 유리하다.

embeddings_model = HuggingFaceEmbeddings(
    model_name=modelPath,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

### 2-2-2.벡터 스토어 생성 및 문서 삽입
- FAISS 벡터 저장소와 Lang chain의 오픈 소스 "HuggingFaceEmbeddings"를 사용하면 단일 명령으로 모든 문서 분할을 삽입하고 저장

In [None]:
from langchain_community.vectorstores import FAISS
from langchain_community.vectorstores.utils import DistanceStrategy

vectorstore = FAISS.from_documents(documents = splits,
                                   embedding = embeddings_model,
                                   distance_strategy = DistanceStrategy.COSINE
                                  )
vectorstore

- chroma로 추가 실험 진행
- **성능 차이 못 느낌**

In [None]:
!pip install chromadb

In [None]:
from langchain.vectorstores import Chroma

# Create a Chroma vector store from the previously split documents and using the specified embeddings
chroma_vectorstore = Chroma.from_documents(
    documents=splits,        # Split documents for vectorization
    embedding=embeddings_model
)

### 2-2-3. 벡터 스토어 검색 테스트
- 검색할 때 검색 쿼리를 포함하고 유사성 검색을 수행하여 쿼리 포함과 가장 유사한 포함으로 저장된 분할을 식별합니다.
- 임베딩 간의 각도를 측정하는 코사인 유사성은 간단한 유사성 측정입니다.

In [None]:
query = '20대가 많이 찾는 맛집은 어디인가요?'
docs = vectorstore.similarity_search(query)
print(len(docs))
print(docs[0].page_content)

In [None]:
docs

In [None]:
file[3]

In [None]:
vectorstore.save_local('./db/faiss')

In [None]:
question = '단품요리 전문 식당은 어디인가요?'
searchDocs = chroma_vectorstore.similarity_search(question)
print(searchDocs[0].page_content)

In [None]:
searchDocs

**여기서부터는 chroma로 테스트**

In [None]:
question = '20대가 많이 찾는 맛집은 어디인가요?'
searchDocs = chroma_vectorstore.similarity_search(question)
print(searchDocs[0].page_content)

In [None]:
searchDocs

In [None]:
question = '월요일에 많이 찾는 맛집은 어디인가요?'
searchDocs = chroma_vectorstore.similarity_search(question)
print(searchDocs[0].page_content)

In [None]:
searchDocs