## Download Package

langchain, vector databasem enbedding model, pdfReader etc...

In [1]:
!pip install langchain langchain_openai chromadb transformers sentence-transformers pypdf langchain-community

Collecting langchain
  Downloading langchain-0.3.24-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain_openai
  Downloading langchain_openai-0.3.14-py3-none-any.whl.metadata (2.3 kB)
Collecting chromadb
  Downloading chromadb-1.0.7-cp39-abi3-macosx_11_0_arm64.whl.metadata (6.9 kB)
Collecting transformers
  Downloading transformers-4.51.3-py3-none-any.whl.metadata (38 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-4.1.0-py3-none-any.whl.metadata (13 kB)
Collecting pypdf
  Using cached pypdf-5.4.0-py3-none-any.whl.metadata (7.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.22-py3-none-any.whl.metadata (2.4 kB)
Collecting langchain-core<1.0.0,>=0.3.55 (from langchain)
  Downloading langchain_core-0.3.56-py3-none-any.whl.metadata (5.9 kB)
Collecting langchain-text-splitters<1.0.0,>=0.3.8 (from langchain)
  Downloading langchain_text_splitters-0.3.8-py3-none-any.whl.metadata (1.9 kB)
Collecting langsmith<0.4,>=0.1.17 (from langchain)

## PDF Load and page segmentation with langchain

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import HuggingFaceEmbeddings

## Load PDF page

In [3]:
loader = PyPDFLoader("제1주~제7주.pdf")
pages = loader.load_and_split()
print(len(pages))

337


첫번째 문서를 출력해봅시다. 랭체인으로 로드한 데이터의 형식은 다음을 따릅니다.  

`Document(metadata={'source': 파일명, 'page': 페이지 번호}, page_content='내용')`

## Chunking : document segmentation

In [4]:
# chunk로 쪼개기
text_splitter = RecursiveCharacterTextSplitter(chunk_size=600, chunk_overlap=0)
splited_docs = text_splitter.split_documents(pages)

print(len(splited_docs))

337


In [5]:
# first document
print('first document : ', splited_docs[0])

first document :  page_content='재미있고
유익한
부동산
상식
1주차 1차시
부동산의 의의' metadata={'producer': 'Microsoft® PowerPoint® 2016', 'creator': 'Microsoft® PowerPoint® 2016', 'creationdate': '2024-09-01T13:31:19+09:00', 'title': 'PowerPoint 프레젠테이션', 'author': 'User', 'moddate': '2024-09-01T13:31:19+09:00', 'source': '제1주~제7주.pdf', 'total_pages': 337, 'page': 0, 'page_label': '1'}


In [6]:
print('length of first document : ', len(splited_docs[0].page_content))

length of first document :  31


69개의 문서를 임베딩해야 합니다. 한글이 가능한 공개되어져 있는 오픈소스 임베딩을 사용.  

임베딩 모델 위치: https://huggingface.co/BAAI/bge-m3

In [7]:
model_huggingface = HuggingFaceEmbeddings(model_name='BAAI/bge-m3')

  model_huggingface = HuggingFaceEmbeddings(model_name='BAAI/bge-m3')
  from .autonotebook import tqdm as notebook_tqdm


## Chroma vector DB

In [8]:
chroma_db = Chroma.from_documents(splited_docs, HuggingFaceEmbeddings())

# similarity search
similar_docs = chroma_db.similarity_search("사용자의 질문")

  chroma_db = Chroma.from_documents(splited_docs, HuggingFaceEmbeddings())


In [None]:
## Chroma 기반 pdf(docs 벡터화)
db = Chroma.from_documents(splited_docs, model_huggingface)

print('문서의 수:', db._collection.count())

In [None]:
# 질의하기
question = "~~는 ~~ 인가요?"
docs = db.similarity_search(question, k=4)

In [None]:
print('검색된 문서의 수 : ', len(docs))


In [None]:
for doc in docs:
    print(doc)
    print('--' * 100)

## Save Vector DB in local file

In [None]:
db_toFiles = Chroma.from_documents(splited_docs, model_huggingface, persist_directory = './realEstate.db')
print('문서의 수:', db_toFiles._collection.count())

In [None]:
# 파일 확인
$ls -al

저장했던 DB file을 읽어와서 동일한 실습 가능

In [None]:
db_fromfile = Chroma(persist_directory = './realEstate.db',embedding_function=model_huggingface)
print('문서의 수:', db_fromfile._collection.count())

## 질의하기
question = '부동산의 구성요소는?'
docs = db_fromfile.similarity_search(question, k=4)

print('검색된 문서의 수:', len(docs))

In [None]:
question = '부동산의 구성요소는?'

# TOP 3개만 추출
docs3 = db_fromfile.similarity_search_with_relevance_scores(question, k=3)

In [None]:
for doc in docs3:
  print(doc)
  print('--' * 100)

In [None]:
print(f"가장 유사한 문서 : {docs3[0][0].page_content}")
print('*'*20)
print(f"가장 유사한 문서의 문서의 유사도 : {docs3[0][1]}")

# GPT-4 호출하기

In [None]:
from langchain_openai import ChatOpenAI
from langchain import PromptTemplate
from langchain.chains import RetrievalQA
import os

In [None]:
os.environ['OPENAI_API_KEY'] =  "여러분들의 Key 값"

In [None]:
# GPT-4에 전달할 프롬프트
template = """당신은 재미있고 유익한 부동산 상식 강의자료를 설명해주는 챗봇 '삼성맨'입니다.
김태완 개발자가 만들었습니다. 주어진 검색 결과를 바탕으로 답변하세요.
검색 결과에 없는 내용이라면 답변할 수 없다고 하세요. 이모지를 사용하며 친근하게 답변하세요.
{context}

Question: {question}
Answer:
"""

# 프롬프트 템플릿은 {question}에는 사용자의 질문이 들어간다. {context}에는 사용자의 질문에 따른 검색 결과가 들어간다.
prompt = PromptTemplate.from_template(template)

In [None]:
# GPT-4 선언. 단, API Key 값이 셋팅되어져 있어야 실행 가능합니다.
llm = ChatOpenAI(model_name="gpt-4o")

In [None]:
result = llm.invoke('안녕 반가워 GPT-4야 나는 김태완이라고해')
print(result.content)

## 벡터 데이터베이스와 LLM의 연결

`RetrievalQA.from_chain_type()`

- llm: 앞서 선언한 llm 객체를 넣어주세요.
- retriever: 앞서 선언한 retriever 객체를 넣어주세요.
- chain_type_kwargs={"prompt": ?}: 앞서 선언한 프롬프트 템플릿을 넣어주세요.

In [None]:
# 벡터 데이터베이스를 LLM과 연결하기 위해서 retriever 객체로 선언
retriever = db.as_retriever(search_kwargs={"k": 3})

In [None]:
qa_chain = RetrievalQA.from_chain_type(
    llm=llm, # LLM 연결
    retriever=retriever, # 리트리버(벡터 데이터베이스) 연결
    chain_type_kwargs={"prompt": prompt}, # 프롬프트 템플릿 연결
    return_source_documents=True # 실제 검색된 문서도 확인하려면 True
    )

In [None]:
input_text = "부동산에서 토지란?"
chatbot_response = qa_chain.invoke(input_text)

In [None]:
chatbot_response

In [None]:
print('내가 넣었던 질문:', chatbot_response['query'])

In [None]:
print('검색 결과를 바탕으로 GPT-4가 작성한 답변:', chatbot_response['result'])

In [None]:
print('챗봇이 참고한 실제 검색 결과에 해당하는 유사도 상위 3개 문서:')

for doc in chatbot_response['source_documents']:
  print(doc)
  print('--' * 100)

In [None]:
input_text = "25년 2월의 서울 아파트 집값은?"
chatbot_response = qa_chain.invoke(input_text)

In [None]:
chatbot_response['result']