## 파인콘 벡터 DB 저장


In [14]:
%whos

Variable                         Type                              Data/Info
----------------------------------------------------------------------------
ChatOpenAI                       ModelMetaclass                    <class 'langchain_openai.<...>_models.base.ChatOpenAI'>
Chroma                           ABCMeta                           <class 'langchain_chroma.vectorstores.Chroma'>
Docx2txtLoader                   ABCMeta                           <class 'langchain_communi<...>document.Docx2txtLoader'>
OpenAIEmbeddings                 ModelMetaclass                    <class 'langchain_openai.<...>s.base.OpenAIEmbeddings'>
Pinecone                         ABCMeta                           <class 'pinecone.control.pinecone.Pinecone'>
PineconeVectorStore              ABCMeta                           <class 'langchain_pinecon<...>res.PineconeVectorStore'>
RecursiveCharacterTextSplitter   ABCMeta                           <class 'langchain_text_sp<...>veCharacterTextSplitter'>
ai_me

In [15]:
import os
from dotenv import load_dotenv
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_chroma import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import Docx2txtLoader
from langchain_pinecone import PineconeVectorStore
from pinecone import Pinecone


## 1. 문서 내용 읽고 분할
loader = Docx2txtLoader('law_2.docx')

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,
    chunk_overlap=200,
)

document_list = loader.load_and_split(text_splitter=text_splitter)


## 2. 임베딩 -> 벡터 데이터베이스에 저장
## 2.1. 환경변수 읽어오기
load_dotenv()

## 2.2. 임베딩 모델 지정
embedding = OpenAIEmbeddings(model='text-embedding-3-large')

In [1]:
## 2.3. 벡터 데이터베이스에 저장
## [방법 1] Chroma: in memory
# database = Chroma.from_documents(
#     documents=document_list,
#     embedding=embedding,
# )

## [방법 2] Pinecone: server
api_key = os.getenv('PINECONE_API_KEY')
pc = Pinecone(api_key=api_key)
pc

NameError: name 'os' is not defined

In [17]:
database = PineconeVectorStore.from_documents(
    documents=document_list,
    embedding=embedding,
    index_name='law-2',
)
database

<langchain_pinecone.vectorstores.PineconeVectorStore at 0x2535496bc40>

In [18]:
## 3. 질문 -> 벡터 데이터베이스(vector store)에서 유사도 검색
## 3.1. 사용자 질문
query = '전세사기피해주택의 가격은 어떻게 되나요?'
# query = '전세사기피해 임대인의 국세 계산은 어떻게 하나요?'
# query = '전세사기피해자는 누구인가요?'
# query = '오늘 점심 메뉴 정해줘~'

## 3.2. 벡터 데이터베이스에서 유사도 검색
retrieved_docs = database.similarity_search(query=query, k=2)

## 3.3. 문서 객체 2개 -> 하나의 문자열
context = '😊😊\n\n'.join([doc.page_content for doc in retrieved_docs])


In [19]:
retrieved_docs

[Document(id='2443f22b-ab0f-46a0-b293-883000acb4fb', metadata={'source': 'law_2.docx'}, page_content='전세사기피해자 지원 및 주거안정에 관한 특별법 시행령 ( 약칭: 전세사기피해자법 시행령 )\n\n[시행 2024. 11. 11.] [대통령령 제34987호, 2024. 11. 8., 일부개정]\n\n\n\n국토교통부(피해지원총괄과) 044-201-5233, 5234\n\n\n\n제1조(목적) 이 영은 「전세사기피해자 지원 및 주거안정에 관한 특별법」에서 위임된 사항과 그 시행에 필요한 사항을 규정함을 목적으로 한다.\n\n제2조(전세사기피해지원단) ① 「전세사기피해자 지원 및 주거안정에 관한 특별법」(이하 “법”이라 한다) 제10조제1항에 따른 전세사기피해지원단(이하 “지원단”이라 한다)은 단장 1명과 단원으로 구성한다.\n\n  ② 지원단의 단장은 국토교통부의 고위공무원단에 속하는 일반직공무원 중에서 국토교통부장관이 지명하는 사람이 된다.\n\n  ③ 지원단의 단장은 국토교통부장관의 명을 받아 지원단의 업무를 총괄하고, 지원단의 단원을 지휘ㆍ감독한다.\n\n  ④ 제1항부터 제3항까지에서 규정한 사항 외에 지원단의 구성 및 운영 등에 필요한 사항은 국토교통부장관이 정한다.\n\n제3조(국세의 안분 방법 및 신청 등) ① 법 제23조제1항 각 호 외의 부분 전단에 따라 안분하여 징수하는 전세사기피해주택 임대인의 국세는 다음 각 호의 구분에 따라 산정한다.\n\n  1. 상속세, 증여세 및 종합부동산세의 경우: 고지 또는 신고 건별로 각각 가목에 따라 계산한 금액과 나목의 금액 중 큰 금액\n\n    가. 다음의 계산식에 따라 계산한 금액\n\n  \n\nA×(B/C)\n\n- **A**: 전세사기피해주택의 임대인이 체납한 고지 또는 신고 건별 국세 금액  \n\n- **B**: 전세사기피해주택의 가격  \n\n- **C**: 전세사기피해주택의 임대인이 보유한 모든 주택의 가격 합

In [20]:
## 4. 유사도 검색으로 가져온 문서를 LLM에 질문과 같이 전달
## 4.1. 프롬프트 작성
prompt = '''
[identity]
- 당신은 전세사기피해 법률 전문가입니다.
- [context]를 참고하여 사용자의 질문에 답변해주세요.
- 전세사기피해 법률 이외의 질문에는 '답변을 할 수 없습니다.'로 답하세요.

[context]
{retrieved_docs}

Question: {query}
'''

## 4.2. 프롬프트 변수에 값 설정
formmated_prompt = prompt.format(
    retrieved_docs=context,
    query=query,
)

## 4.3. LLM 모델 생성(ChatOpenAI 인스턴스 생성)
llm = ChatOpenAI(model='gpt-4o')

## 4.4. LLM 모델에 질문과 검색된 문서 보내기
ai_message = llm.invoke(formmated_prompt)
ai_message.content

'전세사기피해주택의 가격은 지원 및 주거안정에 관한 특별법 시행령 제3조에 따르면, 임대인이 체납한 국세의 안분 방법을 위해 고려됩니다. 이 법령에 따르면, 전세사기피해주택의 가격은 "전세사기피해주택의 임대인이 체납한 고지 또는 신고 건별 국세 금액"과 관련된 계산식에서 사용됩니다. 정확한 가격 산정은 임대인이 보유한 모든 주택의 시가표준액 합산액 등을 고려하여 결정됩니다. 따라서 전세사기피해주택의 정확한 가격은 이와 같은 산정 방법을 통해 계산됩니다. 구체적인 평가나 산정은 감정평가를 통해 이루어질 수 있습니다.'

In [21]:
retrieved_docs

[Document(id='2443f22b-ab0f-46a0-b293-883000acb4fb', metadata={'source': 'law_2.docx'}, page_content='전세사기피해자 지원 및 주거안정에 관한 특별법 시행령 ( 약칭: 전세사기피해자법 시행령 )\n\n[시행 2024. 11. 11.] [대통령령 제34987호, 2024. 11. 8., 일부개정]\n\n\n\n국토교통부(피해지원총괄과) 044-201-5233, 5234\n\n\n\n제1조(목적) 이 영은 「전세사기피해자 지원 및 주거안정에 관한 특별법」에서 위임된 사항과 그 시행에 필요한 사항을 규정함을 목적으로 한다.\n\n제2조(전세사기피해지원단) ① 「전세사기피해자 지원 및 주거안정에 관한 특별법」(이하 “법”이라 한다) 제10조제1항에 따른 전세사기피해지원단(이하 “지원단”이라 한다)은 단장 1명과 단원으로 구성한다.\n\n  ② 지원단의 단장은 국토교통부의 고위공무원단에 속하는 일반직공무원 중에서 국토교통부장관이 지명하는 사람이 된다.\n\n  ③ 지원단의 단장은 국토교통부장관의 명을 받아 지원단의 업무를 총괄하고, 지원단의 단원을 지휘ㆍ감독한다.\n\n  ④ 제1항부터 제3항까지에서 규정한 사항 외에 지원단의 구성 및 운영 등에 필요한 사항은 국토교통부장관이 정한다.\n\n제3조(국세의 안분 방법 및 신청 등) ① 법 제23조제1항 각 호 외의 부분 전단에 따라 안분하여 징수하는 전세사기피해주택 임대인의 국세는 다음 각 호의 구분에 따라 산정한다.\n\n  1. 상속세, 증여세 및 종합부동산세의 경우: 고지 또는 신고 건별로 각각 가목에 따라 계산한 금액과 나목의 금액 중 큰 금액\n\n    가. 다음의 계산식에 따라 계산한 금액\n\n  \n\nA×(B/C)\n\n- **A**: 전세사기피해주택의 임대인이 체납한 고지 또는 신고 건별 국세 금액  \n\n- **B**: 전세사기피해주택의 가격  \n\n- **C**: 전세사기피해주택의 임대인이 보유한 모든 주택의 가격 합