# Install

In [None]:
# !pip install transformers
# !pip install langchain
# !pip install python-dotenv
# !pip install pypdf
# !pip install chromadb
# !pip install sentence-transformers
# !pip install openai
# !pip install -qU langchain-openai

# API token * key

In [None]:
import os
from dotenv import load_dotenv

os.environ['HUGGINGFACEHUB_API_TOKEN'] 

# API KEY 정보로드
load_dotenv()
# print(f"[API KEY]\n{os.environ['OPENAI_API_KEY']}")

# Import

In [None]:
from langchain.vectorstores import Chroma
from langchain_community.llms import HuggingFaceEndpoint
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.chains import RetrievalQA, ConversationalRetrievalChain
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain_community.embeddings import (
    HuggingFaceEmbeddings,
    HuggingFaceBgeEmbeddings,
)
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAIEmbeddings
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.memory import ConversationSummaryBufferMemory
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain_openai import ChatOpenAI

# Data preprocessing

* pdf에서 텍스트 추출
* 취소선과 겹치는 문장의 경우 < del>  <> 이런식으로 처리
* '. .' 과 같은 불필요한 단어 삭제

In [None]:
import fitz
import re

def find_text_by_red_strikethrough_status(pdf_path):
    document = fitz.open(pdf_path)
    strikethrough_texts = []
    non_strikethrough_texts = []
    full_texts = []

    for page_number in range(len(document)):
        page = document[page_number]
        words = page.get_text("words")  # 단어와 그 위치를 반환
        paths = page.get_drawings()  # 페이지의 그래픽 요소를 추출

        strikethrough_lines = []

        # 그림 요소 중에서 선과 사각형을 검사하여 빨간색 취소선으로 판단
        for path in paths:
            color = path["color"]
            # 선의 색상이 빨간색인 경우에만 처리
            if color == (1, 0, 0):  # RGB 색상으로 빨간색 확인
                for item in path["items"]:
                    if item[0] == "l":  # 선인 경우
                        p1, p2 = item[1:]
                        if p1.y == p2.y:  # 수평선이면
                            rect = fitz.Rect(p1.x, p1.y - 1, p2.x, p2.y + 1)
                            strikethrough_lines.append(rect)
                    elif item[0] == "re":  # 사각형인 경우
                        rect = item[1]
                        if rect.width > rect.height and rect.height < 3:  # 넓이가 높이보다 많이 크고 높이가 3pt 이하이면
                            strikethrough_lines.append(rect)

        # 각 단어와 취소선이 겹치는지 검사
        same_line = words[0][5]
        previous_strike = False
        strike_line = ''
        line = ''
        for word in words:
            word_rect = fitz.Rect(word[:4])  # 단어의 위치
            strikethrough_found = False
            for line_rect in strikethrough_lines:
                if word_rect.intersects(line_rect):  # 겹치면
                    strikethrough_found = True
                    break
            if not strikethrough_found:  # 취소선이 없으면
                non_strikethrough_texts.append(word[4:6])  # 취소선이 적용되지 않은 단어 추가
                if same_line != word[5]:
                    same_line = word[5]
                    line += '\n'

                line = line + ' ' + word[4]
                
                if strikethrough_found != previous_strike:
                    full_texts.append('<del>' + strike_line + '<>')
                    strike_line = ''
                previous_strike = False
            else:
                strikethrough_texts.append(word[4:6])  # 취소선이 적용된 단어 추가
                strike_line = strike_line  + ' ' + word[4]
                if strikethrough_found != previous_strike:
                    full_texts.append(line + '\n')
                    line=''
                previous_strike = True
        full_texts.append(line)
    document.close()
    return strikethrough_texts, non_strikethrough_texts, full_texts

def re_text(full_texts):
    full = ''
    for text in full_texts:
        cleaned_text = re.sub(r'\.\s*\.', '', text)
        full += cleaned_text
    return full

pdf_path = ['real_data_ex.pdf', 'real_data_ex2.pdf']
docs = []
for pdf in pdf_path:
    strikethrough_texts, non_strikethrough_texts, full_texts = find_text_by_red_strikethrough_status(pdf)
    texts = re_text(full_texts)
    docs.append((pdf, texts))
docs

# Make chunk data - vector db에 저장하기전 데이터 만들기

* 앞서 pdf에서 추출한 데이터 활용
* vector DB에 저장하기 위해 pdf를 chunk 단위로 잘라 저장할 필요가 있음
* RecursiveCharacterTextSplitter를 이용하여 2000개씩 자르고, 200개씩 겹쳐서 문서가 연결되게끔 split
    * ex) "나는 ai 파트를 맡고", "ai 파트를 맡고 있어요" -> 이런식으로 겹쳐서 저장

* 메타데이터로 pdf 문서 이름을 같이 저장
* create_document를 이용해서 2000개로 자른 텍스트와 메타데이터 저장
    * Document(page_content='< del>  <> 1 주의 금액 400원  , metadata={'source': 'real_data_ex.pdf'}) 형식

In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 2000,
    chunk_overlap  = 200,
    length_function = len,
)

data = []
for pdf, texts in docs:
    split_texts = text_splitter.split_text(texts)
    metadata = [{'source': pdf}] * len(split_texts)
    pages = text_splitter.create_documents(split_texts, metadatas=metadata)
    data.append(pages)
data

# Store data to vector DB
* vector db에 저장하기 위한 임베딩은 openai의 임베딩을 사용
* 앞서 Document(page_content, metadata) 형식의 데이터를 db에 저장
* persist_directory는 로컬에 저장할 폴더 이름
* vector_index._collection.count()로 현재 DB에 몇 개의 Document가 저장되어 있는지 알 수 있다. 

In [None]:
# from langchain_community.embeddings.sentence_transformer import (
#     SentenceTransformerEmbeddings,
# )
# from langchain_openai import OpenAIEmbeddings

# # directory = 'chroma_store_hugging'
# directory = 'chroma_store_open'

# # embeddings = HuggingFaceEmbeddings()
# # embeddings_model = HuggingFaceEmbeddings(
# #     model_name='jhgan/ko-sbert-nli',
# #     model_kwargs={'device':'cpu'},
# #     encode_kwargs={'normalize_embeddings':True},
# # )

# embeddings_open = OpenAIEmbeddings(model="text-embedding-3-large")

# for pages in data:
#     vector_index = Chroma.from_documents(
#         pages, # Documents
#         embedding = embeddings_open, # Text embedding model
#         persist_directory=directory # persists the vectors to the file system
#         )
# # vector_index.persist()
# print('count: ', vector_index._collection.count())

# Delete all data
* db에 있는 정보 삭제

In [None]:
# # # 정보 삭제
# ids = vector_index.get(0)['ids']

# print('before: ', vector_index._collection.count())
# for i in ids:
#     vector_index._collection.delete(ids=i)
# print('after :', vector_index._collection.count())

# Load
* db에 따로 저장하지 않고 저장되어 있는 것만 사용할 경우 load 가능

In [None]:
embeddings_open = OpenAIEmbeddings(model="text-embedding-3-large")
vector_index = Chroma(persist_directory='chroma_store_open', embedding_function=embeddings_open)
print('count: ', vector_index._collection.count())

# Huggingface model (prompt)
* huggingface model(llm)을 사용
    * prompt는 영어로 작성된 prompt 사용 - prompt에 따라 성능이 달라짐
    * retriever는 벡터 DB에서 내가 질문한 것과 유사도가 높은 Document를 k개 고른다.
    * ConversationalRetrievalChain으로 llm, retriever, prompt를 사용
    * 물어보는 질문에 대해 db에서 유사한 Document를 찾고 그것을 기반으로 답변 생성
    * chat_history에 답변 저장

* 만약 openai 모델을 사용한다면 prompt는 한국어로 작성해도 괜찮다.
    

In [None]:
memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
chat_history = []
####################retriever######################
pdfs_info = ''
for i in pdf_path:
    pdfs_info += "'" + i + "', "
pdfs_info

metadata_field_info = [
    AttributeInfo(
        name="source",
        description="The company the chunk is from, should be one of " + pdfs_info,
        type="string",
    )
]
document_content_description = "company information"

llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm,
    vector_index,
    document_content_description,
    metadata_field_info,
    search_kwargs={
        "k": 5, # Select top k search results
    } 
)

# retriever = vector_index.as_retriever(
#     search_type="similarity", # Cosine Similarity
#     search_kwargs={
#         "k": 5, # Select top k search results
#     } 
# )

###################################################
repo_id = "mistralai/Mixtral-8x7B-Instruct-v0.1"

llm = HuggingFaceEndpoint(
    repo_id=repo_id, 
    max_new_tokens=2048,  
    temperature=0.1, 
    callbacks=[StreamingStdOutCallbackHandler()], 
    streaming=True,  
)

In [None]:
retriever.get_relevant_documents("real_data_ex문서에서 상호의 영어명, 본점, 액면가, 발행한 주식의 총수, 발행할 주식의 총수, 회사성립연월일, 등기번호, 등록번호에 대해 정리해줘")

In [None]:
####################prompt######################
prompt = ChatPromptTemplate.from_template("""
    you must not use information in the form of <del><> except when requested
    The metadata being different means the documents are different. 
    I want to obtain information seperately for each document.
    you answer me only using context for question:
    <context>
    {context}
    </context>
    
    Question: {question}
    The answer should be in Korean only""")


conv_chain = ConversationalRetrievalChain.from_llm(
    llm, 
    retriever=retriever,
    # chain_type="stuff", 
    combine_docs_chain_kwargs={"prompt": prompt},
    memory=memory
)

query_list = ["real_data_ex문서에서 상호의 영어명, 본점, 액면가, 발행한 주식의 총수, 발행할 주식의 총수, 회사성립연월일, 등기번호, 등록번호에 대해 정리해줘"]
for query in query_list:
    ## open ai
    # result_open = conv_chain.invoke({"question": query, "chat_history": chat_history})
    # print(result_open)
    # chat_history.append((query, result_open["answer"]))
    
    ##  hugging face
    result = conv_chain.invoke({"question": query})
    print()
    chat_history = memory.buffer

In [None]:
memory.load_memory_variables(chat_history)

# Test

In [None]:
query = "real_data_ex2에서 설립시 액면가는?"
result = conv_chain.invoke({"question": query})

In [None]:
chat_history