# Setting

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [1]:
# !pip install pypdf
# !pip install openai
# !pip install pandas
# !pip install requests
# !pip install chromadb
# !pip install langchain
# !pip install pdfplumber
# !pip install transformers
# !pip install python-dotenv
# !pip install langchain-community
# !pip install sentence-transformers
# !pip install google-search-results

In [1]:
import os
from langchain.chains import ConversationalRetrievalChain
from langchain.chains import RetrievalQA
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import PDFPlumberLoader
from langchain.llms import HuggingFaceHub
from langchain.prompts import PromptTemplate
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.vectorstores import Chroma
from langchain_community.document_loaders import PDFPlumberLoader

# 데이터 로드 및 전처리(PDF 처리 및 벡터 스토어 생성)

In [2]:
# 데이터 로드, PDF 처리 및 텍스트 청크 생성
def load_and_split_pdf(path_ins, chunk_size=1000, chunk_overlap=200):
    """
    PDF 파일을 로드하고 텍스트를 청크로 나눔
    """
    # PDF 로더 초기화
    loader = PDFPlumberLoader(path_ins)
    pages = loader.load()

    # 데이터 전처리
    text_splitter = RecursiveCharacterTextSplitter(
        separators = ['\n\n', '\n', ' ', ''],   # \n\n: 문단, \n: 새로운 줄을 구분, ' ': 공백, '' (빈 문자열): 공백
        chunk_size = chunk_size,                # 최대 1000자의 텍스트를 포함
        chunk_overlap = chunk_overlap           # 각 청크는 마지막 200자의 텍스트가 겹친다. 이전 데이터를 확인해 문맥을 매끄럽게 하기 위해서
        )

    chunks = text_splitter.split_documents(pages)

    return chunks


# PDF 데이터를 벡터 스토어로 저장
def process_pdf_to_vectorstore(vectorstore_name, chunks):
    """
    PDF 데이터를 청크로 나누어 벡터 스토어에 저장
    """
    # 청크 내용 추출
    texts = [chunk.page_content for chunk in chunks]

    # 메타데이터 및 ID 생성
    metadatas = [{'page': chunk.metadata.get('page', 'unknown')} for chunk in chunks]
    ids = [f"chunk_{i}" for i in range(len(chunks))]

    # 허깅페이스 임베딩 모델 로드
    model_name = 'jhgan/ko-sroberta-multitask'
    embedding_model = HuggingFaceEmbeddings(model_name=model_name)

    # 벡터 스토어 초기화 및 데이터 추가
    vector_store = Chroma.from_texts(
        texts=texts,
        embedding=embedding_model,
        metadatas=metadatas,
        ids=ids
    )

    # 벡터 스토어 저장
    vector_store.persist()
    print(f"PDF 데이터를 벡터 스토어 '{vectorstore_name}'에 저장 완료!")
    return vector_store


In [3]:
# PDF 파일 경로 및 벡터 스토어 이름
path_ins = "/home/sangho/ML/python_ML/LLM2/PJT3/kb운전자보험.pdf" # "/content/drive/MyDrive/kb운전자보험.pdf"
vectorstore_name = "Korean_PDF_HuggingFace_Embeddings"

# PDF 로드 및 청크 생성
chunks = load_and_split_pdf(path_ins)

# 벡터 스토어 생성 및 저장
vector_store = process_pdf_to_vectorstore(vectorstore_name, chunks)

  embedding_model = HuggingFaceEmbeddings(model_name=model_name)
  from .autonotebook import tqdm as notebook_tqdm


PDF 데이터를 벡터 스토어 'Korean_PDF_HuggingFace_Embeddings'에 저장 완료!


  vector_store.persist()


# Chain 생성

In [4]:
# 벡터 스토어 불러오기
def load_vectorstore(vectorstore_name):
    return Chroma(persist_directory=f"./data/vector_stores/{vectorstore_name}")

# 리트리버 생성
def create_retriever(vector_store):
    return vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})  # MMR: 내용의 중복을 줄이고 다양성을 제공, Similarity: 내용의 유사도를 기준으로 내요을 검색


# LLM 인스턴스 생성
def instantiate_LLM():
    # HuggingFaceHub 모델을 사용할 경우 아래와 같이 설정
    return HuggingFaceHub(repo_id="google/flan-t5-xl", model_kwargs={"temperature": 0.8})

# 대화형 리트리버 체인 생성
def create_conversational_chain(llm, retriever):
    # ConversationalRetrievalChain 생성
    return ConversationalRetrievalChain.from_llm(llm, retriever)


In [5]:
# 환경 변수로 OPENAI_API_KEY 설정
os.environ["OPENAI_API_KEY"] = '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'

# 벡터 스토어에서 리트리버 생성
retriever = create_retriever(vector_store)


# LLM 인스턴스 생성, OpenAI 모델 초기화
llm = ChatOpenAI(
    model_name='gpt-4o-mini',
    streaming=False,
    callbacks=[StreamingStdOutCallbackHandler()],
    temperature=0.5  # Adjust temperature for response creativity
)


# 대화형 리트리버 체인 생성
conversation_chain = create_conversational_chain(llm, retriever=retriever)



  llm = ChatOpenAI(


# 사용자 질문 처리 함수(프롬프트 엔지니어링 등)

In [6]:
def generate_conversation_prompt(question, chat_history):
    """
    대답을 하는 요령은 다음과 같이 7가지가 있으니 이를 고려하여 대답해줘.
    1. 이전 대화를 고려하여 대답한다.
    2. 만약 단어와 같이 짧은 입력을 받을 경우 임의로 문장을 완성해서 대답한다. 만약 입력받은 query가 '사과'일 경우 "사과의 종류는 '맥시토신', '후지', '갤릭' 등이 있습니다."와 같은 문장으로 변환한다. 이후 변환된 query에 맞는 답을 생성한다.
    3. prompt = "보험 약관에서 다음 조건에 대한 정보를 제공해주세요:
      - 보험금 청구 절차
      - 보장 범위
      - 면책 사항
      - 계약 해지 규정"
    4. prompt = "다음 질문에 대한 답변을 '보험 약관'에서 찾아주세요. 보험금 청구를 위한 필요한 서류와 절차는 무엇인가요?"
    5. prompt = "보험 약관에 대하여 질문한다면 '보험 약관'과 관련된 조건을 찾고, 이를 간략하게 요약해 주세요."
    5. prompt = "보험 약관에 대하여 질문한다면 '보험금 지급'과 관련된 조건을 찾고, 이를 간략하게 요약해 주세요."
    6. prompt = "보험 약관의 내용을 검토하고, 보장 범위나 면책 사항에 대해 모호하거나 애매한 부분을 찾아 알려 주세요."
    7. prompt = "보험 약관에 정의된 주요 용어들, 예를 들어 '보험금', '면책', '보장' 등을 각각 정의해주세요."
    """

    # 이전 대화 내용이 있을 때, 이를 반영하여 자연스러운 답변을 유도
    if chat_history:
        # 마지막 질문과 답변을 포함하여 답변을 생성
        last_question, last_answer = chat_history[-1]
        return f"이전 대화 내용을 고려하여, '{last_question}'에 대한 답변 '{last_answer}'을 바탕으로 '{question}'에 대해 대답해 주세요."
    else:
        return f"'{question}'에 대해 대답해 주세요."


def generate_search_prompt(question):
    """
    정보 검색을 위한 프롬프트 생성 함수
    - 주어진 질문에 대해 정보를 제공하도록 유도
    """
    return f"다음 질문에 대한 정보를 제공해 주세요: {question}"
# 대화 처리 함수
def ask_question(question, chat_history):
    """
    두 체인을 연결하여 질문에 답변을 생성.
    - conversation_chain: 대화의 흐름을 유지
    - 네이버 API로 검색하여 관련 정보를 제공
    """
    # 1. 대화형 체인에서 응답 생성
    conversation_response = conversation_chain({"question": question, "chat_history": chat_history})
    conversation_answer = conversation_response.get("answer")

    # 2. 대화형 체인이 비어 있으면 네이버 API로 검색
    if conversation_answer is None:
        search_results = naver_blog_search(question)
        filtered_results = filter_blog_results(search_results)

        # 결과가 있으면 출력
        if filtered_results:
            final_answer = "\n".join([f"Title: {item['title']}\nLink: {item['link']}\nDescription: {item['description']}"
                                      for item in filtered_results])
        else:
            final_answer = "해당 내용을 찾을 수 없습니다."
    else:
        final_answer = conversation_answer  # 대화형 답변이 있으면 그대로 사용

    # 3. 대화 내역 업데이트
    chat_history.append((question, final_answer))

    return final_answer, chat_history


# 연속 대화를 위한 예시
def run_conversation():
    chat_history = []  # 초기 대화 내역
    print("종료하려면 '종료'를 입력해 주세요.")
    while True:
        # 사용자 입력 받기
        question = input("질문을 입력하세요: ")
        if question.lower() == '종료':  # 'exit' 입력 시 대화 종료
            break

        # 질문과 응답 처리
        final_answer, updated_chat_history = ask_question(question, chat_history)

        # 결과 출력
        print("(쳇봇 이름) 응답:", final_answer)


# 네이버 api를 사용한 데이터 검색

In [7]:
import requests
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 네이버 블로그 검색 함수
def naver_blog_search(query):
    client_id = "mdSSzD3WTLqpFZLoxOOi"
    client_secret = "icocXu9OKJ"
    url = "https://openapi.naver.com/v1/search/blog.json"

    headers = {
        "X-Naver-Client-Id": client_id,
        "X-Naver-Client-Secret": client_secret
    }

    params = {
        "query": query,
        "display": 10,
        "start": 1
    }

    response = requests.get(url, headers=headers, params=params)

    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error {response.status_code}: {response.text}")
        return None

# 검색 결과 필터링
def filter_blog_results(search_results):
    if not search_results:
        return []

    filtered_results = []

    for item in search_results['items']:
        title = item.get('title', '').replace('<b>', '').replace('</b>', '')
        link = item.get('link', '')
        description = item.get('description', '').replace('<b>', '').replace('</b>', '')

        filtered_results.append({
            'title': title,
            'link': link,
            'description': description
        })

    return filtered_results

# PDF 로드 및 청크 생성 (기존 PDF 처리 함수)
def load_and_split_pdf(path_ins):
    loader = PyPDFLoader(path_ins)
    documents = loader.load()

    # 텍스트 분할기 사용하여 텍스트를 청크로 나누기
    text_splitter = RecursiveCharacterTextSplitter(
        separators = ['\n\n', '\n', ' ', ''],
        chunk_size = 1000,
        chunk_overlap = 200
    )

    chunks = text_splitter.split_documents(documents)
    return chunks

# 네이버 블로그 검색 결과를 청크로 변환하는 함수
def create_chunks_from_blog_results(filtered_results):
    chunks = []
    for result in filtered_results:
        text = f"Title: {result['title']}\nLink: {result['link']}\nDescription: {result['description']}"
        chunks.append(text)
    return chunks

# 벡터스토어 생성 및 저장
def process_pdf_to_vectorstore(vectorstore_name, chunks):
    # 임베딩 생성
    embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")

    # 벡터스토어 생성 (Chroma 사용)
    vector_store = Chroma.from_documents(chunks, embeddings)

    # 벡터 스토어 저장
    vector_store.persist()

    return vector_store

# 네이버 블로그 결과를 벡터스토어에 추가하는 함수
def add_blog_results_to_vectorstore(query, vectorstore_name, vector_store):
    search_results = naver_blog_search(query)
    filtered_results = filter_blog_results(search_results)

    # 블로그 결과를 청크로 변환
    chunks = create_chunks_from_blog_results(filtered_results)

    # 새 데이터를 기존 벡터스토어에 추가
    embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")
    vector_store.add_texts(texts = chunks, embedding = embeddings)

    # 벡터 스토어 저장
    vector_store.persist()

    return vector_store


In [8]:
# 대화 시작
run_conversation()

종료하려면 '종료'를 입력해 주세요.


  conversation_response = conversation_chain({"question": question, "chat_history": chat_history})


(쳇봇 이름) 응답: 중상해란 사람의 신체를 상해하여 생명에 대한 위험을 발생하게 하거나, 신체의 상해로 인해 불구 또는 불치나 난치의 질병에 이르게 한 경우를 말합니다.
(쳇봇 이름) 응답: 보험금 지급 사유는 다음과 같습니다:

1. 상해 사망 및 고도후유장해 특별약관:
   - 보험기간 중에 상해의 직접결과로 사망한 경우: 사망보험금
   - 상해로 인해 고도후유장해상태가 되었을 때: 고도후유장해보험금

2. 신주말교통 상해위험 특별약관:
   - 신주말교통사고로 인한 상해의 직접결과로 사망한 경우: 사망보험금
   - 신주말교통사고로 인한 장해상태가 되었을 때: 후유장해보험금

3. 탈구, 신경손상, 압착손상진단위로금 특별약관:
   - 상해의 직접결과로 탈구, 신경손상, 압착손상으로 진단확정된 경우: 보험가입금액을 지급

각 특별약관에 따라 지급 사유가 다를 수 있으며, 구체적인 조건은 약관에 명시되어 있습니다.
(쳇봇 이름) 응답: 접촉 사고 시 보험금 지급 사유는 다음과 같습니다:

1. 피보험자가 자동차를 운전하던 중에 발생한 급격하고도 우연한 자동차사고로 신체에 상해를 입은 경우.
2. 피보험자가 운행 중인 자동차에 탑승하고 있지 않은 상태에서 발생한 급격하고도 우연한 외래의 사고로 신체에 상해를 입은 경우.
3. 피보험자가 운행 중인 자동차에 탑승하지 않은 때, 운행 중인 자동차와의 충돌, 접촉 또는 이들 자동차의 충돌, 접촉, 화재 또는 폭발 등의 사고로 신체에 상해를 입은 경우.

이러한 경우에는 보험가입금액이 보험수익자에게 지급됩니다.
