# Setting

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# !pip install pypdf
# !pip install openai
# !pip install pandas
# !pip install requests
# !pip install chromadb
# !pip install langchain
# !pip install pdfplumber
# !pip install transformers
# !pip install python-dotenv
# !pip install langchain-community
# !pip install sentence-transformers
# !pip install google-search-results

Collecting pypdf
  Downloading pypdf-5.1.0-py3-none-any.whl.metadata (7.2 kB)
Downloading pypdf-5.1.0-py3-none-any.whl (297 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/298.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m297.0/298.0 kB[0m [31m10.9 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m298.0/298.0 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pypdf
Successfully installed pypdf-5.1.0
Collecting chromadb
  Downloading chromadb-0.5.20-py3-none-any.whl.metadata (6.8 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.5-py

In [16]:
import re
import os
from langchain.chains import ConversationalRetrievalChain
from langchain.chains import RetrievalQA
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.embeddings import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import PDFPlumberLoader
from langchain.llms import HuggingFaceHub
from langchain.prompts import PromptTemplate
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.vectorstores import Chroma
from langchain_community.document_loaders import PDFPlumberLoader

# 데이터 로드 및 전처리(PDF 처리 및 벡터 스토어 생성)

In [17]:
def process_pdf_text(pages, indexes=None, special_terms=None):
    """
    PDF 페이지에서 텍스트를 처리하고 목차 및 특별약관을 제거한 후 텍스트 청크를 생성.

    Parameters:
    - pages: PDF에서 추출한 페이지들
    - indexes: 목차를 구분할 인덱스 목록 (기본값 None)
    - special_terms: 특별약관 목록 (기본값 None)

    Returns:
    - data: 처리된 텍스트 청크
    """
    merged = ""
    for page in pages:
        merged += page.page_content

    # 목차 제거
    cut_index = merged.find("이 약관은 「금융소비자보호에 관한 법률」에 의거 내부통제절차를 거쳐 제공됩니다.")
    cut_index += len("이 약관은 「금융소비자보호에 관한 법률」에 의거 내부통제절차를 거쳐 제공됩니다.")
    merged = merged[cut_index+1:]

    # 페이지 번호 제거("- 1 -", "- 2 -")
    merged = re.sub(r'- \d+ -', '', merged)

    # 목차 인덱스 추출
    indices = []
    if indexes:
        for index in indexes:
            if merged.find(index) != -1:
                indices.append(merged.find(index))

    # 데이터를 각 구간별로 나누기
    data = []
    for i in range(len(indices) - 1):
        data.append(merged[indices[i]:indices[i+1]])
    if indices:
        data.append(merged[indices[-1]:])

    # 특별약관 인덱스 추출
    special_term_indices = []
    if special_terms:
        for term in special_terms:
            if merged.find(term) != -1:
                special_term_indices.append(merged.find(term))

    # 특별약관 데이터를 추가
    for i in range(len(special_term_indices) - 1):
        data.append(merged[special_term_indices[i]:special_term_indices[i+1]])
    if special_term_indices:
        data.append(merged[special_term_indices[-1]:])

    return data



In [18]:
def load_and_process_pdf(path_ins, chunk_size=1000, chunk_overlap=200, indexes=None, special_terms=None):
    """
    PDF 파일을 로드하고 텍스트를 청크로 나눈 후 필요한 텍스트 처리와 청크 생성을 수행.

    Parameters:
    - path_ins: PDF 파일 경로
    - chunk_size: 각 청크의 최대 크기 (기본값 1000)
    - chunk_overlap: 각 청크에서 겹치는 부분의 크기 (기본값 200)
    - indexes: 목차를 구분할 인덱스 목록 (기본값 None)
    - special_terms: 특별약관 목록 (기본값 None)

    Returns:
    - chunks: 텍스트 청크
    """
    # PDF 로더 초기화
    loader = PDFPlumberLoader(path_ins)
    pages = loader.load()

    # 텍스트 처리 및 청크 나누기
    processed_data = process_pdf_text(pages, indexes, special_terms)

    # 데이터 전처리
    text_splitter = RecursiveCharacterTextSplitter(
        separators=['\n\n', '\n', ' ', ''],   # \n\n: 문단, \n: 새로운 줄을 구분, ' ': 공백, '' (빈 문자열): 공백
        chunk_size=chunk_size,                # 최대 1000자의 텍스트를 포함
        chunk_overlap=chunk_overlap           # 각 청크는 마지막 200자의 텍스트가 겹친다. 이전 데이터를 확인해 문맥을 매끄럽게 하기 위해서
    )

    chunks = text_splitter.split_documents(processed_data)

    return chunks

# PDF 데이터를 벡터 스토어로 저장
def process_pdf_to_vectorstore(vectorstore_name, chunks):
    """
    PDF 데이터를 청크로 나누어 벡터 스토어에 저장
    """
    # 청크 내용 추출
    texts = [chunk.page_content for chunk in chunks]

    # 메타데이터 및 ID 생성
    metadatas = [{'page': chunk.metadata.get('page', 'unknown')} for chunk in chunks]
    ids = [f"chunk_{i}" for i in range(len(chunks))]

    # 허깅페이스 임베딩 모델 로드
    model_name = 'jhgan/ko-sroberta-multitask'
    embedding_model = HuggingFaceEmbeddings(model_name=model_name)

    # 벡터 스토어 초기화 및 데이터 추가
    vector_store = Chroma.from_texts(
        texts=texts,
        embedding=embedding_model,
        metadatas=metadatas,
        ids=ids
    )

    # 벡터 스토어 저장
    vector_store.persist()
    print(f"PDF 데이터를 벡터 스토어 '{vectorstore_name}'에 저장 완료!")
    return vector_store


In [19]:
indexes = [
"가입자 유의사항",
"주요내용 요약서",
"보험용어 해설",
"KB스마트운전자보험 보통약관"
]

special_terms = [
    "교통상해위험 보장제외 특별약관",
    "( )상해 사망 및 고도후유장해 특별약관",
    "( )상해 ( )%이상 고도후유장해 발생 특별약관",
    "( )상해 ( )%미만 후유장해 특별약관",
    "( )보험금만의 지급 특별약관",
    "이륜자동차 운전 및 탑승중 상해위험 보장제외 특별약관",
    "신주말교통 상해위험 특별약관",
    "대중교통 상해위험 특별약관",
    "골절발생위로금(II) 특별약관",
    "깁스치료비 특별약관",
    "자동차사고 화상발생위로금 특별약관",
    "자동차사고 성형치료비 특별약관",
    "탈구, 신경손상, 압착손상진단위로금 특별약관",
    "외상성절단위로금 특별약관",
    "뇌․내장수술비 특별약관",
    "교통상해 입원일당 특별약관",
    "교통상해 골절입원일당 특별약관",
    "벌금 특별약관",
    "자동차사고 변호사선임비용 특별약관",
    "가족벌금 특별약관",
    "가족자동차사고 변호사선임비용 특별약관",
    "교통사고처리지원금(Ⅰ) 특별약관",
    "교통사고처리지원금(Ⅱ) 특별약관",
    "교통사고처리지원금(Ⅲ) 특별약관",
    "티맵 안전운전 할인 추가특별약관",
    "커넥티드카 안전운전 할인 추가특별약관",
    "교통사고처리지원금(Ⅰ) 사망 특별약관",
    "교통사고처리지원금(Ⅰ) 중대법규위반 특별약관",
    "교통사고처리지원금(Ⅰ) 중상해 특별약관",
    "가족교통사고처리지원금(Ⅰ) 특별약관",
    "가족교통사고처리지원금(Ⅱ) 특별약관",
    "가족교통사고처리지원금(Ⅲ) 특별약관",
    "자동차사고 보복운전 피해보상 특별약관",
    "자전거상해사망 특별약관",
    "자전거상해후유장해 특별약관",
    "자전거사고 변호사선임비용 특별약관",
    "자전거사고 벌금 특별약관",
    "자전거교통사고 처리지원금 특별약관(동승자 포함)",
    "자전거교통사고 처리지원금 특별약관(동승자 제외)",
    "자동차사고부상보장(운전자) 특별약관",
    "자동차사고부상보장(비운전자) 특별약관",
    "대중교통상해 부상치료비 특별약관(택시 포함)",
    "대중교통상해 부상치료비 특별약관(택시 제외)",
    "전세버스 보장 추가특별약관",
    "상해흉터복원 수술비용 특별약관",
    "반려동물 교통상해입원 위탁비용 특별약관",
    "장애인전용보험전환 특별약관",
    "보험료분납 특별약관",
    "보험료 자동납입 특별약관",
    "초회보험료자동납입 추가특별약관",
    "지정대리청구서비스 특별약관",
    "보험기간 종료후 재가입 특별약관"
    "약관에서 인용된 법·규정",
    "주요 민원 / 분쟁 사례 및 유의사항"
]


In [23]:
# PDF 파일 경로 및 벡터 스토어 이름
path_ins = "/home/sangho/ML/python_ML/LLM2/PJT3/kb운전자보험.pdf"
vectorstore_name = "Korean_PDF_HuggingFace_Embeddings"

# PDF 로드 및 청크 생성
chunks = load_and_process_pdf(path_ins)

# 벡터 스토어 생성 및 저장
vector_store = process_pdf_to_vectorstore(vectorstore_name, chunks)

IndexError: list index out of range in upsert.

# Chain 생성

In [17]:
# 벡터 스토어 불러오기
def load_vectorstore(vectorstore_name):
    return Chroma(persist_directory=f"./data/vector_stores/{vectorstore_name}")

# 리트리버 생성
def create_retriever(vector_store):
    return vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 3})  # MMR: 내용의 중복을 줄이고 다양성을 제공, Similarity: 내용의 유사도를 기준으로 내요을 검색


# LLM 인스턴스 생성
def instantiate_LLM():
    # HuggingFaceHub 모델을 사용할 경우 아래와 같이 설정
    return HuggingFaceHub(repo_id="google/flan-t5-xl", model_kwargs={"temperature": 0.8})

# 대화형 리트리버 체인 생성
def create_conversational_chain(llm, retriever):
    # ConversationalRetrievalChain 생성
    return ConversationalRetrievalChain.from_llm(llm, retriever)


In [18]:
# 환경 변수로 OPENAI_API_KEY 설정
os.environ["OPENAI_API_KEY"] = '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'

# 벡터 스토어에서 리트리버 생성
retriever = create_retriever(vector_store)


# LLM 인스턴스 생성, OpenAI 모델 초기화
llm = ChatOpenAI(
    model_name='gpt-4o-mini',
    streaming=False,
    callbacks=[StreamingStdOutCallbackHandler()],
    temperature=0.5  # Adjust temperature for response creativity
)


# 대화형 리트리버 체인 생성
conversation_chain = create_conversational_chain(llm, retriever=retriever)



# 사용자 질문 처리 함수(프롬프트 엔지니어링 등)

In [19]:
def generate_conversation_prompt(question, chat_history):
    """
    대답을 하는 요령은 다음과 같이 7가지가 있으니 이를 고려하여 대답해줘.
    1. 이전 대화를 고려하여 대답한다.
    2. 만약 단어와 같이 짧은 입력을 받을 경우 임의로 문장을 완성해서 대답한다. 만약 입력받은 query가 '사과'일 경우 "사과의 종류는 '맥시토신', '후지', '갤릭' 등이 있습니다."와 같은 문장으로 변환한다. 이후 변환된 query에 맞는 답을 생성한다.
    3. prompt = "보험 약관에서 다음 조건에 대한 정보를 제공해주세요:
      - 보험금 청구 절차
      - 보장 범위
      - 면책 사항
      - 계약 해지 규정"
    4. prompt = "다음 질문에 대한 답변을 '보험 약관'에서 찾아주세요. 보험금 청구를 위한 필요한 서류와 절차는 무엇인가요?"
    5. prompt = "보험 약관에 대하여 질문한다면 '보험 약관'과 관련된 조건을 찾고, 이를 간략하게 요약해 주세요."
    5. prompt = "보험 약관에 대하여 질문한다면 '보험금 지급'과 관련된 조건을 찾고, 이를 간략하게 요약해 주세요."
    6. prompt = "보험 약관의 내용을 검토하고, 보장 범위나 면책 사항에 대해 모호하거나 애매한 부분을 찾아 알려 주세요."
    7. prompt = "보험 약관에 정의된 주요 용어들, 예를 들어 '보험금', '면책', '보장' 등을 각각 정의해주세요."
    """

    # 이전 대화 내용이 있을 때, 이를 반영하여 자연스러운 답변을 유도
    if chat_history:
        # 마지막 질문과 답변을 포함하여 답변을 생성
        last_question, last_answer = chat_history[-1]
        return f"이전 대화 내용을 고려하여, '{last_question}'에 대한 답변 '{last_answer}'을 바탕으로 '{question}'에 대해 대답해 주세요."
    else:
        return f"'{question}'에 대해 대답해 주세요."


def generate_search_prompt(question):
    """
    정보 검색을 위한 프롬프트 생성 함수
    - 주어진 질문에 대해 정보를 제공하도록 유도
    """
    return f"다음 질문에 대한 정보를 제공해 주세요: {question}"
# 대화 처리 함수
def ask_question(question, chat_history):
    """
    두 체인을 연결하여 질문에 답변을 생성.
    - conversation_chain: 대화의 흐름을 유지
    - 네이버 API로 검색하여 관련 정보를 제공
    """
    # 1. 대화형 체인에서 응답 생성
    conversation_response = conversation_chain({"question": question, "chat_history": chat_history})
    conversation_answer = conversation_response.get("answer")

    # 2. 대화형 체인이 비어 있으면 네이버 API로 검색
    if conversation_answer is None:
        search_results = naver_blog_search(question)
        filtered_results = filter_blog_results(search_results)

        # 결과가 있으면 출력
        if filtered_results:
            final_answer = "\n".join([f"Title: {item['title']}\nLink: {item['link']}\nDescription: {item['description']}"
                                      for item in filtered_results])
        else:
            final_answer = "해당 내용을 찾을 수 없습니다."
    else:
        final_answer = conversation_answer  # 대화형 답변이 있으면 그대로 사용

    # 3. 대화 내역 업데이트
    chat_history.append((question, final_answer))

    return final_answer, chat_history


# 연속 대화를 위한 예시
def run_conversation():
    chat_history = []  # 초기 대화 내역
    print("종료하려면 '종료'를 입력해 주세요.")
    while True:
        # 사용자 입력 받기
        question = input("질문을 입력하세요: ")
        if question.lower() == '종료':  # 'exit' 입력 시 대화 종료
            break

        # 질문과 응답 처리
        final_answer, updated_chat_history = ask_question(question, chat_history)

        # 결과 출력
        print("(쳇봇 이름) 응답:", final_answer)


# 네이버 api를 사용한 데이터 검색

In [20]:
import requests
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 네이버 블로그 검색 함수
def naver_blog_search(query):
    client_id = "mdSSzD3WTLqpFZLoxOOi"
    client_secret = "icocXu9OKJ"
    url = "https://openapi.naver.com/v1/search/blog.json"

    headers = {
        "X-Naver-Client-Id": client_id,
        "X-Naver-Client-Secret": client_secret
    }

    params = {
        "query": query,
        "display": 10,
        "start": 1
    }

    response = requests.get(url, headers=headers, params=params)

    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error {response.status_code}: {response.text}")
        return None

# 검색 결과 필터링
def filter_blog_results(search_results):
    if not search_results:
        return []

    filtered_results = []

    for item in search_results['items']:
        title = item.get('title', '').replace('<b>', '').replace('</b>', '')
        link = item.get('link', '')
        description = item.get('description', '').replace('<b>', '').replace('</b>', '')

        filtered_results.append({
            'title': title,
            'link': link,
            'description': description
        })

    return filtered_results

# PDF 로드 및 청크 생성 (기존 PDF 처리 함수)
def load_and_split_pdf(path_ins):
    loader = PyPDFLoader(path_ins)
    documents = loader.load()

    # 텍스트 분할기 사용하여 텍스트를 청크로 나누기
    text_splitter = RecursiveCharacterTextSplitter(
        separators = ['\n\n', '\n', ' ', ''],
        chunk_size = 1000,
        chunk_overlap = 200
    )

    chunks = text_splitter.split_documents(documents)
    return chunks

# 네이버 블로그 검색 결과를 청크로 변환하는 함수
def create_chunks_from_blog_results(filtered_results):
    chunks = []
    for result in filtered_results:
        text = f"Title: {result['title']}\nLink: {result['link']}\nDescription: {result['description']}"
        chunks.append(text)
    return chunks

# 벡터스토어 생성 및 저장
def process_pdf_to_vectorstore(vectorstore_name, chunks):
    # 임베딩 생성
    embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")

    # 벡터스토어 생성 (Chroma 사용)
    vector_store = Chroma.from_documents(chunks, embeddings)

    # 벡터 스토어 저장
    vector_store.persist()

    return vector_store

# 네이버 블로그 결과를 벡터스토어에 추가하는 함수
def add_blog_results_to_vectorstore(query, vectorstore_name, vector_store):
    search_results = naver_blog_search(query)
    filtered_results = filter_blog_results(search_results)

    # 블로그 결과를 청크로 변환
    chunks = create_chunks_from_blog_results(filtered_results)

    # 새 데이터를 기존 벡터스토어에 추가
    embeddings = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask")
    vector_store.add_texts(texts = chunks, embedding = embeddings)

    # 벡터 스토어 저장
    vector_store.persist()

    return vector_store


In [21]:
# 대화 시작
run_conversation()

종료하려면 '종료'를 입력해 주세요.
질문을 입력하세요: 자동차 접촉 사고 시 어떤 보장을 받을 수 있어
(쳇봇 이름) 응답: 자동차 접촉 사고 시 받을 수 있는 보장은 다음과 같습니다:

1. **변호사선임비용**: 보험가입자가 자동차를 운전하던 중 급격하고 우연한 교통사고로 인해 타인의 신체에 상해를 입힌 경우, 구속되거나 기소된 경우에 변호사선임비용을 보험가입금액 한도로 보험수익자에게 지급합니다.

2. **보험금 지급 사유**: 사고 발생 시 피보험자가 부담한 전체 변호사선임비용을 합쳐서 보험가입금액을 한도로 지급하며, 다른 계약이 있을 경우 그 계약에 따라 지급합니다.

다만, 피보험자의 고의, 도주, 음주운전 등 특정 사유로 인한 사고는 보장되지 않습니다.
질문을 입력하세요: 자동차 접촉 사고 시 어떤 보장을 받을 수 있어?
(쳇봇 이름) 응답: 자동차 접촉 사고 시 받을 수 있는 보장은 다음과 같습니다:

1. **신체 상해 보장**: 피보험자가 자동차를 운전하던 중 발생한 급격하고 우연한 자동차 사고로 신체에 상해를 입었을 경우, 보험가입금액을 보험수익자에게 지급합니다.

2. **변호사 선임비용**: 사고로 인해 발생한 소송에 대해 피보험자가 부담한 전체 변호사 선임비용을 합쳐서 보험가입금액 한도로 지급합니다.

3. **사고 증명서 제출**: 보험금을 청구할 때 사고증명서, 신분증 등 필요한 서류를 제출해야 합니다.

단, 보험금 지급이 제한되는 사유도 있으니, 피보험자의 고의, 도주, 음주 운전 등의 경우에는 보장이 되지 않습니다.
질문을 입력하세요: 난로에 의해서 화재가 발생하면 어떤 보상을 받을 수 있어?
(쳇봇 이름) 응답: 난로에 의해서 화재가 발생한 경우, 보상 여부는 보험의 종류와 약관에 따라 다릅니다. 일반적으로 화재보험에 가입되어 있다면, 화재로 인한 손해에 대해 보상을 받을 수 있습니다. 하지만 특정 조건이나 면책 사항이 있을 수 있으므로, 가입한 보험의 약관을 확인하는 것이 중요합니다. 또한, 화재의 원인이나 상황에 따라 

KeyboardInterrupt: Interrupted by user