In [1]:
# Model
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, BitsAndBytesConfig, LlamaForCausalLM
from langchain_huggingface import HuggingFacePipeline
import torch
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.prompts import PromptTemplate
# Vector stores
import fitz  # PyMuPDF
import pdfplumber
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
#from langchain_community.document_loaders import PyMuPDFLoader, PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, KonlpyTextSplitter, MarkdownHeaderTextSplitter
from langchain.text_splitter import MarkdownHeaderTextSplitter
#from langchain_community.retrievers import BM25Retriever, KNNRetriever
from langchain.retrievers import EnsembleRetriever
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
#from langchain_community.document_loaders import PyMuPDFLoader, PDFPlumberLoader ,UnstructuredPDFLoader
from langchain_community.retrievers import BM25Retriever, KNNRetriever
from langchain.retrievers import EnsembleRetriever
#from langchain_teddynote.retrievers import KiwiBM25Retriever, OktBM25Retriever
from langchain_teddynote.retrievers import OktBM25Retriever
from langchain.docstore.document import Document
#from concurrent.futures import ThreadPoolExecutor
import pandas as pd
import unicodedata
import pymupdf4llm
#import time
#import re
#from konlpy.tag import Okt
#from pdf2image import convert_from_path
import pytesseract
from konlpy.tag import Kkma
# etc
#import os
import pandas as pd
from tqdm import tqdm
import unicodedata
import logging
#from PyPDF2 import PdfReader
#import json
device = 'cuda' if torch.cuda.is_available() else 'cpu'  # GPU 사용 가능 여부 및 MPS 지원 여부 확인
print(device)

  from .autonotebook import tqdm as notebook_tqdm


cuda


In [2]:
# intfloat/multilingual-e5-small
# jhgan/ko-sroberta-multitask

def get_embedding():
    
    embeddings = HuggingFaceEmbeddings(
        model_name='jhgan/ko-sroberta-multitask',
        model_kwargs={'device': device},
        
        encode_kwargs={'normalize_embeddings': True})
    return embeddings
def normalize_string(s):
    try:
        normalized = unicodedata.normalize('NFC', s)
        return normalized.encode('utf-8', errors='replace').decode('utf-8')
    except Exception:
        return s
def clean_text(text):
    text = text.replace("�", " ").replace("", " ")  # 잘못된 인코딩 문자 제거
    return text

def format_docs(docs):
    context = ""
    
    for doc in docs:
        # Header 정보를 순서대로 추가
        for header_level in range(1, 6):
            header_key = f'Header{header_level}'
            if header_key in doc.metadata:
                context += f"{header_key}: {doc.metadata[header_key]}\n"
        # 문서 내용 추가
        context += doc.page_content
        context += '\n---\n'
    return context


In [3]:
def process_pdf(pdf_path): 
    md_text = pymupdf4llm.to_markdown(pdf_path)

    headers_to_split_on = [
        ("#", "Header 1"),
        ("##", "Header 2"),
        ("###", "Header 3"),
        ("####", "Header 4"),
        ("#####", "Header 5"),
        ("######", "Header 6")
    ]

    md_header_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on, strip_headers=True)
    md_chunks = md_header_splitter.split_text(md_text)

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=256, chunk_overlap=64
    )

    splits = text_splitter.split_documents(md_chunks)

    for i in splits:
        metadata = {'Source_path': pdf_path}
        i.metadata = {**i.metadata, **metadata}
    return splits


def make_db(df):
    documents = []
    
    pdf_files = df['Source_path'].unique()
    for pdf_file in tqdm(pdf_files):
        # 문서 로드
        documents.extend(process_pdf(pdf_file))
        
    print(f"Total number of documents: {len(documents)}")

    faiss = FAISS.from_documents(documents, embedding=get_embedding())
    return faiss

In [4]:
def fewshot_db(df):
    df = df.drop('SAMPLE_ID', axis=1)
    df = df.drop('Source_path', axis=1)
    df = df.to_dict(orient='records')
    print("Loaded Fewshot Set:", len(df))
    to_vectorize = ["\n\n".join(normalize_string(value) for value in example.values()) for example in df]
    faiss = FAISS.from_texts(to_vectorize, embedding=get_embedding())
    # bm = BM25Retriever.from_texts(to_vectorize)
    # knn = KNNRetriever.from_texts(to_vectorize, embeddings=get_embedding())
    return faiss

In [5]:
train_df = pd.read_csv('train.csv', encoding='utf-8')
test_df = pd.read_csv('test.csv', encoding='utf-8')

In [6]:
def format_docs(docs):
    context = ""
    for doc in docs:
        # Header 정보를 순서대로 추가
        for header_level in range(1, 6):
            header_key = f'Header {header_level}'
            if header_key in doc.metadata:
                context += f"{header_key}: {doc.metadata[header_key]}\n"
        # 문서 내용 추가
        context += doc.page_content
        context += '\n---\n'
    return context

In [7]:
def setup_llm_pipeline(model_id="meta-llama/Meta-Llama-3.1-8B-Instruct"):
    # 양자화 설정 적용
    bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,  # 기본적으로 4비트로 로드
        bnb_4bit_use_double_quant=True,  # 두 번 양자화 적용
        bnb_4bit_quant_type="nf4",  # 4비트 양자화 유형 선택
        bnb_4bit_compute_dtype=torch.bfloat16  # 연산은 bf16으로 수행
    )

    # 모델 로드
    model = AutoModelForCausalLM.from_pretrained(
        model_id, 
        quantization_config=bnb_config,
        #low_cpu_mem_usage=True
    )

    # # 일부 중요한 레이어는 FP16으로 유지
    # for name, module in model.named_modules():
    #     if "attention" in name or "ffn" in name:  # 중요한 레이어 식별 (예: attention 및 ffn)
    #         module.to(torch.float16)  # 이 부분은 16비트로 유지

    tokenizer = AutoTokenizer.from_pretrained(model_id)
    terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]

    text_generation_pipeline = pipeline(
        model=model,
        tokenizer=tokenizer,
        task="text-generation",
        return_full_text=False,
        max_new_tokens=1024,
        eos_token_id = terminators,
        pad_token_id = tokenizer.eos_token_id
    )

    llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

    return llm
# ghost-x/ghost-8b-beta-1608
# OpenBuddy/openbuddy-llama3.1-8b-v22.3-131k
llm = setup_llm_pipeline()

`low_cpu_mem_usage` was None, now set to True since model is quantized.
Loading checkpoint shards: 100%|██████████| 4/4 [00:21<00:00,  5.43s/it]


### 점수

In [8]:
from collections import Counter
def calculate_f1_score(true_sentence, predicted_sentence, sum_mode=True):

    #공백 제거
    true_sentence = ''.join(true_sentence.split())
    predicted_sentence = ''.join(predicted_sentence.split())
    
    true_counter = Counter(true_sentence)
    predicted_counter = Counter(predicted_sentence)

    #문자가 등장한 개수도 고려
    if sum_mode:
        true_positive = sum((true_counter & predicted_counter).values())
        predicted_positive = sum(predicted_counter.values())
        actual_positive = sum(true_counter.values())

    #문자 자체가 있는 것에 focus를 맞춤
    else:
        true_positive = len((true_counter & predicted_counter).values())
        predicted_positive = len(predicted_counter.values())
        actual_positive = len(true_counter.values())

    #f1 score 계산
    precision = true_positive / predicted_positive if predicted_positive > 0 else 0
    recall = true_positive / actual_positive if actual_positive > 0 else 0
    f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    return precision, recall, f1_score

def calculate_average_f1_score(true_sentences, predicted_sentences):
    
    total_precision = 0
    total_recall = 0
    total_f1_score = 0
    
    for true_sentence, predicted_sentence in zip(true_sentences, predicted_sentences):
        precision, recall, f1_score = calculate_f1_score(true_sentence, predicted_sentence)
        total_precision += precision
        total_recall += recall
        total_f1_score += f1_score
    
    avg_precision = total_precision / len(true_sentences)
    avg_recall = total_recall / len(true_sentences)
    avg_f1_score = total_f1_score / len(true_sentences)
    
    return {
        'average_precision': avg_precision,
        'average_recall': avg_recall,
        'average_f1_score': avg_f1_score
    }

### RUN

In [9]:

# def extract_answer(response):
#     # AI: 로 시작하는 줄을 찾아 그 이후의 텍스트만 추출
#     lines = response.split('\n')
#     for line in lines:
#         line = line.replace('**', '')
#         if line.startswith('Answer:'):
#             return line.replace('Answer:', '').strip()
#         if line.startswith('assistant:'):
#             return line.replace('assistant:', '').strip()
#     return response.strip()  # AI: 를 찾지 못한 경우 전체 응답을 정리해서 반환

# def equal_path(contexts, source_path):
#     adjusted_docs = []
#     for doc in contexts:
#         if doc.metadata['Source_path'] == source_path:
#             adjusted_docs.append(doc)
#     return adjusted_docs

# def rerun(question,context,answer,llm,num_repeat):
#     full_template = "<|begin_of_text|>"
#     full_template += """<|start_header_id|>system<|end_header_id|>당신은 이전 답변을 검증하는 챗봇입니다. 질문과 문맥, 이전 답변을 참고해서 지시사항을 따르세요. 지시사항을 따를 때 서론 없이 출력하세요.<|eot_id|>"""
#     full_template += f"""<|start_header_id|>user<|end_header_id|>Question: {question} \n\nContexts: {context} \n\nPrevious Answer: {answer} \n\n"""
#     full_template += """{input}<|eot_id|>"""
#     full_template += """<|start_header_id|>assistant<|end_header_id|>"""
    
#     prompt = PromptTemplate(template=full_template)
#     chain = (
#     {
#         "input": RunnablePassthrough(),
#     }
#     | prompt
#     | llm
#     | StrOutputParser()
#     )
#     return chain.invoke("핵심 단어들을 바탕으로, 한 문장으로 요약하세요. 만약 한 문장이라면 그대로 출력하세요.")
    
# def run(faiss,dataset,llm,k=2,verbose=False):
#     results = []
#     source_path = dataset.iloc[0]['Source_path']
#     docs = faiss.similarity_search(
#         query="",  # 유사도 기반이 아닌 메타데이터 필터링만 사용하므로 query는 빈 값으로
#         filter={"Source_path": source_path},
#         k = 99,
#         fetch_k = 20000
#         )
#     buff_faiss = FAISS.from_documents(docs, embedding=get_embedding())
#     faiss_retriever = buff_faiss.as_retriever(search_type="mmr",search_kwargs={"k": k})
#     knn_retriever = KNNRetriever.from_documents(docs, embeddings=get_embedding())
#     knn_retriever.k = k
#     bm_retriever = OktBM25Retriever.from_documents(docs)
#     bm_retriever.k = k
#     ensemble_retriever = EnsembleRetriever(retrievers=[faiss_retriever, knn_retriever,bm_retriever], weight=[0.4, 0.3, 0.3])
    
#     for i, row in (dataset.iterrows()):
#         if source_path != row['Source_path']:   
#             source_path = row['Source_path']
#             docs = faiss.similarity_search(
#                 query="",  # 유사도 기반이 아닌 메타데이터 필터링만 사용하므로 query는 빈 값으로
#                 filter={"Source_path": source_path},
#                 k = 99,
#                 fetch_k = 20000
#                 )
#             buff_faiss = FAISS.from_documents(docs, embedding=get_embedding())
#             faiss_retriever = buff_faiss.as_retriever(search_type="mmr",search_kwargs={"k": k})
#             knn_retriever = KNNRetriever.from_documents(docs, embeddings=get_embedding())
#             knn_retriever.k = k
#             bm_retriever = OktBM25Retriever.from_documents(docs)
#             bm_retriever.k = k
#             ensemble_retriever = EnsembleRetriever(retrievers=[faiss_retriever, knn_retriever,bm_retriever], weight=[0.4, 0.3, 0.3])
            
#         full_template = "<|begin_of_text|>"
#         full_template += """<|start_header_id|>system<|end_header_id|>
# 당신은 유용한 금융 정보 QnA 챗봇입니다.
# 질문을 차근차근 생각하고, 답변 시 반드시 문맥 정보를 활용해야합니다. 
# 객관적이고 공식적인 문체를 사용하세요.
# 서론 없이 핵심 내용을 한 문장으로 작성해주세요. 
# <|eot_id|>
# """
#         question = row['Question']          
#         # full_template += """ """
#         contexts = ensemble_retriever.invoke(normalize_string(question))
#         # contexts = equal_path(contexts,row['Source_path'])
#         contexts = format_docs(contexts)
#         full_template += """<|start_header_id|>user<|end_header_id|>Question: {input}\n\n"""
#         full_template += f"""Contexts: {contexts}<|eot_id|>"""
#         full_template += """<|start_header_id|>assistant<|end_header_id>"""
        
#         prompt = PromptTemplate(template=full_template, input_variables=["input"])
#         qa_chain = (
#         {
#             "input": RunnablePassthrough(),
#         }
#         | prompt
#         | llm
#         | StrOutputParser()
#         )

#         answer = qa_chain.invoke(input=question)
#         answer = extract_answer(answer)
#         lines = answer.split('\n')
#         if  len(lines) > 1:
#             previous = answer
#             try:
#                 before = calculate_f1_score(row['Answer'],answer)[2]
#             except:
#                 before = None
#             answer = rerun(question=question,
#                            context=contexts,
#                            answer=answer,
#                            llm=llm,
#                            num_repeat=1)
#         answer = extract_answer(answer)
#         results.append({
#             "Question": question,
#             "Answer": answer,
#             "Source": row['Source']
#         })
#         if verbose:
#             print(f"{i}/{len(dataset)}")
#             print("Question: ", question, end=" | ")
#             print("Context Number |",len(contexts))
#             try:
#                 print(calculate_f1_score(row['Answer'],answer)[2],end=" | ")
#             except:
#                 pass
#             print("Answer: ", results[-1]['Answer'])
#             try:
#                 print("Before: ",before," | ",previous)  
                
#                 previous = None
#                 before = None
#             except:
#                 pass
            
#             try:
#                 print("REAL Answer: ",row['Answer'])
#             except:
#                 pass
            
#             print()

#     return results

In [10]:
def extract_answer(response):
    # AI: 로 시작하는 줄을 찾아 그 이후의 텍스트만 추출
    lines = response.split('\n')
    for line in lines:
        line = line.replace('**', '')
        if line.startswith('Answer:'):
            return line.replace('Answer:', '').strip()
        if line.startswith('assistant:'):
            return line.replace('assistant:', '').strip()
    return response.strip()  # AI: 를 찾지 못한 경우 전체 응답을 정리해서 반환

def rerun(question,context,answer,llm,num_repeat):
    full_template = "<|begin_of_text|>"
    full_template += """<|start_header_id|>system<|end_header_id|>당신은 이전 답변을 검증하는 챗봇입니다. 질문과 문맥, 이전 답변을 참고해서 지시사항을 따르세요. 지시사항을 따를 때 서론 없이 출력하세요.<|eot_id|>"""
    full_template += f"""<|start_header_id|>user<|end_header_id|>Question: {question} \n\nContexts: {context} \n\nPrevious Answer: {answer} \n\n"""
    full_template += """{input}<|eot_id|>"""
    full_template += """<|start_header_id|>assistant<|end_header_id|>"""
    
    prompt = PromptTemplate(template=full_template)
    chain = (
    {
        "input": RunnablePassthrough(),
    }
    | prompt
    | llm
    | StrOutputParser()
    )
    return chain.invoke("핵심 단어들을 바탕으로, 한 문장으로 요약하세요. 만약 한 문장이라면 그대로 출력하세요.")

def run(faiss, dataset, llm, k=2, verbose=False):
    results = []
    source_path = dataset.iloc[0]['Source_path']
    docs = faiss.similarity_search(
        query="",  # 유사도 기반이 아닌 메타데이터 필터링만 사용하므로 query는 빈 값으로
        filter={"Source_path": source_path},
        k=99,
        fetch_k=20000
    )
    buff_faiss = FAISS.from_documents(docs, embedding=get_embedding())
    faiss_retriever_mmr = buff_faiss.as_retriever(search_type="mmr", search_kwargs={"k": k})
    faiss_retriever_sim = buff_faiss.as_retriever(search_kwargs={"k": k})
    knn_retriever = KNNRetriever.from_documents(docs, embeddings=get_embedding())
    knn_retriever.k = k
    bm_retriever = OktBM25Retriever.from_documents(docs)
    bm_retriever.k = k

    ensemble_retriever = EnsembleRetriever(retrievers=[faiss_retriever_mmr, faiss_retriever_sim, knn_retriever, bm_retriever], weight=[0.25, 0.25, 0.25, 0.25])

    for i, row in dataset.iterrows():
        # 조건이 바뀌면 새로운 리트리버 세팅
        if source_path != row['Source_path']:
            source_path = row['Source_path']
            docs = faiss.similarity_search(
                query="",
                filter={"Source_path": source_path},
                k=99,
                fetch_k=20000
            )
            buff_faiss = FAISS.from_documents(docs, embedding=get_embedding())
            faiss_retriever_mmr = buff_faiss.as_retriever(search_type="mmr", search_kwargs={"k": k})
            faiss_retriever_sim = buff_faiss.as_retriever(search_kwargs={"k": k})
            knn_retriever = KNNRetriever.from_documents(docs, embeddings=get_embedding())
            knn_retriever.k = k
            bm_retriever = OktBM25Retriever.from_documents(docs)
            bm_retriever.k = k

            ensemble_retriever = EnsembleRetriever(retrievers=[faiss_retriever_mmr, faiss_retriever_sim, knn_retriever, bm_retriever], weight=[0.25, 0.25, 0.25, 0.25])
        
        question = row['Question']  
        # 매 반복마다 contexts를 새로 할당
        contexts = ensemble_retriever.invoke(normalize_string(question))

        # full_template 초기화
        full_template = f"""system
        당신은 유용한 금융 정보 QnA 챗봇입니다.
        질문을 차근차근 생각하고, 답변 시 반드시 문맥 정보를 활용해야합니다.
        객관적이고 공식적인 문체를 사용해 간결하게 작성하세요.
        서론 없이 핵심 내용을 한 문장으로 작성해주세요.

        userQuestion: {question}\n\n
        Contexts: {format_docs(contexts)}
        assistant<|end_header_id>
        """

        prompt = PromptTemplate(template=full_template, input_variables=["input"])
        qa_chain = (
            {
                "input": RunnablePassthrough(),
            }
            | prompt
            | llm
            | StrOutputParser()
        )

        answer = qa_chain.invoke(input=question)
        answer = extract_answer(answer)

        lines = answer.split('\n')
        if len(lines) > 1:
            try:
                before = calculate_f1_score(row['Answer'], answer)[2]
            except:
                before = None
            answer = rerun(question=question, context=contexts, answer=answer, llm=llm, num_repeat=1)
        answer = extract_answer(answer)
        results.append({
            "Question": question,
            "Answer": answer,
            "Source": row['Source']
        })

        if verbose:
            print(f"{i}/{len(dataset)}")
            print("Question: ", question, end=" | ")
            print("Context Number |", len(contexts))
            try:
                print(calculate_f1_score(row['Answer'], answer)[2], end=" | ")
            except:
                pass
            print("Answer: ", results[-1]['Answer'])

            try:
                print("Before: ", before)
            except:
                pass

            try:
                print("REAL Answer: ", row['Answer'])
            except:
                pass

            print()

    return results


### 케이폴드

In [11]:
# from sklearn.model_selection import KFold
# import copy

# # weight = [0.3,0.3,0.4]
# # train_faiss_db,knn_retriever ,train_bm_retrievier = make_db(train_df) 

# # train_k = 3
# # train_bm_retrievier.k = train_k
# # knn_retriever.k = train_k
# # train_faiss_retriever = train_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':train_k} )
# # train_ensemble_retriever = EnsembleRetriever(
# #     retrievers=[train_bm_retrievier, knn_retriever,train_faiss_retriever], weights=weight , search_kwargs={'k':train_k}
# # )


# # fewshot_k = 3

# k_folds = 4
# fold_results = []
# kf = KFold(n_splits=k_folds, shuffle=True, random_state=52)
# for fold, (train_index, val_index) in enumerate(kf.split(train_df)):
#     fold_result = []
#     train_set = train_df.iloc[train_index]
#     val_set = train_df.iloc[val_index]

#     faiss = make_db(val_set)

#     pred = run(faiss,val_set, llm, verbose=True)
#     result = pd.DataFrame()
#     result['pred'] = [result['Answer'] for result in pred]
#     val_set.index = range(len(val_set))
#     result['gt'] = val_set['Answer']
        
#     result = calculate_average_f1_score(result['gt'], result['pred'])
#     print(result)
#     fold_results.append(result)
#     break

### 실전

In [12]:
from save_module import save

faiss= make_db(test_df)

results = run(faiss, test_df, llm, verbose=True)
save(results)

100%|██████████| 9/9 [00:21<00:00,  2.44s/it]


Total number of documents: 642


  attn_output = torch.nn.functional.scaled_dot_product_attention(


0/98
Question:  2022년 혁신창업사업화자금(융자)의 예산은 얼마인가요? | Context Number | 3
Answer:  답변: 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자)의 예산은 2,300,000 백만원입니다. | 2022년 혁신창업사업화자금(융자