In [1]:
# Model
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, BitsAndBytesConfig
from langchain_huggingface import HuggingFacePipeline
import torch
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.prompts import PromptTemplate
# Vector stores
import fitz  # PyMuPDF
import pdfplumber
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders import PyMuPDFLoader, PDFPlumberLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter, KonlpyTextSplitter
from langchain_community.retrievers import BM25Retriever, KNNRetriever
from langchain.retrievers import EnsembleRetriever
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders import PyMuPDFLoader, PDFPlumberLoader ,UnstructuredPDFLoader
from langchain_community.retrievers import BM25Retriever, KNNRetriever
from langchain.retrievers import EnsembleRetriever
from langchain_teddynote.retrievers import KiwiBM25Retriever
from langchain.docstore.document import Document
from concurrent.futures import ThreadPoolExecutor
import pandas as pd
import unicodedata
import pymupdf4llm
import time
import re
from konlpy.tag import Okt
from pdf2image import convert_from_path
import pytesseract
from konlpy.tag import Kkma
# etc
import os
import pandas as pd
from tqdm import tqdm
import unicodedata
import logging

import json


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
# intfloat/multilingual-e5-small
# jhgan/ko-sroberta-multitask


In [3]:
from langchain_unstructured import UnstructuredLoader

def get_embedding():
    device = 'cuda' if torch.cuda.is_available() and 'mps' in torch.cuda.get_device_capability() else 'cpu'  # GPU 사용 가능 여부 및 MPS 지원 여부 확인
    embeddings = HuggingFaceEmbeddings(
        model_name='jhgan/ko-sroberta-multitask',
        model_kwargs={'device': device},
        encode_kwargs={'normalize_embeddings': True})
    return embeddings
def normalize_string(s):
    try:
        normalized = unicodedata.normalize('NFC', s)
        return normalized.encode('utf-8', errors='replace').decode('utf-8')
    except Exception:
        return s
def clean_text(text):
    text = text.replace("�", "").replace("", "")  # 잘못된 인코딩 문자 제거
    text = ' '.join(text.split())  # 여러 공백을 하나로 줄임
    return text


In [4]:
def get_docs(pdf_path):
    documents = []
    try:
        md_read = pymupdf4llm.to_markdown(pdf_path, page_chunks=True)
    except Exception as e:
        logging.error(f"Failed to read PDF: {e}")
        return documents

    for page_data in md_read:
        try:
            # 텍스트 추출 및 정제
            text = clean_text(normalize_string(page_data.get('text', '')))
            # 필요한 메타데이터만 선택
            full_metadata = page_data.get('metadata', {})
            metadata = {
                "file_path": pdf_path,  # 파일 경로
                "page_number": full_metadata.get("page", None),  # 현재 페이지 번호
                "total_pages": full_metadata.get("page_count", None)  # 전체 페이지 수
            }

            # 표 데이터 메타데이터에 포함 (키 확인)
            if 'tables' in page_data:
                metadata['tables'] = page_data.get('tables', [])
            else:
                metadata['tables'] = []

            # Document 객체 생성
            document = Document(page_content=text, metadata=metadata)
            documents.append(document)

        except Exception as e:
            logging.error(f"Failed to process page data: {e}")

    return documents

def chunk_documents(docs):
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=800,
        chunk_overlap=60,
        separators=["\n\n", ".", "?", "!", "\n", "\t"]
    )
    chunks = []

    for doc in docs:
        text = doc.page_content
        metadata = doc.metadata

        # 표가 있는 경우 페이지 전체를 하나의 청크로 사용
        if metadata.get('tables'):
            # 페이지 전체를 하나의 청크로 처리
            chunks.append(Document(page_content=text, metadata=metadata))
        else:
            # 표가 없을 때는 기존 청크 분할 처리
            text_chunks = text_splitter.split_text(text)
            chunks.extend([Document(page_content=chunk, metadata=metadata) for chunk in text_chunks])

    return chunks



def make_db(df):
    documents = []
    pdf_files = df['Source_path'].unique()

    # tqdm으로 파일 처리 진행 상황 표시
    with ThreadPoolExecutor() as executor:
        results = list(tqdm(executor.map(get_docs, pdf_files), total=len(pdf_files), desc="Processing PDFs"))
    
    for result in results:
        documents.extend(result)
    
    # 정규화
    for doc in documents:
        doc.page_content = normalize_string(doc.page_content)
    
    # 표가 망가지지 않도록 청크 분할 처리
    chunks = chunk_documents(documents)
    print(f"Total number of chunks: {len(chunks)}")
    
    # FAISS DB 만들기 (메타데이터 포함)
    faiss = FAISS.from_documents(chunks, embedding=get_embedding())
    bm = KiwiBM25Retriever.from_documents(chunks)
    
    return faiss, bm

In [5]:
def fewshot_db(df):
    df = df.drop('SAMPLE_ID', axis=1)
    df = df.drop('Source_path', axis=1)
    df = df.to_dict(orient='records')
    print("Loaded Fewshot Set:", len(df))
    to_vectorize = ["\n\n".join(normalize_string(value) for value in example.values()) for example in df]
    faiss = FAISS.from_texts(to_vectorize, embedding=get_embedding())
    # bm = BM25Retriever.from_texts(to_vectorize)
    # knn = KNNRetriever.from_texts(to_vectorize, embeddings=get_embedding())
    return faiss

In [6]:
train_df = pd.read_csv('train.csv', encoding='utf-8')
test_df = pd.read_csv('test.csv', encoding='utf-8')

pypdf 이건 x

표가 많기 때문에

PyMuPDFLoader 나 PDFPlumberLoader를 쓰고

표를 이미지로 불러오기도 하는데 이런경우 추가적인 전처리가 필요함

In [7]:
def format_docs(docs):
    """검색된 문서들을 하나의 문자열로 포맷팅"""
    context = ""
    for i, doc in enumerate(docs):
        #context += f"Document {i+1}\n"
        doc.page_content = doc.page_content.replace("{", "(")
        doc.page_content = doc.page_content.replace("}", ")")
        
        context += doc.page_content
        context += '\n\n'
    return context.strip()

In [8]:
def setup_llm_pipeline(model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"):
    # 토크나이저 로드 및 설정
        # 양자화 설정 적용
    bnb_config = BitsAndBytesConfig(
    load_in_4bit=True, 
    bnb_4bit_use_double_quant=True, 
    bnb_4bit_quant_type="nf4", 
    bnb_4bit_compute_dtype=torch.bfloat16
    )
    model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config,low_cpu_mem_usage=True)
    tokenizer = AutoTokenizer.from_pretrained(model_id)
    terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]

    text_generation_pipeline = pipeline(
        model=model,
        tokenizer=tokenizer,
        task="text-generation",
        return_full_text=False,
        temperature = 0.5,
        max_new_tokens=1024,
        eos_token_id = terminators,
        pad_token_id = tokenizer.eos_token_id
    )

    llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

    return llm
llm = setup_llm_pipeline()

Loading checkpoint shards: 100%|██████████| 4/4 [00:11<00:00,  2.97s/it]


In [10]:
def extract_answer(response):
    # AI: 로 시작하는 줄을 찾아 그 이후의 텍스트만 추출
    lines = response.split('\n')
    for line in lines:
        line = line.replace('**', '')
        if line.startswith('Answer:'):
            return line.replace('Answer:', '').strip()
        if line.startswith('assistant:'):
            return line.replace('assistant:', '').strip()
    return response.strip()  # AI: 를 찾지 못한 경우 전체 응답을 정리해서 반환

def fewshot_ex(fewshot_retriever, train_retriever, q, verbose=False):
    query = normalize_string(q)
    fewshot_results = fewshot_retriever.invoke(query) #Document(page_content='중소벤처기업부_창업사업화지원\n\n창업사업화지원의 사업목적은 무엇인가?\n\n창업사업화지원의 사업목적은 창업기업의 성장단계별, 초격차 분야별, 글로벌화 지원체계를 구축‧운영하여 혁신 기술창업을 활성화하고 창업기업 성장 및 생존율 제고하는 것이다.')
    fewshot_str = ""
    i = 1
    for result in fewshot_results:
    
        result = result.page_content.split('\n\n')
        buff_str = f"<|start_header_id|>system<|end_header_id|>Example{i}\n<|eot_id|>\n\n"
        i+=1
        buff_str += "<|start_header_id|>user<|end_header_id|>"
        question = result[1]
        buff_str += f"Question: {question}\n\n"
        if train_retriever is not None:
            buff_str += f"Context:"
            docs = train_retriever.invoke(normalize_string(question))
            if verbose:
                print("Fewshot Q |",len(docs),"|",question)
            buff_str += format_docs(docs)
            buff_str += "<|eot_id|>\n\n"
        else: 
            buff_str += "<|eot_id|>\n\n"
            if verbose:
                print("Fewshot Q |",question)
        buff_str += f"<|start_header_id|>assistant<|end_header_id>{result[2]}<|eot_id|>"
        fewshot_str += buff_str    
        
    return fewshot_str

def run (train,test,fewshot,dataset,llm,verbose=False):
    results = []
    for i, row in (dataset.iterrows()):

        full_template = "<|begin_of_text|>"
        full_template += """<|start_header_id|>system<|end_header_id|>
You are the financial expert who helps me with my financial information Q&As.
You earn 10 points when you answer me and follow the rules and lose 7 points when you don't.
Please use contexts to answer the question.
Please your answers should be concise.
Please answers must be written in Korean.
Please answer in 1-3 sentences.
Answer like the question-answer examples given.
<|eot_id|>
"""
        question = row['Question']        
        if verbose:
            print(f"====={i}/{len(dataset)}{'='*255}")
            print("Question: ", question)
        
        fewshot_str = fewshot_ex(fewshot, train, question,verbose)
        full_template += fewshot_str
        full_template += """ """
        contexts = test.invoke(normalize_string(question))
        if verbose:
            print("Context Number|",len(contexts),end="|")
        contexts = format_docs(contexts)
        full_template += """<|start_header_id|>user<|end_header_id|>Question: {input}\n\n"""
        full_template += f"""Context: {contexts}<|eot_id|>\n\n"""
        full_template += """<|start_header_id|>assistant<|end_header_id>"""
        
        prompt = PromptTemplate(template=full_template, input_variables=["input"])
        qa_chain = (
        {
            "input": RunnablePassthrough(),
        }
        | prompt
        | llm
        | StrOutputParser()
        )

        answer = qa_chain.invoke(input=question)
        answer = extract_answer(answer)
        results.append({
            "Question": question,
            "Answer": answer,
            "Source": row['Source']
        })
        if verbose:
            print("=====Answer=====\n", results[-1]['Answer'])
            try:
                print("=====REAL Answer=====\n",row['Answer'])
            except:
                pass
    return results

In [11]:
from collections import Counter
def calculate_f1_score(true_sentence, predicted_sentence, sum_mode=True):

    #공백 제거
    true_sentence = ''.join(true_sentence.split())
    predicted_sentence = ''.join(predicted_sentence.split())
    
    true_counter = Counter(true_sentence)
    predicted_counter = Counter(predicted_sentence)

    #문자가 등장한 개수도 고려
    if sum_mode:
        true_positive = sum((true_counter & predicted_counter).values())
        predicted_positive = sum(predicted_counter.values())
        actual_positive = sum(true_counter.values())

    #문자 자체가 있는 것에 focus를 맞춤
    else:
        true_positive = len((true_counter & predicted_counter).values())
        predicted_positive = len(predicted_counter.values())
        actual_positive = len(true_counter.values())

    #f1 score 계산
    precision = true_positive / predicted_positive if predicted_positive > 0 else 0
    recall = true_positive / actual_positive if actual_positive > 0 else 0
    f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    return precision, recall, f1_score

def calculate_average_f1_score(true_sentences, predicted_sentences):
    
    total_precision = 0
    total_recall = 0
    total_f1_score = 0
    
    for true_sentence, predicted_sentence in zip(true_sentences, predicted_sentences):
        precision, recall, f1_score = calculate_f1_score(true_sentence, predicted_sentence)
        total_precision += precision
        total_recall += recall
        total_f1_score += f1_score
    
    avg_precision = total_precision / len(true_sentences)
    avg_recall = total_recall / len(true_sentences)
    avg_f1_score = total_f1_score / len(true_sentences)
    
    return {
        'average_precision': avg_precision,
        'average_recall': avg_recall,
        'average_f1_score': avg_f1_score
    }

In [12]:
from sklearn.model_selection import KFold
import copy

weight = [0.5,0.5]
train_faiss_db, train_bm_retrievier = make_db(train_df) 

train_k = 1
train_bm_retrievier.k = train_k
#knn_retriever.k = train_k
train_faiss_retriever = train_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':train_k} )
train_ensemble_retriever = EnsembleRetriever(
    retrievers=[train_bm_retrievier, train_faiss_retriever], weights=weight
)

test_bm_retrievier = copy.deepcopy(train_bm_retrievier)
test_k = 2
test_bm_retrievier.k = test_k
#test_knn_retriever.k = test_k
test_faiss_retriever = train_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':test_k} )
test_ensemble_retriever = EnsembleRetriever(
    retrievers=[test_bm_retrievier, test_faiss_retriever], weights=weight
)

fewshot_k = 3

k_folds = 4
fold_results = []
kf = KFold(n_splits=k_folds, shuffle=True, random_state=52)
for fold, (train_index, val_index) in enumerate(kf.split(train_df)):
    fold_result = []
    train_set = train_df.iloc[train_index]
    val_set = train_df.iloc[val_index]
    
    
    fewshot_faiss_db = fewshot_db(train_set)
    fewshot_faiss_retriever = fewshot_faiss_db.as_retriever(search_kwargs={'k':fewshot_k} )

    pred = run(train_ensemble_retriever, test_ensemble_retriever, fewshot_faiss_retriever, val_set, llm, verbose=True)
    result = pd.DataFrame()
    result['pred'] = [result['Answer'] for result in pred]
    val_set.index = range(len(val_set))
    result['gt'] = val_set['Answer']
        
    result = calculate_average_f1_score(result['gt'], result['pred'])
    print(result)
    fold_results.append(result)
    break

ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: weakly-referenced object no longer exists
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
Processing PDFs:   0%|          | 0/16 [00:00<?, ?it/s]ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: weakly-referenced object no longer exists
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
ERROR:root:Failed to read PDF: not a textpage of this page
Processing PDFs:   6%|▋         | 1/16 [00:01<00:28,  1.92s/it]ERROR:root:Failed to read PD

Total number of chunks: 356




Loaded Fewshot Set: 372




Question:  2024년 중앙정부의 예산 지출은 어떻게 구성되어 있나요?
Fewshot Q | 2 | 2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?
Fewshot Q | 2 | 국가교육위원회의 '24년 예산은 얼마인가?
Fewshot Q | 2 | 2024년도 예산수입은 어떻게 구성되어 있나요?
Context Number| 4|

  attn_output = torch.nn.functional.scaled_dot_product_attention(


=====Answer=====
 2024년 중앙정부의 예산 지출은 일반회계 5,777억원, 특별회계 1,062억원, 기금 4,741억원으로 총 11,520억원으로 구성되어 있습니다.
=====REAL Answer=====
 2024년 중앙정부의 예산 지출은 일반회계 356.5조원, 21개 특별회계 81.7조원으로 구성되어 있습니다.
Question:  2024년 총수입은 얼마이며, 예산수입과 기금수입은 각각 몇 조원인가요?
Fewshot Q | 2 | 2024년도 총계 기준 재정규모는 얼마이며, 예산과 기금은 각각 몇 조원으로 구성되어 있는가?
Fewshot Q | 2 | 2024년도 예산수입은 어떻게 구성되어 있나요?
Fewshot Q | 2 | 2024년 국세수입은 얼마이며, 일반회계와 특별회계의 규모는 각각 얼마인가요?
Context Number| 4|=====Answer=====
 2024년 총수입은 1,573.3조원이며, 예산수입은 550.0조원, 기금수입은 1,023.3조원입니다.
=====REAL Answer=====
 2024년 총수입은 612.2조원이며, 예산수입은 395.5조원, 기금수입은 216.7조원입니다.
Question:  2024년의 기금수입은 어떻게 구성되어 있나요?
Fewshot Q | 1 | 2024년 기금수입 중 가장 큰 비중을 차지하는 항목은 무엇인가?
Fewshot Q | 2 | 2024년도 예산수입은 어떻게 구성되어 있나요?
Fewshot Q | 2 | 2024년 중앙정부 재정체계는 어떻게 구성되어 있나요?
Context Number| 4|=====Answer=====
 2024년 기금수입은 총 68개 기금 중 21개 기금이 110.2% 이상의 비율로 설정되어 있으며, 기금 중 가장 높은 비율을 차지하는 기금은 산업통상자원부와 보건복지부가 110.2%와 97.4%로 각각 나타났습니다.
=====REAL Answer=====
 2024년도 기금수입은 사회보장성기금 92.3조원, 경상이전수입 39.6조원, 기타 84.7조원으

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


=====Answer=====
 2007년부터 2022년까지 16회
=====REAL Answer=====
 국가재정법에서 추경 편성 사유로 명시된 사항은 전쟁이나 대규모 재해가 발생한 경우, 경기침체, 대량 실업, 남북 관계의 변화, 경제협력과 같은 대내외 여건에 중대한 변화가 발생하였거나 발생할 우려가 있는 경우, 법령에 따라 국가가 지급하여야 하는 지출이 발생하거나 증가하는 경우에 한정되어 있습니다.
Question:  2024년 교육재정 교부금의 규모는 얼마이고, 전년 대비 추이는 어떠한가?
Fewshot Q | 2 | 국가교육위원회의 '24년 예산은 얼마인가?
Fewshot Q | 2 | 2024년도 예산수입은 어떻게 구성되어 있나요?
Fewshot Q | 2 | 교육 분야 재정투자 계획에 따르면 고등교육 분야의 예산은 2024년에 어떻게 변화하는가?
Context Number| 4|=====Answer=====
 2024년 교육재정 교부금의 규모는 1,149억원으로, 전년 대비 12.2% 증가합니다.
=====REAL Answer=====
 2024년 교육재정교부금은 73.0조원이며 전년 대비 8.9% 감소하였다.
Question:  2024년에 교육재정교부금에서 유아교육비 및 보육료 지원에 할당된 비중은?
Fewshot Q | 2 | 교육 분야 재정투자 계획에 따르면 고등교육 분야의 예산은 2024년에 어떻게 변화하는가?
Fewshot Q | 2 | 2024년 정부 예산안에서 출산·양육 부담 경감을 위해 어떤 정책이 시행되고 있는가?
Fewshot Q | 2 | 평생·직업교육 부문 주요 변동내역에서 평생교육바우처지원 예산은 2023년 대비 2024년에 얼마나 증가했는가?
Context Number| 4|=====Answer=====
 유아교육비 및 보육료 지원에 할당된 예산은 2024년 1,433억원으로 2023년 대비 12.1% 증가했다.
=====REAL Answer=====
 4.40%
Question:  교육재정 교부금이란?
Fewshot 

py pdf 0.663

ptmu 0.6740735793987513

PDFPlumberLoader 0.6516317411146649 0.655995454987313(0.4), 0.6578699067809993(0.2), 0.6578699067809993(0.1)

PDFPlumberLoader NEW:  0.6508706361694363, 0.6545265117992998 (0.4)

NEWNEW : 0.6690379419494678(0.5)recursive,chunk1000,overlap200 -> 0.59

konlp : 0.639172573877312 chunk 400 

0.6502491672498713 chunk 2000 

0.6679938815194875 chunk 1000

0.6716520173133778 chunk 500 0.5819408919	

====

Unstructed 

0.64 (-)

0.6612316276810916 (0.5)

0.6578298248291823 (0.3)


====

Unstructed (New)

In [None]:
# from save_module import save


# weight = [0.5,0.5]
# train_faiss_db, train_bm_retrievier = make_db(train_df) 
# test_faiss_db, test_bm_retrievier = make_db(test_df)
# fewshot_faiss_db = fewshot_db(train_df)

# train_k = 1
# train_bm_retrievier.k = train_k
# #knn_retriever.k = train_k
# faiss_retriever = train_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':train_k} )
# train_ensemble_retriever = EnsembleRetriever(
#     retrievers=[train_bm_retrievier, faiss_retriever], weights=weight
# )

# test_k = 2
# test_bm_retrievier.k = test_k
# #test_knn_retriever.k = test_k
# test_faiss_retriever = test_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':test_k} )
# test_ensemble_retriever = EnsembleRetriever(
#     retrievers=[test_bm_retrievier, test_faiss_retriever], weights=weight
# )

# fewshot_k = 3
# # fewshot_bm_retrievier.k = fewshot_k
# #fewshot_knn_retriever.k = fewshot_k
# fewshot_faiss_retriever = fewshot_faiss_db.as_retriever(search_type="mmr",search_kwargs={'k':fewshot_k} )
# # fewshot_ensemble_retriever = EnsembleRetriever(
# #     retrievers=[fewshot_bm_retrievier, fewshot_faiss_retriever], weights=weight
# # )

# results = run(train_ensemble_retriever, test_ensemble_retriever, fewshot_faiss_retriever, test_df, llm, verbose=True)
# save(results)