## 00. 프로젝트 목적
- 본 프로젝트는 Fine-tuning을 위한 Q-A pair 데이터셋 구축을 위한 프로젝트입니다.
    - PDF to Text
    - PDF to Markdown
    - Link(Text) to Text
    - Link(Text) to Markdown
- GPT API를 통해 Q-A 데이터셋을 구축합니다.

### 필요한 환경 변수 로드

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

## 01. QA Pair 를 생성할 PDF 로드
1. PDF 텍스트를 추출하는데 강점을 가진 함수
    - `extract_text_from_pdf`
    - 텍스트가 주를 이루고 있을 때, 사용한다.
2. PDF to Markdown 함수
    - `extract_markdown_from_pdf`
    - 표와 텍스트가 병합하여 사용되고 있을 때 사용하면 유용하다.

In [5]:
import PyPDF2

# 텍스트 추출에 집중: PyPDF2 라이브러리를 사용해 PDF의 모든 페이지에서 텍스트를 추출하고 청크로 나눔
def extract_text_from_pdf(pdf_path, chunk_size=4000, chunk_overlap=150):
    """
    PDF 파일에서 텍스트를 추출하고 지정된 크기의 청크로 나눕니다.
    pdf_path: PDF 파일 경로
    chunk_size: 각 청크의 최대 문자 수 (기본값: 4000)
    chunk_overlap: 청크 간 겹치는 문자 수 (기본값: 150)
    return: 텍스트 청크 리스트
    """
    all_text = ""
    
    # PDF 파일 열기
    with open(pdf_path, 'rb') as f:
        reader = PyPDF2.PdfReader(f)
        num_pages = len(reader.pages)
        
        # 모든 페이지의 텍스트 추출
        for page_num in range(num_pages):
            page = reader.pages[page_num]
            page_text = page.extract_text()
            
            # 페이지 번호 추가
            all_text += f"- {page_num + 1} -"
            
            # 텍스트가 있는 경우에만 추가
            if page_text:
                all_text += page_text
            
    # 텍스트를 청크로 나누기
    chunks = []
    start = 0
    
    while start < len(all_text):
        # 청크의 끝 위치 계산
        end = min(start + chunk_size, len(all_text))
        
        # 중간에 끊기지 않도록 문장이나 단락의 끝 찾기
        if end < len(all_text):
            # 줄바꿈이나 마침표 등에서 끊기도록 설정
            for delimiter in ['\n\n', '\n', '. ', '? ', '! ']:
                last_delimiter = all_text.rfind(delimiter, start, end)
                if last_delimiter > start:
                    end = last_delimiter + len(delimiter)
                    break
        
        # 청크 추가
        chunks.append(all_text[start:end])
        
        # 다음 청크의 시작 위치 (겹치는 부분 고려)
        start = end - chunk_overlap if end < len(all_text) else end
    
    return chunks

In [6]:
# PDF 파일 로드
elements = extract_text_from_pdf("../../asset/pdf/고교학점제 이해를 위한 Q & A_250325_214831.pdf")

In [2]:
import pymupdf4llm
import os
import nest_asyncio
from langchain_text_splitters import RecursiveCharacterTextSplitter

nest_asyncio.apply()

# PDF를 마크다운 형식으로 변환하고 청크로 분할하는 함수

def extract_markdown_from_pdf(pdf_path, chunk_size=500, chunk_overlap=100):
    """
    pymupdf4llm 라이브러리를 사용해 PDF 문서를 마크다운으로 변환하고 텍스트/표/이미지 등의 요소를 포함한 형태로 추출한 후
    RecursiveCharacterTextSplitter를 사용하여 청크로 나눕니다.
    pdf_path: PDF 파일 경로
    chunk_size: 각 청크의 최대 문자 수 (기본값: 4000)
    chunk_overlap: 청크 간 겹치는 문자 수 (기본값: 200)
    return: 마크다운 형식의 텍스트 청크 리스트
    """
    
    # PDF 파일이 존재하는지 확인
    print(f"PDF 파일 로드 중: {pdf_path}")
    
    # PDF 파일 로드 (LlamaMarkdownReader 직접 생성)
    reader = pymupdf4llm.LlamaMarkdownReader()
    docs = reader.load_data(pdf_path)
    
    # 모든 문서 텍스트 합치기
    full_text = ""
    for doc in docs:
        full_text += doc.text + "\n\n"
    
    # RecursiveCharacterTextSplitter를 사용하여 텍스트를 청크로 나누기
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        separators=["\n\n\n-----\n\n\n\n"]
    )
    
    chunks = text_splitter.split_text(full_text)
    
    print(f"총 {len(chunks)}개의 청크로 나누었습니다.")
    return chunks

In [3]:
# PDF 파일 로드 및 청크로 나누기
elements = extract_markdown_from_pdf('../create_dataset/source_data/pdf/prompt_test.pdf')

PDF 파일 로드 중: ../create_dataset/source_data/pdf/prompt_test.pdf
Successfully imported LlamaIndex
총 6개의 청크로 나누었습니다.


In [8]:
print(elements[0])

### 과목 소개

##### ‘공통수학1’과 ‘공통수학2’는 수학에 대한 기초 소양과 학문적 이해를 기반으로 학생 스스로 자신의 적성을 개발하여 창의성을 갖춘 사람으로 성장하기 위해 수학의 여러 영역의 기본적인 내용을 학습하는 과목이다. 특히 ‘공통수학1’은 중학교 ‘변화와 관계’ 영역에서 학습한 다항식, 방정식, 부등식이 심화되고 다양한 유형으로 다루어지며, ‘자료와 가능성’ 영역에서 학습한 경우의 수가 순열과 조합을 활용하는 방법으로 체계화된다.

### 무엇을 배울까요?
#### 40 [ 경상남도교육청]

|범주 다항식 방정식과 부등식 지식·이해 경우의 수 행렬|Col2|내용 요소 다항식의 연산 나머지정리 인수분해|
|---|---|---|
||방정식과 부등식|복소수와 이차방정식 이차방정식과 이차함수 여러 가지 방정식과 부등식|
||경우의 수|합의 법칙과 곱의 법칙 순열과 조합|
||행렬|행렬과 그 연산|
|과정·기능|다항식, 방정식과 부등식, 경우의 수, 행렬의 개념, 원리, 법칙이나 자신의 수학적 사고와 전략을 설명하기 수학적 절차를 수행하고 계산하기 적절한 전략을 사용하여 문제해결하기 이차방정식과 이차부등식을 이차함수와 연결하기 이차함수의 그래프와 직선의 위치 관계를 판단하기 다항식, 방정식과 부등식, 경우의 수, 행렬의 개념, 원리, 법칙, 성질을 탐구하기 방정식과 부등식 풀기 방정식과 부등식, 경우의 수, 행렬을 실생활과 연결하기 식과 그래프, 수학 기호, 행렬 등을 표현하기||


## 02. QA Pair 생성
- 각 LLM에 프롬프트를 다르게 하여 고품질의 QA Dataset을 만드는 AI 디스틸레이션
    - 생성 LLM: `qa_claude` 입력된 PDF에서 QA data를 생성합니다.
    - 비판 LLM: `critique_gpt` QA 데이터에서 질문&대답에 대한 검증 및 비판을 생성합니다.
    - 정보 종합 LLM: `final_qa_gpt` 기존 질문&대답과 비판에 대한 정보를 종합하여 최종 QA data를 생성합니다.

In [9]:
from utils import critique_gpt, final_qa_gpt, qa_claude
from typing import List, Dict, Any
from tqdm import tqdm
import pandas as pd
import json

In [12]:
def qa_generation_pipeline(elements: List[str], domain: str, num_questions: str = "2") -> List[Dict[str, str]]:
    """
    전체 QA 생성 파이프라인 함수
    
    Parameters:
        elements (List[str]): 텍스트 청크 목록
        domain (str): 도메인 (예: 고교학점제)
        num_questions (str): 각 청크당 생성할 질문 수
    
    Returns:
        List[Dict[str, str]]: 최종 QA 쌍 목록
    """
    final_qa_pairs = []
    
    try:
        # 1. 초기 QA 쌍 생성
        initial_qa_pairs = qa_claude.generate_qa_pairs(elements, domain, num_questions)
        
        # 2. QA 쌍에 대한 비판 생성
        critique_qa_pair = critique_gpt.critique_qa_pairs(initial_qa_pairs, domain)
        
        # 3. 비판을 반영한 최종 QA 쌍 생성
        final_qa_pairs = final_qa_gpt.generate_final_qa_pairs(critique_qa_pair, domain)
    
    except Exception as e:
        print('='*50)
        print(f"[에러 발생] | {e} | {elements[0][:100]}...")  # 청크의 첫 부분만 출력
        print('='*50)
        
    return final_qa_pairs

- 모든 PDF를 markdown으로 변환한 후, chunk 별로 질문을 생성하는 파이프라인 함수

In [13]:
def process_all_pdfs(pdf_dir='./source_data/pdf/', 
                    output_dir='../output_data/',
                    domain="Default",
                    chunk_size=500,
                    chunk_overlap=100,
                    questions_per_chunk="2"):
    """
    지정된 디렉토리에 있는 모든 PDF 파일을 처리하여 QA 셋을 생성합니다.
    
    Parameters:
        pdf_dir (str): PDF 파일이 저장된 디렉토리 경로
        output_dir (str): 결과를 저장할 디렉토리 경로
        domain (str): QA 생성의 도메인
        chunk_size (int): 청크 크기
        chunk_overlap (int): 청크 간 겹침 크기
        questions_per_chunk (str): 각 청크당 생성할 질문 수
    """
    # 출력 디렉토리가 없으면 생성
    os.makedirs(output_dir, exist_ok=True)
    
    # PDF 파일 목록 가져오기
    pdf_list = [f"{pdf_dir}/{pdf}" for pdf in os.listdir(pdf_dir) if pdf.endswith('.pdf')]
    print(f"총 {len(pdf_list)}개의 PDF 파일을 찾았습니다.")
    
    # 모든 QA 쌍을 저장할 리스트
    all_qa_pairs = []
    
    # PDF 파일별로 처리
    for pdf_path in tqdm(pdf_list, desc="PDF 처리 중"):
        try:
            # PDF 파일명 추출 (확장자 제외)
            pdf_name = os.path.basename(pdf_path).replace('.pdf', '')
            
            print(f"\n[처리 시작] {pdf_name}")
            
            # PDF에서 마크다운 청크 추출
            chunks = extract_markdown_from_pdf(pdf_path, chunk_size, chunk_overlap)
            
            # 빈 청크 제거
            chunks = [chunk for chunk in chunks if chunk.strip()]
            
            if not chunks:
                print(f"[주의] {pdf_name}에서 유효한 청크를 추출하지 못했습니다.")
                continue
            
            # 도메인 설정 - PDF 파일명을 기본 도메인으로 사용하거나 지정된 도메인 사용
            current_domain = domain if domain != "Default" else pdf_name
            
            # 청크를 작은 배치로 나누어 처리 (API 호출 제한 고려)
            batch_size = 5  # 한 번에 처리할 청크 수
            qa_pairs = []
            
            for i in range(0, len(chunks), batch_size):
                batch_chunks = chunks[i:i+batch_size]
                print(f"배치 처리 중: {i//batch_size + 1}/{(len(chunks)+batch_size-1)//batch_size}")
                
                # QA 셋 생성
                batch_qa_pairs = qa_generation_pipeline(batch_chunks, current_domain, questions_per_chunk)
                qa_pairs.extend(batch_qa_pairs)
            
            # 각 QA 쌍에 PDF 출처 정보 추가
            for qa_pair in qa_pairs:
                qa_pair["SOURCE"] = pdf_name
            
            # 전체 QA 쌍 목록에 추가
            all_qa_pairs.extend(qa_pairs)
            
            # 현재 PDF의 결과를 JSONL으로 저장
            pdf_output_path = f"{output_dir}/{pdf_name}_qa.jsonl"
            with open(pdf_output_path, 'w', encoding='utf-8') as f:
                for qa_pair in qa_pairs:
                    f.write(json.dumps(qa_pair, ensure_ascii=False) + '\n')
            
            print(f"[처리 완료] {pdf_name}: {len(qa_pairs)}개의 QA 쌍 생성")
            
        except Exception as e:
            print(f"[에러] {pdf_path} 처리 중 오류 발생: {str(e)}")
    
    # 모든 결과를 하나의 JSONL 파일로 저장
    all_output_path = f"{output_dir}/all_qa_pairs.jsonl"
    with open(all_output_path, 'w', encoding='utf-8') as f:
        for qa_pair in all_qa_pairs:
            f.write(json.dumps(qa_pair, ensure_ascii=False) + '\n')
    
    print(f"\n처리 완료! 총 {len(all_qa_pairs)}개의 QA 쌍이 생성되었습니다.")
    print(f"결과는 다음 위치에 저장되었습니다:")
    print(f"- JSONL: {all_output_path}")
    
    return all_qa_pairs

In [14]:
# 모든 PDF 처리
qa_pairs = process_all_pdfs(
    pdf_dir='./source_data/pdf/',
    output_dir='./output_data/',
    domain="Default",  # "Default"로 설정하면 각 PDF 파일명을 도메인으로 사,
    chunk_size=500,
    chunk_overlap=100,
    questions_per_chunk="2"
)

총 1개의 PDF 파일을 찾았습니다.


PDF 처리 중:   0%|          | 0/1 [00:00<?, ?it/s]


[처리 시작] prompt_test
PDF 파일 로드 중: ./source_data/pdf//prompt_test.pdf
총 6개의 청크로 나누었습니다.
배치 처리 중: 1/2
배치 처리 중: 2/2


PDF 처리 중: 100%|██████████| 1/1 [01:26<00:00, 86.62s/it]

[처리 완료] prompt_test: 12개의 QA 쌍 생성

처리 완료! 총 12개의 QA 쌍이 생성되었습니다.
결과는 다음 위치에 저장되었습니다:
- JSONL: ./output_data//all_qa_pairs.jsonl





In [15]:
qa_pairs

[{'QUESTION': "공통수학1에서 '경우의 수' 영역의 핵심 개념은 무엇인가요?",
  'ANSWER': "공통수학1에서 '경우의 수' 영역의 핵심 개념은 합의 법칙과 곱의 법칙, 그리고 순열과 조합입니다. 이는 중학교 '자료와 가능성' 영역에서 학습한 경우의 수를 순열과 조합을 활용하여 체계적으로 이해하는 방법입니다.",
  'SOURCE': 'prompt_test'},
 {'QUESTION': "공통수학1 과목에서 '방정식과 부등식' 범주에 포함되는 구체적인 내용 요소는 무엇인가요?",
  'ANSWER': "공통수학1 과목에서 '방정식과 부등식' 범주에 포함되는 구체적인 내용 요소는 복소수와 이차방정식, 이차방정식과 이차함수, 여러 가지 방정식과 부등식입니다. 이는 중학교 '변화와 관계' 영역에서 학습한 방정식과 부등식의 심화된 내용으로, 다양한 유형으로 다루어집니다.",
  'SOURCE': 'prompt_test'},
 {'QUESTION': "공통수학2의 '도형의 방정식' 영역에서 다루는 주요 개념은 무엇인가요?",
  'ANSWER': "공통수학2의 '도형의 방정식' 영역에서는 평면좌표, 직선의 방정식, 원의 방정식, 도형의 이동을 다룹니다. 이는 중학교 '도형과 측정' 영역에서 학습한 원과 직선을 방정식으로 표현하는 방법을 포함합니다.",
  'SOURCE': 'prompt_test'},
 {'QUESTION': '공통수학2 과목의 과정·기능 영역에서 학생들이 수행해야 하는 함수와 관련된 활동은 무엇인가요?',
  'ANSWER': "공통수학2 과목의 과정·기능 영역에서 학생들은 '합성함수와 역함수 구하기' 외에도 함수의 그래프를 해석하고, 함수의 성질을 분석하는 활동을 수행해야 합니다. 이는 함수와 그래프 영역의 학습 내용과 연계된 실제적인 수학적 기능입니다.",
  'SOURCE': 'prompt_test'},
 {'QUESTION': "기본수학1 과목에서 '방정식과 부등식' 범주에 포함되는 주요 학습 내용은 무엇인가요?",
  'AN

- 직접 Q-A 데이터셋을 만들어서 추가하고 싶은 경우

In [16]:
# 디버깅을 위한 데이터셋 추가
additional_qa = [
    {
        "QUESTION": "테디노트 유튜브 채널에 대해서 알려주세요.",
        "ANSWER": "테디노트(TeddyNote)는 데이터 분석, 머신러닝, 딥러닝 등의 주제를 다루는 유튜브 채널입니다. 이 채널을 운영하는 이경록님은 데이터 분석과 인공지능에 대한 다양한 강의를 제공하며, 초보자도 쉽게 따라할 수 있도록 친절하게 설명합니다.",
    },
    {
        "QUESTION": "랭체인 관련 튜토리얼은 어디서 찾을 수 있나요?",
        "ANSWER": "테디노트의 위키독스 페이지에는 LangChain에 대한 다양한 한국어 튜토리얼이 제공됩니다. 링크: https://wikidocs.net/book/14314",
    },
    {
        "QUESTION": "테디노트 운영자에 대해서 알려주세요",
        "ANSWER": "테디노트(TeddyNote) 운영자는 이경록(Teddy Lee)입니다. 그는 데이터 분석, 머신러닝, 딥러닝 분야에서 활동하는 전문가로, 다양한 교육 및 강의를 통해 지식을 공유하고 있습니다. 이경록님은 여러 기업과 교육기관에서 파이썬, 데이터 분석, 텐서플로우 등 다양한 주제로 강의를 진행해 왔습니다",
    },
]

In [None]:
qa_pairs.extend(additional_qa)
qa_pairs

NameError: name 'qa_pair' is not defined

## 데이터 저장

### jsonl 파일로 저장


In [None]:
import json

# 기존의 qa_pair 데이터를 jsonl 형식으로 저장
with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
    for qa in qa_pair:
        f.write(json.dumps(qa, ensure_ascii=False) + "\n")

# 저장 확인 메시지 출력
print(f"총 {len(qa_pair)}개의 질문-답변 쌍이 qa_pair.jsonl 파일에 저장되었습니다.")

In [None]:
import json

# qa_pair에 있는 QA 데이터를 모델 학습에 적합한 형식으로 변환하여 JSONL 형식으로 저장
with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
    for qa in qa_pair:
        # 질문-답변 쌍을 instruction-input-output 형식으로 변환
        qa_modified = {
            "instruction": qa["QUESTION"], # 질문 내용을 instruction 필드에 매핑
            "input": "", # 추가 입력이 필요 없으므로 빈 문자열로 설정
            "output": qa["ANSWER"], # 답변 내용을 output 필드에 매핑
        }
        # 변환된 형식의 데이터를 JSON 문자열로 변환하여 파일에 한 줄씩 추가
        f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

### HuggingFace datasets 데이터셋 로드

In [33]:
from datasets import load_dataset

# JSONL 파일 경로
jsonl_file = "qa_pair.jsonl"

# JSONL 파일을 Dataset으로 로드
dataset = load_dataset("json", data_files=jsonl_file)

Generating train split: 64 examples [00:00, 16979.91 examples/s]


In [34]:
from huggingface_hub import HfApi

# HfApi 인스턴스 생성
api = HfApi()

# 데이터셋을 업로드할 리포지토리 이름
repo_name = "BARAM1NG/QA_bearable"

# 데이터셋을 허브에 푸시
dataset.push_to_hub(repo_name, token="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")

Creating parquet from Arrow format: 100%|██████████| 1/1 [00:00<00:00, 1024.50ba/s]
Uploading the dataset shards: 100%|██████████| 1/1 [00:01<00:00,  1.68s/it]


CommitInfo(commit_url='https://huggingface.co/datasets/BARAM1NG/QA_bearable/commit/fc1a908abb6890cb6207149aa97f0f72dba8a1fa', commit_message='Upload dataset', commit_description='', oid='fc1a908abb6890cb6207149aa97f0f72dba8a1fa', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/BARAM1NG/QA_bearable', endpoint='https://huggingface.co', repo_type='dataset', repo_id='BARAM1NG/QA_bearable'), pr_revision=None, pr_num=None)