## 00. 프로젝트 목적
- 본 프로젝트는 Fine-tuning을 위한 Q-A pair 데이터셋 구축을 위한 프로젝트입니다.
    - PDF to Text
    - PDF to Markdown
    - Link(Text) to Text
    - Link(Text) to Markdown
- GPT & Claude API를 통해 Q-A 데이터셋을 구축합니다.

### 필요한 환경 변수 로드

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

## 01. QA Pair 를 생성할 PDF 로드
1. PDF 텍스트를 추출하는데 강점을 가진 함수
    - `extract_text_from_pdf`
    - 텍스트가 주를 이루고 있을 때, 사용한다.
2. PDF to Markdown 함수
    - `extract_markdown_from_pdf`
    - 표와 텍스트가 병합하여 사용되고 있을 때 사용하면 유용하다.

In [1]:
from utils import extract_markdown

# PDF 파일 로드 및 청크로 나누기
elements = extract_markdown.extract_markdown_from_pdf('../create_dataset/source_data/pdf/prompt_test_2.pdf')

PDF 파일 로드 중: ../create_dataset/source_data/pdf/prompt_test_2.pdf
Successfully imported LlamaIndex
총 15개의 청크로 나누었습니다.
총 15개의 청크 중 13개의 유효한 청크를 추출했습니다.
총 13개의 청크 중 13개의 병합된 청크를 생성했습니다.
병합으로 0개의 청크가 줄었습니다.


## 02. QA Pair 생성
- 각 LLM에 프롬프트를 다르게 하여 고품질의 QA Dataset을 만드는 AI 디스틸레이션
    - 생성 LLM: `qa_claude` 입력된 PDF에서 QA data를 생성합니다.
    - 비판 LLM: `critique_gpt` QA 데이터에서 질문&대답에 대한 검증 및 비판을 생성합니다.
    - 정보 종합 LLM: `final_qa_gpt` 기존 질문&대답과 비판에 대한 정보를 종합하여 최종 QA data를 생성합니다.

- `qa_pipeline`: 모든 PDF를 markdown으로 변환한 후, chunk 별로 질문을 생성하는 파이프라인 함수

In [2]:
from utils import critique_gpt, final_qa_gpt, qa_claude, extract_markdown, qa_pipeline
from typing import List, Dict, Any
from tqdm import tqdm
import pandas as pd
import json
import os

In [3]:
# 모든 PDF 처리
qa_pairs = qa_pipeline.process_all_pdfs(
    pdf_dir='./source_data/pdf/',
    output_dir='./output_data/',
    domain="고교학점제",  # "Default"로 설정하면 각 PDF 파일명을 도메인으로 사용,
    chunk_size=700,
    chunk_overlap=200,
    questions_per_chunk="2"
)

총 2개의 PDF 파일을 찾았습니다.


PDF 처리 중:   0%|          | 0/2 [00:00<?, ?it/s]


[처리 시작] prompt_test_2
PDF 파일 로드 중: ./source_data/pdf//prompt_test_2.pdf
Successfully imported LlamaIndex
총 9개의 청크로 나누었습니다.
총 9개의 청크 중 7개의 유효한 청크를 추출했습니다.
총 7개의 청크 중 7개의 병합된 청크를 생성했습니다.
병합으로 0개의 청크가 줄었습니다.
배치 처리 중: 1/3


PDF 처리 중:   0%|          | 0/2 [00:03<?, ?it/s]


KeyboardInterrupt: 

In [17]:
qa_pairs

[{'QUESTION': '고교학점제에서 졸업하려면 어떤 조건을 충족해야 하나요?',
  'ANSWER': '고교학점제에서 졸업하려면 3년간 192점 이상의 학점을 취득해야 합니다. 기존에는 학교 수업일수의 2분의 1 이상 출석하면 졸업이 가능했지만, 고교학점제에서는 출석뿐만 아니라 필요한 학점도 함께 취득해야 졸업이 가능합니다.'},
 {'QUESTION': '고교학점제에서 과목을 이수하려면 어떤 조건을 충족해야 하나요?',
  'ANSWER': '고교학점제에서 과목을 이수하려면, 수업 횟수의 3분의 2 이상을 출석해야 하며, 학업 성취도가 40% 이상이어야 합니다. 예를 들어, 3학점 수업(총 48회)의 경우, 32회 이상 출석해야 출석 기준을 충족하게 됩니다.'},
 {'QUESTION': '고등학교 1학년 학생들은 바로 과목을 선택해야 하나요?',
  'ANSWER': '아닙니다. 1학년 시기에는 공통 과목이라고 해서 학생들이 기본적으로 이수해야 하는 과목들이 있습니다. 이는 기초 소양이나 기본 능력 함양을 위한 과목으로, 공통 국어, 공통수학, 공통영어 등이 포함됩니다.'},
 {'QUESTION': '고교학점제에서 과목 선택이 어려울 때 어떤 도움을 받을 수 있나요?',
  'ANSWER': '학교에서는 학생들이 과목 선택에 어려움을 겪지 않도록 진로 설계 지도를 제공하고 있습니다. 진로진학 상담 선생님과 각 교과별 선생님들로 구성된 교육과정 이수지도 팀이 진로진학 상담뿐만 아니라 과목에 대한 안내와 공부 방법에 대해서도 지도하고 있습니다.'},
 {'QUESTION': '고교학점제에서 학생들이 과목을 선택할 때 어떤 과정을 거쳐야 하나요?',
  'ANSWER': '고교학점제에서 학생들은 1학년 시기에 공통과목을 이수하면서 과목 선택을 준비합니다. 보통 3-4월에는 고교학점제 이해와 진로 탐색을 하고, 5-6월에는 과목 탐색과 1차 희망 조사를 진행합니다. 7-8월에는 과목 이수 설계를 구체화하고 2차 희망 조사를 하며, 11월경에 최종 선택 과목

- 직접 Q-A 데이터셋을 만들어서 추가하고 싶은 경우

In [16]:
# 디버깅을 위한 데이터셋 추가
additional_qa = [
    {
        "QUESTION": "테디노트 유튜브 채널에 대해서 알려주세요.",
        "ANSWER": "테디노트(TeddyNote)는 데이터 분석, 머신러닝, 딥러닝 등의 주제를 다루는 유튜브 채널입니다. 이 채널을 운영하는 이경록님은 데이터 분석과 인공지능에 대한 다양한 강의를 제공하며, 초보자도 쉽게 따라할 수 있도록 친절하게 설명합니다.",
    },
    {
        "QUESTION": "랭체인 관련 튜토리얼은 어디서 찾을 수 있나요?",
        "ANSWER": "테디노트의 위키독스 페이지에는 LangChain에 대한 다양한 한국어 튜토리얼이 제공됩니다. 링크: https://wikidocs.net/book/14314",
    },
    {
        "QUESTION": "테디노트 운영자에 대해서 알려주세요",
        "ANSWER": "테디노트(TeddyNote) 운영자는 이경록(Teddy Lee)입니다. 그는 데이터 분석, 머신러닝, 딥러닝 분야에서 활동하는 전문가로, 다양한 교육 및 강의를 통해 지식을 공유하고 있습니다. 이경록님은 여러 기업과 교육기관에서 파이썬, 데이터 분석, 텐서플로우 등 다양한 주제로 강의를 진행해 왔습니다",
    },
]

In [None]:
qa_pairs.extend(additional_qa)
qa_pairs

NameError: name 'qa_pair' is not defined

## 데이터 저장

### jsonl 파일로 저장


In [None]:
import json

# 기존의 qa_pair 데이터를 jsonl 형식으로 저장
with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
    for qa in qa_pair:
        f.write(json.dumps(qa, ensure_ascii=False) + "\n")

# 저장 확인 메시지 출력
print(f"총 {len(qa_pair)}개의 질문-답변 쌍이 qa_pair.jsonl 파일에 저장되었습니다.")

In [None]:
import json

# qa_pair에 있는 QA 데이터를 모델 학습에 적합한 형식으로 변환하여 JSONL 형식으로 저장
with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
    for qa in qa_pair:
        # 질문-답변 쌍을 instruction-input-output 형식으로 변환
        qa_modified = {
            "instruction": qa["QUESTION"], # 질문 내용을 instruction 필드에 매핑
            "input": "", # 추가 입력이 필요 없으므로 빈 문자열로 설정
            "output": qa["ANSWER"], # 답변 내용을 output 필드에 매핑
        }
        # 변환된 형식의 데이터를 JSON 문자열로 변환하여 파일에 한 줄씩 추가
        f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

### HuggingFace datasets 데이터셋 로드

In [33]:
from datasets import load_dataset

# JSONL 파일 경로
jsonl_file = "qa_pair.jsonl"

# JSONL 파일을 Dataset으로 로드
dataset = load_dataset("json", data_files=jsonl_file)

Generating train split: 64 examples [00:00, 16979.91 examples/s]


In [34]:
from huggingface_hub import HfApi

# HfApi 인스턴스 생성
api = HfApi()

# 데이터셋을 업로드할 리포지토리 이름
repo_name = "BARAM1NG/QA_bearable"

# 데이터셋을 허브에 푸시
dataset.push_to_hub(repo_name, token="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")

Creating parquet from Arrow format: 100%|██████████| 1/1 [00:00<00:00, 1024.50ba/s]
Uploading the dataset shards: 100%|██████████| 1/1 [00:01<00:00,  1.68s/it]


CommitInfo(commit_url='https://huggingface.co/datasets/BARAM1NG/QA_bearable/commit/fc1a908abb6890cb6207149aa97f0f72dba8a1fa', commit_message='Upload dataset', commit_description='', oid='fc1a908abb6890cb6207149aa97f0f72dba8a1fa', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/BARAM1NG/QA_bearable', endpoint='https://huggingface.co', repo_type='dataset', repo_id='BARAM1NG/QA_bearable'), pr_revision=None, pr_num=None)