In [1]:
from dotenv import load_dotenv

load_dotenv()

True

## QA Pair 를 생성할 PDF 를 로드합니다.


In [2]:
from unstructured.partition.pdf import partition_pdf


def extract_pdf_elements(filepath):
    """
    PDF 파일에서 이미지, 테이블, 그리고 텍스트 조각을 추출합니다.
    path: 이미지(.jpg)를 저장할 파일 경로
    fname: 파일 이름
    """
    return partition_pdf(
        filename=filepath,
        extract_images_in_pdf=False,  # PDF 내 이미지 추출 활성화
        infer_table_structure=False,  # 테이블 구조 추론 활성화
        chunking_strategy="by_title",  # 제목별로 텍스트 조각화
        max_characters=4000,  # 최대 문자 수
        new_after_n_chars=3800,  # 이 문자 수 이후에 새로운 조각 생성
        combine_text_under_n_chars=2000,  # 이 문자 수 이하의 텍스트는 결합
    )

In [3]:
# PDF 파일 로드
elements = extract_pdf_elements("data/SPRI_AI_Brief_2023년12월호_F.pdf")

In [4]:
# 로드한 TEXT 청크 수
len(elements)

14

In [5]:
print(elements[2])

위험 식별과 완화에 필요한 조치를 포함

주요 7개국(G7)은 미국, 일본, 독일, 영국, 프랑스, 이탈리아, 캐나다를 의미

** 5월 정상회의에는 한국, 호주, 베트남 등을 포함한 8개국이 초청을 받았으나, AI 국제 행동강령에는 우선 G7 국가만 포함하여 채택

n G7은 행동강령을 통해 아래의 조치를 제시했으며, 빠르게 발전하는 기술에 대응할 수 있도록

이해관계자 협의를 통해 필요에 따라 개정할 예정

첨단 AI 시스템의 개발 과정에서 AI 수명주기 전반에 걸쳐 위험을 평가 및 완화하는 조치를 채택하고,

첨단 AI 시스템의 출시와 배포 이후 취약점과 오용 사고, 오용 유형을 파악해 완화

첨단 AI 시스템의 성능과 한계를 공개하고 적절하거나 부적절한 사용영역을 알리는 방법으로 투명성을

보장하고 책임성을 강화

산업계, 정부, 시민사회, 학계를 포함해 첨단 AI 시스템을 개발하는 조직 간 정보공유와 사고 발생 시

신고를 위해 협력하고, 위험 기반 접근방식을 토대로 개인정보보호 정책과 위험 완화 조치를 포함하는

AI 거버넌스와 위험 관리 정책을 마련

AI 수명주기 전반에 걸쳐 물리보안, 사이버보안, 내부자 위협 보안을 포함한 강력한 보안 통제 구현

사용자가 AI 생성 콘텐츠를 식별할 수 있도록 워터마크를 비롯하여 기술적으로 가능한 기법으로

신뢰할 수 있는 콘텐츠 인증과 출처 확인 메커니즘을 개발 및 구축

사회적 위험과 안전·보안 문제를 완화하는 연구와 효과적인 완화 대책에 우선 투자하고, 기후 위기

대응, 세계 보건과 교육 등 세계적 난제 해결을 위한 첨단 AI 시스템을 우선 개발

국제 기술 표준의 개발 및 채택을 가속화하고, 개인정보와 지식재산권 보호를 위해 데이터 입력과 수집

시 적절한 보호 장치 구현

☞ 출처: G7, Hiroshima Process International Code of Conduct for Advanced AI Systems, 2023.10.30.

2

1. 정책/법제

2. 기업/산업

3. 기술/연구



## QA Pair 생성


In [6]:
from langchain_core.pydantic_v1 import BaseModel, Field


# 원하는 데이터 구조를 정의합니다.
class QAPair(BaseModel):
    question: str = Field(description="Question generated from the text")
    answer: str = Field(description="Answer related to the question")

In [13]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate.from_template(
    """Context information is below. You are only aware of this context and nothing else.
---------------------

{context}

---------------------
Given this context, generate only questions based on the below query.
You are an Teacher/Professor in {domain}. 
Your task is to provide exactly **{num_questions}** question(s) for an upcoming quiz/examination. 
You are not to provide more or less than this number of questions. 
The question(s) should be diverse in nature across the document. 
The purpose of question(s) is to test the understanding of the students on the context information provided.
You must also provide the answer to each question. The answer should be based on the context information provided only.

Restrict the question(s) to the context information provided only.
QUESTION and ANSWER should be written in Korean. response in JSON format which contains the `question` and `answer`.
ANSWER should be a complete sentence.

#Format:
```json
{{
    "QUESTION": "바이든 대통령이 서명한 '안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령'의 주요 목적 중 하나는 무엇입니까?",
    "ANSWER": "바이든 대통령이 서명한 행정명령의 주요 목적은 AI의 안전 마련과 보안 기준 마련을 위함입니다."
}},
{{
    "QUESTION": "메타의 라마2가 오픈소스 모델 중에서 어떤 유형의 작업에서 가장 우수한 성능을 발휘했습니까?",
    "ANSWER": "메타의 라마2는 RAG 없는 질문과 답변 및 긴 형식의 텍스트 생성에서 오픈소스 모델 중 가장 우수한 성능을 발휘했습니다."    
}},
{{
    "QUESTION": "IDC 예측에 따르면 2027년까지 생성 AI 플랫폼과 애플리케이션 시장의 매출은 얼마로 전망되나요?",
    "ANSWER": "IDC 예측에 따르면 2027년까지 생성 AI 플랫폼과 애플리케이션 시장의 매출은 283억 달러로 전망됩니다."    
}}
```
"""
)

In [15]:
from langchain_core.output_parsers import JsonOutputParser
from langchain_openai import ChatOpenAI
from langchain_core.callbacks import StreamingStdOutCallbackHandler


# 파서를 설정하고 프롬프트 템플릿에 지시사항을 주입합니다.
parser = JsonOutputParser(pydantic_object=QAPair)

chain = (
    prompt
    | ChatOpenAI(
        model="gpt-4o",
        temperature=0,
        streaming=True,
        callbacks=[StreamingStdOutCallbackHandler()],
    )
    | parser
)  # 체인을 구성합니다.

qa_pair = []

for element in elements[1:]:
    if element.text:
        qa_pair.append(
            chain.invoke(
                {"context": element.text, "domain": "AI", "num_questions": "3"}
            )
        )

```json
{
    "QUESTION": "바이든 대통령이 발표한 행정명령에서 AI 시스템의 안전성과 신뢰성을 확인하기 위해 어떤 조치를 추진하고 있습니까?",
    "ANSWER": "바이든 대통령이 발표한 행정명령에서는 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한 주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및 AI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진하고 있습니다."
},
{
    "QUESTION": "G7이 합의한 '히로시마 AI 프로세스'를 통한 AI 국제 행동강령의 주요 내용은 무엇입니까?",
    "ANSWER": "G7이 합의한 '히로시마 AI 프로세스'를 통한 AI 국제 행동강령의 주요 내용은 AI 위험 식별과 완화를 위한 자발적인 채택, AI 수명주기 전반에 걸친 위험 평가와 완화, 투명성과 책임성의 보장, 정보공유와 이해관계자 간 협력, 보안 통제, 콘텐츠 인증과 출처 확인 등의 조치를 요구하는 것입니다."
},
{
    "QUESTION": "바이든 대통령의 AI 행정명령에서 국제협력을 포함한 주요 목적 중 하나는 무엇입니까?",
    "ANSWER": "바이든 대통령의 AI 행정명령에서 국제협력을 포함한 주요 목적은 안전하고 신뢰할 수 있는 AI 개발과 사용을 보장하기 위해 국제적인 협력과 정보공유를 촉진하는 것입니다."
}
``````json
{
    "QUESTION": "G7 국가들이 채택한 AI 국제 행동강령에 따르면, 첨단 AI 시스템의 개발 과정에서 어떤 조치를 취해야 합니까?",
    "ANSWER": "G7 국가들은 첨단 AI 시스템의 개발 과정에서 AI 수명주기 전반에 걸쳐 위험을 평가 및 완화하는 조치를 채택해야 합니다."
},
{
    "QUESTION": "블레츨리 선언에 따라 첨단 AI 시스템 개발 기업은 어떤 책임이 있습니까?",
    "ANSWER": "블레츨리 선언에 따라 첨단 AI 시스템 

In [18]:
qa_pair[:3]

[{'QUESTION': '바이든 대통령이 발표한 행정명령에서 AI 시스템의 안전성과 신뢰성을 확인하기 위해 어떤 조치를 추진하고 있습니까?',
  'ANSWER': '바이든 대통령이 발표한 행정명령에서는 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한 주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및 AI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진하고 있습니다.'},
 {'QUESTION': 'G7 국가들이 채택한 AI 국제 행동강령에 따르면, 첨단 AI 시스템의 개발 과정에서 어떤 조치를 취해야 합니까?',
  'ANSWER': 'G7 국가들은 첨단 AI 시스템의 개발 과정에서 AI 수명주기 전반에 걸쳐 위험을 평가 및 완화하는 조치를 채택해야 합니다.'},
 {'QUESTION': '한국과 영국 정부가 공동 개최하기로 합의한 AI 미니 정상회의는 언제 온라인으로 개최될 예정입니까?',
  'ANSWER': '한국과 영국 정부는 6개월 뒤에 온라인으로 AI 미니 정상회의를 공동 개최하기로 합의했습니다.'}]

In [20]:
# 디버깅을 위한 데이터셋 추가
additional_qa = [
    {
        "QUESTION": "테디노트 유튜브 채널에 대해서 알려주세요.",
        "ANSWER": "테디노트(TeddyNote)는 데이터 분석, 머신러닝, 딥러닝 등의 주제를 다루는 유튜브 채널입니다. 이 채널을 운영하는 이경록님은 데이터 분석과 인공지능에 대한 다양한 강의를 제공하며, 초보자도 쉽게 따라할 수 있도록 친절하게 설명합니다.",
    },
    {
        "QUESTION": "랭체인 관련 튜토리얼은 어디서 찾을 수 있나요?",
        "ANSWER": "테디노트의 위키독스 페이지에는 LangChain에 대한 다양한 한국어 튜토리얼이 제공됩니다. 링크: https://wikidocs.net/book/14314",
    },
    {
        "QUESTION": "테디노트 운영자에 대해서 알려주세요",
        "ANSWER": "테디노트(TeddyNote) 운영자는 이경록(Teddy Lee)입니다. 그는 데이터 분석, 머신러닝, 딥러닝 분야에서 활동하는 전문가로, 다양한 교육 및 강의를 통해 지식을 공유하고 있습니다. 이경록님은 여러 기업과 교육기관에서 파이썬, 데이터 분석, 텐서플로우 등 다양한 주제로 강의를 진행해 왔습니다",
    },
]

In [27]:
qa_pair.extend(additional_qa)
qa_pair

[{'QUESTION': '바이든 대통령이 발표한 행정명령에서 AI 시스템의 안전성과 신뢰성을 확인하기 위해 어떤 조치를 추진하고 있습니까?',
  'ANSWER': '바이든 대통령이 발표한 행정명령에서는 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한 주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및 AI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진하고 있습니다.'},
 {'QUESTION': 'G7 국가들이 채택한 AI 국제 행동강령에 따르면, 첨단 AI 시스템의 개발 과정에서 어떤 조치를 취해야 합니까?',
  'ANSWER': 'G7 국가들은 첨단 AI 시스템의 개발 과정에서 AI 수명주기 전반에 걸쳐 위험을 평가 및 완화하는 조치를 채택해야 합니다.'},
 {'QUESTION': '한국과 영국 정부가 공동 개최하기로 합의한 AI 미니 정상회의는 언제 온라인으로 개최될 예정입니까?',
  'ANSWER': '한국과 영국 정부는 6개월 뒤에 온라인으로 AI 미니 정상회의를 공동 개최하기로 합의했습니다.'},
 {'QUESTION': 'FTC가 생성 AI와 관련하여 어떤 유형의 위험에 주목하고 있습니까?',
  'ANSWER': 'FTC는 생성 AI의 사용과 관련하여 소비자의 개인정보 침해, 차별과 편견의 자동화, 사기 범죄 등의 위험에 주목하고 있습니다.'},
 {'QUESTION': '프런티어 모델 포럼이 AI 안전 기금을 조성하는 주된 목적은 무엇입니까?',
  'ANSWER': '프런티어 모델 포럼이 AI 안전 기금을 조성하는 주된 목적은 AI 모델의 취약점을 발견하고 검증하는 레드팀 활동을 지원하기 위함입니다.'},
 {'QUESTION': '데이터 출처 탐색기 플랫폼이 공개된 날짜는 언제입니까?',
  'ANSWER': '데이터 출처 탐색기 플랫폼은 2023년 10월 25일에 공개되었습니다.'},
 {'QUESTION': '알리바바 클라우드가 오픈소스화할 계획인 

## jsonl 파일로 저장


In [34]:
import json

with open("qa_pair.jsonl", "w", encoding="utf-8") as f:
    for qa in qa_pair:
        qa_modified = {
            "instruction": qa["QUESTION"],
            "input": "",
            "output": qa["ANSWER"],
        }
        f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

HuggingFace datasets 라이브러리를 사용하여 데이터셋을 로드합니다.


In [35]:
from datasets import load_dataset

# JSONL 파일 경로
jsonl_file = "qa_pair.jsonl"

# JSONL 파일을 Dataset으로 로드
dataset = load_dataset("json", data_files=jsonl_file)

Generating train split: 0 examples [00:00, ? examples/s]

In [36]:
dataset

DatasetDict({
    train: Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 16
    })
})

In [37]:
from huggingface_hub import HfApi

# HfApi 인스턴스 생성
api = HfApi()

# 데이터셋을 업로드할 리포지토리 이름
repo_name = "teddylee777/QA-Dataset-mini"

# 데이터셋을 허브에 푸시
dataset.push_to_hub(repo_name, token="")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/308 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/teddylee777/QA-Dataset-mini/commit/112ac542e372b8793b793597bab233f8705c0dbe', commit_message='Upload dataset', commit_description='', oid='112ac542e372b8793b793597bab233f8705c0dbe', pr_url=None, pr_revision=None, pr_num=None)