In [5]:
!pip install -r requirements.txt

[0m

In [1]:
import torch
import transformers
from ast import literal_eval
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM, SFTConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
import json
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt
import evaluate
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm
from peft import AutoPeftModelForCausalLM, LoraConfig

pd.set_option('display.max_columns', None)

In [None]:
# 난수 고정
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)

set_seed(42) # magic number :)

In [1]:
import pandas as pd
from datasets import load_from_disk

# 데이터 경로 설정
dataset_path = "/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/qa_dataset"

# 데이터 로드
dataset = load_from_disk(dataset_path)

# Train 데이터에서 'text' 컬럼 추출
train_texts = dataset['train']['text']  # 'text' 컬럼만 추출

# Pandas DataFrame 생성
train_df = pd.DataFrame({'text': train_texts})

# 데이터프레임 확인
print("Train DataFrame:")
print(train_df.head())


Train DataFrame:
                                                text
0  역사라는 말은 사람에 따라 다양한 뜻으로 사용되고 있지만, 일반적으로 ‘과거에 있었...
1  역사를 배운다는 것은 역사 그 자체를 배운다는 의미와 역사를 통하여 배운다는 의미가...
2  인간은 동물이나 식물과 다른 인간 고유의 생활 모습을 지니고 있으며, 자유, 평등,...
3  우리 조상들은 유구한 역사를 거치면서 슬기를 발휘하고 노력을 기울여 문화를 발전시켜...
4  우리가 살고 있는 지구상에 인류가 처음으로 출현한 것은 지금부터 약 300만∼350...


In [2]:
print('hi')

hi


In [3]:
# Load the train dataset
dataset = pd.read_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/v0.1.6.csv') 

# Flatten the JSON dataset
records = []
for _, row in dataset.iterrows():
    problems = literal_eval(row['problems'])
    record = {
        'id': row['id'],
        'paragraph': row['paragraph'],
        'question': problems['question'],
        'choices': problems['choices'],
        'answer': problems.get('answer', None),
        "question_plus": problems.get('question_plus', None),
    }
    # Include 'question_plus' if it exists
    if 'question_plus' in problems:
        record['question_plus'] = problems['question_plus']
    records.append(record)
        
# Convert to DataFrame
df = pd.DataFrame(records)
df

Unnamed: 0,id,paragraph,question,choices,answer,question_plus
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2,
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,(가)지역에 대한 설명으로 옳은 것은?,"[이곳에 대장 도감을 설치하여 재조 대장경을 만들었다., 지눌이 이 곳에서 수 선사...",4,
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,밑줄 친‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다., 김춘추의 신라 왕위 계승을 지원하였다., 청해진...",2,
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",(가)인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다., 대전회통을 편찬하였다., 비변사의 기능을 강화하였다., 통...",3,
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)국가에 대한 설명으로 옳은 것은?,"[나당 연합군의 공격으로 멸망하였다., 9 주 5 소경의 지방 행정 구역을 두었다....",3,
...,...,...,...,...,...,...
1911,generation-for-nlp-2893,"“헐값에 팔리는 냉동 오렌지 주스만 잔뜩 사 가고, 쿠폰을 오려 모았으며, 구멍 난...",잭 맥도널드가 남긴 유산의 총액은 얼마인가?,"[1 억 8760 만 달러, 5000 만 달러, 2 억 달러, 1 억 달러, 3 억...",1,
1912,generation-for-nlp-2894,"넷기어코리아(지사장 김진 겸, 이하넷기어)가뮤럴 캔버스를 가지고 넷 기어 SNS에서...",넷 기어가 모집하는'뮤럴공식도슨트'의 주요 역할은 무엇인가?,"[전시물 설명 및 안내, 고객 서비스 제공, 제품 판매 촉진, 온라인 강좌 콘텐츠 ...",4,
1913,generation-for-nlp-2895,서울 성동구 옥수동과 금호동은 맞붙어 있는 동네지만 아파트값은 같은 면적에서 1 억...,옥수동과 금호동의 아파트값 차이가 발생한 주된 이유는 무엇인가?,"[옥수동의 재개발이 먼저 이루어졌다, 금호동의 인구가 더 많다, 옥수동이 더 많은 ...",1,
1914,generation-for-nlp-2896,방하남 고용 노동부 장관(사진)이 취임 후 첫 외부 행사로 5년 만에 일자리를 3....,방하남 고용 노동부 장관이 방문한 기업의 이름은 무엇인가?,"[셀 트리온, 삼성전자, LG화학, 한화그룹, 현대자동차]",1,


In [48]:
result

Unnamed: 0,id,paragraph,question_plus,problems
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",,{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두...
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,,"{'question': '(가)지역에 대한 설명으로 옳은 것은?', 'choices..."
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,,"{'question': '밑줄 친‘그’에 대한 설명으로 옳은 것은?', 'choic..."
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",,"{'question': '(가)인물이 추진한 정책으로 옳지 않은 것은?', 'cho..."
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,,"{'question': '(가)국가에 대한 설명으로 옳은 것은?', 'choices..."
...,...,...,...,...
6095,TK_2022_42,올해 서른두 살인 준은 어렸을 때부터 특출나게 뛰어난 재능이 없다는 점이 큰 불만이...,,"{'question': '다음 글의 내용으로 알 수 있는 것을 고르십시오.', 'c..."
6096,TK_2022_43,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,,"{'question': '( )에 들어갈 말로 가장 알맞은 것을 고르십시오.', '..."
6097,TK_2022_44,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,,"{'question': '다음 글의 주제로 가장 알맞은 것을 고르십시오.', 'ch..."
6098,TK_2022_45,"세계는 신에너지, 자동화, 우주여행 등이 주도하는 시대로 급속히 접어들고 있다. 세...",,{'question': '다음 글에 나타난 필자의 태도로 가장 알맞은 것을 고르십시...


In [47]:
result = result.drop(columns=['question', 'choices', 'answer'])


In [31]:
ag_result = ag_result.rename(columns={
    'ag_question': 'question',
    'ag_choices': 'choices',
    'ag_answer': 'answer'
})
ag_result

Unnamed: 0,id,paragraph,question,choices,answer
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...","위의 인용문에서 언급된 '정체'의 의미와 관련하여, 다음 중 올바른 설명은 무엇인가?",1. 정체는 조상의 제사를 지내는 것을 의미한다.\n2. 정체는 가문의 법통을 전하...,5
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,위의 인용문에서 언급된 '대업'을 이루기 위해 왕이 해야 할 행동은 무엇인가?,1. 나라를 정복하다\n2. 춘하추동 네 계절의 중간 달에 특정 장소에 100일 이...,2
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,"소정방이 신라 군의 늦은 도착을 이유로 김문영의 목을 베고자 했을 때, 김문영이 한...",1. 신라 군은 백제와의 전투를 피해야 한다.\n2. 신라 군은 먼저 당나라 군사와...,2
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",위의 내용에서 한성부의 조례와 병졸이 선비들을 어떻게 처리했는가?,1. 선비들을 대궐로 초대하였다.\n2. 선비들을 한강 밖으로 몰아냈다.\n3. 선...,2
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)에서 언급된 대무예가 주장한 내용 중 올바른 것은 무엇인가?,1. 고구려의 옛 땅을 회복하였다는 주장\n2. 일본의 왕이 보낸 국서를 전하였다는...,1
...,...,...,...,...,...
2715,Kedu_16_50,로마자 표기가 옳은 것은?,방하남 고용 노동부 장관이 방문한 셀트리온은 어떤 분야의 기업인가?,1. 바이오 의약품\n2. 전자기기\n3. 자동차 제조\n4. 화학 제품\n5. 정보통신,1
2716,Kedu_16_51,외래어 표기가 옳지 않은 것은?,외래어 표기가 옳지 않은 것은?,1. 카페 - café\n2. 피자 - pizza\n3. 택시 - taxi\n4. ...,4
2717,Kedu_16_52,복수 표준어의 짝으로 옳지 않은 것은?,복수 표준어의 짝으로 옳지 않은 것은?,1. 고유어 - 순우리말\n2. 외래어 - 외국어\n3. 방언 - 지역어\n4. 전...,2
2718,Kedu_16_53,다음 중 단어의 표준 발음이 옳지 않은 것은?,방하남 고용 노동부 장관이 방문한 셀트리온은 어떤 분야의 기업인가?,1. 바이오 의약품\n2. 전자기기\n3. 자동차 제조\n4. 화학 산업\n5. 정보통신,1


In [None]:
result.to_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/ag_click')

In [33]:
import pandas as pd

# 예제 데이터프레임 (df, df1 생성)

# df1 = pd.read_csv("/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/click_for_augment.csv")
# # 1. df에서 'question_plus' 열 삭제
# df = df.drop(columns=['question_plus'])
cc = pd.read_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/click_for_train.csv')
# 2. df와 df1 병합
result = pd.concat([result, cc], ignore_index=True)

# 결과 출력
result


Unnamed: 0,id,paragraph,question,choices,answer
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,(가)지역에 대한 설명으로 옳은 것은?,"[이곳에 대장 도감을 설치하여 재조 대장경을 만들었다., 지눌이 이 곳에서 수 선사...",4
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,밑줄 친‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다., 김춘추의 신라 왕위 계승을 지원하였다., 청해진...",2
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",(가)인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다., 대전회통을 편찬하였다., 비변사의 기능을 강화하였다., 통...",3
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)국가에 대한 설명으로 옳은 것은?,"[나당 연합군의 공격으로 멸망하였다., 9 주 5 소경의 지방 행정 구역을 두었다....",3
...,...,...,...,...,...
6095,TK_2022_42,올해 서른두 살인 준은 어렸을 때부터 특출나게 뛰어난 재능이 없다는 점이 큰 불만이...,다음 글의 내용으로 알 수 있는 것을 고르십시오.,"['준은 여행지에서 해 뜨는 방향을 한 번에 찾았다.', '준의 부모님은 아들과 같...",1
6096,TK_2022_43,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,( )에 들어갈 말로 가장 알맞은 것을 고르십시오.,"['값비싼 물건을 매매했기', '다양한 지도를 수집했기', '미지의 땅을 찾아 떠났...",3
6097,TK_2022_44,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,다음 글의 주제로 가장 알맞은 것을 고르십시오.,"['콜럼버스는 새로운 대륙을 개척하는 데 기여한 바가 크다.', '신대륙 발견은 동...",4
6098,TK_2022_45,"세계는 신에너지, 자동화, 우주여행 등이 주도하는 시대로 급속히 접어들고 있다. 세...",다음 글에 나타난 필자의 태도로 가장 알맞은 것을 고르십시오.,"['과학 정책에 대한 정부의 지나친 개입을 경계하고 있다.', '과학 기술 발전을 ...",1


In [49]:
result.to_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/agmentation.csv')

# OpenAI API 키 설정
# openai.api_key = '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'  # 실제 API 키를 여기에 입력하세요.

# "generation-for-nlp-426","generation-for-nlp-498",

In [43]:
result

result['problems'] = result.apply(
    lambda row: {
        'question': row['question'],
        'choices': row['choices'],
        'answer': row['answer']
    }, axis=1
)
result

Unnamed: 0,id,paragraph,question,choices,answer,question_plus,problems
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2,,{'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두...
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,(가)지역에 대한 설명으로 옳은 것은?,"[이곳에 대장 도감을 설치하여 재조 대장경을 만들었다., 지눌이 이 곳에서 수 선사...",4,,"{'question': '(가)지역에 대한 설명으로 옳은 것은?', 'choices..."
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,밑줄 친‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다., 김춘추의 신라 왕위 계승을 지원하였다., 청해진...",2,,"{'question': '밑줄 친‘그’에 대한 설명으로 옳은 것은?', 'choic..."
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",(가)인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다., 대전회통을 편찬하였다., 비변사의 기능을 강화하였다., 통...",3,,"{'question': '(가)인물이 추진한 정책으로 옳지 않은 것은?', 'cho..."
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)국가에 대한 설명으로 옳은 것은?,"[나당 연합군의 공격으로 멸망하였다., 9 주 5 소경의 지방 행정 구역을 두었다....",3,,"{'question': '(가)국가에 대한 설명으로 옳은 것은?', 'choices..."
...,...,...,...,...,...,...,...
6095,TK_2022_42,올해 서른두 살인 준은 어렸을 때부터 특출나게 뛰어난 재능이 없다는 점이 큰 불만이...,다음 글의 내용으로 알 수 있는 것을 고르십시오.,"['준은 여행지에서 해 뜨는 방향을 한 번에 찾았다.', '준의 부모님은 아들과 같...",1,,"{'question': '다음 글의 내용으로 알 수 있는 것을 고르십시오.', 'c..."
6096,TK_2022_43,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,( )에 들어갈 말로 가장 알맞은 것을 고르십시오.,"['값비싼 물건을 매매했기', '다양한 지도를 수집했기', '미지의 땅을 찾아 떠났...",3,,"{'question': '( )에 들어갈 말로 가장 알맞은 것을 고르십시오.', '..."
6097,TK_2022_44,서양 역사에서는 15ㆍ16세기를 ‘위대한 발견의 시대’라고 부른다. 콜럼버스 처럼 ...,다음 글의 주제로 가장 알맞은 것을 고르십시오.,"['콜럼버스는 새로운 대륙을 개척하는 데 기여한 바가 크다.', '신대륙 발견은 동...",4,,"{'question': '다음 글의 주제로 가장 알맞은 것을 고르십시오.', 'ch..."
6098,TK_2022_45,"세계는 신에너지, 자동화, 우주여행 등이 주도하는 시대로 급속히 접어들고 있다. 세...",다음 글에 나타난 필자의 태도로 가장 알맞은 것을 고르십시오.,"['과학 정책에 대한 정부의 지나친 개입을 경계하고 있다.', '과학 기술 발전을 ...",1,,{'question': '다음 글에 나타난 필자의 태도로 가장 알맞은 것을 고르십시...


In [70]:
import pandas as pd
import re
import ast
# 예제 데이터프레임
result = pd.read_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/agmentation.csv')
# 'choices' 파싱 함수




# 문자열을 dict로 변환하는 함수
def convert_to_dict(problem):
    if isinstance(problem, str):  # 문자열인지 확인
        try:
            return ast.literal_eval(problem)  # 문자열을 dict로 변환
        except (SyntaxError, ValueError) as e:
            print(f"Conversion error for problem: {problem} - {e}")
            return problem  # 변환 실패 시 원본 반환
    return problem  # 이미 dict라면 그대로 반환

# 문제 컬럼의 문자열을 dict로 변환
result['problems'] = result['problems'].apply(convert_to_dict)

# 'choices' 파싱 함수
def parse_choices_if_needed(problem):
    if not isinstance(problem, dict):  # dict인지 확인
        return problem  # dict가 아니면 그대로 반환

    choices = problem.get('choices', None)
    if isinstance(choices, list):  # 이미 리스트 형태면 그대로 반환
        return problem
    elif isinstance(choices, str):  # 문자열 형태면 파싱
        parsed_choices = re.split(r'\d+\.\s', choices)
        parsed_choices = [item.strip() for item in parsed_choices if item.strip()]
        problem['choices'] = parsed_choices
    return problem

# 'choices' 값 파싱
result['problems'] = result['problems'].apply(parse_choices_if_needed)

# 결과 확인
print(result)
# 결과 확인
# print(result)
# parse_choices_if_needed
# 결과 확인
# print(result)
# data.to_csv('eeeeeeee.csv')

      Unnamed: 0                      id  \
0              0  generation-for-nlp-425   
1              1  generation-for-nlp-427   
2              2  generation-for-nlp-428   
3              3  generation-for-nlp-429   
4              4  generation-for-nlp-431   
...          ...                     ...   
6095        6095              TK_2022_42   
6096        6096              TK_2022_43   
6097        6097              TK_2022_44   
6098        6098              TK_2022_45   
6099        6099              TK_2022_46   

                                              paragraph  question_plus  \
0     상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...            NaN   
1     나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...            NaN   
2     이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...            NaN   
3     선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...            NaN   
4     (가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...            NaN   
...                        

In [72]:
result.to_csv('/data/ephemeral/home/gyeom/level2-nlp-generationfornlp-nlp-10-lv3/data/agmentation.csv')

In [69]:
result
def eda_on_problem_column(df, column_name='problems'):
    print(f"\n### EDA for `{column_name}` Column ###\n")
    
    # 1. 컬럼의 데이터 유형 확인
    print(f"1. 데이터 타입 확인: {df[column_name].dtype}\n")
    
    # 2. 결측치 확인
    null_count = df[column_name].isnull().sum()
    print(f"2. 결측치 개수: {null_count}\n")
    
    # 3. 유효 데이터 수와 None 포함 데이터 비율 확인
    total_count = len(df[column_name])
    valid_count = total_count - null_count
    print(f"3. 총 데이터 개수: {total_count}")
    print(f"   유효 데이터 개수: {valid_count}")
    print(f"   None 데이터 비율: {null_count / total_count * 100:.2f}%\n")
    
    # 4. 첫 몇 개의 데이터 확인
    print(f"4. 데이터 샘플:")
    print(df[column_name].head(), "\n")
    
    # 5. 컬럼 내 데이터 타입 분포 확인
    types = df[column_name].dropna().map(type).value_counts()
    print(f"5. 데이터 타입 분포:")
    print(types, "\n")
    
    # 6. 딕셔너리 키 분포 (딕셔너리인 경우에만)
    dict_rows = df[column_name].dropna().map(lambda x: x if isinstance(x, dict) else None).dropna()
    if len(dict_rows) > 0:
        keys = dict_rows.map(lambda x: list(x.keys())).explode().value_counts()
        print(f"6. 딕셔너리 내 키 분포:")
        print(keys, "\n")
    
    # 7. 선택지 길이 분석 (choices 키 포함 시)
    if 'choices' in df[column_name].dropna().iloc[0]:
        choices_length = dict_rows.map(lambda x: len(x['choices']) if isinstance(x['choices'], list) else 1)
        print(f"7. `choices` 길이 분포:")
        print(choices_length.describe(), "\n")
    
# EDA 실행
eda_on_problem_column(result)


### EDA for `problems` Column ###

1. 데이터 타입 확인: object

2. 결측치 개수: 0

3. 총 데이터 개수: 6100
   유효 데이터 개수: 6100
   None 데이터 비율: 0.00%

4. 데이터 샘플:
0    {'question': '상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두...
1    {'question': '(가)지역에 대한 설명으로 옳은 것은?', 'choices...
2    {'question': '밑줄 친‘그’에 대한 설명으로 옳은 것은?', 'choic...
3    {'question': '(가)인물이 추진한 정책으로 옳지 않은 것은?', 'cho...
4    {'question': '(가)국가에 대한 설명으로 옳은 것은?', 'choices...
Name: problems, dtype: object 

5. 데이터 타입 분포:
problems
<class 'str'>    6100
Name: count, dtype: int64 

7. `choices` 길이 분포:
count       0
unique      0
top       NaN
freq      NaN
Name: problems, dtype: object 



In [60]:
result[result['problems'].isnull()]

Unnamed: 0,id,paragraph,question_plus,problems
2720,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",,
2721,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,,
2722,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,,
2723,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",,
2724,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,,
...,...,...,...,...
5435,Kedu_16_50,로마자 표기가 옳은 것은?,,
5436,Kedu_16_51,외래어 표기가 옳지 않은 것은?,,
5437,Kedu_16_52,복수 표준어의 짝으로 옳지 않은 것은?,,
5438,Kedu_16_53,다음 중 단어의 표준 발음이 옳지 않은 것은?,,


In [None]:
from openai import OpenAI

client = OpenAI(api_key = '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')

def check_mismatch(paragraph):

    prompt = f"""당신은 수능 출제 전문가 입니다. 과목은 수능의 국어, 사회 영역(윤리, 정치, 사회, 역사, 경제, 지리) 
        아래 예시를 보고 주어진 paragraph, question와 대한민국 수능 범위를 참고해서 출제할 수 있는 수능문제 형식의 question, choices(5지선다), answer를 생성해주세요
        
        예시:
        paragraph:
        미국 정신 의학회(AmericanPsychiatricAssociation)에서 발행한 "정신 질환 진단 및 통계 편 람(DSM-IV)"은 다음의 모든 항목에 대한 정보를 제공합니다.
        
        question: 
        여기에 해당하지 않는 것은 무엇입니까?
        
        choices: 
        1. 정신 질환 명
        2. 모든 정신 질환의 분류
        3. 모든 정신 질환의 주요 증상
        4. 모든 정신 질환의 원인
        5. 정신 질환 정보 
        
        answer: 
        4

        paragraph:
        국회 정무 위원회 전해철 국회의원(더불어민주당)은 16일 금융 위원회가 운영하는 옴부즈만 제도가 소비자 보호와 관련해서 운영 실적이 저조하다고 밝혔다.2016년 2월 출범한 금융위 옴부즈만은 금융 규제를 상시 점검하고 불합리한 금융 규제를 개선하여 금융 회사의 고충을 경감하고 금융 소비자를 보호하기 위한 취지로 설치되었다. 전해철 의원실이 금융 위원회로부터 제출받은 국정 감사 자료에 따르면,16년 출범 이후 17년 9월 말까지 총 20개월 동안 금융 회사 고충 처리 민원은 65건, 소비자 보호를 위한 제도 개선은 16건으로 나타났다. 이 중 고충 처리 민원 6건과 소비자 보호 제도 개선 7건은 금감원 등 타 기관으로 이첩하여 실제 옴부즈만이 처리한 고충 처리 민원은 59건, 소비자 보호 제도 개선 9건으로 각각 월평균 2.95건,0.45건이다. 현재 옴부즈만 메일, 금융 규제 민원 포털 등 공식적인 채널로는 사건 접수가 매우 저조하다. 총 81건 중 단 1건만이 온라인으로 신청된 건이고, 나머지 80건 중 80 %이상이 금융 회사가 개별 옴부즈만에게 개인적, 비공식적으로 건의하는 민원들이 안건으로 주로 상정되는 상황은 금융 회사 고충 민원 처리에 집중되어 있는 옴부즈만 활용 현황을 반영하고 있는 것으로 보인다. 또한 옴부즈만은 2016년 2월 출범 후 연 4회로 회의를 예정하여 3회 개최하였다가 1주년인 2017년 2월 연 8회로 회의를 확대 개최하겠다고 계획하였으나 2017년 10월 현재까지도 4회 개최하는 데 그치는 등 활발한 운용이 이루어지고 있지 않은 것으로 나타났다. 금융 위원회는 올 2월 옴부즈만 설치 1주년을 맞아 옴 부즈 만 기능을 강화하겠다고 하였으나 동 제도는 별도의 법령이 아니라 국무총리 훈령인「금융 규제 운영 규정」의 위임을 받아 금융 위원회 고시인「금융 위원회 옴부즈만 운영 규칙 제정 안」에 따른 자문 기구에 불과하다는 점도 제도적 맹점이다. 전해철 의원은“옴부즈만 제도의 취지와 목적에 따라 금융 위원회가 옴부즈만을 내실 있게 운영하기 위해서는 소비자 보호 제도 개선 기능을 강화할 필요가 있다”며“제도의 실질화 및 독립성 강화, 홍보 확대 등을 위한 실질적인 방안을 모색해야한다”고 밝혔다.
        
        question: 전해철 국회 의원이 언급한 옴부즈만 제도의 주요 목적은 무엇인가?
        
        choices:
        1. 금융 소비자 보호
        2. 금융 회사의 이익 증대
        3. 금융 규제 완화
        4. 소비자 민원 처리
        5. 금융 시장 활성화
        
        answer: 1

        paragraph:
        당신이 정말 부지런하고 똑똑하다면, 그리고 꿈이 있다면 10 대 대기업에는 가지 마라.”대기업 입사를 위해 학점을 높이고 영어 점수를 만들고 공모전에 여념이 없는‘취준생’에게 이 말은 다소 황당하게 들릴지도 모르겠다. 하지만 연 매출 1 조 원이 넘는 세원 그룹의 김문기 회장은“(대기업에선)임원이 부하 직원의 이름도 모르는데 어떻게 제대로 평가하고 보상할 수 있겠는가”라며“(중소기업)조직에서 일에 집중하며 회사를 성장시키면 회사와 함께 나도 성장한다”고 강조한다. 이것이 또 다른 의미의‘창업’이란 설명이다.《제로 플러스》는 현대자동차 품질 평가 팀에서 9년째 부품 협력사를 진단· 평가하는 업무를 맡고 있는 저자가 들려주는 중견· 중소기업인 이야기다.1000명 이상의 중소기업 창업주와 전문 경영인을 만난 저자는 끈기와 치열함, 신뢰와 오너 십, 상생과 나눔 등 자신만의 경쟁력으로 기업을 성장시킨 기업인들의 경영 노하우와 인생관을 책에 담아냈다. 책에는 총 9명의 기업인이 등장한다. 김문기 회장은“화장실이 깨끗해야 회사가 바로 선다”는‘화장실 경영학’과 자발적 리더십으로 기업을 일궜다 .서중호아 진 산업 사장은 모든 직원에게 스포츠카를 사 줄 수 있는 회사를 만들겠다는 목표로 나눔 경영을 실천해 왔고, 강성진 월드 솔루션 사장은 고아· 전과자· 고교 중퇴라는 스펙을 갖고도 오기와 성실을 무기로 경영 신화를 썼다. 양진 석호 원사 장은 야전 침대에서 신발을 신은 채 잠자며 일등 부품 사를 키워 냈고, 고(故)김인찬 신기 인터 모빌 회장은 움직이는 자가 반드시 이긴다는 정신으로 최고의 자동차 내장재 전문 기업을 일궜다. 직접 발로 뛰며 현장에서 문제를 찾아 해결하는 최광 오 대풍 공업 사장, 과감한 연구 개발 투자와 현장 작업 환경 개선을 단행한 정 순백 위너 콤 주식회사 사장, 대기업에서 뛰쳐나와 부지런함을 무기로 건실한 기업을 일군 행복 경영 추구자 김은호 동진 이공 회장, 자신이 할 수 있는 일을 열심히 하다 보면 반드시 기회가 찾아온다는 진성 현명 진 테크 사장의 이야기도 감동적이다. 저자는 기업을 세우고 성공적으로 경영한 이들로부터 공통된 특징을 찾을 수 있다고 말한다. 긍정적인 마음가짐을 갖고 있으며 스펙보다 경험을 중시한다. 일에 대한 집중과 몰입도가 높고 성공을 이룬 뒤에도 초심을 잃지 않는다. 자신만의 이익을 추구하지 않고 직원에게 돌려주고 나아가 국가 발전을 위해 일한다는 마음으로 노력한다. 이들의 또 한 가지 공통점은 중소기업 예찬론. 대기업보다 중소 기업에서 일할 때 더 성장할 수 있다는 것이다 .서중호 사장은“사장이 끌고 직원들이 졸졸 따라 가면 딱 사장 수준만큼만 결과가 나온다”며“직원들이 모두‘오너’와 같은 마음을 가질 때 회사는 사장의 수준을 뛰어넘는 성과를 낼 수 있다”고 강조한다.
        
        question': '김문기 회장이 강조한 중소기업의 장점은 무엇인가?
        
        choices:
        1. 임원이 부하 직원의 이름을 모른다
        2. 조직에서 일에 집중하며 회사와 함께 성장할 수 있다
        3. 대기업보다 높은 연봉을 제공한다
        4. 직원들이 모두 사장과 같은 마음을 가진다
        5. 스펙보다 학력을 중시한다
        
        answer: 2

        paragraph:
        백금이‘귀금속의 제왕’으로 불리는 금의 자리를 꿰차고 있다.13일 월스트리트저널(WSJ)에 따르면 올 들어 세계 경기 회복과 함께 산업용 백금의 수요가 늘고 있고, 최근에는 목걸이, 팔찌 등 장식용 귀금속 시장에서도 빠른 속도로 금을 대체하고 있다. 특히 전 세계에서 두 번째로 금을 많이 소비하는 인도의 백금 수요가 올해는 지난해보다 35 %나 증가한 21 만 온스에 달할 것으로 마케팅 조사 기관인 길드 인터내셔널은 전망했다.WSJ 는 금 일변도 장식에 싫증 난 인도 소비자들의 백금 선호 현상이 급속도로 확산되고 있다고 전했다. 미국과 일본도 경기 회복 조짐과 함께 백금 수요가 올해 각각 11 %와 12 %증가할 것으로 예상했다. 백금은 디젤 자동차의 촉매 변환 장치와 의료용 기기 등에 필수 소재로 사용된다. 백금 가격도 올 들어 4.3 %오르면서 금과의 격차가 확대되고 있다. 톰슨 로이터에 따르면 이날 기준 백금 가격은 온스당 1429달러로 3개월 전과 비교해 18달러 오른 반면 금값은 온스당 1291달러로 최근 3개월간 11달러 하락했다.
        
        question: 
        올해 인도의 백금 수요가 지난해보다 얼마나 증가할 것으로 전망되었는가?
        
        choices: 
        1. 10 %
        2. 20 %
        3. 30 %
        4. 35 %
        5. 50 %
        
        answer: 4

        paragraph:
        일본 유통업체가 자율 계산 점포를 늘리고 있다. 계산원 부족 문제를 해결하고 신속한 계산으로 고객 대기 시간을 줄이기 위해서다. 일본 편의점 업체 패밀리마트가 30일부터 전철역 안에 있는 점포를 중심으로 고객이 직접 계산하는 자율 계산대를 도입한다고 니혼게이자이신문이 29일 보도했다.2017년까지 전체 점포의 10 %에 해당하는 1500개 점포로 확대할 예정이다. 이 신문에 따르면 패밀리마트는 도쿄 닛 포리 역에 있는 점포 등 5개 점포에 자율 계산대를 우선 도입한다. 소비자는 제품 포장재에 인쇄된 바코드를 계산대에 갖다 댄 뒤 금액을 교통 카드 등 전자 머니 카드로 결제하면 된다. 점포 관리를 위해 직원이 배치된 계산대도 일단 유지하기로 했다.1회 구매 한도는 1 만 엔 미만으로 대상 제품은 식품과 일용품, 잡지· 신문 등이다 .구매허가가 필요한 담배와 주류는 살 수 없다. 편의점 업계 2위인 로손도 2010년 자율 계산 점포를 도입해 현재 50개 점포에서 71개 계산대를 운영하고 있다. 철도 회사 JR 동일본 자회사인 JR 동일본 리테일 넷도 자율 계산 점포를 늘리고 있다. 편의점 외 슈퍼마켓 등 다른 유통 업체로 보급이 확대되고 있다고 니혼게이자이신문은 보도했다. 일본 슈퍼마켓 협회 등 3 대 소매 유통 단체에 따르면 51개 이상 점포를 운영하는 슈퍼마켓 중 60 %가량이 자율 계산대를 도입하고 있다. 유통업체는 자율 계산 점포 도입이 인력 부족이나 아르바이트 임금 상승 등의 문제를 해결하는 하나의 방법이 될 것으로 기대한다고 이 신문은 전했다.
        
        question: 일본의 자율 계산 점포 도입을 주도하고 있는 편의점 업체는 무엇인가?
        
        choices: 
        1. 세븐일레븐
        2. 로손
        3. 패밀리마트
        4. 미니스톱
        5. 이온 몰
        
        answer: 
        3

        paragraph: 
        방하남 고용 노동부 장관(사진)이 취임 후 첫 외부 행사로 5년 만에 일자리를 3.5 배 늘린 셀트리온을 방문했다. 셀트리온은 제약과 생명 공학의 융· 복합으로 만들어진 바이오 의약품 기업이다. 박근혜 대통령의‘창조 경제’를 염두에 둔 행보로 보인다. 방 장관은 12일 인천 송도에 있는 셀트리온을 방문, 이 회사 노사와 간담회를 했다. 셀트리온은 세계 2위 수준의 생산 설비를 갖춘 바이오 의약품 분야 선도 기업으로 지난해 25.2 %의 매출 증가율을 기록했다.2008년 260명이던 직원은 지난해 890명으로 늘었고‘2012일 자리 창출 유공 포상’도 받았다. 이 회사 계약 직 사원의 정규직 전환율은 95 %에 이른다. 간담회에서 서정진 셀트리온 대표는“은행 대출이 아니라 투자를 많이 받을 수 있어야 기업이 부담 없이 사업을 확장해 일자리를 늘릴 수 있다”며 투자 여건 개선을 건의했다. 방 장관은 기업의 건의 사항을 메모한 뒤“앞으로 더 많은 현장을 다니며 건의· 애로 사항을 듣고 개선해 좋은 일자리 창출로 이어지도록하겠다”고 말했다. 방 장관은 오후에는 한국노총을 방문해 문 진국 위원장을 만났다. 방 장관은“일자리 문제 해결을 위해서는 노사정 모두의 협력이 필수적”이라며 고용률 70 %달성을 위한 한국노총의 협력을 당부했다. 문 위원장은“중산층 70 %복원, 고용률 70 %달성이라는 정부 목표는 한국노총도 지향하는 방향”이라며 화답했다.
        
        question: 
        방하남 고용 노동부 장관이 방문한 기업의 이름은 무엇인가?
        
        choices: 
        1. 셀 트리온
        2. 삼성전자
        3. LG화학
        4. 한화그룹
        5. 현대자동차
        
        answer: 1





        paragraph:
        {paragraph}


        양식:
        ### question:
        (paragraph와 대한민국 수능 범위를 참고해서 출제한 수능형 문제)

        ### choices:
        (question에 해당하는 정답 1개와 오답 4개 정답의 위치는 랜덤)
        1. :
        2. :
        3. :
        4. :
        5. :
        
        ### Answer:
        (choices중 question에 해당하는 정답 번호)

        """
    
    response = client.chat.completions.create(
        model="gpt-4o-mini",  # 또는 사용 가능한 다른 모델
        messages=[
            {"role": "user", "content": prompt}
        ],
        max_tokens=500,
        temperature=0  # 항상 동일한 응답을 위해 설정
    )
    return response.choices[0].message.content.strip()

In [15]:
tmp = check_mismatch(result['paragraph'][2],result['question'][2])
tmp

'### question:\n소정방이 신라 군의 늦은 도착에 대해 불만을 표한 이유는 무엇인가?\n\n### choices:\n1. 신라 군이 백제 군사와의 전투를 피하려고 했기 때문이다.\n2. 신라 군이 당나라 군사와의 결전을 먼저 치르려 했기 때문이다.\n3. 신라 군이 군사들의 사기를 떨어뜨렸기 때문이다.\n4. 신라 군이 백제 군사와의 전투에서 패배했기 때문이다.\n5. 신라 군이 군 문에서 처벌을 받으려 했기 때문이다.\n\n### Answer:\n2'

In [10]:
result

Unnamed: 0,id,paragraph,question,choices,answer
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,(가)지역에 대한 설명으로 옳은 것은?,"[이곳에 대장 도감을 설치하여 재조 대장경을 만들었다., 지눌이 이 곳에서 수 선사...",4
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,밑줄 친‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다., 김춘추의 신라 왕위 계승을 지원하였다., 청해진...",2
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",(가)인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다., 대전회통을 편찬하였다., 비변사의 기능을 강화하였다., 통...",3
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)국가에 대한 설명으로 옳은 것은?,"[나당 연합군의 공격으로 멸망하였다., 9 주 5 소경의 지방 행정 구역을 두었다....",3
...,...,...,...,...,...
2715,Kedu_16_50,로마자 표기가 옳은 것은?,로마자 표기가 옳은 것은?,"['알약 - allyak', '묵호 - Muko', '벚꽃 - beotkot', '...",1
2716,Kedu_16_51,외래어 표기가 옳지 않은 것은?,외래어 표기가 옳지 않은 것은?,"['boat - 보트', 'vision - 비젼', 'terminal - 터미널',...",2
2717,Kedu_16_52,복수 표준어의 짝으로 옳지 않은 것은?,복수 표준어의 짝으로 옳지 않은 것은?,"['서럽다 - 섧다', '찌꺼기 - 찌끼', '애달프다 - 애닯다', '서투르다 -...",3
2718,Kedu_16_53,다음 중 단어의 표준 발음이 옳지 않은 것은?,다음 중 단어의 표준 발음이 옳지 않은 것은?,"['하늘이 맑게[말께] 개었다.', '그는 목소리가 굵직하다[굴찌카다].', '강아...",2


In [27]:
import pandas as pd
from tqdm import tqdm
tqdm.pandas()
ag_result = result[['id', 'paragraph', 'question']]

# check_mismatch 함수 출력 파싱 함수
def parse_output(output):
    # question 부분 추출
    question_start = output.find("### question:") + len("### question:")
    question_end = output.find("### choices:")
    question = output[question_start:question_end].strip()

    # choices 부분 추출
    choices_start = output.find("### choices:") + len("### choices:")
    choices_end = output.find("### Answer:")
    choices = output[choices_start:choices_end].strip()

    # answer 부분 추출
    answer_start = output.find("### Answer:") + len("### Answer:")
    answer = output[answer_start:].strip()

    return question, choices, answer

# `check_mismatch` 함수를 호출하여 결과 생성
def generate_ag_data(row):
    # 실제 `check_mismatch` 호출
    output = check_mismatch(row)
    # 출력 결과를 파싱
    question, choices, answer = parse_output(output)
    return pd.Series([question, choices, answer])

# DataFrame에 적용 (TQDM을 사용한 진행 상황 표시)
print("Processing data with TQDM...")
ag_result[['ag_question', 'ag_choices', 'ag_answer']] = ag_result.progress_apply(
    lambda row: generate_ag_data(row['paragraph']),
    axis=1
)
print("Processing complete!")


# DataFrame에 적용
# ag_result[['ag_question', 'ag_choices', 'ag_answer']] = ag_result.apply(generate_ag_data, axis=1)
# generate_ag_data(ag_result['paragraph'][3])
# 결과 확인
# import ace_tools as tools; tools.display_dataframe_to_user(name="Generated Questions and Answers", dataframe=result)


Processing data with TQDM...


100%|██████████| 2720/2720 [1:59:44<00:00,  2.64s/it]  

Processing complete!



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  ag_result[['ag_question', 'ag_choices', 'ag_answer']] = ag_result.progress_apply(


In [28]:
ag_result

Unnamed: 0,id,paragraph,question,ag_question,ag_choices,ag_answer
0,generation-for-nlp-425,"상소하여 아뢰기를,“신이 좌 참 찬송 준 길이 올린 차자를 보았는데, 상복(喪服)절...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"위의 인용문에서 언급된 '정체'의 의미와 관련하여, 다음 중 올바른 설명은 무엇인가?",1. 정체는 조상의 제사를 지내는 것을 의미한다.\n2. 정체는 가문의 법통을 전하...,5
1,generation-for-nlp-427,나는 삼한(三韓)산천의 음덕을 입어 대업을 이루었다.(가)는/ 은수덕(水德)이 순조...,(가)지역에 대한 설명으로 옳은 것은?,위의 인용문에서 언급된 '대업'을 이루기 위해 왕이 해야 할 행동은 무엇인가?,1. 나라를 정복하다\n2. 춘하추동 네 계절의 중간 달에 특정 장소에 100일 이...,2
2,generation-for-nlp-428,이날 소정방이 부총관 김인문 등과 함께 기벌포에 도착하여 백제 군사와 마주쳤다.…(...,밑줄 친‘그’에 대한 설명으로 옳은 것은?,"소정방이 신라 군의 늦은 도착을 이유로 김문영의 목을 베고자 했을 때, 김문영이 한...",1. 신라 군은 백제와의 전투를 피해야 한다.\n2. 신라 군은 먼저 당나라 군사와...,2
3,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만동묘와 서원을 다시 설립할 것을 청하니,(가)이...",(가)인물이 추진한 정책으로 옳지 않은 것은?,위의 내용에서 한성부의 조례와 병졸이 선비들을 어떻게 처리했는가?,1. 선비들을 대궐로 초대하였다.\n2. 선비들을 한강 밖으로 몰아냈다.\n3. 선...,2
4,generation-for-nlp-431,(가)의사 신고제 덕 등이 일본에 와서 왕이 보낸 국서를 전하였다. 그 국서에 이르...,(가)국가에 대한 설명으로 옳은 것은?,(가)에서 언급된 대무예가 주장한 내용 중 올바른 것은 무엇인가?,1. 고구려의 옛 땅을 회복하였다는 주장\n2. 일본의 왕이 보낸 국서를 전하였다는...,1
...,...,...,...,...,...,...
2715,Kedu_16_50,로마자 표기가 옳은 것은?,로마자 표기가 옳은 것은?,방하남 고용 노동부 장관이 방문한 셀트리온은 어떤 분야의 기업인가?,1. 바이오 의약품\n2. 전자기기\n3. 자동차 제조\n4. 화학 제품\n5. 정보통신,1
2716,Kedu_16_51,외래어 표기가 옳지 않은 것은?,외래어 표기가 옳지 않은 것은?,외래어 표기가 옳지 않은 것은?,1. 카페 - café\n2. 피자 - pizza\n3. 택시 - taxi\n4. ...,4
2717,Kedu_16_52,복수 표준어의 짝으로 옳지 않은 것은?,복수 표준어의 짝으로 옳지 않은 것은?,복수 표준어의 짝으로 옳지 않은 것은?,1. 고유어 - 순우리말\n2. 외래어 - 외국어\n3. 방언 - 지역어\n4. 전...,2
2718,Kedu_16_53,다음 중 단어의 표준 발음이 옳지 않은 것은?,다음 중 단어의 표준 발음이 옳지 않은 것은?,방하남 고용 노동부 장관이 방문한 셀트리온은 어떤 분야의 기업인가?,1. 바이오 의약품\n2. 전자기기\n3. 자동차 제조\n4. 화학 산업\n5. 정보통신,1


In [156]:
import re

def parse_response(response_text):
    reason_match = re.search(r'### Reason:\n(.*?)\n### Conclusion:', response_text, re.S)
    reason = reason_match.group(1).strip() if reason_match else ""

    conclusion_match = re.search(r'### Conclusion:\n(.*?)\n### Answer:', response_text, re.S)
    conclusion = conclusion_match.group(1).strip() if conclusion_match else ""

    answer_match = re.search(r'### Answer:\n(.*)', response_text, re.S)
    answer = answer_match.group(1).strip() if answer_match else ""

    return reason, conclusion, answer


response_text = idx_111
reason, conclusion, answer = parse_response(response_text)

print("Reason:", reason)
print("Conclusion:", conclusion)
print("Answer:", answer)


Reason: - 1: 농촌의 농민들은 문해율 증가의 혜택을 가장 많이 받았을 가능성이 높습니다. 1897년에는 문해율이 24%에 불과했으나, 1955년에는 99.90%로 증가했습니다. 이는 농촌 지역의 교육 기회가 확대되었음을 나타내며, 농민들이 교육을 통해 문해력을 향상시킬 수 있었던 것을 의미합니다.

- 2: 러시아 정교회 소속 성직자들은 전통적으로 교육을 받았던 계층이기 때문에 문해율 증가의 혜택을 상대적으로 덜 받았을 것입니다. 그들은 이미 문해력이 높은 집단에 속했기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 가능성이 큽니다.

- 3: 도시의 중간계급은 교육을 받을 기회가 많았던 계층으로, 문해율 증가의 혜택을 받았을 수 있지만, 그들은 이미 높은 문해율을 가지고 있었을 가능성이 높습니다. 따라서 농촌의 농민들에 비해 상대적으로 덜 혜택을 받았다고 볼 수 있습니다.

- 4: 군대 내 장교들은 교육을 받은 계층이지만, 문해율 증가의 혜택을 받았다고 보기 어렵습니다. 그들은 이미 문해력이 높은 집단에 속해 있었기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 것입니다.
Conclusion: 문해율 증가의 혜택을 가장 많이 받은 사람들은 농촌의 농민들입니다. 그들은 교육 기회가 부족했던 과거에 비해 문해율이 크게 향상되었기 때문에, 이 변화의 혜택을 가장 많이 누렸다고 할 수 있습니다. 반면, 다른 선택지들은 이미 높은 문해율을 가진 집단이거나 문해율 증가의 혜택을 덜 받았던 집단입니다.
Answer: 1


In [145]:
idx = 1
paragraph = df['paragraph'].iloc[idx]
question = df['question'].iloc[idx]
choices = df['choices'].iloc[idx]

tqdm.pandas()  # tqdm을 사용하여 progress bar를 추가
def process_row(paragraph, question, choices):
    response_text = check_mismatch(paragraph, question, choices)
    reason, conclusion, answer = parse_response(response_text)
    return pd.Series([reason, conclusion, answer])

# 새 컬럼 추가
# df[['gpt_reason', 'gpt_conclusion', 'gpt_answer']] = df.progress_apply(process_row, axis=1)


In [147]:
# a = [paragraph, question, choices]
t = process_row(paragraph, question, choices)
t

0    - 1: (context, question, 선택지에 대한 분석과 설명)  \n  ...
1    모든 선택지(1, 2, 3, 4)가 (가)에 대한 설명으로 옳지 않다. 따라서 '잘...
2                                                    0
dtype: object

In [130]:
print(df[df['choices'].apply(lambda x: len(x) == 4)].shape)
len4 = df[df['choices'].apply(lambda x: len(x) == 4)]
# len4[len4['gpt_answer']==0]
len4

(792, 9)


Unnamed: 0,id,paragraph,question,choices,answer,question_plus,gpt_reason,gpt_conclusion,gpt_answer
0,generation-for-nlp-425,"상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服)...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2,,"- 1: (상소한 인물은 송준길로, 그는 기 사환국으로 정권을 장악한 인물과는 관련...","(상소한 인물 송준길은 정조 시기에 탕평 정치의 한 축을 이루었고, 이 이와 성혼의...",4
1,generation-for-nlp-426,"(가)은/는 의병계열과 애국계몽 운동 계열의 비밀결사가 모여 결성된 조직으로, 총사...",(가)에 대한 설명으로 옳지 않은 것은?,"[고려 문종 때에 남경(南京)으로 승격되었다., 종루(鐘樓), 이현, 칠패 등에서 ...",1,,"- 1: (context, question, 선택지에 대한 분석과 설명) \n ...",1번 선택지는 (가)와 관련된 조직의 역사적 배경과는 관련이 없으므로 옳지 않다. ...,1
2,generation-for-nlp-427,나는 삼한(三韓) 산천의 음덕을 입어 대업을 이루었다.(가)는/은 수덕(水德)이 순...,(가) 지역에 대한 설명으로 옳은 것은?,"[이곳에 대장도감을 설치하여 재조대장경을 만들었다., 지눌이 이곳에서 수선사 결사운...",4,,"- 1: (context, question, 선택지에 대한 분석과 설명)\n - ...",주어진 선택지들은 모두 (가) 지역에 대한 설명으로 적합하지 않습니다. 따라서 이 ...,0
3,generation-for-nlp-428,이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다....,밑줄 친 ‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다 ., 김춘추 의 신라 왕위 계승을 지원하였다 ., ...",2,,"- 1: (context, question, 선택지에 대한 분석과 설명) \n ...","모든 선택지가 문맥과 관련이 없거나 잘못된 정보이므로, 정답이 없습니다.",0
4,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가...",(가) 인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다 ., 대전회통을 편찬하였다 ., 비변사의 기능을 강화하였다 ....",3,,"- 1: 사창제는 조선 중기 이후에 실시된 제도로, (가) 인물의 정책과는 관련이 ...",1번 선택지인 사창제를 실시한 것은 (가) 인물이 추진한 정책과 관련이 없으므로 옳...,1
...,...,...,...,...,...,...,...,...,...
787,generation-for-nlp-1373,“아프리카가 세계 평화에 기여할 수 있는 가장 큰 방법은 정치적 연합을 구성해 내부...,은쿠르마의 주장에 콩고를 포함시키는 것은 다음 중 무엇을 의도한 것인가?,"[아프리카 통합의 가능성을 보이기, 세계 강대국들이 아프리카 국가들을 어떻게 무시했...",2,,"- 1: 은쿠르마는 아프리카 통합의 필요성을 강조하고 있으며, 콩고의 상황을 언급함...",은쿠르마의 주장에서 콩고를 포함시키는 것은 주로 세계 강대국들이 아프리카 국가들을 ...,2
788,generation-for-nlp-1374,“신식민주의에 대항하는 투쟁은 선진국의 자본이 개발도상국에서 활동하는 것을 배제하는...,다음 중 두 번째 문단에 언급된 협력이 나타내는 것은 무엇인가?,"[냉전의 경쟁 이데올로기, 제2차 세계 대전의 경쟁 이데올로기, 제1차 세계 대전의...",1,,"- 1: 냉전의 경쟁 이데올로기는 자본주의와 사회주의 간의 대립을 의미하며, 비동맹...","주어진 선택지들은 모두 비동맹주의의 협력 개념과 관련이 없으며, 문맥에서 언급된 협...",0
789,generation-for-nlp-1375,화약 무기: 유럽 vs. 중국 1200년대부터 1400년대까지 서유럽의 초기 대포는...,이 구절은 세계사에 대한 어떤 전통적인 관점에 도전하고 있는가?,"[중국은 항상 대부분의 아프리카-유라시아 사회보다 기술적으로 덜 발전했다, 중국의 ...",4,,- 1: 이 선택지는 중국이 기술적으로 덜 발전했다는 전통적인 관점을 반영하고 있지...,"모든 선택지가 context와 question에 대한 분석을 바탕으로 볼 때, 전통...",0
790,generation-for-nlp-1377,아래의 글은 무역 특권 확대를 원한 영국 조지왕 3세의 외교 사절단에 대한 중국 황...,왜 중국은 영국과의 무역권 확대에 관심이 없었는가?,"[중국은 영국의 외교 간섭에 분노했다., 중국은 이미 네덜란드와 독점 무역 협정을 ...",3,,- 1: 중국은 영국의 외교 간섭에 분노했다. \n (context에서 중국 황...,"주어진 context와 질문을 바탕으로 분석한 결과, 3번 선택지가 가장 적절한 답...",3
