In [5]:
!pip install -r requirements.txt

[0m

In [6]:
import torch
import transformers
from ast import literal_eval
from trl import SFTTrainer, DataCollatorForCompletionOnlyLM, SFTConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from datasets import Dataset
import json
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt
import evaluate
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm
from peft import AutoPeftModelForCausalLM, LoraConfig

pd.set_option('display.max_columns', None)

In [7]:
# 난수 고정
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # if use multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)

set_seed(42) # magic number :)

In [8]:
# Load the train dataset
dataset = pd.read_csv('/data/ephemeral/home/data/v0.1/train.csv') 

# Flatten the JSON dataset
records = []
for _, row in dataset.iterrows():
    problems = literal_eval(row['problems'])
    record = {
        'id': row['id'],
        'paragraph': row['paragraph'],
        'question': problems['question'],
        'choices': problems['choices'],
        'answer': problems.get('answer', None),
        "question_plus": problems.get('question_plus', None),
    }
    # Include 'question_plus' if it exists
    if 'question_plus' in problems:
        record['question_plus'] = problems['question_plus']
    records.append(record)
        
# Convert to DataFrame
df = pd.DataFrame(records)
df

Unnamed: 0,id,paragraph,question,choices,answer,question_plus
0,generation-for-nlp-425,"상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服)...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2,
1,generation-for-nlp-426,"(가)은/는 의병계열과 애국계몽 운동 계열의 비밀결사가 모여 결성된 조직으로, 총사...",(가)에 대한 설명으로 옳지 않은 것은?,"[고려 문종 때에 남경(南京)으로 승격되었다., 종루(鐘樓), 이현, 칠패 등에서 ...",1,
2,generation-for-nlp-427,나는 삼한(三韓) 산천의 음덕을 입어 대업을 이루었다.(가)는/은 수덕(水德)이 순...,(가) 지역에 대한 설명으로 옳은 것은?,"[이곳에 대장도감을 설치하여 재조대장경을 만들었다., 지눌이 이곳에서 수선사 결사운...",4,
3,generation-for-nlp-428,이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다....,밑줄 친 ‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다 ., 김춘추 의 신라 왕위 계승을 지원하였다 ., ...",2,
4,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가...",(가) 인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다 ., 대전회통을 편찬하였다 ., 비변사의 기능을 강화하였다 ....",3,
...,...,...,...,...,...,...
2026,generation-for-nlp-2893,"“헐값에 팔리는 냉동 오렌지주스만 잔뜩 사가고, 쿠폰을 오려 모았으며, 구멍 난 스...",잭 맥도널드가 남긴 유산의 총액은 얼마인가?,"[1억8760만달러, 5000만달러, 2억달러, 1억달러, 3억달러]",1,
2027,generation-for-nlp-2894,"넷기어코리아(지사장 김진겸, 이하 넷기어)가 뮤럴 캔버스를 가지고 넷기어 SNS에서...",넷기어가 모집하는 '뮤럴 공식 도슨트'의 주요 역할은 무엇인가?,"[전시물 설명 및 안내, 고객 서비스 제공, 제품 판매 촉진, 온라인 강좌 콘텐츠 ...",4,
2028,generation-for-nlp-2895,서울 성동구 옥수동과 금호동은 맞붙어 있는 동네지만 아파트값은 같은 면적에서 1억원...,옥수동과 금호동의 아파트값 차이가 발생한 주된 이유는 무엇인가?,"[옥수동의 재개발이 먼저 이루어졌다, 금호동의 인구가 더 많다, 옥수동이 더 많은 ...",1,
2029,generation-for-nlp-2896,방하남 고용노동부 장관(사진)이 취임 후 첫 외부 행사로 5년 만에 일자리를 3.5...,방하남 고용노동부 장관이 방문한 기업의 이름은 무엇인가?,"[셀트리온, 삼성전자, LG화학, 한화그룹, 현대자동차]",1,


In [9]:
df.to_csv('/data/ephemeral/home/gyeom/train_df.csv')

In [None]:
import openai


# OpenAI API 키 설정
# openai.api_key = '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'  # 실제 API 키를 여기에 입력하세요.

# "generation-for-nlp-426","generation-for-nlp-498",

In [112]:
from openai import OpenAI

client = OpenAI(api_key = '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')

def check_mismatch(paragraph, question, choices):
    choices_text = "\n".join([f"{idx + 1}. {choice}" for idx, choice in enumerate(choices)])

    prompt = f"""
        context:
        {paragraph}

        Question:
        {question}

        {choices_text}

        양식:
        ### Reason:
        - 1: (context, question, 선택지에 대한 분석과 설명)
        - 2: (context, question, 선택지에 대한 분석과 설명)
        - 3: (context, question, 선택지에 대한 분석과 설명)
        - 4: (context, question, 선택지에 대한 분석과 설명)

        ### Conclusion:
        (context, question, 각 선지의 분석을 바탕으로 종합적인 결론. 만약 1,2,3,4 선지 모두 정답이 아니면 '잘못된문제' 출력)

        ### Answer:
        (Conclusion을 토대로 context, question에 대해 정답번호. 만약 context, question에 대해1, 2, 3, 4 선지 모두 정답이 아닌경우 '0' 출력)


        """
    
    response = client.chat.completions.create(
        model="gpt-4o-mini",  # 또는 사용 가능한 다른 모델
        messages=[
            {"role": "user", "content": prompt}
        ],
        max_tokens=500,
        temperature=0  # 항상 동일한 응답을 위해 설정
    )
    return response.choices[0].message.content.strip()

In [154]:
idx = 657
paragraph = df['paragraph'].iloc[idx]
question = df['question'].iloc[idx]
choices = df['choices'].iloc[idx]

df[['id','paragraph', 'question', 'choices']].iloc[idx]



id                                     generation-for-nlp-1218
paragraph    1897년 -1955년 러시아 제국 후기와 소련의 러시아어 사용 인구의 문해율\n문...
question     러시아/소련 인구 중 차트에서 묘사된 문해율 증가의 혜택을 가장 많이 받았을 사람들...
choices          [농촌의 농민들, 러시아 정교회 소속 성직자들, 도시의 중간계급, 군대 내 장교]
Name: 657, dtype: object

In [155]:
idx_111 = check_mismatch(paragraph, question, choices)
idx_111

'### Reason:\n- 1: 농촌의 농민들은 문해율 증가의 혜택을 가장 많이 받았을 가능성이 높습니다. 1897년에는 문해율이 24%에 불과했으나, 1955년에는 99.90%로 증가했습니다. 이는 농촌 지역의 교육 기회가 확대되었음을 나타내며, 농민들이 교육을 통해 문해력을 향상시킬 수 있었던 것을 의미합니다.\n\n- 2: 러시아 정교회 소속 성직자들은 전통적으로 교육을 받았던 계층이기 때문에 문해율 증가의 혜택을 상대적으로 덜 받았을 것입니다. 그들은 이미 문해력이 높은 집단에 속했기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 가능성이 큽니다.\n\n- 3: 도시의 중간계급은 교육을 받을 기회가 많았던 계층으로, 문해율 증가의 혜택을 받았을 수 있지만, 그들은 이미 높은 문해율을 가지고 있었을 가능성이 높습니다. 따라서 농촌의 농민들에 비해 상대적으로 덜 혜택을 받았다고 볼 수 있습니다.\n\n- 4: 군대 내 장교들은 교육을 받은 계층이지만, 문해율 증가의 혜택을 받았다고 보기 어렵습니다. 그들은 이미 문해력이 높은 집단에 속해 있었기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 것입니다.\n\n### Conclusion:\n문해율 증가의 혜택을 가장 많이 받은 사람들은 농촌의 농민들입니다. 그들은 교육 기회가 부족했던 과거에 비해 문해율이 크게 향상되었기 때문에, 이 변화의 혜택을 가장 많이 누렸다고 할 수 있습니다. 반면, 다른 선택지들은 이미 높은 문해율을 가진 집단이거나 문해율 증가의 혜택을 덜 받았던 집단입니다.\n\n### Answer:\n1'

In [156]:
import re

def parse_response(response_text):
    reason_match = re.search(r'### Reason:\n(.*?)\n### Conclusion:', response_text, re.S)
    reason = reason_match.group(1).strip() if reason_match else ""

    conclusion_match = re.search(r'### Conclusion:\n(.*?)\n### Answer:', response_text, re.S)
    conclusion = conclusion_match.group(1).strip() if conclusion_match else ""

    answer_match = re.search(r'### Answer:\n(.*)', response_text, re.S)
    answer = answer_match.group(1).strip() if answer_match else ""

    return reason, conclusion, answer


response_text = idx_111
reason, conclusion, answer = parse_response(response_text)

print("Reason:", reason)
print("Conclusion:", conclusion)
print("Answer:", answer)


Reason: - 1: 농촌의 농민들은 문해율 증가의 혜택을 가장 많이 받았을 가능성이 높습니다. 1897년에는 문해율이 24%에 불과했으나, 1955년에는 99.90%로 증가했습니다. 이는 농촌 지역의 교육 기회가 확대되었음을 나타내며, 농민들이 교육을 통해 문해력을 향상시킬 수 있었던 것을 의미합니다.

- 2: 러시아 정교회 소속 성직자들은 전통적으로 교육을 받았던 계층이기 때문에 문해율 증가의 혜택을 상대적으로 덜 받았을 것입니다. 그들은 이미 문해력이 높은 집단에 속했기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 가능성이 큽니다.

- 3: 도시의 중간계급은 교육을 받을 기회가 많았던 계층으로, 문해율 증가의 혜택을 받았을 수 있지만, 그들은 이미 높은 문해율을 가지고 있었을 가능성이 높습니다. 따라서 농촌의 농민들에 비해 상대적으로 덜 혜택을 받았다고 볼 수 있습니다.

- 4: 군대 내 장교들은 교육을 받은 계층이지만, 문해율 증가의 혜택을 받았다고 보기 어렵습니다. 그들은 이미 문해력이 높은 집단에 속해 있었기 때문에, 문해율 증가의 직접적인 혜택을 크게 느끼지 않았을 것입니다.
Conclusion: 문해율 증가의 혜택을 가장 많이 받은 사람들은 농촌의 농민들입니다. 그들은 교육 기회가 부족했던 과거에 비해 문해율이 크게 향상되었기 때문에, 이 변화의 혜택을 가장 많이 누렸다고 할 수 있습니다. 반면, 다른 선택지들은 이미 높은 문해율을 가진 집단이거나 문해율 증가의 혜택을 덜 받았던 집단입니다.
Answer: 1


In [145]:
idx = 1
paragraph = df['paragraph'].iloc[idx]
question = df['question'].iloc[idx]
choices = df['choices'].iloc[idx]

tqdm.pandas()  # tqdm을 사용하여 progress bar를 추가
def process_row(paragraph, question, choices):
    response_text = check_mismatch(paragraph, question, choices)
    reason, conclusion, answer = parse_response(response_text)
    return pd.Series([reason, conclusion, answer])

# 새 컬럼 추가
# df[['gpt_reason', 'gpt_conclusion', 'gpt_answer']] = df.progress_apply(process_row, axis=1)


In [147]:
# a = [paragraph, question, choices]
t = process_row(paragraph, question, choices)
t

0    - 1: (context, question, 선택지에 대한 분석과 설명)  \n  ...
1    모든 선택지(1, 2, 3, 4)가 (가)에 대한 설명으로 옳지 않다. 따라서 '잘...
2                                                    0
dtype: object

In [130]:
print(df[df['choices'].apply(lambda x: len(x) == 4)].shape)
len4 = df[df['choices'].apply(lambda x: len(x) == 4)]
# len4[len4['gpt_answer']==0]
len4

(792, 9)


Unnamed: 0,id,paragraph,question,choices,answer,question_plus,gpt_reason,gpt_conclusion,gpt_answer
0,generation-for-nlp-425,"상소하여 아뢰기를 , “신이 좌참 찬 송준길이 올린 차자를 보았는데 , 상복(喪服)...",상소한 인물이 속한 붕당에 대한 설명으로 옳은 것만을 모두 고르면?,"[ㄱ, ㄴ, ㄱ, ㄷ, ㄴ, ㄹ, ㄷ, ㄹ]",2,,"- 1: (상소한 인물은 송준길로, 그는 기 사환국으로 정권을 장악한 인물과는 관련...","(상소한 인물 송준길은 정조 시기에 탕평 정치의 한 축을 이루었고, 이 이와 성혼의...",4
1,generation-for-nlp-426,"(가)은/는 의병계열과 애국계몽 운동 계열의 비밀결사가 모여 결성된 조직으로, 총사...",(가)에 대한 설명으로 옳지 않은 것은?,"[고려 문종 때에 남경(南京)으로 승격되었다., 종루(鐘樓), 이현, 칠패 등에서 ...",1,,"- 1: (context, question, 선택지에 대한 분석과 설명) \n ...",1번 선택지는 (가)와 관련된 조직의 역사적 배경과는 관련이 없으므로 옳지 않다. ...,1
2,generation-for-nlp-427,나는 삼한(三韓) 산천의 음덕을 입어 대업을 이루었다.(가)는/은 수덕(水德)이 순...,(가) 지역에 대한 설명으로 옳은 것은?,"[이곳에 대장도감을 설치하여 재조대장경을 만들었다., 지눌이 이곳에서 수선사 결사운...",4,,"- 1: (context, question, 선택지에 대한 분석과 설명)\n - ...",주어진 선택지들은 모두 (가) 지역에 대한 설명으로 적합하지 않습니다. 따라서 이 ...,0
3,generation-for-nlp-428,이 날 소정방이 부총관 김인문 등과 함께 기 벌포에 도착하여 백제 군사와 마주쳤다....,밑줄 친 ‘그’에 대한 설명으로 옳은 것은?,"[살수에서 수의 군대를 물리쳤다 ., 김춘추 의 신라 왕위 계승을 지원하였다 ., ...",2,,"- 1: (context, question, 선택지에 대한 분석과 설명) \n ...","모든 선택지가 문맥과 관련이 없거나 잘못된 정보이므로, 정답이 없습니다.",0
4,generation-for-nlp-429,"선비들 수만 명이 대궐 앞에 모여 만 동묘와 서원을 다시 설립할 것을 청하니, (가...",(가) 인물이 추진한 정책으로 옳지 않은 것은?,"[사창제를 실시하였다 ., 대전회통을 편찬하였다 ., 비변사의 기능을 강화하였다 ....",3,,"- 1: 사창제는 조선 중기 이후에 실시된 제도로, (가) 인물의 정책과는 관련이 ...",1번 선택지인 사창제를 실시한 것은 (가) 인물이 추진한 정책과 관련이 없으므로 옳...,1
...,...,...,...,...,...,...,...,...,...
787,generation-for-nlp-1373,“아프리카가 세계 평화에 기여할 수 있는 가장 큰 방법은 정치적 연합을 구성해 내부...,은쿠르마의 주장에 콩고를 포함시키는 것은 다음 중 무엇을 의도한 것인가?,"[아프리카 통합의 가능성을 보이기, 세계 강대국들이 아프리카 국가들을 어떻게 무시했...",2,,"- 1: 은쿠르마는 아프리카 통합의 필요성을 강조하고 있으며, 콩고의 상황을 언급함...",은쿠르마의 주장에서 콩고를 포함시키는 것은 주로 세계 강대국들이 아프리카 국가들을 ...,2
788,generation-for-nlp-1374,“신식민주의에 대항하는 투쟁은 선진국의 자본이 개발도상국에서 활동하는 것을 배제하는...,다음 중 두 번째 문단에 언급된 협력이 나타내는 것은 무엇인가?,"[냉전의 경쟁 이데올로기, 제2차 세계 대전의 경쟁 이데올로기, 제1차 세계 대전의...",1,,"- 1: 냉전의 경쟁 이데올로기는 자본주의와 사회주의 간의 대립을 의미하며, 비동맹...","주어진 선택지들은 모두 비동맹주의의 협력 개념과 관련이 없으며, 문맥에서 언급된 협...",0
789,generation-for-nlp-1375,화약 무기: 유럽 vs. 중국 1200년대부터 1400년대까지 서유럽의 초기 대포는...,이 구절은 세계사에 대한 어떤 전통적인 관점에 도전하고 있는가?,"[중국은 항상 대부분의 아프리카-유라시아 사회보다 기술적으로 덜 발전했다, 중국의 ...",4,,- 1: 이 선택지는 중국이 기술적으로 덜 발전했다는 전통적인 관점을 반영하고 있지...,"모든 선택지가 context와 question에 대한 분석을 바탕으로 볼 때, 전통...",0
790,generation-for-nlp-1377,아래의 글은 무역 특권 확대를 원한 영국 조지왕 3세의 외교 사절단에 대한 중국 황...,왜 중국은 영국과의 무역권 확대에 관심이 없었는가?,"[중국은 영국의 외교 간섭에 분노했다., 중국은 이미 네덜란드와 독점 무역 협정을 ...",3,,- 1: 중국은 영국의 외교 간섭에 분노했다. \n (context에서 중국 황...,"주어진 context와 질문을 바탕으로 분석한 결과, 3번 선택지가 가장 적절한 답...",3
