In [1]:
from datasets import load_dataset, concatenate_datasets

# 데이터셋 로드
test_kiqu = load_dataset("maywell/test_kiqu")
ko_wikidata_QA = load_dataset("maywell/ko_wikidata_QA")

# 전체 구조 확인
print(test_kiqu)
print(ko_wikidata_QA)

data = concatenate_datasets([test_kiqu['train'], ko_wikidata_QA['train']])
print(data)

README.md:   0%|          | 0.00/316 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/2.81M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/3000 [00:00<?, ? examples/s]

README.md:   0%|          | 0.00/770 [00:00<?, ?B/s]

train.csv:   0%|          | 0.00/144M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/137505 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['instruction', 'output'],
        num_rows: 3000
    })
})
DatasetDict({
    train: Dataset({
        features: ['instruction', 'output'],
        num_rows: 137505
    })
})
Dataset({
    features: ['instruction', 'output'],
    num_rows: 140505
})


In [2]:
import pandas as pd
df = pd.DataFrame(data)
df.head()

Unnamed: 0,instruction,output
0,카리브 미술이 무엇이야?,카리브 미술이라는 용어는 카리브해 지역에서 발달한 미술을 가리키는 말이에요. 카리브...
1,상업용 부동산 시장이 팬데믹으로 어떻게 변화했어?,"팬데믹으로 인해 상업용 부동산 시장에도 큰 변화가 일어났어요. 특히 사무실, 쇼핑몰..."
2,부상이나 질병에 대처하기 위해 인체가 필요로 하는 것이 뭐야?,인체가 부상이나 질병에 대처하기 위해 필요로 하는 것은 여러 가지가 있어요. 가장 ...
3,비숑 프리제는 어떤 특징을 가지고 있어?,"비숑 프리제(Bichon Frise)는 작고 귀여운 품종의 개로, 특징적인 털과 친..."
4,긴 운전 여행이 처음 시작된 건 언제야?,긴 운전 여행이 시작된 시기는 자동차의 발명과 함께 점점 더 인기를 얻기 시작한 2...


In [3]:
# 새로운 데이터프레임 형식으로 변환
converted_data = {
    "id": [f"index-{i}" for i in df.index],
    "paragraph": df["output"],
    "question": df["instruction"],
    "choices": [[] for _ in df.index],  # 빈 리스트로 초기화
    "answer": [None for _ in df.index],  # None으로 초기화
    "question_plus": ["N/A" for _ in df.index]  # "N/A"로 초기화
}


converted_df = pd.DataFrame(converted_data)
converted_df.head()

Unnamed: 0,id,paragraph,question,choices,answer,question_plus
0,index-0,카리브 미술이라는 용어는 카리브해 지역에서 발달한 미술을 가리키는 말이에요. 카리브...,카리브 미술이 무엇이야?,[],,
1,index-1,"팬데믹으로 인해 상업용 부동산 시장에도 큰 변화가 일어났어요. 특히 사무실, 쇼핑몰...",상업용 부동산 시장이 팬데믹으로 어떻게 변화했어?,[],,
2,index-2,인체가 부상이나 질병에 대처하기 위해 필요로 하는 것은 여러 가지가 있어요. 가장 ...,부상이나 질병에 대처하기 위해 인체가 필요로 하는 것이 뭐야?,[],,
3,index-3,"비숑 프리제(Bichon Frise)는 작고 귀여운 품종의 개로, 특징적인 털과 친...",비숑 프리제는 어떤 특징을 가지고 있어?,[],,
4,index-4,긴 운전 여행이 시작된 시기는 자동차의 발명과 함께 점점 더 인기를 얻기 시작한 2...,긴 운전 여행이 처음 시작된 건 언제야?,[],,


In [6]:
import pandas as pd
import google.generativeai as genai
import time
import random
 
GOOGLE_API_KEY="AIzaSyAMvb1Fbq6R0u4cQYmj3V7vV2WwXxx0vj8"
 
genai.configure(api_key=GOOGLE_API_KEY)
 
model = genai.GenerativeModel('gemini-1.5-flash')

# 질문 변환 함수
def transform_question_with_genai(question):
    prompt = (
        f"아래 문장을 참고하여 질문을 '~에 대한 설명으로 옳지 않은 것은?' 형식으로 바꿔줘:\n\n"
        f"질문: {question}\n\n"
        "새로운 질문:"
    )
    
    retries = 3  # 재시도 횟수
    for attempt in range(retries):
        try:
            # API 호출
            response = model.generate_content(prompt)
            
            # 응답 처리
            if response and hasattr(response, "text"):
                return response.text.strip()
        except Exception as e:
            if "429" in str(e) or "TooManyRequests" in str(e):
                print(f"Rate limit exceeded. Retrying... ({attempt + 1}/{retries})")
                time.sleep(3 + random.uniform(0, 2))  # 고정 + 랜덤 지연
            elif "Connection" in str(e):
                print(f"Connection error. Retrying... ({attempt + 1}/{retries})")
                time.sleep(5)
            else:
                print(f"Unhandled error: {e}")
                break
    
    return "변환 실패"

# 반복문을 사용해 질문 변환
new_questions = []
for index, row in converted_df.iterrows():
    print(f"Processing row {index + 1}/{len(converted_df)}: {row['question']}")
    new_question = transform_question_with_genai(row['question'])
    new_questions.append(new_question)
    time.sleep(3)  # 요청 간 고정 지연 추가

# 결과 저장
converted_df["new_question"] = new_questions

# 결과 확인
print(converted_df.head())
converted_df.to_csv("transformed_questions.csv", index=False, encoding='utf-8-sig')
print("결과가 'transformed_questions.csv'로 저장되었습니다.")

Processing row 1/140505: 카리브 미술이 무엇이야?
Processing row 2/140505: 상업용 부동산 시장이 팬데믹으로 어떻게 변화했어?
Processing row 3/140505: 부상이나 질병에 대처하기 위해 인체가 필요로 하는 것이 뭐야?
Processing row 4/140505: 비숑 프리제는 어떤 특징을 가지고 있어?
Processing row 5/140505: 긴 운전 여행이 처음 시작된 건 언제야?
Processing row 6/140505: 코로나19를 이기기 위해 혁신이 왜 중요해?
Processing row 7/140505: 신흥 시장에서 공정 거래가 어렵다고 생각하는 이유는 뭐야?
Processing row 8/140505: 음악이 문화 간 교류를 촉진하는 데 어떻게 도움이 돼?
Processing row 9/140505: 경찰이 검색 영장 없이 개인의 재산을 수색할 수 있어야 한다는 주장에 대해 어떻게 생각해?
Processing row 10/140505: 사진적 기억력이란 무엇이야?
Processing row 11/140505: 잠을 자지 않고도 휴식을 취할 수 있는 방법이 있어?
Processing row 12/140505: 산악 전쟁에서 방어자에게 주는 장점이 뭐야?
Processing row 13/140505: 과학이 추상적인 이유는 뭐야?
Processing row 14/140505: 코퀴가 그들을 파괴할 수 있어?
Processing row 15/140505: 레eway가 뭐야?
Processing row 16/140505: 진실이 봄처럼 돌아오는 건 어떻게 가능해?
Processing row 17/140505: 오스트레일리아에서 럭비 리그가 시작된 건 언제야?
Processing row 18/140505: Calabasas High School 축구 팀이 최근 어려움을 겪었다고 했는데, 구체적으로 어떤 어려움을 겪었어?
Processing row 19/140505: 소녀와의 포화친밀이 청소년에게 부

KeyboardInterrupt: 

In [None]:
converted_df.head()

In [None]:
# 보기 및 정답 생성 함수
def generate_choices_and_answer(row):
    prompt = (
        f"아래 질문을 참고하여 문맥 기반으로 올바른 보기를 4개와 틀린 보기를 1개 생성해줘.\n"
        f"보기는 ['보기 1', '보기 2', '보기 3', '보기 4', '보기 5'] 형식으로 출력해줘.\n"
        f"틀린 보기는 반드시 답이어야 하며, 보기 중 몇 번째인지도 알려줘.\n\n"
        f"문맥:\n{row['paragraph']}\n\n"
        f"질문:\n{row['new_question']}\n\n"
        "새로운 보기와 정답을 생성해줘."
    )
    
    retries = 3  # 재시도 횟수
    for attempt in range(retries):
        try:
            # API 호출
            response = model.generate_content(prompt)
            
            # 응답 처리
            if response and hasattr(response, "text"):
                result = response.text.strip()
                parts = result.split("\n")
                
                # 보기를 추출
                choices = parts[:5] if len(parts) >= 5 else ["보기 생성 실패"] * 5
                
                # 정답을 추출
                last_line = parts[-1]
                try:
                    # 정답 번호가 "보기 5"와 같은 형식으로 포함되어 있다고 가정
                    if "보기" in last_line:
                        answer = int(last_line.split("보기")[-1].strip()[0])  # '보기 X'에서 숫자만 추출
                    else:
                        raise ValueError(f"Unexpected answer format: {last_line}")
                except ValueError:
                    print(f"Invalid answer format in response: {last_line}")
                    answer = -1  # 기본값
                
                return choices, answer
        except Exception as e:
            if "429" in str(e) or "TooManyRequests" in str(e):
                print(f"Rate limit exceeded. Retrying... ({attempt + 1}/{retries})")
                time.sleep(3 + random.uniform(0, 2))  # 고정 + 랜덤 지연
            elif "Connection" in str(e):
                print(f"Connection error. Retrying... ({attempt + 1}/{retries})")
                time.sleep(5)
            else:
                print(f"Unhandled error: {e}")
                break
    
    return ["보기 생성 실패"] * 5, -1

# 반복문으로 보기를 생성
choices_list = []
answers = []

for index, row in converted_df.iterrows():
    print(f"Processing row {index + 1}/{len(converted_df)}: {row['new_question']}")
    choices, answer = generate_choices_and_answer(row)
    choices_list.append(choices)
    answers.append(answer)
    time.sleep(3)  # 요청 간 고정 지연 추가

# DataFrame에 결과 저장
converted_df["choices"] = choices_list
converted_df["answer"] = answers

# 결과 확인
print(converted_df.head())
converted_df.to_csv("final_questions_with_choices.csv", index=False, encoding="utf-8-sig")
print("결과가 'final_questions_with_choices.csv'로 저장되었습니다.")

In [None]:
converted_df.head()

In [None]:
# post-processing
# 1. answer = -1인 것은 지우기
# 2. choices -> 보기 1:, 보기 2: 보기 3: 등 이 텍스트 지우기
# 3. choices len()>=4 아니면 다 지우기
# 4. 기존 uestion 지우고, new_questions 칼럼을 question로 대체할 것 위치는 paragraph 옆으로	

# 1. answer = -1인 행 제거
filtered_df = converted_df[converted_df['answer'] != -1]

# 2. choices에서 "보기 1:", "보기 2:" 등의 텍스트 제거
filtered_df['choices'] = filtered_df['choices'].apply(
    lambda x: [choice.replace('보기 1:', '').replace('보기 2:', '').replace('보기 3:', '').replace('보기 4:', '').replace('보기 5:', '').strip() for choice in x]
)

# 3. choices의 길이가 4 미만인 행 제거
filtered_df = filtered_df[filtered_df['choices'].apply(len) >= 4]

# 4. 기존 question 컬럼 제거 후, new_question을 question으로 대체하고 위치 이동
filtered_df = filtered_df.drop(columns=['question'])  # 기존 question 삭제
filtered_df = filtered_df.rename(columns={'new_question': 'question'})  # new_question -> question

# question을 paragraph 옆으로 이동
columns = ['id', 'paragraph', 'question', 'choices', 'answer', 'question_plus']
filtered_df = filtered_df[columns]

# 결과 확인
print(filtered_df.head())

# (옵션) 결과 저장
filtered_df.to_csv("processed_dataset.csv", index=False, encoding="utf-8-sig")