In [None]:
import pandas as pd
import google.generativeai as genai
import time
from tqdm import tqdm
import ast
import logging

logging.basicConfig(filename='classification_errors.log', level=logging.ERROR,
                    format='%(asctime)s:%(levelname)s:%(message)s')
# Gemini API 설정

# API 키 직접 입력
api_key = "key"  # 여기에 API 키를 입력하세요

# Gemini API 설정
genai.configure(api_key=api_key)

safety_settings = [
    {
        "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_HATE_SPEECH",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_HARASSMENT",
        "threshold": "BLOCK_NONE"
    },
    {
        "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
        "threshold": "BLOCK_NONE"
    }
]

model = genai.GenerativeModel('gemini-1.5-flash-latest', safety_settings=safety_settings)

# 주제 카테고리 정의
categories = {
    'Korean': ['문학', '독해', '언어와 매체'],
    'Social Studies': {
        '윤리': ['정의', '공정성', '인권'],
        '정치': ['정치제도', '정당', '선거'],
        '사회': ['사회구조', '문화', '경제']
    },
    'Datasets': {
        'KMMLU': ['한국사'],
        'MMMLU': ['역사', '경제', '정치', '지리', '심리'],
        'KLUE MRC': ['경제', '교육산업', '국제', '부동산', '사회', '생활', '책마을']
    }
}

def classify_question(paragraph, question, choices, question_plus):
    system_prompt = """
    당신은 한국 수능 문제 분석 전문가입니다. 주어진 문제를 분석하여 정확한 주제를 파악하고, 
    사전지식 필요 여부를 판단해야 합니다. 다음 지침을 따라주세요:

    1. 주제 분류: 문학, 독해, 언어와 매체, 사회, 한국사, 세계사, 경제, 지리, 심리, 
       교육산업, 국제, 부동산, 생활, 책마을 중 하나를 선택하세요.
    2. 사전지식 필요 여부: 
       - '필요 없음': 문단을 읽고 답을 유추할 수 있는 경우
       - '필요함': 문단 외의 추가적인 지식이 필요한 경우
    3. 응답 형식을 정확히 지켜주세요.

    분석 시 지문, 문제, 선택지, 보기를 모두 고려하세요.
    """

    user_prompt = f"""
    다음 수능 문제를 분석해주세요:

    지문: {paragraph}
    문제: {question}
    선택지: {choices}
    보기: {question_plus}

    위 문제에 대해 다음 정보를 제공해주세요:
    1. 이 문제의 주제
    2. 이 문제를 풀기 위해 사전지식이 필요한지 여부 (문단만으로 답변 가능한지 고려)

    답변 형식:
    주제: [주제]
    사전지식 필요: [필요함/필요 없음]
    """

    response = model.generate_content([
        {"role": "user", "parts": [system_prompt]},
        {"role": "user", "parts": [user_prompt]}
    ])
    return response.text

# CSV 파일 읽기
df = pd.read_csv('train.csv')

# 결과를 저장할 리스트
results = []

# 각 행에 대해 분류 수행
for index, row in tqdm(df.iterrows(), total=df.shape[0], desc="문제 분류 중"):
    try:
        paragraph = row['paragraph']
        problems = ast.literal_eval(row['problems'])
        question = problems['question']
        choices = problems['choices']
        answer = problems['answer']
        question_plus = row['question_plus']
        
        classification = classify_question(paragraph, question, choices, question_plus)
        
        if classification:
            try:
                # 결과 파싱
                topic = classification.split('\n')[0].split(': ')[1]
                prior_knowledge = classification.split('\n')[1].split(': ')[1]
            except IndexError:
                logging.error(f"Error parsing classification for row {index}: {classification}")
                topic = "분류 실패"
                prior_knowledge = "분류 실패"
        else:
            topic = "분류 실패"
            prior_knowledge = "분류 실패"
        
        results.append({
            'id': row['id'],
            'topic': topic,
            'prior_knowledge_needed': prior_knowledge,
            'paragraph': paragraph,
            'question': question,
            'choices': choices,
            'answer': answer,
            'question_plus': question_plus
        })
        # 5초 대기
        time.sleep(5)
    
    except Exception as e:
        logging.error(f"Error processing row {index}: {str(e)}")
        continue  # 오류 발생 시 다음 row로 넘어감

result_df = pd.DataFrame(results)

# 최종 결과 저장
result_df.to_csv('classified_train.csv', index=False)

print("분류 작업이 완료되었습니다.")

In [None]:
import pandas as pd
import re

# CSV 파일 읽기
df = pd.read_csv('classified_train_raw.csv')

# ID에서 숫자를 추출하여 정렬하는 함수 정의
def extract_number_from_id(id_str):
    # ID에서 숫자 부분만 추출 (정수형으로 변환)
    match = re.search(r'\d+', id_str)
    return int(match.group()) if match else float('inf')  # 숫자가 없으면 무한대 반환

# 후처리 함수 정의 (topic 처리)
def clean_topic(topic):
    # 괄호와 괄호 안의 모든 문자 제거
    topic = re.sub(r'\(.*?\)', '', topic)
    # 양끝의 '*' 문자 제거
    topic = topic.strip('*')
    # 주어진 카테고리 리스트
    categories = ['문학', '독해', '언어와 매체', '사회', '한국사', '세계사', '경제', '지리', '심리',
                  '교육산업', '국제', '부동산', '생활', '책마을']
    
    # 카테고리 중 하나만 남기기, 없으면 "ETC"로 처리
    for category in categories:
        if category in topic:
            return category
    return "ETC"  # 해당하는 카테고리가 없으면 "ETC" 반환

# prior_knowledge_needed 열 후처리
df['prior_knowledge_needed'] = df['prior_knowledge_needed'].apply(lambda x: '필요 없음' if '필요 없음' in x else '필요함')

# topic 열 후처리
df['topic'] = df['topic'].apply(clean_topic)

# ID를 숫자 기준으로 정렬
df = df.sort_values(by='id', key=lambda x: x.apply(extract_number_from_id))

# 필요시 결과를 새로운 CSV 파일로 저장할 수 있습니다.
df.to_csv('classified_train_processed.csv', index=False)

In [None]:
import pandas as pd
import ast

# CSV 파일 읽기
df = pd.read_csv('classified_train_processed.csv')

# prior_knowledge_needed가 "필요 없음"인 행만 선택
df_filtered = df[df['prior_knowledge_needed'] == "필요 없음"]

# problems 열 생성
df_filtered['problems'] = df_filtered.apply(lambda row: {
    'question': row['question'],
    'choices': ast.literal_eval(row['choices']) if isinstance(row['choices'], str) else row['choices'],
    'answer': row['answer']
}, axis=1)

# 기존 열 삭제
df_filtered = df_filtered.drop(columns=['question', 'choices', 'answer'])

# 결과 확인
print(df_filtered.head())

# 새로운 CSV 파일로 저장
df_filtered.to_csv('classified_train_processed_filtered.csv', index=False)

In [None]:
import pandas as pd
import openai
import time
from tqdm import tqdm
import ast
import logging
import re

logging.basicConfig(filename='data_augmentation_errors.log', level=logging.ERROR,
                    format='%(asctime)s:%(levelname)s:%(message)s')

# OpenAI API 설정
api_key = "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"
openai.api_key = api_key

def clean_text(text):
    # 괄호와 괄호 안의 모든 문자 제거
    text = re.sub(r'\([A-Za-z\s]*\)', '', text)
    text = text.replace('*', '')
    return text

# Prompt (간결화된 한국어)
def generate_question(paragraph, original_question, original_choices, original_answer):
    prompt = [
        {"role": "system", "content": "당신은 단락과 그에 대한 예시 문제들을 참고하여 사전지식 없이 주어진 단락 내용을 읽고 추론하여 풀 수 있는 오지선다형 문제를 새롭게 생성하는 AI입니다."},
        {"role": "user", "content": f"""
        주어진 단락을 바탕으로 새로운 질문을 만들어주세요. 

        단락:
        {paragraph}

        원래 질문: {original_question}
        원래 선택지: {original_choices}
        원래 정답: {original_answer}

        요청 사항:
        - 한국어로 생성하며 원래 질문, 원래 선택지, 원래 정답을 참고하여 원래 내용과 다른 질문, 선택지, 정답을 생성하세요.
        - 단락의 주요 내용을 확인합니다.
        - 단락의 주요 내용을 바탕으로 원래 질문의 내용과 다른 질문을 생성합니다.
        - 5개의 선택지를 포함하되, 정답은 1개만 포함하고 대부분 선택지 5에 위치하게 생성합니다. 
        - 한국어로 작성하며, 다음 형식으로 작성합니다:

        질문: [새 질문]
        선택지:
        1. [선택지 1]
        2. [선택지 2]
        3. [선택지 3]
        4. [선택지 4]
        5. [선택지 5]
        정답: [정답 번호]

        - 이 때 정답 번호는 생성한 질문 중 정답인 선택지 번호 입니다. 
        """}
    ]

    try:
        response = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=prompt,
            max_tokens=400
        )
        return response.choices[0].message['content']
    except Exception as e:
        logging.error(f"질문 생성 중 오류 발생: {str(e)}")
        return None

df = pd.read_csv('classified_train_processed_filtered.csv')

# 결과를 저장할 새로운 DataFrame
results = []
failed_rows = []

# 각 행에 대해 새로운 문제 생성
for index, row in tqdm(df.iterrows(), total=df.shape[0], desc="새로운 질문 생성 중"):
    #print(index)
    paragraph = row['paragraph']
    problems = ast.literal_eval(row['problems'])
    
    original_question = problems['question']
    original_choices = problems['choices']
    original_answer = problems['answer']
    
    success = False
    for attempt in range(2): 
        generated_content = generate_question(paragraph, original_question, original_choices, original_answer)

        if generated_content:
            # 응답을 수동으로 파싱하여 필요한 정보를 추출합니다.
            lines = generated_content.split('\n')
            new_question = ""
            new_choices = []
            new_answer = None
            reading_choices = False
            count = 0
            
            for line in lines:
                line = line.strip()
                
                if line.startswith("질문"):
                    new_question = line.replace("질문 : ", "").strip()
                
                elif line.startswith("선택지"):
                    reading_choices = True
                    continue
                
                elif reading_choices:
                    if line.strip().startswith(tuple(str(i) for i in range(1, 6))):
                        choice_text = line.strip().split(". ", 1)[-1]
                        new_choices.append(choice_text)
                        if len(new_choices) == 5:
                            reading_choices = False
                
                elif line.startswith("정답"):
                    try:
                        new_answer = int(line.split(":", 1)[-1].strip())
                    except ValueError:
                        logging.error(f"Invalid answer format: {line}")
            
            if (new_question) and (len(new_choices) == 5) and (new_answer is not None):
                new_row = {
                    'id': f"{row['id']}_aug",
                    'paragraph': paragraph,
                    'problems': {
                        'question': new_question,
                        'choices': new_choices,
                        'answer': new_answer
                    },
                    'question_plus': ''
                }
                results.append(new_row)
                success = True
                break  # 성공적으로 생성되었으므로 추가 시도 중단
        
        if not success:
            time.sleep(2)  # 재시도 전 잠시 대기
    
    if not success:
        failed_rows.append(row)
        logging.warning(f"{index}번 행에 대한 질문 생성 실패. 2번의 시도 후 건너뜁니다.")
    
    time.sleep(4)

# 결과를 새로운 DataFrame으로 변환
result_df = pd.DataFrame(results)
# 결과를 CSV 파일로 저장
result_df.to_csv('../data/new_augmented_questions.csv', index=False)

# 실패한 행들을 CSV 파일로 저장
failed_df = pd.DataFrame(failed_rows)
failed_df.to_csv('failed_rows.csv', index=False)

print(f"데이터 증강이 완료되었습니다. 결과가 'new_augmented_questions.csv' 파일에 저장되었습니다.")