In [None]:
import pandas as pd
import ollama
import os
import re

# 경로 설정
input_dir = "./Data/None"
output_dir = "./Data/ZeroShot"
os.makedirs(output_dir, exist_ok=True)  # 출력 디렉토리 생성

# 클래스 이름 한국어로 매핑
hate_type_map = {
    "none": "없음",
    "offensive": "모욕",
    "hate": "혐오"
}

# 데이터 생성 함수
def generate_data(hate_type, additional_count, existing_data, output_path):
    generated_set = set(existing_data['comments'].dropna())  # 중복 방지용 집합
    hate_type_kor = hate_type_map.get(hate_type, hate_type)  # 한국어로 변환

    while additional_count > 0:
        try:
            # Train 데이터에서 해당 클래스의 랜덤 예시 3개 추출
            examples = existing_data[existing_data['hate'] == hate_type]['comments'].dropna().sample(3).tolist()
            prompt = f"""
            아래의 형식에 맞추어 {hate_type_kor} 혐오유형의 새로운 문장을 하나 작성해줘.
            **출력 형식: {{새로운 문장}}**
            다른 형식의 출력은 절대 사용하지마.

            이제 새로운 문장을 작성해줘.
            """

            # Ollama 호출
            response = ollama.chat(model="exaone3.5:2.4b", messages=[
                {
                    "role": "user",
                    "content": prompt.strip(),
                }
            ])
            generated_text = response['message']['content'].strip()

            # 정규 표현식으로 { } 안의 내용 추출
            match = re.search(r"\{(.+?)\}", generated_text)
            if match:
                new_comment = match.group(1).strip()

                # 중복 확인
                if new_comment in generated_set:
                    continue

                # 새로운 데이터 추가
                new_row = {"comments": new_comment, "hate": hate_type}
                existing_data = pd.concat([existing_data, pd.DataFrame([new_row])], ignore_index=True)
                generated_set.add(new_comment)
                additional_count -= 1

                # 중간 저장
                existing_data.to_csv(output_path, index=False, encoding="utf-8-sig")

        except Exception as e:
            print(f"오류 발생: {e}")
            continue

    return existing_data

# 각 파일 처리
for file_name in sorted(os.listdir(input_dir)):
    if file_name.endswith(".csv"):
        input_path = os.path.join(input_dir, file_name)
        output_file = f"ZeroShot_{file_name.split('_')[-1]}"
        output_path = os.path.join(output_dir, output_file)

        # 파일 로드
        gr_data = pd.read_csv(input_path)

        # 클래스별 100% 추가 생성
        current_counts = gr_data['hate'].value_counts()
        for hate_type, count in current_counts.items():
            additional_count = count  # 100% 증가
            gr_data = generate_data(hate_type, additional_count, gr_data, output_path)

        # 클래스 추가 후 확인
        final_counts = gr_data['hate'].value_counts()
        print(f"{output_path} - 모든 클래스의 데이터가 100% 증가했습니다. 최종 분포: {final_counts}")

# 최종 완료 메시지
print("모든 파일에 대한 데이터 생성 및 저장이 완료되었습니다.")


./Data/ZeroShot/ZeroShot_1.csv - 모든 클래스의 데이터가 100% 증가했습니다. 최종 분포: hate
none         88
offensive    62
hate         50
Name: count, dtype: int64
./Data/ZeroShot/ZeroShot_2.csv - 모든 클래스의 데이터가 100% 증가했습니다. 최종 분포: hate
none         94
offensive    58
hate         48
Name: count, dtype: int64


In [None]:
import pandas as pd
import ollama
import os
import re

# 경로 설정
input_dir = "./Data/None"
output_dir = "./Data/OneShot"
os.makedirs(output_dir, exist_ok=True)  # 출력 디렉토리 생성

# 클래스 이름 한국어로 매핑
hate_type_map = {
    "none": "없음",
    "offensive": "모욕",
    "hate": "혐오"
}

# 데이터 생성 함수
def generate_data(hate_type, additional_count, existing_data, output_path):
    generated_set = set(existing_data['comments'].dropna())  # 중복 방지용 집합
    hate_type_kor = hate_type_map.get(hate_type, hate_type)  # 한국어로 변환

    # 해당 hate 유형의 랜덤 예시 3개 추출
    examples = existing_data[existing_data['hate'] == hate_type]['comments'].dropna().sample(3).tolist()
    example_count = len(examples)

    while additional_count > 0:
        try:
            # 순서대로 3개의 예시를 구성
            current_examples = examples[:3] if len(examples) >= 3 else examples

            # 마지막 예시 처리 (순환)
            if additional_count <= 3:
                current_examples = examples[-1:] + examples[:2]

            # 프롬프트 구성
            prompt = f"""
            아래는 {hate_type_kor} 유형의 문장 예시야:
            예시 1: "{current_examples[0]}"
            예시 2: "{current_examples[1]}"
            예시 3: "{current_examples[2]}"

            위 예시를 참고하여 {hate_type_kor} 유형의 새로운 문장을 하나 작성해줘.
            **출력 형식: {{새로운 문장}}**
            다른 형식의 출력은 포함하지 말아줘.

            이제 새로운 문장을 작성해줘.
            """

            # Ollama 호출
            response = ollama.chat(model="exaone3.5:2.4b", messages=[
                {
                    "role": "user",
                    "content": prompt.strip(),
                }
            ])
            generated_text = response['message']['content'].strip()

            # 정규 표현식으로 { } 안의 내용 추출
            match = re.search(r"\{(.+?)\}", generated_text)
            if match:
                new_comment = match.group(1).strip()

                # 중복 확인
                if new_comment in generated_set:
                    continue

                # 새로운 데이터 추가
                new_row = {"comments": new_comment, "hate": hate_type}
                existing_data = pd.concat([existing_data, pd.DataFrame([new_row])], ignore_index=True)
                generated_set.add(new_comment)
                additional_count -= 1

                # 중간 저장
                existing_data.to_csv(output_path, index=False, encoding="utf-8-sig")
                print(f"새로운 데이터 생성 및 저장: {new_comment}")

        except Exception as e:
            print(f"오류 발생: {e}")
            continue

    return existing_data

# 각 파일 처리
for file_name in sorted(os.listdir(input_dir)):
    if file_name.endswith(".csv"):
        input_path = os.path.join(input_dir, file_name)
        output_file = f"OneShot_{file_name.split('_')[-1]}"
        output_path = os.path.join(output_dir, output_file)

        # 파일 로드
        gr_data = pd.read_csv(input_path)

        # 클래스별 100% 추가 생성
        current_counts = gr_data['hate'].value_counts()
        for hate_type, count in current_counts.items():
            additional_count = count  # 100% 증가
            gr_data = generate_data(hate_type, additional_count, gr_data, output_path)

        # 클래스 추가 후 확인
        final_counts = gr_data['hate'].value_counts()
        print(f"{output_path} - 모든 클래스의 데이터가 100% 증가했습니다. 최종 분포: {final_counts}")

# 최종 완료 메시지
print("모든 파일에 대한 데이터 생성 및 저장이 완료되었습니다.")
