## Generation

### 1. 가상의 기사 제목 데이터 생성

#### 생성

In [16]:
"""
gemini 1.5 flash LLM을 이용하여, 가상의 기사 제목 데이터와 타겟을 생성하는 코드입니다.
"""

OUTPUT_FILE = "generated_raw.csv"
GEMINI_API_KEY = "AIzaSyCi7mh8iSC5JTycmqb39ypK0sLtPJkJ7R4"

import os
import time
import re
import string

import pandas as pd
from sklearn.metrics import f1_score
from sklearn.preprocessing import MultiLabelBinarizer
from langchain_core.prompts import PromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI

TOTAL_TITLES = 1000  # 총 생성할 뉴스 기사 제목 수
NUM_TITLES = 20     # 한 번에 생성할 뉴스 기사 제목 수
MAX_RETRIES = 3     # 최대 재시도 횟수
F1_THRESHOLD = 0.3  # 중복 판단을 위한 F1 Score 임계값

# API 키 설정
os.environ["GOOGLE_API_KEY"] = GEMINI_API_KEY

# 모델 초기화
model = ChatGoogleGenerativeAI(model="gemini-1.5-flash-latest")

# 프롬프트 템플릿 정의
prompt_template = PromptTemplate(
    input_variables=["num_titles"],
    template=f"""
- 다음 요구사항에 맞게 "{"{num_titles}"}개의 가상의 뉴스 기사 제목과 레이블을 생성하세요.

- **제목 생성 지침**:
  - 일반적인 뉴스 기사에서 사용되는 표현과 어휘를 사용하세요.
  - 각 제목은 간결하고, 명확하며, 문법적으로 정확해야 합니다.
  - 뉴스 기사 제목의 주제는 다양해야 합니다. 특정 주제에 편향되지 말고, 여러 분야를 고루 포함해주세요.
  - 구체적인 인물, 지역, 단체 이름을 사용하되, 다양한 이름을 사용해주세요.

- **레이블 생성 지침**:
  - 각 제목에 적합한 정수 레이블(0부터 6까지)을 할당하세요.
  - 레이블은 생성한 제목의 주제에 알맞게 분류되어야 합니다.

- **출력 형식**:
  - 제목과 레이블은 쉼표로 구분하여 아래와 같은 형식으로 출력해주세요:
    1. 첫 번째 제목,레이블
    2. 두 번째 제목,레이블
    3. 세 번째 제목,레이블
    ...

- **예시 데이터**:
    서울에 다시 오존주의보…도심·서북·동북권 발령종합,0
    충북 가마솥더위 지속…주말도 더워요,0
    춘천 MBC 나이야가라 한국방송대상 작품상 수상,0
    코리아둘레길 남해안길 남파랑길로 불러주세요,0

    대한항공 우리카드 꺾고 3연승…GS칼텍스 1라운드 전승종합,1
    프로농구 SK 삼성 꺾고 하루 만에 공동 3위,1
    포틀랜드 워싱턴 꺾고 NBA 서부콘퍼런스 선두 도약,1
    SK로 이적한 강승호 LG서 좋은 모습 못 보여드려 죄송,1

    지소미아 종료까지 8일…美 압박 속 고민 깊어지는 文대통령,2
    큰절하는 새누리당 당직자들,2
    민주 5·18 모독 한국당 압박 지속…헌정질서 파괴 옹호,2
    홍준표 황교안 선거권 없어…전대출마 자격 운운 난센스,2

    광주교육청 9급 지방공무원 73명 공개 채용,3
    춘천시 환경사업소 관련 기자회견,3
    차의과학대 현대그린푸드·현대백화점과 사회공헌협약 체결,3
    등교하며 손 소독·발열 검사 필수,3

    한국형 발사체 75t 엔진 첫 연소시험 성공,4
    삼성·애플·LG·구글 스마트폰 가을대전 임박,4
    아이폰11 프로 써보니…프로다운 카메라 성능 기대 이상,4
    모바일 컴퓨팅 미래는…서울서 국제학회 ACM 모비시스 개막,4

    美금융사 가상화폐 경계령…비자 CEO 거래처리 안할 것,5
    코스닥 진입 수월해진다…자본잠식 등 상장요건 개편,5
    KB증권 2분기 영업익 1천5억원…2.21% 증가,5
    테슬라 4분기 연속 흑자…국내 2차전지 업체 수혜 기대,5

    네덜란드 정부 보스니아 무슬림 학살사건에 10% 책임,6
    유럽 최악 한파에 난민들 피해속출…폐렴·저체온증 극심,6
    대선출마 앞둔 바이든의 나쁜손 또 폭로…코 비비려고 했다,6
    김정은 베이징 경제기술개발구 제약회사 동인당 공장 방문속보,6


- **주의사항**:
  - 예시와 동일한 데이터를 절대로 출력하지 마세요.
  - 생성된 제목은 독창적이어야 합니다.
"""
)

def preprocess_text(text):
    """
    텍스트 전처리 함수: 소문자 변환, 구두점 제거, 공백 정리
    """
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def compute_f1(title1, title2):
    """
    두 텍스트 간의 F1 Score 계산 함수
    """
    tokens1 = set(preprocess_text(title1).split())
    tokens2 = set(preprocess_text(title2).split())
    
    if not tokens1 or not tokens2:
        return 0.0
    
    common_tokens = tokens1.intersection(tokens2)
    precision = len(common_tokens) / len(tokens1)
    recall = len(common_tokens) / len(tokens2)
    if precision + recall == 0:
        return 0.0
    f1 = 2 * precision * recall / (precision + recall)
    return f1

def generate_news_titles(num_titles, existing_titles):
    titles = []
    retries = 0
    while len(titles) < num_titles and retries < MAX_RETRIES:
        remaining = num_titles - len(titles)
        current_prompt = prompt_template.format(num_titles=remaining)
        try:
            # 모델을 사용하여 텍스트 생성
            response = model.invoke(current_prompt)
            response_text = response.content.strip()

            # 생성된 제목과 타겟을 리스트로 분리
            for line in response_text.split('\n'):
                # 번호와 점, 타겟을 제거하여 실제 제목과 타겟 추출
                match = re.match(r'^\d+\.\s*(.+?),\s*(\d+)$', line)
                if match:
                    title = match.group(1).strip()
                    target = match.group(2).strip()
                    if not title or not target.isdigit():
                        continue
                    target = int(target)
                    # 중복 검사
                    is_duplicate = False
                    for existing_title in existing_titles + titles:
                        f1 = compute_f1(title, existing_title['text'])
                        if f1 >= F1_THRESHOLD:
                            is_duplicate = True
                            break
                    if not is_duplicate:
                        titles.append({"text": title, "target": target})
                        if len(titles) == num_titles:
                            break
                else:
                    # 예기치 않은 형식의 응답 처리
                    continue

            if len(titles) < num_titles:
                retries += 1
                time.sleep(2)  # 잠시 대기 후 재시도
        except Exception as e:
            retries += 1
            time.sleep(5)  # 잠시 대기 후 재시도

    return titles

def save_to_csv(titles, output_file, start_index):
    data = []
    for i, item in enumerate(titles):
        data.append({
            "ID": f"gemini-{start_index + i:05d}",
            "text": item["text"],
            "target": item["target"]
        })
    
    df = pd.DataFrame(data)
    
    # 파일이 이미 존재하면 헤더 없이 추가, 아니면 헤더와 함께 생성
    if os.path.exists(output_file):
        df.to_csv(output_file, mode='a', index=False, header=False, encoding='utf-8-sig')
    else:
        df.to_csv(output_file, index=False, encoding='utf-8-sig')
    print(f"생성된 뉴스 제목 {len(data)}개가 '{output_file}' 파일에 저장되었습니다.")

if __name__ == "__main__":
    print("뉴스 제목 생성을 시작합니다.")
    
    # 기존 OUTPUT_FILE이 존재하면 삭제
    if os.path.exists(OUTPUT_FILE):
        os.remove(OUTPUT_FILE)
        print(f"{OUTPUT_FILE} 기존 파일을 삭제하고 새로 생성합니다.")
    
    existing_titles = []  # 기존 제목 목록 초기화
    total_generated = 0  # 총 생성된 제목 수 초기화
    
    total_batches = (TOTAL_TITLES + NUM_TITLES - 1) // NUM_TITLES  # 총 배치 수 계산
    
    for batch_num in range(total_batches):
        remaining_titles = TOTAL_TITLES - total_generated
        current_batch_size = NUM_TITLES if remaining_titles >= NUM_TITLES else remaining_titles
        
        print(f"배치 {batch_num + 1}/{total_batches}: {current_batch_size}개의 뉴스 제목 생성 중...")
        
        new_titles = generate_news_titles(current_batch_size, existing_titles)
        
        if new_titles:
            start_index = total_generated
            save_to_csv(new_titles, OUTPUT_FILE, start_index)
            existing_titles.extend(new_titles)
            total_generated += len(new_titles)
        else:
            print(f"배치 {batch_num + 1}에서 뉴스 제목 생성에 실패했습니다.")
        
        time.sleep(1)  # 각 배치 사이에 잠시 대기
    
    print("모든 뉴스 제목 생성이 완료되었습니다.")

뉴스 제목 생성을 시작합니다.
generated_raw.csv 기존 파일을 삭제하고 새로 생성합니다.
배치 1/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 2/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 3/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 4/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 5/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 6/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 7/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 19개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 8/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 9/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 10/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 17개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 11/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 12/50: 20개의 뉴스 제목 생성 중...
생성된 뉴스 제목 20개가 'generated_raw.csv' 파일에 저장되었습니다.
배치 13/50: 20개의 뉴스 제목 생성 중...

#### 후처리

In [19]:
"""
위에서 생성한 generated_raw.csv를 후처리하는 코드입니다.
후처리 결과는 generated.csv로 저장됩니다.
"""

INPUT_FILE = "generated_raw.csv"
OUTPUT_FILE = "generated.csv"

import pandas as pd

df = pd.read_csv(INPUT_FILE)

# 1. 특수 문자 처리
df['text'] = (
    df['text']
    .str.replace('"', '', regex=False)
    .str.replace("'", '', regex=False)
    .str.replace('#', '', regex=False)
    .str.replace('*', '', regex=False)
    .str.replace(', ', ' ', regex=False)
    .str.replace('-', ' ', regex=False)
    .str.replace('...', '…', regex=False)
    .str.replace('….', '…', regex=False)
    .str.replace(' · ', '·', regex=False)
    .str.replace('· ', '·', regex=False)
    .str.replace(' ·', '·', regex=False)
    .str.replace('  ', ' ', regex=False)
    .str.replace('  ', ' ', regex=False)
    .str.strip()
)

# 2. 후처리 결과 저장
df.to_csv(OUTPUT_FILE, index=False)
print(f"후처리가 완료되었습니다. 결과는 {OUTPUT_FILE}에 저장되었습니다.")

후처리가 완료되었습니다. 결과는 generated.csv에 저장되었습니다.


#### 잘 labeling 됐는지 확인

In [None]:
"""
generaion을 통해 생성된 generated.csv가
잘 labeling 됐는지 '육안으로 확인하기 위한'
generated_analysis.csv 파일을 생성하는 코드입니다.
"""
INPUT_FILE = 'generated.csv'
OUTPUT_FILE = 'generated_analysis.csv'

import pandas as pd

# target 값 매핑 딕셔너리
target_mapping = {
    0: '생활문화',
    1: '스포츠',
    2: '정치',
    3: '사회',
    4: 'IT 과학',
    5: '경제',
    6: '세계'
}

df = pd.read_csv(INPUT_FILE)

# target을 기준으로 오름차순 정렬
df = df.sort_values(by='target')

# target 값 매핑
df['target'] = df['target'].map(target_mapping)

# 저장
df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig')
print(f"새로운 CSV 파일이 '{OUTPUT_FILE}'로 저장되었습니다.")

### 2. 생성한 가상의 기사 제목 데이터를 back-translation

#### back-translation

In [None]:
"""
1.에서 생성한 generated.csv를
DeepL API를 이용해 일본어로 back-translation 하는 코드입니다.
"""

INPUT_FILE = "generated.csv"
OUTPUT_FILE = "generated_JP_raw.csv"
DEEPL_API_URL = "https://api-free.deepl.com/v2/translate"
DEEPL_API_KEY = "40122ee2-c4c5-419b-881c-c854abcf8df5:fx"

import pandas as pd
import requests
import time
import os

REPEAT = 1  # 각 데이터에 대해 역번역을 수행하는 횟수
SAVE_INTERVAL = 10  # 중간 저장할 데이터 개수

def back_translate(text):
    params_ko_ja = {
        'auth_key': DEEPL_API_KEY,
        'text': text,
        'source_lang': 'KO',
        'target_lang': 'JA',
    }
    try:
        response = requests.post(DEEPL_API_URL, data=params_ko_ja)
        response.raise_for_status()
        result = response.json()
        japanese_text = result['translations'][0]['text']
    except requests.exceptions.RequestException as e:
        print(f"번역 오류 (한국어 -> 일본어): {e}")
        return text  # 오류 발생 시 원본 텍스트 반환

    # 일본어 -> 한국어 번역
    params_ja_ko = {
        'auth_key': DEEPL_API_KEY,
        'text': japanese_text,
        'source_lang': 'JA',
        'target_lang': 'KO',
    }
    try:
        response = requests.post(DEEPL_API_URL, data=params_ja_ko)
        response.raise_for_status()
        result = response.json()
        korean_text = result['translations'][0]['text']
        return korean_text
    except requests.exceptions.RequestException as e:
        print(f"번역 오류 (일본어 -> 한국어): {e}")
        return text  # 오류 발생 시 원본 텍스트 반환

# 데이터 불러오기
data = pd.read_csv(INPUT_FILE)
data = data[['ID', 'text', 'target']]
total_characters = data['text'].str.len().sum()

print(f"원본 데이터 개수: {len(data)}")
print(f"총 글자 수: {total_characters}")

texts_to_translate = data['text'].tolist()
REQUEST_DELAY = 1  # API 요청 사이에 지연 추가 (단위: 초)

print("back-translation을 시작합니다...")

# 기존 출력 파일이 있으면 덮어쓰기
if os.path.exists(OUTPUT_FILE):
    os.remove(OUTPUT_FILE)

for r in range(REPEAT):
    print(f"{r + 1}번째 증강을 시작합니다...")
    translated_texts = []
    batch = []  # 중간 저장을 위한 배치 리스트

    for idx, text in enumerate(texts_to_translate):
        translated = back_translate(text)
        translated_texts.append(translated)
        batch.append({
            'ID': data.at[idx, 'ID'],
            'text': translated,
            'target': data.at[idx, 'target']
        })
        print(f"번역 완료: {idx + 1}/{len(texts_to_translate)}")
        time.sleep(REQUEST_DELAY)  # API 요청 사이에 지연 추가

        # SAVE_INTERVAL마다 중간 저장
        if (idx + 1) % SAVE_INTERVAL == 0:
            batch_df = pd.DataFrame(batch)
            if not os.path.exists(OUTPUT_FILE):
                # 첫 저장 시 헤더 포함
                batch_df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig', mode='w')
            else:
                # 이후 저장 시 헤더 제외
                batch_df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig', mode='a', header=False)
            print(f"{idx + 1}개 데이터가 '{OUTPUT_FILE}'에 저장되었습니다.")
            batch = []  # 배치 초기화

    # 마지막에 남은 데이터 저장
    if batch:
        batch_df = pd.DataFrame(batch)
        if not os.path.exists(OUTPUT_FILE):
            batch_df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig', mode='w')
        else:
            batch_df.to_csv(OUTPUT_FILE, index=False, encoding='utf-8-sig', mode='a', header=False)
        print(f"남은 {len(batch)}개 데이터가 '{OUTPUT_FILE}'에 저장되었습니다.")

print(f"'{OUTPUT_FILE}'로 저장이 완료되었습니다.")

#### 후처리

In [None]:
"""
위에서 생성한 generated_JP_raw.csv를 후처리하는 코드입니다.
후처리 결과는 generated_JP.csv로 저장됩니다.
"""

INPUT_FILE = "generated_JP_raw.csv"
OUTPUT_FILE = "generated_JP.csv"

import pandas as pd

df = pd.read_csv(INPUT_FILE)

# 1. 특수 문자 처리
df['text'] = (
    df['text']
    .str.replace('"', '', regex=False)
    .str.replace("'", '', regex=False)
    .str.replace('#', '', regex=False)
    .str.replace('*', '', regex=False)
    .str.replace(', ', ' ', regex=False)
    .str.replace('-', ' ', regex=False)
    .str.replace('...', '…', regex=False)
    .str.replace('….', '…', regex=False)
    .str.replace(' · ', '·', regex=False)
    .str.replace('· ', '·', regex=False)
    .str.replace(' ·', '·', regex=False)
    .str.replace('  ', ' ', regex=False)
    .str.replace('  ', ' ', regex=False)
    .str.strip()
)

# 2. 후처리 결과 저장
df.to_csv(OUTPUT_FILE, index=False)
print(f"후처리가 완료되었습니다. 결과는 {OUTPUT_FILE}에 저장되었습니다.")