### 1. 데이터 로드

In [2]:
# pip install nest_asyncio

In [4]:
import asyncio
import openai
import pymysql
import nest_asyncio
import pandas as pd
from sqlalchemy import create_engine, text
from sklearn.metrics import precision_score, f1_score, roc_auc_score
from sklearn.preprocessing import LabelEncoder

In [None]:
# asyncio 오류 방지 패키지(Jupyter 환경에서)
nest_asyncio.apply()

In [12]:
# MySQL 연결 설정
db_url = "mysql+pymysql://stratify:1111@3.34.124.117/stratify"
engine = create_engine(db_url, pool_recycle=3600)

# MySQL 연결 테스트
try:
    with engine.connect() as conn:
        result = conn.execute(text("SELECT COUNT(*) FROM cleaned_news_data"))
        count = result.scalar()  
        print(f"✅ 데이터 개수: {count} 개")
except Exception as e:
    print(f"❌ MySQL 연결 실패: {e}")

✅ 데이터 개수: 1164 개


In [13]:
# OpenAI API key
client = openai.AsyncOpenAI(api_key="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")

In [14]:
# 엔진 생성
engine = create_engine(db_url, pool_recycle=3600)

### 2. 감정 분석 함수 정의

In [None]:
# 감정 분석 비동기 함수 - Batching을 적용하여 한 번의 요청에서 여러 개의 뉴스를 처리함.
async def batch_analyze_sentiment_gpt4o(news_list):
    """
    여러 개의 뉴스 기사를 한 번의 요청으로 감정 분석을 수행하는 함수
    """
    prompt = "\n\n".join(
        [f"[뉴스 {i+1}]\n제목: {title}\n본문: {content}" for i, (title, content) in enumerate(news_list)]
    )
    prompt += """
    각 뉴스에 대해 국내 자동차 업계의 입장에서 긍정/부정을 판단하여
    '뉴스 X: 긍정' 또는 '뉴스 X: 부정' 형식으로만 답변하세요.
    다른 텍스트는 포함하지 마세요.
    """

    try:
        response = await client.chat.completions.create(
            model="gpt-4o",
            messages=[{"role": "user", "content": prompt}]
        )
        raw_output = response.choices[0].message.content.strip()
        sentiments = [line.split(": ")[1].strip() for line in raw_output.split("\n") if ": " in line]
    except openai.RateLimitError:
        print("Rate Limit 초과 - 3초 대기 후 재시도")
        await asyncio.sleep(3)
        # 재시도
        return await batch_analyze_sentiment_gpt4o(news_list)

    # 반환된 감정 분석 결과 개수가 맞지 않으면 에러 방지
    if len(sentiments) != len(news_list):
        print(f"응답 개수 불일치: 예상 {len(news_list)}개, 실제 {len(sentiments)}개 → 빈 값 추가")
        # 부족한 개수만큼 'N/A' 추가
        sentiments += ["N/A"] * (len(news_list) - len(sentiments))
        # 너무 많으면 자르기
        sentiments = sentiments[:len(news_list)]

    # 배치 요청 간 1초 대기
    await asyncio.sleep(1)
    return sentiments

### 3. 감정 분석 수행

In [17]:
# 데이터 가져오기
query = """SELECT id, content_summary FROM cleaned_news_data WHERE sentiment_gpt IS NULL"""
df = pd.read_sql(query, engine)

print(f"감정 분석할 데이터 개수: {len(df)} 개")

감정 분석할 데이터 개수: 1164 개


In [None]:
# 배치 처리 실행
async def process_dataframe_batch(df, batch_size=5):
    """
    배치 단위로 감정 분석 실행
    """
    results = []

    for i in range(0, len(df), batch_size):
        batch = df.iloc[i : i + batch_size]

        # batch가 비어있는 경우 건너뛰기
        if batch.empty:
            continue

        # (id, content_summary) tuple list 생성
        batch_news_list = [(str(row["id"]), row["content_summary"]) for _, row in batch.iterrows()]
        
        # GPT-4o를 사용한 감정 분석 요청
        try:
            sentiments = await batch_analyze_sentiment_gpt4o(batch_news_list)

            # 반환 개수 검증(불일치 시 N/A 추가)
            if len(sentiments) != len(batch_news_list):
                print(f"감정 분석 응답 개수 불일치: {len(batch_news_list)} → {len(sentiments)}")
                sentiments += ["N/A"] * (len(batch_news_list) - len(sentiments))
                sentiments = sentiments[:len(batch_news_list)]

        except Exception as e:
            print(f"GPT-4o 감정 분석 중 오류 발생: {e}")
            sentiments = ["ERROR"] * len(batch_news_list)
        
        results.extend(sentiments)
        
        # 배치 간 0.3초 대기 (Rate Limit 방지)
        await asyncio.sleep(0.3)

    df["sentiment_gpt"] = results
    return df

# 이벤트 루프 가져오기
loop = asyncio.get_event_loop()
df = loop.run_until_complete(process_dataframe_batch(df))  # 배치 실행

In [26]:
# 감정 분석 결과를 숫자로 변환
sentiment_mapping = {"긍정": 1, "부정": -1, "중립": 0}
df["sentiment_gpt"] = df["sentiment_gpt"].map(sentiment_mapping)

# 데이터베이스 업데이트
with engine.begin() as conn:
    for idx, row in df.iterrows():
        update_query = text("""
        UPDATE cleaned_news_data
            SET sentiment_gpt = :sentiment_gpt
            WHERE id = :id
            """)

        conn.execute(update_query, {"sentiment_gpt": row["sentiment_gpt"], "id": row["id"]})

print("감정 분석 완료 및 데이터베이스 업데이트 완료!")

감정 분석 완료 및 데이터베이스 업데이트 완료!


### 4. 성능 평가