# 뉴스 데이터 감성 라벨링

이 노트북은 크롤링한 뉴스 데이터를 BERT 모델 학습을 위해 감성 라벨링하는 과정을 담고 있습니다.

In [None]:
import pandas as pd
from konlpy.tag import Mecab
import re

In [None]:
senti_dict = {}
with open("SentiWord_Dict.txt", "r", encoding="utf-8") as f:
    for line in f:
        if line.strip() == "":
            continue
        phrase, score = line.strip().split('\t')
        if phrase:  # 단어 또는 구문
            key = phrase.strip().split()[0]  # 첫 단어만 사용
            if key not in senti_dict:
                senti_dict[key] = int(score)

In [None]:
# 형태소 분석기
mecab = Mecab()

In [None]:
def get_sentiment_label(text, senti_dict):
    '''감성 점수 계산 함수'''
    if pd.isnull(text) or text.strip() == "":
        return "neutral"

    words = mecab.morphs(text)
    score = sum([senti_dict.get(w, 0) for w in words])
    
    if score > 0:
        return "긍정"
    elif score < 0:
        return "부정"
    else:
        return "중립"


In [None]:
df = pd.read_csv("../data/정당_관점_라벨링_최종_업데이트.csv")
df.head()

In [None]:
df['sentiment'] = df['text'].apply(lambda x: get_sentiment_label(x, senti_dict))
df[['text', 'sentiment']].head()

In [None]:
df.to_csv("../data/정당_관점_라벨링_최종_업데이트.csv", index=False)
print("✅ 감성 레이블링 완료 및 저장 완료")