In [4]:
import torch
from transformers import BertTokenizer, BertForSequenceClassification
import torch.nn.functional as F

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
model_name = "kykim/bert-kor-base"
model = BertForSequenceClassification.from_pretrained(model_name, num_labels=2)
tokenizer = BertTokenizer.from_pretrained(model_name)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at kykim/bert-kor-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [6]:
def classify_emotion(text):
    # 텍스트 토큰화 및 패딩
    tokens = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

    # 예측 수행
    with torch.no_grad():
        prediction = model(**tokens)

		# 예측 결과를 바탕으로 감정 출력
    prediction = F.softmax(prediction.logits, dim=1)
    output = prediction.argmax(dim=1).item()
    labels = ["부정적", "긍정적"]
    print(f'[{labels[output]}]\\n')
    return labels[output]

In [15]:
import pandas as pd
# CSV 파일 로드
file_path = 'data_ver4.csv'
df = pd.read_csv(file_path)
print(df.head())

                           text
0                           NaN
1                    세상이 말세긴 한듯
2        군발언 영상 보고 어우야 했는데해명됬나요
3  언젠가는 이세돌이 모두에게 인정받는 날이 올 것이다
4                      우왁굳의 승리네


In [16]:
classify_emotion(df.iloc[1, 0])

[부정적]\n


'부정적'

In [17]:
fixed_df = df.dropna(axis=0)
fixed_df

Unnamed: 0,text
1,세상이 말세긴 한듯
2,군발언 영상 보고 어우야 했는데해명됬나요
3,언젠가는 이세돌이 모두에게 인정받는 날이 올 것이다
4,우왁굳의 승리네
5,할머니집 컴퓨터로 챗 들어간 느낌이네
...,...
386,스텔라이브 하위호환
387,바둑기사 라는 말만 안나왔으면 좋겠다
388,나도 이세페 가고싶은데 다른 나라에 살아서
389,편집자 주폭도 확인


In [19]:
results = []
for index, row in fixed_df.iterrows():
    try:
        results.append(classify_emotion(fixed_df.iloc[index, 0]))
    except :
        print("Error")
        results.append("")

[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[긍정적]\n
[긍정적]\n
[부정적]\n
[긍정적]\n
[부정적]\n
[부정적]\n
[부정적]\n
[부정적]\n


In [21]:
fixed_df['state'] = results
fixed_df

fixed_df.to_csv('train_data_ver4.csv', index=False, encoding='utf-8-sig')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  fixed_df['state'] = results


In [22]:
# 'text' 열에서 '부정적' 텍스트가 포함된 행 찾기
negative_texts = fixed_df[fixed_df['state'].str.contains('부정적')]
positive_texts = fixed_df[fixed_df['state'].str.contains('긍정적')]
# 부정적인 텍스트가 포함된 행의 개수 계산
count_negative_texts = len(negative_texts)
count_positive_texts = len(positive_texts)
print("부정적인 텍스트가 호출된 횟수:", count_negative_texts)
print("긍정적인 텍스트가 호출된 횟수:", count_positive_texts)

부정적인 텍스트가 호출된 횟수: 317
긍정적인 텍스트가 호출된 횟수: 54
