In [41]:
import tensorflow as tf
import tensorflow_datasets as tfds
import os
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json

### 데이터 전처리

In [42]:
hub_df = pd.read_csv('data/hub_data.csv', index_col=0)
train_df = pd.read_csv('data/train.csv', index_col=0)

In [43]:
a = hub_df[hub_df['class'].str.contains('기쁨')].sample(600)
b = hub_df[hub_df['class'].str.contains('분노')].sample(200)
c = hub_df[hub_df['class'].str.contains('불안')].sample(200)
len(a), len(b), len(c)

(600, 200, 200)

In [44]:
temp = pd.concat([a, b, c], ignore_index=True)

In [45]:
temp['class'] = '일반 대화'

In [46]:
temp

Unnamed: 0,class,conversation
0,일반 대화,내가 응원하는 팀이 이번에 우승하게 되었어. 신이 나고 기뻐서 이 기분을 어떻게 표...
1,일반 대화,오늘 아침에 와이프가 향수를 뿌리고 외출하더라고. 얼마나 기쁜지 눈물이 찔끔 날 뻔...
2,일반 대화,병원에서 도수치료를 받았는데 실비 보험으로 청구하니 내가 내야 하는 부담금이 거의 ...
3,일반 대화,나 기쁜 일이 있어!\n무슨 일인데 그렇게 신이 났어?\n얼마 전에 내 노트북이 고...
4,일반 대화,항상 분리수거는 자기 담당이었잖아. 오늘 처음으로 해봐서 정말 애먹었어. 그런데 그...
...,...,...
995,일반 대화,택시에서 내리고 보니 스마트폰을 두고 내린 걸 알았어. 그래서 방금 택시 기사님 계...
996,일반 대화,"나 이제 면접장 도착했어, 너무 떨려. 이번에는 잘 볼 수 있을까?\n면접시간보다 ..."
997,일반 대화,"어휴, 투자자 찾기가 이렇게 힘든 일이었네. 맨날 하는 일인데도 새삼스럽게 힘들다...."
998,일반 대화,"자기야, 나 요즘 너무 불안해서 큰일이야 어떡하지?\n왜 무슨 걱정이라도 있는 거야..."


In [47]:
train_df = pd.concat([train_df, temp], ignore_index=True).reset_index(drop=True)

In [48]:
train_df

Unnamed: 0,class,conversation
0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...
4945,일반 대화,택시에서 내리고 보니 스마트폰을 두고 내린 걸 알았어. 그래서 방금 택시 기사님 계...
4946,일반 대화,"나 이제 면접장 도착했어, 너무 떨려. 이번에는 잘 볼 수 있을까?\n면접시간보다 ..."
4947,일반 대화,"어휴, 투자자 찾기가 이렇게 힘든 일이었네. 맨날 하는 일인데도 새삼스럽게 힘들다...."
4948,일반 대화,"자기야, 나 요즘 너무 불안해서 큰일이야 어떡하지?\n왜 무슨 걱정이라도 있는 거야..."


In [49]:
train_df.dropna()

Unnamed: 0,class,conversation
0,협박 대화,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,협박 대화,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,기타 괴롭힘 대화,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,갈취 대화,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,갈취 대화,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...
4945,일반 대화,택시에서 내리고 보니 스마트폰을 두고 내린 걸 알았어. 그래서 방금 택시 기사님 계...
4946,일반 대화,"나 이제 면접장 도착했어, 너무 떨려. 이번에는 잘 볼 수 있을까?\n면접시간보다 ..."
4947,일반 대화,"어휴, 투자자 찾기가 이렇게 힘든 일이었네. 맨날 하는 일인데도 새삼스럽게 힘들다...."
4948,일반 대화,"자기야, 나 요즘 너무 불안해서 큰일이야 어떡하지?\n왜 무슨 걱정이라도 있는 거야..."


In [51]:
class_dict = {'협박 대화': 0, '갈취 대화':1, '직장 내 괴롭힘 대화':2, '기타 괴롭힘 대화':3, '일반 대화':4}

In [53]:
with open('class_dict.json','w') as f:
    f.write(json.dumps(class_dict, ensure_ascii=False, indent=4))

In [56]:
train_df['class'] = train_df['class'].apply(lambda x: class_dict[x])

### 모델 

In [54]:
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification

In [39]:
MODEL_NAME = 'klue/bert-base'

In [58]:
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

Downloading:   0%|          | 0.00/289 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/425 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/243k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/483k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/125 [00:00<?, ?B/s]

In [60]:
from sklearn.model_selection import train_test_split

In [69]:
x_train, x_test, y_train, y_test = train_test_split(
    train_df['conversation'], train_df['class'],
    test_size=0.2,
    random_state=42,
    stratify=train_df['class'] # 클래스 비율 유지
)

In [74]:
x_train.shape, x_test.shape, y_train.shape, y_test.shape

((3960,), (990,), (3960,), (990,))

In [59]:
encoded_inputs = tokenizer(
    texts,
    padding='max_length', # 또는 padding=True (배치 내 최대 길이에 맞춤)
    truncation=True,
    max_length=128,       # BERT 모델이 처리 가능한 최대 길이 고려 (klue/bert-base는 512)
    return_tensors='tf'
)

NameError: name 'texts' is not defined