## DLthon 텍스트데이터 분류

- 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 그리고 일반의 총 5가지 대화 유형 클래스를 분류하는 모델

In [17]:
import pandas as pd
import numpy as np
import re
import os

from sklearn.model_selection import train_test_split

import tensorflow as tf
from transformers import ElectraTokenizer
from transformers import TFElectraForSequenceClassification


### 데이터 전처리

In [None]:
# train 데이터는 염철현님 train 데이터
train_df = pd.read_csv("/content/drive/MyDrive/data/train_ch.csv")

In [None]:
len(train_df)

(4788, 500)

In [4]:
train_df.head()

Unnamed: 0.1,Unnamed: 0,idx,class,conversation
0,0,1,0,지금 너 스스로를 죽여달라고 애원하는 것인가 ? 아닙니다 . 죄송합니다 . 죽을 거...
1,1,2,0,길동경찰서입니다 . 시 분 마트에 폭발물을 설치할거다 . 네 ? 똑바로 들어 ...
2,2,3,3,너 되게 귀여운거 알지 ? 나보다 작은 남자는 첨봤어 . 그만해 . 니들 놀리는거 ...
3,3,4,1,어이 거기 예 ? ? 너 말이야 너 . 이리 오라고 무슨 일 . 너 옷 좋아보인다 ...
4,4,5,1,저기요 혹시 날이 너무 뜨겁잖아요 ? 저희 회사에서 이 선크림 파는데 한 번 손등에...


In [5]:
train_df.drop(columns=['Unnamed: 0'], inplace=True)

In [7]:
# 결측치 확인
train_df.isnull().sum()

Unnamed: 0,0
idx,0
class,0
conversation,0


In [8]:
# 중복 데이터 확인
train_df.duplicated().sum()

0

#### 텍스트 정제

In [9]:
def preprocess_sentence(sentence):
    # 양쪽 공백을 제거
    sentence = sentence.strip()

    # 줄바꿈(\n)을 공백으로 변환
    sentence = sentence.replace("\n", " ")

    # 단어와 구두점(punctuation) 사이의 거리를 만듭니다.
    # 예를 들어서 "I am a student." => "I am a student ."와 같이
    # student와 온점 사이에 거리를 만듭니다.
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    sentence = re.sub(r'[" "]+', " ", sentence)

    # (가-힣)를 제외한 모든 문자를 공백인 ' '로 대체합니다.
    # ".", "?", "!", "," 삭제
    sentence = re.sub(r"[^가-힣]", " ", sentence)
    sentence = sentence.strip()
    return sentence

train_df['conversation'] = train_df['conversation'].apply(preprocess_sentence)

In [10]:
train_df.head()

Unnamed: 0,idx,class,conversation
0,1,0,지금 너 스스로를 죽여달라고 애원하는 것인가 아닙니다 죄송합니다 죽을 거...
1,2,0,길동경찰서입니다 시 분 마트에 폭발물을 설치할거다 네 똑바로 들어 한번만...
2,3,3,너 되게 귀여운거 알지 나보다 작은 남자는 첨봤어 그만해 니들 놀리는거 ...
3,4,1,어이 거기 예 너 말이야 너 이리 오라고 무슨 일 너 옷 좋아보인다 ...
4,5,1,저기요 혹시 날이 너무 뜨겁잖아요 저희 회사에서 이 선크림 파는데 한 번 손등에...


### koElectra 모델

#### 토큰나이저

In [11]:
tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v3-discriminator")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/61.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/263k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/458 [00:00<?, ?B/s]

In [12]:
tokenizer

ElectraTokenizer(name_or_path='monologg/koelectra-small-v3-discriminator', vocab_size=35000, model_max_length=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	3: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	4: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

In [13]:
'''
MAX_LENGTH를 정하기 위해서 문장별 토큰 개수 계산 후 분포확인
'''

# 문장별 토큰 개수 계산
lengths = train_df["conversation"].apply(lambda x: len(tokenizer.tokenize(x)))

# 평균, 최대, 90% 백분위수 확인
print(f"평균 길이: {np.mean(lengths):.2f}")
print(f"최대 길이: {np.max(lengths)}")
print(f"90% 백분위수: {np.percentile(lengths, 90)}")
print(f"95% 백분위수: {np.percentile(lengths, 95)}")
print(f"99% 백분위수: {np.percentile(lengths, 99)}")


평균 길이: 101.63
최대 길이: 431
90% 백분위수: 163.0
95% 백분위수: 197.0
99% 백분위수: 290.1300000000001


In [14]:
MAX_LENGTH = 200

In [15]:
'''
성능 확인을 위해서 train, val, test로 분류 코드
자체 성능 테스트가 필요없을 경우(submission 제출을 위해 최대한 많은 데이터 학습할 경우)
이 코드 말고 아래 코드 실행
'''

# # 1차 분할: train(80%) / temp(20%)
# train_texts, temp_texts, train_labels, temp_labels = train_test_split(
#     train_df["conversation"], train_df["class"], test_size=0.2, random_state=42)

# # 2차 분할: val(10%) / test(10%)
# val_texts, test_texts, val_labels, test_labels = train_test_split(
#     temp_texts, temp_labels, test_size=0.5, random_state=42)

# print(f"Train 데이터 개수: {len(train_texts)}")
# print(f"Validation 데이터 개수: {len(val_texts)}")
# print(f"Test 데이터 개수: {len(test_texts)}")



'\n성능 확인을 위해서 train, val, test로 분류 코드\n자체 성능 테스트가 필요없을 경우(submission 제출을 위해 최대한 많은 데이터 학습할 경우)\n이 코드 말고 아래 코드 실행\n'

In [18]:
'''
submission 제출을 위해 최대한 많은 데이터 학습을 위해 train, val로 분류 코드
'''

# 1차 분할: train(80%) / val(20%)
train_texts, val_texts, train_labels, val_labels = train_test_split(
    train_df["conversation"], train_df["class"], test_size=0.2, random_state=42)

print(f"Train 데이터 개수: {len(train_texts)}")
print(f"Validation 데이터 개수: {len(val_texts)}")

Train 데이터 개수: 3830
Validation 데이터 개수: 958


In [19]:
# 토큰화 함수 정의
def tokenize_function(texts):
    return tokenizer(
        texts.tolist(),  # 리스트 형태로 변환
        truncation=True,
        padding="max_length",
        max_length=200,
        return_tensors="tf",
        return_attention_mask=True
    )

# Train 데이터 토큰화
train_encodings = tokenize_function(train_texts)
train_input_ids = train_encodings["input_ids"]
train_attention_masks = train_encodings["attention_mask"]

# Validation 데이터 토큰화
val_encodings = tokenize_function(val_texts)
val_input_ids = val_encodings["input_ids"]
val_attention_masks = val_encodings["attention_mask"]

'''
train, val, test로 분류했을때 아래 코드 실행해야함.
'''
# # Test 데이터 토큰화
# test_encodings = tokenize_function(test_texts)
# test_input_ids = test_encodings["input_ids"]
# test_attention_masks = test_encodings["attention_mask"]

print(f"Train input shape: {train_input_ids.shape}")
print(f"Validation input shape: {val_input_ids.shape}")
# print(f"Test input shape: {test_input_ids.shape}")


Train input shape: (3830, 200)
Validation input shape: (958, 200)


In [None]:
# TensorFlow Dataset 변환 함수
def encode_tf_dataset(input_ids, attention_masks, labels):
    return tf.data.Dataset.from_tensor_slices((
        {"input_ids": input_ids, "attention_mask": attention_masks},  # 모델 입력
        tf.convert_to_tensor(labels, dtype=tf.int32)  # 정답 라벨
    ))

# Train 데이터셋 변환
train_dataset = encode_tf_dataset(train_input_ids, train_attention_masks, train_labels)

# Validation 데이터셋 변환
val_dataset = encode_tf_dataset(val_input_ids, val_attention_masks, val_labels)

'''
train, val, test로 분류했을때 아래 코드 실행해야함.
'''
# Test 데이터셋 변환
# test_dataset = encode_tf_dataset(test_input_ids, test_attention_masks, test_labels)

# 배치 크기 설정
BATCH_SIZE = 64
train_dataset = train_dataset.shuffle(len(train_input_ids)).batch(BATCH_SIZE)
val_dataset = val_dataset.batch(BATCH_SIZE)
# test_dataset = test_dataset.batch(BATCH_SIZE)

print("🚀 TensorFlow Dataset 변환 완료!")


🚀 TensorFlow Dataset 변환 완료!


In [None]:
# ✅ 저장할 디렉토리 설정
checkpoint_dir = "./koelectra_best_model"
os.makedirs(checkpoint_dir, exist_ok=True)

# ✅ KoElectra 모델 로드
model = TFElectraForSequenceClassification.from_pretrained(
    "monologg/koelectra-small-v3-discriminator",
    num_labels=5,
    from_pt=True  # PyTorch → TensorFlow 변환
)

# ✅ 옵티마이저 고정 (최신 옵티마이저 사용 시 에러 방지)
optimizer = tf.optimizers.Adam(learning_rate=2e-5)

# ✅ 손실 함수 및 메트릭 설정
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metrics = ["accuracy"]

# ✅ 모델 컴파일
model.compile(optimizer=optimizer, loss=loss, metrics=metrics)

# ✅ 학습 시작 (EarlyStopping + 최적의 모델 저장)
EPOCHS = 100
patience = 5  # EarlyStopping 조건 (5번 연속 개선되지 않으면 중단)
wait = 0  # EarlyStopping을 위한 카운터
best_val_accuracy = 0.0
best_epoch = 0


'''
koElectra 모델이 최신 케라스 버전에 호환이 되지않아서
EarlyStopping 이나 CheckPoint 같은 라이브러리 사용시 에러발생
수동으로 코드 작성해서 얼리스탑이랑 체크포인트 적용
'''
for epoch in range(EPOCHS):
    print(f"\n🔹 Epoch {epoch + 1}/{EPOCHS} 시작...")
    history = model.fit(train_dataset, validation_data=val_dataset, epochs=1, verbose=1)

    # ✅ 현재 epoch의 검증 정확도 가져오기
    current_val_accuracy = history.history["val_accuracy"][0]

    # ✅ 최적의 모델 저장 (가장 높은 val_accuracy를 갖는 모델만 저장)
    if current_val_accuracy > best_val_accuracy:
        best_val_accuracy = current_val_accuracy
        best_epoch = epoch + 1
        wait = 0  # EarlyStopping 카운터 초기화
        model.save_weights(os.path.join(checkpoint_dir, "best_model.weights.h5"))
        print(f"✅ 새로운 최고 성능! Epoch {best_epoch}, val_accuracy={best_val_accuracy:.4f} → 가중치 저장 완료!")
    else:
        wait += 1
        print(f"⚠️ {wait}/{patience} - 검증 정확도 개선 없음.")

    # ✅ EarlyStopping 조건 충족 시 학습 중단
    if wait >= patience:
        print(f"\n⏹️ EarlyStopping 발동! {patience}번 연속 개선되지 않음 → 학습 종료")
        break

print(f"\n🔥 최적의 모델은 Epoch {best_epoch}에서 val_accuracy={best_val_accuracy:.4f}로 저장됨!")

Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFElectraForSequenceClassification: ['discriminator_predictions.dense.bias', 'discriminator_predictions.dense_prediction.bias', 'discriminator_predictions.dense_prediction.weight', 'electra.embeddings.position_ids', 'discriminator_predictions.dense.weight']
- This IS expected if you are initializing TFElectraForSequenceClassification from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFElectraForSequenceClassification from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
Some weights or buffers of the TF 2.0 model TFElectraForSequenceClassification were not initialized from the PyTorch model and are newly initialized: ['classifier.dens


🔹 Epoch 1/100 시작...




✅ 새로운 최고 성능! Epoch 1, val_accuracy=0.5251 → 가중치 저장 완료!

🔹 Epoch 2/100 시작...
✅ 새로운 최고 성능! Epoch 2, val_accuracy=0.6023 → 가중치 저장 완료!

🔹 Epoch 3/100 시작...
✅ 새로운 최고 성능! Epoch 3, val_accuracy=0.6879 → 가중치 저장 완료!

🔹 Epoch 4/100 시작...
✅ 새로운 최고 성능! Epoch 4, val_accuracy=0.8017 → 가중치 저장 완료!

🔹 Epoch 5/100 시작...
✅ 새로운 최고 성능! Epoch 5, val_accuracy=0.8518 → 가중치 저장 완료!

🔹 Epoch 6/100 시작...
✅ 새로운 최고 성능! Epoch 6, val_accuracy=0.8622 → 가중치 저장 완료!

🔹 Epoch 7/100 시작...
✅ 새로운 최고 성능! Epoch 7, val_accuracy=0.8862 → 가중치 저장 완료!

🔹 Epoch 8/100 시작...
✅ 새로운 최고 성능! Epoch 8, val_accuracy=0.9029 → 가중치 저장 완료!

🔹 Epoch 9/100 시작...
⚠️ 1/5 - 검증 정확도 개선 없음.

🔹 Epoch 10/100 시작...
✅ 새로운 최고 성능! Epoch 10, val_accuracy=0.9092 → 가중치 저장 완료!

🔹 Epoch 11/100 시작...
⚠️ 1/5 - 검증 정확도 개선 없음.

🔹 Epoch 12/100 시작...
⚠️ 2/5 - 검증 정확도 개선 없음.

🔹 Epoch 13/100 시작...
⚠️ 3/5 - 검증 정확도 개선 없음.

🔹 Epoch 14/100 시작...
⚠️ 4/5 - 검증 정확도 개선 없음.

🔹 Epoch 15/100 시작...
✅ 새로운 최고 성능! Epoch 15, val_accuracy=0.9154 → 가중치 저장 완료!

🔹 Epoch 16/100 시작...
⚠️ 1/5 - 검증

In [None]:
'''
train, val, test로 나눈 경우 test 데이터셋 결과확인을 위한코드
'''

# # 최종 성능 평가
# results = model.evaluate(test_dataset)
# print(f"테스트 정확도: {results[1] * 100:.2f}%")

테스트 정확도: 90.36%


## 추론함수

In [None]:
# ✅ 저장된 최적 모델 가중치 불러오기
model.load_weights(os.path.join(checkpoint_dir, "best_model.weights.h5"))

print("✅ 최적의 모델 가중치를 불러왔습니다!")


✅ 최적의 모델 가중치를 불러왔습니다!


In [None]:
# test 데이터 로드
test_df = pd.read_csv("/content/drive/MyDrive/data/test.csv")

In [20]:
# test_df 의 text 칼럼 정제
test_df['text'] = test_df['text'].apply(preprocess_sentence)
test_df

Unnamed: 0,idx,text
0,t_000,아가씨 담배한갑주소 네 원입니다 어 네 지갑어디갔지 에이 버스에서 잃어버렸나...
1,t_001,우리팀에서 다른팀으로 갈 사람 없나 그럼 영지씨가 가는건 어때 네 제가요...
2,t_002,너 오늘 그게 뭐야 네 제가 뭘 잘못했나요 제대로 좀 하지 네 똑바로 좀 하...
3,t_003,이거 들어바 와 이 노래 진짜 좋다 그치 요즘 이 것만 들어 진짜 너무 좋다 내가 ...
4,t_004,아무튼 앞으로 니가 내 와이파이야 응 와이파이 온 켰어 반말 주인...
...,...,...
495,t_495,미나씨 휴가 결제 올리기 전에 저랑 상의하라고 말한거 기억해요 네 합니다 보...
496,t_496,교수님 제 논문에 제 이름이 없나요 아 무슨 논문말이야 지난 번 냈던 논문이...
497,t_497,야 너 네 저요 그래 너 왜요 돈좀 줘봐 돈 없어요 돈이 왜 없어 지갑은 폼이니...
498,t_498,야 너 빨리 안 뛰어와 너 이 환자 제대로 봤어 안 봤어 어제 저녁부터 계속 보...


In [21]:
# submission 불러오기
submission_df = pd.read_csv("/content/drive/MyDrive/data/submission.csv")
submission_df.head()

Unnamed: 0,file_name,class
0,t_000,
1,t_001,
2,t_002,
3,t_003,
4,t_004,


In [None]:
# 모델 추론
def predict_texts(df):
    predicted_labels = []
    predicted_probs = []

    for text in df["text"]:
        # 입력 데이터 토큰화
        inputs = tokenizer(
            text,
            truncation=True,
            padding="max_length",
            max_length=200,
            return_tensors="tf"
        )

        # 모델 추론 (Softmax 적용 전 logits 출력)
        logits = model(inputs["input_ids"], attention_mask=inputs["attention_mask"]).logits

        # Softmax 적용하여 확률값 계산
        probabilities = tf.nn.softmax(logits, axis=-1)

        # 가장 확률 높은 라벨 예측
        predicted_label = tf.argmax(probabilities, axis=-1).numpy()[0]
        predicted_labels.append(predicted_label)
        predicted_probs.append(probabilities.numpy())

    return predicted_labels, predicted_probs

# 예측 실행
predicted_labels, predicted_probs = predict_texts(test_df)


In [None]:
# `file_name`과 `class` 컬럼을 포함한 DataFrame 생성
submission_df = test_df[["idx"]].copy()
submission_df["target"] = predicted_labels  # 예측된 숫자 라벨 추가

# 결과 확인
print(submission_df.head())

# CSV 저장
submission_df.to_csv("submission.csv", index=False, encoding="utf-8-sig")
print("✅ submission.csv 저장 완료!")

  file_name  class
0     t_000      1
1     t_001      2
2     t_002      2
3     t_003      4
4     t_004      3
✅ submission.csv 저장 완료!
