In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import os
from transformers import AutoModel, AutoTokenizer, ElectraForSequenceClassification
import torch

In [3]:
np.random.seed(42)

In [4]:
!pip install plotly



In [8]:
def cls_embedding(model_output):
    last_hidden_states=model_output.hidden_states[-1]
    cls_vector=last_hidden_states[:,0,:]
    return cls_vector

In [9]:
#load model and tokenzier

model_path = '../dev-test-model'
model=ElectraForSequenceClassification.from_pretrained(model_path)
tokenizer=AutoTokenizer.from_pretrained('beomi/KcELECTRA-base')

In [10]:
#load dataset

data_path='./data1'
files=os.listdir(data_path)
data={"text":[], "label":[]}

for file in files:
    file_path=os.path.join(data_path, file)
    with open(file_path, 'r', encoding='utf-8') as f:
        lines=f.readlines()
        for line in lines:
            data["text"].append(line.split('\t')[0])
            data["label"].append(line.split('\t')[1].strip())

print(data["text"][:10])
print(data["label"][:10])
print()

['엄마 우리 집 물고기가 왜 이렇게 줄었지 어디 보자 아이코 여행 다녀오는 동안 애들이 배가 많이 고팠나 물고기 어디 간 거야 움 작은 물고기들이 많이 죽었나 본데 응 죽었다고 흑흑 안 돼 안 돼 내 친구들이란 말이야 울지 마 물고기들이 또 많아질 거야 불쌍해 물고기들 죽어서 하늘나라 간 거야 그럼 하늘나라에서 물고기들 잘 놀고 있을 거야 걱정하지 마 응 엄마', '선생님 저는 사는 게 죽을 만큼 힘들었어요 그러셨군요 네 어릴 땐 엄마 아빠 폭언으로 싸우는 거 보고 자라서 정서적으로 불안정했고요 정말 힘드셨겠어요 정말 죽고 싶은 날들이 많았어요 저 같아도 그랬을 것 같아요 그런데 선생님 이제 저도 엄마가 되었으니 맘대로 죽을 수도 없잖아요 그게 더 힘들어요 그런 마음 이해합니다 애들 보고 살아야죠', '야 이 씨발년아 이따가 옥상으로 올라와 내가 뭐 잘 못했어 미친년 잘못도 모르니 처맞아야지 잘못했어 미안해 옥상으로 안 오면 알지 네 동생이 끌려갈 거야 동생은 건들지만 안돼 그럼 알아먹은 건가 동생 살리고 싶으면 조용히 와라 아 알겠어 올라갈게 너 잘못한 거 적어서 와 안 그러면 동생도 끌고 갈 테니', '홍 과장 어디 갔나 네 잠시 외근 나가셨습니다 그래 잘됐네 다들 이리 모여보게 네 부장님 앞으로 홍 과장에게 어떤 업무나 일정 공유하지 말도록 홍 과장은 너무 기본이 안 되어 있어 그래도 상사인데요 그럼 나는 길동 씨 상사 아닌가 시키면 시키는 대로 해 알겠어 네 알겠습니다 부장님 네 부장님 지시대로 하겠습니다', '이봐 길순 씨 길순 씨는 볼 때마다 더 이뻐지는 것 같아 아 안녕하세요 이리 앉아봐 젊은 사람이 뭘 그렇게 바빠 죄송해요 저는 가봐야할 곳이 있어서요 이봐 그러면 내가 무안해지잖아 정말요 제가 지금 바빠서 너 이럴거야 그러면 안 될텐데 내가 집주인인거 잊었어 아니요 잘 알고 있죠 그동안 이 말을 못했는데 집세를 슬슬 인상해볼까 네 갑자기요 제가 돌봐야할 가족들도 있는데 집세마저 올리시면 그러니까 좀 앉아봐 길순 씨 하는 것 보고 올릴지 말지 생

In [None]:
# create sentence embedding

corpus = data["text"]

encoded_input=tokenizer(corpus, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output=model(**encoded_input, output_hidden_states=True)

sentence_embeddings=cls_embedding(model_output)

print(sentence_embeddings)

In [None]:
num_clusters = 5
clustering_model = KMeans(n_clusters=num_clusters)
clustering_model.fit(sentence_embeddings)
k_means_labels = clustering_model.labels_
k_means_cluster_centers = clustering_model.cluster_centers_

In [None]:
print(k_means_labels)

In [None]:
len(set(k_means_labels))

In [None]:
print(k_means_cluster_centers)

In [None]:
# results of k-means clustering
clustered_sentences = [[] for i in range(num_clusters)]
clustered_labels = [[] for i in range(num_clusters)]

for sentence_id, cluster_id in enumerate(k_means_labels):
    clustered_sentences[cluster_id].append(corpus[sentence_id])
    clustered_labels[cluster_id].append(data["label"][sentence_id])

In [None]:
for i, cluster in enumerate(clustered_sentences):
    print("Cluster ", i)
    print("cluster에 포함된 sentence 개수: ", len(cluster))
    print(f"협박 데이터 {clustered_labels[i].count('020121')}개, {clustered_labels[i].count('020121')/len(cluster)*100:.4f}%")
    print(f"갈취 및 공갈 데이터 {clustered_labels[i].count('02051')}개, {clustered_labels[i].count('02051') / len(cluster)*100:.4f}%")
    print(f"직장 내 괴롭힘 데이터 {clustered_labels[i].count('020811')}개, {clustered_labels[i].count('020811') / len(cluster)*100:.4f}%")
    print(f"기타 괴롭힘 데이터 {clustered_labels[i].count('020819')}개, {clustered_labels[i].count('020819') / len(cluster)*100:.4f}%")
    print(f"일반 대화 데이터 {clustered_labels[i].count('000001')}개, {clustered_labels[i].count('000001') / len(cluster)*100:.4f}%")
    print()


In [None]:
import numpy as np
from sklearn.manifold import TSNE

X=sentence_embeddings

X_embedded=TSNE(n_components=2).fit_transform(X)

In [None]:
import pandas as pd

df_embeddings = pd.DataFrame(X_embedded)
df_embeddings = df_embeddings.rename(columns={0:'x',1:'y'})

In [None]:
df_embeddings.head()

In [None]:
df_embeddings=df_embeddings.assign(label=k_means_labels)
df_embeddings=df_embeddings.assign(text=corpus)
df_embeddings=df_embeddings.assign(ref_label=data['label'])

In [None]:
df_embeddings.head()

In [None]:
import plotly.express as px

df_embeddings["label"] = df_embeddings["label"].astype(str)
df_embeddings["ref_label"] = df_embeddings["ref_label"].astype(str)

fig = px.scatter(
    df_embeddings, x='x', y='y',
    color='ref_label', labels={'color': 'ref_label'},
    hover_data=['text'], title = 'cls token Visualization 1 (reference label)')
fig.show()

In [None]:
import plotly.express as px

df_embeddings["label"] = df_embeddings["label"].astype(str)
df_embeddings["ref_label"] = df_embeddings["ref_label"].astype(str)

fig = px.scatter(
    df_embeddings, x='x', y='y',
    color='label', labels={'color': 'label'},
    hover_data=['text'], title = 'cls token Visualization 1 (clustering label)')
fig.show()