In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import os
from transformers import AutoModel, AutoTokenizer, ElectraForSequenceClassification
import torch

In [2]:
np.random.seed(42)

In [3]:
!pip install plotly



In [4]:
def cls_embedding(model_output):
    last_hidden_states=model_output.hidden_states[-1]
    cls_vector=last_hidden_states[:,0,:]
    return cls_vector

In [5]:
#load model and tokenzier

model_path = '../dev-test-model'
model=ElectraForSequenceClassification.from_pretrained(model_path)
tokenizer=AutoTokenizer.from_pretrained('beomi/KcELECTRA-base')

In [6]:
#load dataset

data_path='./data5'
files=os.listdir(data_path)
data={"text":[], "label":[]}

for file in files:
    file_path=os.path.join(data_path, file)
    with open(file_path, 'r', encoding='utf-8') as f:
        lines=f.readlines()
        for line in lines:
            data["text"].append(line.split('\t')[0])
            data["label"].append(line.split('\t')[1].strip())

print(data["text"][:10])
print(data["label"][:10])
print()

['저는 무서워서 못하겠어요 뭐라고 이제와서 발을 빼겠다는 소리야 죄송합니다 정신차려 우린 이미 한 배를 탄 사이야 이 일이 잘못되면 너랑 나 둘 다 끝이라고 저는 시키신 대로 한 죄밖에 없어요 하 이거 완전 정신이 나갔군 내 손에 먼저 죽고 싶지 않으면 헛소리 말고 시키는 대로 해 더 이상 이 일에 끼고 싶지 않습니다 살려주세요 닥쳐 수 틀리면 네 아내와 자식도 영영 못보게 될 줄 알아', '홍길동 학생 오늘도 지각인가 대체 언제까지 지각할 거야 죄송합니다 자꾸 이러면 아무리 중간 기말고사 성적이 좋아도 F 줄 수밖에 없어 교수님 저 졸업해야 합니다 제발 F만은 졸업을 해도 이런 성실성을 가지고 어떻게 취직을 하겠다는 건지 모르겠군 한 번만 더 지각하면 그때는 경고없이 바로 F를 줄 거야 알아서 잘 행동할 거라 믿네', '길동씨 왜이리 전화가 안돼 아무리 공휴일이라고 해도 지금 점심 다되어 가는데 아직도 잔건 아니지 아 아닙니다 별건 아니고 우리팀에서 지난 회식 때 갔던 식당 번호 있지 그거 좀 줘봐 잠시만 기다려주세요 바로 찾아 보겠습니다 아니다 그냥 길동씨가 내이름으로 예약 좀 해줘 내 이름으로 내일 7시 8명 예약하면 돼 아 넵', '야 이혼하면 니 딸 니가 키워 뭐 니 딸 쟤를 나 혼자 낳았니 애새끼가 말도 안 통하고 멍청한 게 누굴 닮았는데 뭐 너 지금 그거 나한테 하는 소리냐 너도 니가 말 안 통하고 대가리 나쁜 건 아는구나 아무튼 나 쟤 못 키우니까 니가 키우든가 해 뭐 엄마 아빠 싸우지 마 으앙 쟤만 아니었어도 내가 너랑 이러고 있지 않았을텐데 내가 미쳤지', '하 홍길동씨 자리에 좀 앉아 봐요 네 아 알겠습니다 지금 장난해요 화장실 갔다 온다며 네 화장실 다녀왔는데요 화장실을 1시간을 다녀와요 회사에서 일하는 시간에 정신 차려요 여기는 직장이야 아무리 인턴이라도 지켜야할 게 있는 거에요 네 알겠습니다 기분 나빠요 진짜 기분 나빠야할 사람은 사장님이에요 매일같이 하루에 두 시간씩 화장실에 쳐박혀 있는 직원한테 돈을 줘야 하는 알겠습니다 고치겠습

In [None]:
# create sentence embedding

corpus = data["text"]

encoded_input=tokenizer(corpus, padding=True, truncation=True, return_tensors='pt')

with torch.no_grad():
    model_output=model(**encoded_input, output_hidden_states=True)

sentence_embeddings=cls_embedding(model_output)

print(sentence_embeddings)

In [None]:
num_clusters = 5
clustering_model = KMeans(n_clusters=num_clusters)
clustering_model.fit(sentence_embeddings)
k_means_labels = clustering_model.labels_
k_means_cluster_centers = clustering_model.cluster_centers_

In [None]:
print(k_means_labels)

In [None]:
len(set(k_means_labels))

In [None]:
print(k_means_cluster_centers)

In [None]:
# results of k-means clustering
clustered_sentences = [[] for i in range(num_clusters)]
clustered_labels = [[] for i in range(num_clusters)]

for sentence_id, cluster_id in enumerate(k_means_labels):
    clustered_sentences[cluster_id].append(corpus[sentence_id])
    clustered_labels[cluster_id].append(data["label"][sentence_id])

In [None]:
for i, cluster in enumerate(clustered_sentences):
    print("Cluster ", i)
    print("cluster에 포함된 sentence 개수: ", len(cluster))
    print(f"협박 데이터 {clustered_labels[i].count('020121')}개, {clustered_labels[i].count('020121')/len(cluster)*100:.4f}%")
    print(f"갈취 및 공갈 데이터 {clustered_labels[i].count('02051')}개, {clustered_labels[i].count('02051') / len(cluster)*100:.4f}%")
    print(f"직장 내 괴롭힘 데이터 {clustered_labels[i].count('020811')}개, {clustered_labels[i].count('020811') / len(cluster)*100:.4f}%")
    print(f"기타 괴롭힘 데이터 {clustered_labels[i].count('020819')}개, {clustered_labels[i].count('020819') / len(cluster)*100:.4f}%")
    print(f"일반 대화 데이터 {clustered_labels[i].count('000001')}개, {clustered_labels[i].count('000001') / len(cluster)*100:.4f}%")
    print()


In [None]:
import numpy as np
from sklearn.manifold import TSNE

X=sentence_embeddings

X_embedded=TSNE(n_components=2).fit_transform(X)

In [None]:
import pandas as pd

df_embeddings = pd.DataFrame(X_embedded)
df_embeddings = df_embeddings.rename(columns={0:'x',1:'y'})

In [None]:
df_embeddings.head()

In [None]:
df_embeddings=df_embeddings.assign(label=k_means_labels)
df_embeddings=df_embeddings.assign(text=corpus)
df_embeddings=df_embeddings.assign(ref_label=data['label'])

In [None]:
df_embeddings.head()

In [None]:
df_embeddings=df_embeddings.sort_values(by=["ref_label"])
df_embeddings.head()

In [None]:
import plotly.express as px

df_embeddings["label"] = df_embeddings["label"].astype(str)
df_embeddings["ref_label"] = df_embeddings["ref_label"].astype(str)

fig = px.scatter(
    df_embeddings, x='x', y='y',
    color='ref_label', labels={'color': 'ref_label'},
    hover_data=['text'], title = 'cls token Visualization 1 (reference label)')
fig.show()

In [None]:
import plotly.express as px

df_embeddings["label"] = df_embeddings["label"].astype(str)
df_embeddings["ref_label"] = df_embeddings["ref_label"].astype(str)

fig = px.scatter(
    df_embeddings, x='x', y='y',
    color='label', labels={'color': 'label'},
    hover_data=['text'], title = 'cls token Visualization 1 (clustering label)')
fig.show()