<a href="https://colab.research.google.com/github/boxty123/SoThat-NLP/blob/main/Word2Vec_Kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word2Vec -> Kmeans

In [None]:
!pip install gensim==3.4.0

from gensim.models import Word2Vec
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA


# 불용어 제거된 문장 데이터
sentences = [
    "가격 대비 성능 정말 좋다",
    "정도 가격 이면 훌륭하다 선택 같다",
    "가성 최고 이다 만족스럽다",
    "비싸다 성능 괜찮다",
    "디자인 너무 세련되다 예쁘다",
    "가격 너무 비싸다 고민 되다",
    "정도 성능 가격 이면 괜찮다",
    "성능 기대 이하 여서 아쉽다",
    "배터리 수명 너무 짧다",
    "디자인 깔끔하다 고급스럽다 보이다",
    "가격 저렴하다 좋다",
    "성능 빠릿빠릿 하다 좋다",
    "디자인 마음 들다 성능 보통 이네",
    "발열 심하다 편이",
    "정도 가격 대비 충분하다 성능 이에요",
    "너무 싸다 걱정 하다 의외로 괜찮다",
    "디자인 심플 하고 무난 느낌 이에요",
    "화면 밝기 너무 어둡다 별로",
    "가격 높다 성능 확실하다 좋다",
    "디자인 박하다 별로 예요",
    "가성 비다 좋다 구성 아쉽다",
    "소음 심하다 사용 하다 불편하다",
    "성능 뛰어나다 가격 부담 되다",
    "가격 이렇다 성능 이라니 만족스럽다",
    "화면 크다 선명하다 마음 들다",
    "이전 모델 보다 확실하다 성능 개선 돼다",
    "고급스럽다 가격 너무 비싸다",
    "디자인 예쁘다 실용 성은 떨어지다",
    "소프트웨어 최적화 아쉽다",
    "가격 내려가다 구매 하다 의향 있다",
    "디자인 예쁘다 스크래치 자다 생기다",
    "가격 싸다 기대 하다 성능 괜찮다",
    "발열 없다 성능 상당하다 좋다",
    "조작 쉽다 누구 사용 하다 편하다 하다",
    "성능 좋다 한데 배터리 빨리 닳다",
    "가격 이면 정도 성능 기본 아니다",
    "크기 너무 커서 휴대 떨어지다",
    "소음 적다 조용하다 작동 하다",
    "디자인 너무 독특하다 호불호 갈릴 하다",
    "화면 높다 부드럽다",
    "성능 뛰어나다 무게 있다",
    "정도 성능 이면 충분하다 만족스럽다",
    "가격 저렴하다 대박 인데 아쉽다",
    "배터리 오래 가다 여행 하다 좋다",
    "조립 어렵다 편이",
    "디자인 성능 모두 만족스럽다",
    "가성 비다 좋다 브랜드 아쉽다",
    "디자인 너무 박하다 별로 예요",
    "가격 대비 성능 부족하다 느낌 이에요",
    "이전 모델 보다 디자인 확실하다 예쁘다"
]


# Word2Vec 모델 학습
w2v_model = Word2Vec(sentences, vector_size=100, window=3, min_count=1, workers=4)

# 문장을 벡터화 (단어 벡터의 평균값 사용)
def sentence_vector(sentence, model):
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(model.vector_size)

sentence_vectors = np.array([sentence_vector(sent, w2v_model) for sent in sentences])

# K-Means 클러스터링
kmeans = KMeans(n_clusters=5, random_state=42)
kmeans.fit(sentence_vectors)
labels = kmeans.labels_

# PCA를 사용해 2차원으로 차원 축소
pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(sentence_vectors)

# 시각화
plt.figure(figsize=(10, 7))
scatter = plt.scatter(reduced_vectors[:, 0], reduced_vectors[:, 1], c=labels, cmap='viridis', alpha=0.7)
plt.colorbar(scatter, label="Cluster")
plt.title("K-Means Clustering of Sentences (PCA Reduced)")
plt.xlabel("PCA Component 1")
plt.ylabel("PCA Component 2")

# 문장 텍스트 추가
for i, txt in enumerate(sentences):
    plt.annotate(i, (reduced_vectors[i, 0], reduced_vectors[i, 1]), fontsize=8, alpha=0.7)

plt.show()


for i, label in enumerate(kmeans.labels_):
    print(f"문장 {i}: {' '.join(sentences[i])} → 클러스터 {label}")

Collecting gensim==3.4.0
  Using cached gensim-3.4.0.tar.gz (22.2 MB)
Using legacy 'setup.py install' for gensim, since package 'wheel' is not installed.
Installing collected packages: gensim
    Running setup.py install for gensim ... [?25l[?25hdone
Successfully installed gensim-3.4.0


ModuleNotFoundError: No module named 'gensim'

# SBert -> Kmeans

In [None]:

!pip install sentence_transformers

from sentence_transformers import SentenceTransformer


# === 사용 예시 ===
replies = [
    "가격 대비 성능이 정말 좋아요!",
    "이 정도 가격이면 훌륭한 선택 같아요.",
    "가성비 최고입니다. 만족스러워요.",
    "좀 비싸지만 성능이 괜찮네요.",
    "디자인이 너무 세련되고 예뻐요.",
    "가격이 너무 비싸서 고민되네요.",
    "이 정도 성능에 이 가격이면 괜찮은 듯.",
    "성능이 기대 이하여서 좀 아쉬워요.",
    "배터리 수명이 너무 짧아요...",
    "디자인이 깔끔하고 고급스러워 보이네요.",
    "가격이 좀만 더 저렴했으면 좋겠어요.",
    "성능이 빠릿빠릿하고 좋네요!",
    "디자인이 마음에 드는데 성능은 보통이네요.",
    "발열이 좀 심한 편이네요.",
    "이 정도면 가격 대비 충분한 성능이에요.",
    "너무 싸서 걱정했는데 의외로 괜찮아요.",
    "디자인이 심플하고 무난한 느낌이에요.",
    "화면 밝기가 너무 어두워서 별로네요.",
    "가격이 좀 높은데 성능은 확실히 좋아요.",
    "디자인이 투박해서 별로예요.",
    "가성비는 좋은데 내구성이 아쉬워요.",
    "소음이 심해서 사용하기 불편해요.",
    "성능이 뛰어나지만 가격이 부담되네요.",
    "이 가격에 이런 성능이라니 만족스럽네요.",
    "화면이 크고 선명해서 마음에 들어요.",
    "이전 모델보다 확실히 성능이 개선됐어요.",
    "고급스럽지만 가격이 너무 비싸요.",
    "디자인은 예쁘지만 실용성은 떨어지네요.",
    "소프트웨어 최적화가 좀 아쉬워요.",
    "가격이 내려가면 구매할 의향 있어요.",
    "디자인이 예쁜데 스크래치가 잘 생겨요.",
    "가격이 싸서 기대 안 했는데 성능이 괜찮아요.",
    "발열도 없고 성능이 상당히 좋아요.",
    "조작이 쉬워서 누구나 사용하기 편할 듯해요.",
    "성능이 좋긴 한데 배터리가 빨리 닳아요.",
    "이 가격이면 이 정도 성능은 기본 아닌가요?",
    "크기가 너무 커서 휴대성이 떨어지네요.",
    "소음이 적고 조용하게 작동하네요.",
    "디자인이 너무 독특해서 호불호 갈릴 듯해요.",
    "화면 주사율이 높아서 부드러워요!",
    "성능은 뛰어난데 무게가 좀 있어요.",
    "이 정도 성능이면 충분히 만족스러워요.",
    "가격이 더 저렴했으면 대박인데 아쉽네요.",
    "배터리가 오래가서 여행할 때 좋겠어요.",
    "조립이 좀 어려운 편이네요.",
    "디자인과 성능 모두 만족스럽습니다!",
    "가성비는 좋은데 브랜드가 좀 아쉬워요.",
    "디자인이 너무 투박해서 별로예요.",
    "가격 대비 성능이 부족한 느낌이에요.",
    "이전 모델보다 디자인이 확실히 예뻐졌네요."
]


# SBERT 모델 로드
sbert_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

# 문장 벡터화
sentence_embeddings = sbert_model.encode(replies)

# K-Means 클러스터링
kmeans.fit(sentence_embeddings)

# 결과 출력
for i, label in enumerate(kmeans.labels_):
    print(f"문장 {i}: {sentences_text[i]} → 클러스터 {label}")