In [None]:
import re

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer

with open('community-posts.txt', 'r', encoding='utf-8') as file:
    product_names = [line.strip() for line in file.readlines()]

# 전처리 함수
def preprocess(text):
    text = re.sub(r'\W+', ' ', text)  # 특수 문자 제거
    text = text.lower()  # 소문자 변환
    return text

# 전처리된 상품명 리스트 생성
processed_product_names = [preprocess(name) for name in product_names]

# TF-IDF 벡터라이저 생성
vectorizer = TfidfVectorizer()

# 상품명을 벡터화
tfidf_matrix = vectorizer.fit_transform(processed_product_names)

# K-Means 클러스터링 수행
num_clusters = 15000  # 원하는 클러스터의 수
kmeans = KMeans(n_clusters=num_clusters, random_state=0)
kmeans.fit(tfidf_matrix)

# 클러스터 할당 결과
clusters = kmeans.labels_

# 클러스터별로 상품명 출력
clustered_products = [[] for _ in range(num_clusters)]
for i, cluster in enumerate(clusters):
    clustered_products[cluster].append(product_names[i])

# 결과 출력
for cluster_id, products in enumerate(clustered_products):
    print(f"\n클러스터 {cluster_id + 1}:")
    for product in products:
        print(f" - {product}")

# 엘보우 방법을 사용하여 최적의 클러스터 수 찾기
# sse = []
# k_range = range(10, 100)  # 클러스터 개수를 1부터 10까지 시도

# for k in k_range:
#     kmeans = KMeans(n_clusters=k, random_state=0)
#     kmeans.fit(tfidf_matrix)
#     sse.append(kmeans.inertia_)  # SSE 저장

# # SSE 그래프 그리기
# plt.figure(figsize=(8, 6))
# plt.plot(k_range, sse, marker='o')
# plt.xlabel('cluster count')
# plt.ylabel('SSE')
# plt.title('optimized cluster count')
# plt.show()

Duplicate key in file PosixPath('/usr/local/lib/python3.10/dist-packages/matplotlib/mpl-data/matplotlibrc'), line 413 ('axes.unicode_minus: True  # use Unicode for the minus symbol rather than hyphen.  See')
