In [2]:
import pandas as pd
from sklearn.metrics import silhouette_score, silhouette_samples
from sklearn.preprocessing import StandardScaler
import numpy as np
import ast  # 문자열 형태의 리스트를 실제 리스트로 변환하는 데 사용

# 데이터 불러오기
df = pd.read_csv('6_youtube_id_title_embedding_clusters_similarity.csv')

# hugging_face_embedding_10000과 centroid_vector를 문자열에서 리스트로 변환
df['embedding_1000'] = df['embedding_1000'].apply(ast.literal_eval)
df['centroid_vector'] = df['centroid_vector'].apply(ast.literal_eval)

# hugging_face_embedding_10000과 centroid_vector를 합쳐서 하나의 데이터로 변환
X = np.array([np.concatenate([np.ravel(emb), np.ravel(centroid)]) for emb, centroid in zip(df['embedding_1000'], df['centroid_vector'])])

# 데이터 스케일링
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 실루엣 샘플 점수 계산
silhouette_vals = silhouette_samples(X_scaled, df['cluster'])

# 군집별 실루엣 점수 계산
for cluster_num in sorted(df['cluster'].unique()):
    # 해당 군집에 속한 샘플들의 실루엣 점수
    cluster_silhouette_vals = silhouette_vals[df['cluster'] == cluster_num]
    # 해당 군집의 평균 실루엣 점수
    cluster_silhouette_avg = np.mean(cluster_silhouette_vals)
    print(f"군집 {cluster_num}의 실루엣 점수: {cluster_silhouette_avg:.4f}")

# 전체 실루엣 점수 계산
silhouette_avg = silhouette_score(X_scaled, df['cluster'])
print(f"전체 실루엣 점수: {silhouette_avg:.4f}")

군집 0의 실루엣 점수: 0.4237
군집 1의 실루엣 점수: 0.4677
군집 2의 실루엣 점수: 0.4715
전체 실루엣 점수: 0.4662
