In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA



In [3]:
# CSVファイルの読み込み
file_path = 'spotify-2023.csv'  
spotify_data = pd.read_csv(file_path, encoding='ISO-8859-1')

In [5]:
# keyとmodeを数値に変換(データの前処理)
key_mapping = {'C': 0, 'C#': 1, 'D': 2, 'D#': 3, 'E': 4, 'F': 5, 'F#': 6, 'G': 7, 'G#': 8, 'A': 9, 'A#': 10, 'B': 11}
spotify_data['key'] = spotify_data['key'].map(key_mapping)

mode_mapping = {'Major': 1, 'Minor': 0}
spotify_data['mode'] = spotify_data['mode'].map(mode_mapping)

In [None]:
# クラスタリングに使用する特徴量を選定
features = ['bpm', 'key', 'mode', 'danceability_%', 'valence_%', 'energy_%', 'acousticness_%', 'instrumentalness_%', 'liveness_%', 'speechiness_%']
X = spotify_data[features]

# データの標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 欠損値を含む行を削除
spotify_data_clean = spotify_data.dropna()
X_clean = spotify_data_clean[features]
X_scaled_clean = scaler.fit_transform(X_clean)

# K-meansクラスタリングの実行
kmeans = KMeans(n_clusters=5, random_state=0)
spotify_data_clean['cluster'] = kmeans.fit_predict(X_scaled_clean)

# 各クラスタの特徴を確認
cluster_centers_clean = scaler.inverse_transform(kmeans.cluster_centers_)
cluster_df_clean = pd.DataFrame(cluster_centers_clean, columns=features)
cluster_df_clean['cluster'] = range(5)

# クラスタの中心を表示
print(cluster_df_clean)

# PCAを使用して2次元に圧縮
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X_scaled_clean)
spotify_data_clean['pca1'] = principal_components[:, 0]
spotify_data_clean['pca2'] = principal_components[:, 1]

# クラスタリング結果を可視化
plt.figure(figsize=(10, 8))
sns.scatterplot(x='pca1', y='pca2', hue='cluster', data=spotify_data_clean, palette='viridis')
plt.title('Cluster Visualization using PCA')
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.legend(title='Cluster')
plt.show()

# クラスタリング結果を含むデータフレーム全体をCSVファイルとして出力
output_file_path = 'spotify_2023_clustered.csv'
spotify_data_clean.to_csv(output_file_path, index=False)

print(f"クラスタリング結果を含むデータを {output_file_path} に出力しました。")