In [1]:
# train_model.py
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import joblib

# 1. Veriyi Yükle
df = pd.read_csv("Spotify-2000.csv")

# 2. Veri Temizleme (Length sütunundaki virgülleri kaldırma)
# Örnek: "1,292" -> 1292
if df['Length (Duration)'].dtype == 'object':
    df['Length (Duration)'] = df['Length (Duration)'].astype(str).str.replace(',', '').astype(int)

# Kullanılacak Ses Özellikleri
features = [
    'Beats Per Minute (BPM)', 'Energy', 'Danceability', 
    'Loudness (dB)', 'Liveness', 'Valence', 
    'Length (Duration)', 'Acousticness', 'Speechiness', 'Popularity'
]

X = df[features]

# 3. Ölçeklendirme (Standard Scaling)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 4. K-Means Kümeleme
# En uygun küme sayısını (K) bulmak için Elbow methodu kullanılabilir, biz 10 seçelim.
print("Şarkılar 10 farklı kümeye ayrılıyor...")
kmeans = KMeans(n_clusters=10, random_state=42, n_init=10)
df['Cluster'] = kmeans.fit_predict(X_scaled)

# 5. Görselleştirme İçin Boyut İndirgeme (PCA - 2 Boyut)
pca = PCA(n_components=2)
principal_components = pca.fit_transform(X_scaled)
df['PCA1'] = principal_components[:, 0]
df['PCA2'] = principal_components[:, 1]

# 6. Kaydetme
# Modelden ziyade, işlenmiş ve kümelenmiş veri seti bizim için daha önemli.
# Çünkü öneri sistemini bu veritabanı üzerinden yapacağız.
df.to_csv("spotify_clustered.csv", index=False)
joblib.dump(kmeans, "spotify_kmeans.pkl")
joblib.dump(scaler, "spotify_scaler.pkl")

print("İşlem tamamlandı. 'spotify_clustered.csv' oluşturuldu.")

Şarkılar 10 farklı kümeye ayrılıyor...
İşlem tamamlandı. 'spotify_clustered.csv' oluşturuldu.
