# 04_Clustering.py

This notebook was automatically converted from a Python script.

In [None]:

"""
Scikit-learn Kümeleme (Clustering) Algoritmaları

Bu script, scikit-learn kütüphanesindeki temel kümeleme algoritmalarını göstermektedir.
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import make_blobs, make_moons, load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score, adjusted_rand_score
from sklearn.decomposition import PCA



Kümeleme algoritmaları


In [None]:
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN



In [None]:

print("Scikit-learn Kümeleme (Clustering) Algoritmaları")
print("="*50)



1. Veri Oluşturma ve Hazırlama


In [None]:
print("\n1. Veri Oluşturma ve Hazırlama")
print("-"*50)



İki farklı veri seti oluşturalım


1. Blob veri seti (küresel kümeler için)


In [None]:
X_blob, y_blob = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=42)



2. Ay şeklinde veri seti (doğrusal olmayan kümeler için)


In [None]:
X_moon, y_moon = make_moons(n_samples=200, noise=0.05, random_state=42)



3. Gerçek veri - Iris veri seti


In [None]:
iris = load_iris()
X_iris = iris.data
y_iris = iris.target



Veri setlerini görselleştirme


In [None]:
plt.figure(figsize=(15, 5))

plt.subplot(131)
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_blob, cmap='viridis', s=50, alpha=0.8)
plt.title('Blob Veri Seti')
plt.grid(True)

plt.subplot(132)
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_moon, cmap='viridis', s=50, alpha=0.8)
plt.title('Ay Şeklinde Veri Seti')
plt.grid(True)



Iris veri setini 2D'ye indirgeme (görselleştirme için)


In [None]:
pca = PCA(n_components=2)
X_iris_2d = pca.fit_transform(X_iris)

plt.subplot(133)
plt.scatter(X_iris_2d[:, 0], X_iris_2d[:, 1], c=y_iris, cmap='viridis', s=50, alpha=0.8)
plt.title('Iris Veri Seti (PCA ile 2D)')
plt.grid(True)

plt.tight_layout()
plt.savefig('clustering_datasets.png')
plt.close()
print("Kümeleme veri setleri görselleştirmesi 'clustering_datasets.png' olarak kaydedildi.")



2. K-Means Kümeleme


In [None]:
print("\n2. K-Means Kümeleme")
print("-"*50)



K-Means uygulama


K değerini belirleme - Dirsek (Elbow) yöntemi


In [None]:
inertia = []
silhouette = []
K_range = range(2, 11)

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_blob)
    inertia.append(kmeans.inertia_)
    silhouette.append(silhouette_score(X_blob, kmeans.labels_))



Dirsek grafiği


In [None]:
plt.figure(figsize=(12, 5))
plt.subplot(121)
plt.plot(K_range, inertia, 'bo-')
plt.xlabel('K Değeri')
plt.ylabel('Inertia')
plt.title('Dirsek Yöntemi')
plt.grid(True)

plt.subplot(122)
plt.plot(K_range, silhouette, 'ro-')
plt.xlabel('K Değeri')
plt.ylabel('Silhouette Skoru')
plt.title('Silhouette Yöntemi')
plt.grid(True)

plt.tight_layout()
plt.savefig('kmeans_elbow_method.png')
plt.close()
print("K-Means dirsek yöntemi grafiği 'kmeans_elbow_method.png' olarak kaydedildi.")



K-Means ile kümeleme (Blob veri seti için)


In [None]:
kmeans = KMeans(n_clusters=4, random_state=42)
y_kmeans_blob = kmeans.fit_predict(X_blob)



K-Means sonuçlarını görselleştirme


In [None]:
plt.figure(figsize=(12, 5))

plt.subplot(121)
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_blob, cmap='viridis', s=50, alpha=0.5)
plt.title('Blob Veri Seti - Gerçek Kümeler')
plt.grid(True)

plt.subplot(122)
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_kmeans_blob, cmap='viridis', s=50, alpha=0.5)
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5, marker='X')
plt.title(f'K-Means Kümeleme Sonucu (K=4)\nSilhouette Skoru: {silhouette_score(X_blob, y_kmeans_blob):.3f}')
plt.grid(True)

plt.tight_layout()
plt.savefig('kmeans_blob_clustering.png')
plt.close()
print("K-Means blob kümeleme sonuçları 'kmeans_blob_clustering.png' olarak kaydedildi.")



K-Means ile kümeleme (Iris veri seti için)


In [None]:
kmeans_iris = KMeans(n_clusters=3, random_state=42)
y_kmeans_iris = kmeans_iris.fit_predict(X_iris)



K-Means sonuçlarını görselleştirme (Iris)


In [None]:
plt.figure(figsize=(12, 5))

plt.subplot(121)
plt.scatter(X_iris_2d[:, 0], X_iris_2d[:, 1], c=y_iris, cmap='viridis', s=50, alpha=0.5)
plt.title('Iris Veri Seti - Gerçek Kümeler')
plt.grid(True)

plt.subplot(122)
plt.scatter(X_iris_2d[:, 0], X_iris_2d[:, 1], c=y_kmeans_iris, cmap='viridis', s=50, alpha=0.5)
plt.title(f'K-Means Kümeleme Sonucu (K=3)\nAdjusted Rand Indeksi: {adjusted_rand_score(y_iris, y_kmeans_iris):.3f}')
plt.grid(True)

plt.tight_layout()
plt.savefig('kmeans_iris_clustering.png')
plt.close()
print("K-Means iris kümeleme sonuçları 'kmeans_iris_clustering.png' olarak kaydedildi.")



3. Hiyerarşik Kümeleme (Agglomerative Clustering)


In [None]:
print("\n3. Hiyerarşik Kümeleme (Agglomerative Clustering)")
print("-"*50)



Hiyerarşik kümeleme


Farklı bağlantı türleri


In [None]:
linkages = ['ward', 'complete', 'average', 'single']
fig, axes = plt.subplots(1, len(linkages), figsize=(20, 5))

for i, linkage in enumerate(linkages):
    hier_cluster = AgglomerativeClustering(n_clusters=4, linkage=linkage)
    y_hier = hier_cluster.fit_predict(X_blob)
    
    axes[i].scatter(X_blob[:, 0], X_blob[:, 1], c=y_hier, cmap='viridis', s=50, alpha=0.5)
    axes[i].set_title(f'Linkage: {linkage}\nSilhouette: {silhouette_score(X_blob, y_hier):.3f}')
    axes[i].grid(True)
    
plt.tight_layout()
plt.savefig('hierarchical_clustering_linkages.png')
plt.close()
print("Hiyerarşik kümeleme farklı bağlantı türleri 'hierarchical_clustering_linkages.png' olarak kaydedildi.")



Dendrogram görselleştirme


In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage



Veri boyutunu azaltalım (dendrogram daha net görünsün)


In [None]:
X_subset = X_blob[:50]



Bağlantı matrisini hesaplama


In [None]:
linked = linkage(X_subset, 'ward')

plt.figure(figsize=(12, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.title('Hiyerarşik Kümeleme Dendrogramı')
plt.xlabel('Veri Noktaları')
plt.ylabel('Mesafe')
plt.axhline(y=6, color='r', linestyle='--')
plt.text(5, 6.5, 'Kesim çizgisi - 4 küme', color='r')
plt.savefig('hierarchical_clustering_dendrogram.png')
plt.close()
print("Hiyerarşik kümeleme dendrogramı 'hierarchical_clustering_dendrogram.png' olarak kaydedildi.")



Hiyerarşik kümeleme (Ay şeklindeki veriler için)


In [None]:
hier_moon = AgglomerativeClustering(n_clusters=2, linkage='ward')
y_hier_moon = hier_moon.fit_predict(X_moon)

plt.figure(figsize=(10, 5))
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_hier_moon, cmap='viridis', s=50, alpha=0.8)
plt.title(f'Ay Şeklindeki Veriler - Hiyerarşik Kümeleme\nAdjusted Rand Indeksi: {adjusted_rand_score(y_moon, y_hier_moon):.3f}')
plt.grid(True)
plt.savefig('hierarchical_clustering_moon.png')
plt.close()
print("Ay şeklindeki veriler üzerinde hiyerarşik kümeleme 'hierarchical_clustering_moon.png' olarak kaydedildi.")



4. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)


In [None]:
print("\n4. DBSCAN (Density-Based Spatial Clustering of Applications with Noise)")
print("-"*50)



DBSCAN Kümeleme


Farklı epsilon değerleri ile


In [None]:
eps_values = [0.2, 0.5, 1.0]
min_samples = 5

fig, axes = plt.subplots(1, len(eps_values), figsize=(18, 5))

for i, eps in enumerate(eps_values):
    dbscan = DBSCAN(eps=eps, min_samples=min_samples)
    y_dbscan = dbscan.fit_predict(X_moon)
    
    # -1 değeri gürültü noktalarını temsil eder
    noise_points = (y_dbscan == -1)
    axes[i].scatter(X_moon[~noise_points, 0], X_moon[~noise_points, 1], 
                    c=y_dbscan[~noise_points], cmap='viridis', s=50, alpha=0.8)
    axes[i].scatter(X_moon[noise_points, 0], X_moon[noise_points, 1], 
                    c='black', s=20, alpha=0.5, marker='x')
    
    n_clusters = len(set(y_dbscan)) - (1 if -1 in y_dbscan else 0)
    axes[i].set_title(f'DBSCAN (eps={eps}, min_samples={min_samples})\nKüme Sayısı: {n_clusters}')
    axes[i].grid(True)
    
plt.tight_layout()
plt.savefig('dbscan_eps_comparison.png')
plt.close()
print("DBSCAN farklı epsilon değerleri karşılaştırması 'dbscan_eps_comparison.png' olarak kaydedildi.")



En iyi parametre ile DBSCAN


In [None]:
dbscan_optimal = DBSCAN(eps=0.2, min_samples=5)
y_dbscan_moon = dbscan_optimal.fit_predict(X_moon)

plt.figure(figsize=(12, 5))

plt.subplot(121)
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_moon, cmap='viridis', s=50, alpha=0.8)
plt.title('Ay Şeklindeki Veriler - Gerçek Kümeler')
plt.grid(True)

plt.subplot(122)
noise_points = (y_dbscan_moon == -1)
plt.scatter(X_moon[~noise_points, 0], X_moon[~noise_points, 1], 
            c=y_dbscan_moon[~noise_points], cmap='viridis', s=50, alpha=0.8)
plt.scatter(X_moon[noise_points, 0], X_moon[noise_points, 1], 
            c='black', s=20, alpha=0.5, marker='x')

n_clusters = len(set(y_dbscan_moon)) - (1 if -1 in y_dbscan_moon else 0)
plt.title(f'DBSCAN Kümeleme\nKüme Sayısı: {n_clusters}, Gürültü: {sum(noise_points)}')
plt.grid(True)

plt.tight_layout()
plt.savefig('dbscan_moon_clustering.png')
plt.close()
print("DBSCAN ile ay şeklindeki veriler kümelemesi 'dbscan_moon_clustering.png' olarak kaydedildi.")



5. Algoritma Karşılaştırması


In [None]:
print("\n5. Algoritma Karşılaştırması")
print("-"*50)



Üç algoritmanın Moon veri seti üzerinde karşılaştırılması


1. K-Means


In [None]:
kmeans_moon = KMeans(n_clusters=2, random_state=42)
y_kmeans_moon = kmeans_moon.fit_predict(X_moon)



2. Agglomerative (ward linkage)


In [None]:
agg_moon = AgglomerativeClustering(n_clusters=2, linkage='ward')
y_agg_moon = agg_moon.fit_predict(X_moon)



3. DBSCAN (optimal parameters)


In [None]:
dbscan_moon = DBSCAN(eps=0.2, min_samples=5)
y_dbscan_moon = dbscan_moon.fit_predict(X_moon)



Sonuçları görselleştirme


In [None]:
plt.figure(figsize=(18, 5))

plt.subplot(141)
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_moon, cmap='viridis', s=50, alpha=0.8)
plt.title('Gerçek Kümeler')
plt.grid(True)

plt.subplot(142)
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_kmeans_moon, cmap='viridis', s=50, alpha=0.8)
plt.title(f'K-Means\nARI: {adjusted_rand_score(y_moon, y_kmeans_moon):.3f}')
plt.grid(True)

plt.subplot(143)
plt.scatter(X_moon[:, 0], X_moon[:, 1], c=y_agg_moon, cmap='viridis', s=50, alpha=0.8)
plt.title(f'Agglomerative\nARI: {adjusted_rand_score(y_moon, y_agg_moon):.3f}')
plt.grid(True)

plt.subplot(144)
noise_points = y_dbscan_moon == -1
plt.scatter(X_moon[~noise_points, 0], X_moon[~noise_points, 1], 
            c=y_dbscan_moon[~noise_points], cmap='viridis', s=50, alpha=0.8)
plt.scatter(X_moon[noise_points, 0], X_moon[noise_points, 1], 
            c='black', s=20, alpha=0.5, marker='x')
plt.title(f'DBSCAN\nARI: {adjusted_rand_score(y_moon, y_dbscan_moon):.3f}')
plt.grid(True)

plt.tight_layout()
plt.savefig('clustering_algorithms_comparison.png')
plt.close()
print("Kümeleme algoritmaları karşılaştırması 'clustering_algorithms_comparison.png' olarak kaydedildi.")



Performans metrikleri karşılaştırma tablosu


In [None]:
algorithms = ['K-Means', 'Agglomerative', 'DBSCAN']
results = {
    'Moon Veri Seti ARI': [adjusted_rand_score(y_moon, y_kmeans_moon),
                           adjusted_rand_score(y_moon, y_agg_moon),
                           adjusted_rand_score(y_moon, y_dbscan_moon)],
    'Küme Sayısı': [2, 2, len(set(y_dbscan_moon)) - (1 if -1 in y_dbscan_moon else 0)],
    'Gürültü Noktaları': [0, 0, sum(y_dbscan_moon == -1)]
}

results_df = pd.DataFrame(results, index=algorithms)
print("Algoritma Karşılaştırma Sonuçları:")
print(results_df) 
