# Unsupervised Learning

Denetimsiz öğrenme, verilerden özellikleri veya desenleri öğrenmek için rehber olmadan kullanılan bir makine öğrenme yöntemidir.

-Elma, muz, portakal gibi farklı meyveleri içeren bir sepet düşünün. Denetimsiz öğrenme, bu meyveleri benzerlikleri üzerinden gruplayabilir. Örneğin, aynı tür meyveleri bir araya getirerek "meyve grupları" oluşturabilir.

In [6]:
import pandas as pd
dataset = pd.read_csv('Live.csv')
dataset.head()

Unnamed: 0,num_reactions,num_comments,num_shares,num_likes,num_loves,num_wows,num_hahas,num_sads,num_angrys,status_type_link,status_type_photo,status_type_status,status_type_video
0,0.112314,0.024393,0.076519,0.09172,0.14003,0.010791,0.006369,0.019608,0.0,0.0,0.0,0.0,1.0
1,0.031847,0.0,0.0,0.031847,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
2,0.048195,0.011243,0.016647,0.043312,0.031963,0.003597,0.006369,0.0,0.0,0.0,0.0,0.0,1.0
3,0.023567,0.0,0.0,0.023567,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
4,0.045223,0.0,0.0,0.043312,0.013699,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


## K-Means Algoritması

1-Başlangıçta, K adet rastgele merkez nokta (centroid) seçilir.

2-Her veri noktası, en yakın merkeze atanır ve bu şekilde K kümesi oluşturulur.

3-Her kümenin merkezi, o küme içindeki veri noktalarının ortalaması alınarak güncellenir.

4-Yeni merkezler belirlendikten sonra, veriler tekrar merkezlere en yakın şekilde gruplanır.

5-Merkezlerin güncellenmesi ve verilerin yeniden gruplanması adımları tekrarlanır.

6-Merkezler artık çok fazla değişmediğinde veya belirli bir iterasyon sayısına ulaşıldığında algoritma sonlanır.

In [14]:
from sklearn.cluster import KMeans
model = KMeans(n_clusters = 3) # küme sayısı 3 e ayarlandı. 0 1 2 etiket

In [15]:
model.fit(dataset)

  super()._check_params_vs_input(X, default_n_init=10)


In [19]:
labels = model.predict(dataset)

Her grupta kaç örnek var tespit ediliyor

In [22]:
import numpy as np
np.unique(labels,return_counts=True)# Dizideki benzersiz değerler döndürülüyor.

(array([0, 1, 2]), array([4288, 2334,  428], dtype=int64))

# #

Nasıl daha iyi sayıda küme seçebiliriz?

###### silhouette_score,

Veri noktalarının bir kümeleme algoritması tarafından ne kadar iyi gruplandığını değerlendirmek için kullanılan bir ölçüdür.

1-Pozitif bir skor, veri noktalarının doğru bir şekilde kümelenmiş olduğunu gösterir. Noktalar kendi küme üyeleriyle benzerdir ve diğer kümelerden farklıdır.

2-Sıfıra yakın bir skor, veri noktalarının çeşitli kümeler arasında sınıflandırıldığını veya net bir kümeleme yapmadığını gösterebilir.

3-Negatif bir skor, veri noktalarının yanlış kümelerde toplandığını veya yanlış sınıflandırıldığını gösterir.

In [24]:
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

In [26]:
silhouettes = []  # Boş bir liste oluşturuluyor, Silhouette skorlarını saklamak için kullanılacak.
ks =list(range(2,12)) # 2 ile 11 arasındaki küme sayılarını içeren bir liste oluşturuluyor.

dataset: Silhouette skoru hesaplamak için kullanılan veri kümesini temsil eden bir dizi veya matris. Bu, kümeleme sonuçlarını değerlendireceğiniz veri kümesidir.

label: Veri noktalarının hangi kümeye ait olduğunu belirten bir etiket dizisi veya matrisi. Bu, kümeleme sonucunun her veri noktası için atadığı küme etiketlerini içerir.

metric: Silhouette skoru hesaplanırken kullanılacak mesafe metriği. Varsayılan olarak 'euclidean' (Öklidyen mesafe) kullanılır, ancak farklı mesafe metrikleri de seçilebilir. 
Diğer olası seçenekler arasında 'manhattan' ve 'cosine' bulunur. Bu parametre, veri noktaları arasındaki benzerliği veya uzaklığı hesaplarken hangi ölçümün kullanılacağını belirtir.

In [34]:
for n_cluster in ks:# Her küme sayısı için işlemleri yapacak bir döngü başlatılıyor.
    kmeans=KMeans(n_clusters=n_cluster).fit(dataset)# K-Means kümeleme modeli oluşturuluyor ve veriye uyarlanıyor.
    label=kmeans.labels_# Her veri noktasının ait olduğu kümenin etiketleri alınıyor.
    sil_coeff = silhouette_score(dataset,label,metric='euclidean')# Silhouette skoru hesaplanıyor.
    print('For n_clustercs{}, The Silhoutte Coefficient is {}'.format(n_cluster,sil_coeff))
    silhouettes.append(sil_coeff)# Hesaplanan Silhouette skoru listeye ekleniyor.

For n_clustercs2, The Silhoutte Coefficient is 0.8188237721696822
For n_clustercs3, The Silhoutte Coefficient is 0.8972493682244883
For n_clustercs4, The Silhoutte Coefficient is 0.9106664962327088
For n_clustercs5, The Silhoutte Coefficient is 0.8866768371183754
For n_clustercs6, The Silhoutte Coefficient is 0.8430118288915796
For n_clustercs7, The Silhoutte Coefficient is 0.8419421782294257
For n_clustercs8, The Silhoutte Coefficient is 0.8370052625268489
For n_clustercs9, The Silhoutte Coefficient is 0.8038024216461196
For n_clustercs10, The Silhoutte Coefficient is 0.7269839222913216
For n_clustercs11, The Silhoutte Coefficient is 0.7131112124398348
