# 1- Hiyerarşik Kümeleme

Hiyerarşik kümeleme algoritmaları 2 kategoriye ayrılır: yukarıdan aşağıya veya aşağıdan
yukarıya. Aşağıdan yukarıya algoritmalar, her veri noktasını başlangıçta tek bir küme olarak
ele alır ve ardından tüm kümeler tüm veri noktalarını içeren tek bir kümede birleştirilene
kadar küme çiftlerini art arda birleştirir (veya toplar). Bu nedenle aşağıdan yukarıya
hiyerarşik kümeleme, hiyerarşik kümelemeli kümeleme (hierarchical agglomerative
clustering) veya HAC olarak adlandırılır. 

Algoritma adımlarına geçmeden önce bir örnek için
aşağıdaki grafiğe bakın;

![Ekran görüntüsü 2024-05-17 062255](https://github.com/ahmettsimsek/Makine-Ogrenmesi-Temelleri/assets/124433579/f9d397c5-6e4c-49ba-9b15-7435428ef329)

Her veri noktasını tek bir küme olarak ele alarak başlıyoruz, yani veri kümemizde X
veri noktası varsa, o zaman X kümemiz var. Daha sonra iki küme arasındaki mesafeyi
ölçen bir mesafe ölçüsü seçiyoruz. 

Her yinelemede, iki kümeyi tek bir kümede birleştiriyoruz. Birleştirilecek iki küme, en
küçük ortalama bağlantıya sahip olanlar olarak seçilir. Yani, seçtiğimiz uzaklık
ölçütümüze göre, bu iki küme birbirleri arasındaki en küçük mesafeye sahiptir ve bu
nedenle en benzer olanlardır ve birleştirilmeleri gerekir. 

Adım 2, ağacın köküne ulaşana kadar tekrar edilir, yani tüm veri noktalarını içeren
tek bir kümeye sahibiz. Bu şekilde sonunda kaç tane küme istediğimizi seçebiliriz,
sadece kümeleri birleştirmeyi ne zaman durduracağımızı seçerek, yani ağacı
oluşturmayı bıraktığımızda! 

Hiyerarşik kümeleme, küme sayısını belirlememizi gerektirmez ve hatta bir ağaç
oluşturduğumuz için hangi küme sayısının en iyi görüneceğini seçebiliriz. Ek olarak, algoritma
mesafe ölçüsü seçimine duyarlı değildir; hepsi eşit derecede iyi çalışma eğilimindeyken,
diğer kümeleme algoritmalarında uzaklık ölçüsü seçimi kritiktir.

-------------

### Örnek vermemiz gerekirse;

##### 1-ilk olarak gerekli kitaplıkları aşağıdaki gibi içe aktararak başlayalım;

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

##### 2-Sonra, bu örnek için aldığımız veri noktalarını çizeceğiz 

In [None]:
X = np.array([[7,8],[12,20],[17,19],[26,15],[32,37],[87,75],[73,85], [62,80],[73,60],[87,96],])
labels = range(1, 11)
plt.figure(figsize=(10, 7))
plt.subplots_adjust(bottom=0.1)
plt.scatter(X[:,0],X[:,1], label='True Position')
for label, x, y in zip(labels, X[:, 0], X[:, 1]):
   plt.annotate(label,xy=(x, y), xytext=(-3, 3),textcoords='offset points', ha='right', va='bottom')
plt.show()


![Ekran görüntüsü 2024-05-17 063344](https://github.com/ahmettsimsek/Makine-Ogrenmesi-Temelleri/assets/124433579/e0efb2cd-0628-496b-a902-2f1c234d892a)

##### 3-Yukarıdaki diyagramdan, veri noktalarında iki kümemiz olduğunu görmek çok kolaydır, ancak gerçek dünya verilerinde binlerce küme olabilir. Sonra, Scipy kitaplığını kullanarak veri noktalarımızın dendrogramlarını çizeceğiz 

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from matplotlib import pyplot as plt
linked = linkage(X, 'single')
labelList = range(1, 11)
plt.figure(figsize=(10, 7))
dendrogram(linked, orientation='top',labels=labelList, distance_sort='descending',show_leaf_counts=True)
plt.show()

![Ekran görüntüsü 2024-05-17 063453](https://github.com/ahmettsimsek/Makine-Ogrenmesi-Temelleri/assets/124433579/27d07d90-99bc-41de-a48e-dd58751c1479)

##### 4-Şimdi, büyük küme oluşturulduktan sonra, en uzun dikey mesafe seçilir. Ardından aşağıdaki diyagramda gösterildiği gibi dikey bir çizgi çizilir. Yatay çizgi mavi çizgiyi iki noktada geçtiği için küme sayısı iki olacaktır.

![Ekran görüntüsü 2024-05-17 063600](https://github.com/ahmettsimsek/Makine-Ogrenmesi-Temelleri/assets/124433579/ce1a8ee3-6a98-40e1-b32c-5903ffbcb148)


##### 5-Daha sonra, kümeleme için sınıfı içe aktarmamız ve kümeyi tahmin etmek için fit_predict yöntemini çağırmamız gerekir. Sklearn.cluster kitaplığının AgglomerativeClustering sınıfını içe aktarıyoruz -

In [None]:
from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(X)

##### 6-Ardından, aşağıdaki kodun yardımıyla kümeyi çizin -

![Ekran görüntüsü 2024-05-17 063736](https://github.com/ahmettsimsek/Makine-Ogrenmesi-Temelleri/assets/124433579/0a964fa4-aac5-4c9c-bb42-fce578ff0a75)


##### Yukarıdaki diyagram, veri noktalarımızdaki iki kümeyi göstermektedir.

----------------------

Hiyerarşik Kümeleme konusunda daha fazla detaya ulaşmak için, benim de örnek için Yararlandığım "TRPOST" sayfasına aşağıdaki linkten ulaşabilirsiniz:

https://post.nghiatu.com/tr/tutorial/machine-learning-with-python/clustering-algorithms-hierarchical-clustering/kumeleme-algoritmalari-hiyerarsik-kumeleme