# Hierarchical Clustering

## Preparación del notebook

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Lectura del dataset

Utilizamos un conjunto de datos del libro Bioestadística con R, que contiene información para nueve fuentes de proteínas diferentes y su consumo respectivo de varios países. Usaremos estos datos para agrupar países según su consumo de proteínas.

In [None]:
# Lectura del dataset
df = pd.read_csv('https://raw.githubusercontent.com/LearnDataSci/glossary/main/data/protein.csv')
df.head()

In [None]:
# Separación de caracteristicas
X = df.iloc[:,1:10]
print(X.shape)
X.head()

## Uso del dendrograma para encontrar el número óptimo de clusters

linkage: https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage

# Función de vinculación para agrupar datos según similud
Z = linkage(X, method='ward')
Z[:5]

In [None]:
# Dibujo del dendograma
labelList = list(df['Country'])

plt.figure(figsize=(13, 12))
dendrogram(
    Z,
    orientation='right',
    labels=labelList,
    distance_sort='descending',
    show_leaf_counts=False,
    leaf_font_size=16
)
plt.show()

## Entrenamiento del modelo de agrupación jerárquica en el conjunto de datos

In [None]:
from sklearn.cluster import AgglomerativeClustering

hc = AgglomerativeClustering(n_clusters = 2, metric = 'euclidean', linkage = 'ward')

y_hc = hc.fit_predict(X)

print(hc.labels_)

## Incorporando los clusters al dataframe original

In [None]:
df['cluster'] = y_hc
df.head()