### Clustering Jerárquico con Dataset de Semillas

El conjunto de datos contiene 210 instancias de semillas de trigo, pertenecientes a tres variedades diferentes:

- Kama

- Rosa

- Canadiense

Estas variedades están codificadas como 1, 2 y 3 en la columna species_class.

Para cada semilla se han medido los siguientes 7 atributos físicos:

1. **area:** área
2. **perimeter:** perímetro
3. **compactness:** compactividad
4. **length:** longitud del grano
5. **width:** anchura del grano
6. **asymmetry:** coeficiente de asimetría
7. **groove_length:** longitud del canal

In [None]:
import matplotlib.pyplot as plt 
%matplotlib inline
import pandas as pd
import numpy as np
from IPython import display
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
from scipy.spatial.distance import pdist

### Carga de datos

In [3]:
column_names = [
    "area",
    "perimeter",
    "compactness",
    "length",
    "width",
    "asymmetry",
    "groove_length",
    "species_class"
]

df = pd.read_csv("seeds_dataset.txt", sep=r"\s+", header=None, names=column_names)
df.head()

Unnamed: 0,area,perimeter,compactness,length,width,asymmetry,groove_length,species_class
0,15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
1,14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
2,14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
3,13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
4,16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1


### Visualización inicial de los datos

Representa un gráfico bidimensional usando:
- **area** en el eje X
- **perimeter** en el eje Y

Colorea los puntos según la etiqueta real (**species_class**)

Utiliza la función "pairplot" de la librería "seaborn" para representar gráficamente todos los pares de variables del dataset de semillas, diferenciando las especias mediante el parámetro "hue".

### Preprocesamiento

1. Separa el conjunto de datos en:
    - X: matriz de características
    - y: etiquetas reales

2. Estandariza las variables de X usando StandardScaler

¿Por qué es necesaria la estandarización en clustering jerárquico?

### Clustering jerárquico y dendrogramas con Scipy

Aplica clustering jerárquico aglomerativo sobre el dataset de semillas utilizando los métodos de enlace "single", "complete" y "average". Utiliza scipy.cluster.hierarchy.linkage.

Construye los dendrogramas (sin aplicar ningún parámetro) para cada tipo de método de enlace.

In [None]:
### Single


In [None]:
### Complete


In [None]:
### Average


Como puede observarse, los dendrogramas completos crecen hasta incluir todas las observaciones del dataset, lo que dificulta su interpretación cuando el número de muestras es elevado. Para mejorar la visualización y centrarse en la estructura jerárquica más relevante, es posible “cortar” o truncar el dendrograma, mostrando únicamente los niveles superiores del árbol. Consulta la documentación de scipy.cluster.hierarchy.dendrogram. 
- ¿Qué parámetro de la función dendrogram podemos utilizar para "cortar" el árbol y visualizarlo mejor? 
- ¿Qué 2 modos tiene este parámetro?
- Sólo para el método de enlace Average, utiliza los dos modos del parámetro con p=1, p=2 y p=3 y representa los 3 dendrogramas en un único diagrama utilizando plt.subplot().
- Explica qué hace cada modo.

Utiliza el parámetro anterior para visualizar sólo 3 clusters. ¿Cuántas observaciones hay en cada cluster?

(Sólo para el dendrograma de Average) Vamos a utilizar el parámetro **color_threshold** para colorear ramas y visualizar mejor los diferentes clusters formados. Ajusta el valor de **color_threshold** para obtener 3 clusters (3 colores). Además, dibuja una linea horizontal en el valor del threshold.
- Utiliza el parámetro truncate_mode="level" con p=5


Obtén las etiquetas de cluster de cada observación para los métodos single, complete y average linkage, fijando el número de clusters en k = 3 mediante la función **fcluster** con el criterio **maxclust**.
- ¿En qué cluster clasifica cada método a la primera observación?

Compara el tamaño de los clusters obtenidos para cada método de enlace y observa las diferencias entre los métodos.

### Métricas internas

Las métricas internas miden la calidad del clustering usando solo los datos y las distancias (no utilizan las etiquetas reales). Calcula las siguientes métricas para los 3 métodos de linkage:

- Silhouette Score
- Davies-Bouldin Index
- Calinski-Harabasz Index

In [None]:
from sklearn.metrics import silhouette_score
from sklearn.metrics import davies_bouldin_score
from sklearn.metrics import calinski_harabasz_score


### Métricas externas

Las métricas externas comparan los clusters formados vs las etiquetas reales. Calcula las siguientes métricas para los 3 métodos de linkage:

- Adjusted Rand Index (ARI)
- Adjusted Mutual Information (AMI)

In [None]:
from sklearn.metrics import adjusted_rand_score
from sklearn.metrics import adjusted_mutual_info_score



### Clustering aglomerativo con sklearn

Aplica clustering jerárquico aglomerativo usando:
- número de clusters = 3
- linkage = average
- distancia = euclidean

Obtén las etiquetas de cluster asignadas a cada observación.

A partir de las etiquetas reales (y_true) y las etiquetas predichas por el modelo (y_pred), construye una tabla cruzada (cross table) que muestre la frecuencia de cada combinación entre la clase real y el cluster predicho

### Evaluación

Calcula las siguientes métricas para este modelo:
- Silhouette Score
- Davies-Bouldin Index
- Calinski-Harabasz Index
- Adjusted Rand Index (ARI)
- Normalized Mutual Information (NMI)

Compara los valores de las métricas obtenidos utilizando scipy con **linkage** con los valores utilizando sklearn con **AgglomerativeClustering** 

Representa una figura compuesta por dos subgráficos bidimensionales utilizando las variables:
- **area** en el eje X
- **perimeter** en el eje Y

En el primer subgráfico, los puntos deben colorearse según las etiquetas **reales** de los datos.
En el segundo subgráfico, los puntos deben colorearse según las etiquetas **predichas** por el modelo.