# Obtener clusters.

En este ejercicio se deberán obtener los clusters del conjunto de datos del archivo `X.npy`. Usar los algoritmos

- k-means
- DBSCAN
- HDBSCAN
- AgglomerativeClustering

Luego evaluar la calidad de los cluster de cada algoritmo con las métricas intra/inter y silueta. Modificar los parámetros de los algoritmos para obtener clusters de buena calidad.

In [61]:
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.cluster import HDBSCAN
from sklearn.cluster import AgglomerativeClustering
import numpy as np
from sklearn.metrics import silhouette_score

In [75]:
#| echo: false
def intra_inter(X, y, num_pairs):
    np.random.seed(0)
    pairs = np.random.randint(len(X), size = (num_pairs, 2))
    

    sum_inter = 0
    num_inter = 0
    sum_intra = 0
    num_intra = 0
    for pair in pairs:
        if y[pair[0]] == y[pair[1]]:  
            sum_intra += np.linalg.norm(X[pair[0]] - X[pair[1]])
            num_intra += 1
        else:
            sum_inter += np.linalg.norm(X[pair[0]] - X[pair[1]])
            num_inter += 1
    intra = sum_intra / num_intra
    inter = sum_inter / num_inter
    return intra / inter

In [84]:
X = np.load("X.npy")
X.shape

(1797, 64)

In [121]:
#| echo: false
#| output: false
#| warning: false
km = KMeans(10, max_iter=1, n_init=1)
y_km = km.fit_predict(X)



In [91]:
#| echo: false
#| output: false
db = DBSCAN(eps=1.5, min_samples=2)
y_dbs = db.fit_predict(X)
np.unique(y_dbs)

array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11], dtype=int64)

In [96]:
#| echo: false
#| output: false
y_hdbs = HDBSCAN(min_cluster_size=10).fit_predict(X)
np.unique(y_hdbs)

array([-1,  0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11], dtype=int64)

In [102]:
#| echo: false
#| output: false
agg = AgglomerativeClustering(10)
y_agg = agg.fit(X).labels_

In [109]:
#| echo: false
ys = [y_km, y_dbs, y_hdbs, y_agg]
ii_s = []
for p in ys:
    ii_s.append(intra_inter(X, p, 500))

In [110]:
#| echo: false
sil_s = []
for p in ys:
    sil_s.append(silhouette_score(X, p, metric='euclidean'))

## Resultados

Los resultados deberán ser mostrados usando el siguiente código.

In [105]:
import pandas as pd

In [None]:
res = {"algoritmos": ["k-means", "DBSCAN", "HDBSCAN", "AgglomerativeClustering"],
         "intra/inter": # aquí sus scores
         "silueta": # aquí sus scores
      }
output = pd.DataFrame(res)
output

In [120]:
#| echo: false
res = {"algoritmos": ["k-means", "DBSCAN", "HDBSCAN", "AgglomerativeClustering"],
         "intra/inter":ii_s, # aquí sus scores
         "silueta": sil_s# aquí sus scores
      }
output = pd.DataFrame(res)
output

Unnamed: 0,algoritmos,intra/inter,silueta
0,k-means,0.735903,0.159457
1,DBSCAN,0.908178,-0.04375
2,HDBSCAN,0.91624,0.039168
3,AgglomerativeClustering,0.721954,0.178497
