## Clustering

Los algoritmos de clustering son modelos de aprendizaje **no supervisado**

Dado unos datos $X$, el objetivo es encontrar una agrupación que capture la estructura inherente en las variables

El principal problema del aprendizaje **no supervisado** es que es muy complicado (sino imposible) cuantificar como de bueno es el modelo

[Unsupervised learning](https://scikit-learn.org/stable/unsupervised_learning.html)

### K-means

Agrupa las muestras intentando minimizar la suma de las distancias al cuadrado dentro de cada grupo. Dado un valor de $k$, el algoritmo tiene 3 pasos:

   1. Escoger $k$ puntos como los centroides iniciales de cada agrupación
   
   
   2. Cada punto se asigna al grupo con centroide más cercano
   
   
   3. Se vuelven a calcular los centroides como la media de los elementos de cada grupo
   
   
   4. Repetir los pasos 2-3 hasta que el valor de los centroides no cambie casi nada
   
Además de k-means, scikit-learn también tiene implementaciones de otros algoritmos clásicos de clustering como DBSCAN, OPTICS, etc.

[Clustering](https://scikit-learn.org/stable/modules/clustering.html)


In [1]:
from sklearn.datasets import load_digits
from sklearn.preprocessing import scale
from sklearn.decomposition import PCA

digits = load_digits(as_frame=True)
X = scale(digits.data)

pca = PCA(n_components = 2)
X_pca = pca.fit_transform(X)

In [2]:
from sklearn.cluster import KMeans

kmeans = KMeans(init='k-means++', n_clusters=10, n_init=10)
kmeans.fit(X_pca)

KMeans(n_clusters=10)

<img src=https://scikit-learn.org/stable/_images/sphx_glr_plot_kmeans_digits_001.png width=600>

[A demo of K-Means clustering on the handwritten digits data](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html#sphx-glr-auto-examples-cluster-plot-kmeans-digits-py)