# 4.2 - Más modelos USL

In [None]:
import pylab as plt
%matplotlib inline

from sklearn.datasets import make_moons

In [None]:
moons=make_moons(n_samples=100, shuffle=True, noise=0.05)

plt.scatter(moons[0][:,0],   # x
            moons[0][:,1],   # y
            c=moons[1]);     # color

# DBSCAN 

**Density Based Spatial Clustering of Applications with Noise**

![dbscan](images/dbscan.png)


DBSCAN requiere de dos parámetros:

+ $\epsilon$ : distancia de la vecindad
+ Número mínimo de puntos para considerarla vecindad

Se comienza con un punto arbitrario que no haya sido visitado. La $\epsilon$-vecindad de éste punto se evalúa, para determinar su densidad y si tiene suficientes puntos se clusteriza, si no, se considera que el punto es ruido.


**Ventajas**
+ No necesita saber el nº de clusters
+ Se reduce el single-link (un cluster dentro de otro)
+ Tiene noción del ruido (detecta muy bien outliers)
+ Solo dos parámetros


**Desventajas**
+ No es determinista en los límites del cluster
+ Depende de la distancia
+ No puede manejar grandes diferencias de densidad


https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/

In [None]:
from sklearn.cluster import DBSCAN

In [None]:
dbscan=DBSCAN()

dbscan.fit(moons[0])

In [None]:
#help(DBSCAN)

In [None]:
plt.scatter(moons[0][:,0],   # x
            moons[0][:,1],   # y
            c=dbscan.labels_);     # color

In [None]:
#help(DBSCAN)

In [None]:
dbscan=DBSCAN(eps=0.3, min_samples=3)

dbscan.fit(moons[0])

In [None]:
plt.scatter(moons[0][:,0],   # x
            moons[0][:,1],   # y
            c=dbscan.labels_);     # color

In [None]:
dbscan.labels_

# HDBSCAN

**Hierarchical DBSCAN**

https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html

Extiende DBSCAN haciéndolo jerárquico. El algoritmo se basa en:

1) Transformar el espacio según densidad

2) Grafo de árboles de distancias

3) Cluster jerárquicos

4) Condensar los clusters basándose en el tamaño

5) Extraer clusters estables desde el árbol

In [None]:
%pip install hdbscan

In [None]:
from hdbscan import HDBSCAN

In [None]:
hdbscan=HDBSCAN(gen_min_span_tree=True)

In [None]:
hdbscan.fit(moons[0])

In [None]:
plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=hdbscan.labels_);

In [None]:
hdbscan.labels_

In [None]:
plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=hdbscan.probabilities_);

In [None]:
hdbscan.probabilities_[:10]

In [None]:
hdbscan.probabilities_.min()

In [None]:
import pandas as pd

df=pd.DataFrame(moons[0])

df['label']=hdbscan.labels_

df['prob']=hdbscan.probabilities_

df[df.prob<0.7]

In [None]:
hdbscan.minimum_spanning_tree_.plot(edge_cmap='viridis',
                                    edge_alpha=0.6,
                                    node_size=10,
                                    edge_linewidth=1.2);

In [None]:
hdbscan.single_linkage_tree_.plot(cmap='viridis',
                                  colorbar=True);

In [None]:
hdbscan.condensed_tree_.plot();

In [None]:
import seaborn as sns

hdbscan.condensed_tree_.plot(select_clusters=True,
                             selection_palette=sns.color_palette());

# OPTICS

**Ordering Points To Identify the Clustering Structure**

Generalización del DBSCAN, busca el núcleo de la muestra con la más alta densidad y expande los clusteres desde ahí.

![optics](images/optics.png)

In [None]:
from sklearn.cluster import OPTICS

In [None]:
opt=OPTICS(max_eps=1, eps=0.5, min_samples=5)

opt.fit(moons[0])

In [None]:
plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=opt.labels_);

In [None]:
opt.labels_

In [None]:
opt=OPTICS(max_eps=0.3, eps=0.2, min_samples=3)

opt.fit(moons[0])

plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=opt.labels_);

# GMM

**Gaussian Mixture Models**

Se asume que los datos son mezclas de un nº finito de distribuciones gaussianas de parámetros desconocidos (N($\mu$,$\sigma$))


![gmm](images/gmm.png)


![gmm2](images/gmm2.png)

In [None]:
from sklearn.mixture import GaussianMixture as GM

In [None]:
gm=GM(n_components=2, 
      covariance_type='full')

gm.fit(moons[0])

gm.means_

In [None]:
gm.covariances_

In [None]:
plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=gm.predict(moons[0]));

In [None]:
gm.predict(moons[0])

In [None]:
plt.scatter(moons[0][:,0], 
            moons[0][:,1], 
            c=gm.predict_proba(moons[0])[:, 1]);

In [None]:
from sklearn.datasets import make_classification as mc

In [None]:
X=mc(n_features=2, 
     n_redundant=0, 
     n_informative=2, 
     n_clusters_per_class=1)

In [None]:
plt.scatter(X[0][:,0], X[0][:,1]);

In [None]:
gm=GM(n_components=2, covariance_type='full')

gm.fit(X[0])

gm.means_

In [None]:
plt.scatter(X[0][:,0], X[0][:,1], c=gm.predict(X[0]));

In [None]:
gm.predict(X[0])

In [None]:
plt.scatter(X[0][:,0], X[0][:,1], c=gm.predict_proba(X[0])[:, 1]);

![](data/usl_models.png)

![usl_models](images/usl_models.png)