# Unsupervised Learning

Como pudimos ver, hay muchos modelos usados ​​en la clasificación de trayectorias, en este cuaderno vamos a usar y probar modelos de aprendizaje no supervisado (en caso de que no haya sido lo suficientemente obvio ya)

Primero que todo vamos a cargar los vectores donde se describen las trayectorias por sus características.

In [None]:
import feature_vec as fv

metadata = fv.get_selected_data()
feat_vectors, clss_mask, clss = fv.get_feat_vectors(metadata)

100.00%

## K-Means

Aplicando el algoritmo K-Means a los datos

In [4]:
from sklearn.cluster import KMeans
import numpy as np

kmeans = KMeans(n_clusters=5,
                n_init=10,
                init='random',
                tol=1e-4, 
                random_state=170,
                verbose=True)

y_pred = kmeans.fit_predict(feat_vectors)

Initialization complete
Iteration 0, inertia 2.743482413002359e+36
Iteration 1, inertia 2.665040300787289e+36
Iteration 2, inertia 1.3149946054482284e+36
Iteration 3, inertia 8.05866342824041e+35
Iteration 4, inertia 4.689760208405033e+35
Iteration 5, inertia 3.856167907774093e+35
Iteration 6, inertia 3.686612999050166e+35
Iteration 7, inertia 3.2261252425252728e+35
Iteration 8, inertia 1.1869862147497005e+35
Iteration 9, inertia 4.902831953831761e+34
Iteration 10, inertia 2.487211731496574e+34
Iteration 11, inertia 1.9647179854501834e+34
Iteration 12, inertia 1.789500026676851e+34
Converged at iteration 12: strict convergence.
Initialization complete
Iteration 0, inertia 2.743482413002287e+36
Iteration 1, inertia 2.6015227547155552e+36
Iteration 2, inertia 2.5495559500566742e+35
Iteration 3, inertia 1.8749764459196463e+35
Iteration 4, inertia 1.2848393771158263e+35
Iteration 5, inertia 4.968578113164767e+34
Iteration 6, inertia 2.487211731496574e+34
Iteration 7, inertia 1.964717985450

Ahora, determinemos la homogeneidad, la integridad de los clusters y el Coeficiente de Silhouette.

In [14]:
from sklearn import metrics

# Calcular la homogeneidad y la integridad de los clusters.
homogeneity = metrics.homogeneity_score(clss, y_pred)
completeness = metrics.completeness_score(clss, y_pred) 

# Calcular el coeficiente de coeficiente de Silhouette para cada muestra.
s = metrics.silhouette_samples(feat_vectors, y_pred)

# Calcule el coeficiente de Silhouette medio de todos los puntos de datos.
s_mean = metrics.silhouette_score(feat_vectors, y_pred)

print(homogeneity)
print(completeness)
print(s)
print(s_mean)

## DBSCAN

Aplicamos ahora el algoritmo DBSCAN como otro modelo alternativo.

In [15]:
from sklearn.cluster import DBSCAN

Usamos `SatandarScaler` para estandarizar características a media cero y varianza unitaria. Luego aplicamos el algoritmo a los datos.

In [26]:
from sklearn.preprocessing import StandardScaler

X = StandardScaler().fit_transform(feat_vectors)

dbscan = DBSCAN(eps=0.3, min_samples=30).fit_predict(X)

Y ahora calculamos e imprimimos las evaluaciones de las métricas.

In [27]:
print('Number of clusters: {}'.format(len(set(dbscan[np.where(dbscan != -1)]))))
print('Homogeneity: {}'.format(metrics.homogeneity_score(clss, dbscan)))
print('Completeness: {}'.format(metrics.completeness_score(clss, dbscan)))
# print('Mean Silhouette score: {}'.format(metrics.silhouette_score(X, dbscan)))


Number of clusters: 0
Homogeneity: 3.350995561647498e-16
Completeness: 1.0
