<a href="https://colab.research.google.com/github/anelglvz/Working-Analyst/blob/main/ML-AI-for-the-Working-Analyst/Semana7_1_Working_Analyst_SpectralClustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clusterización de trayectorias usando Clustering Espectral y KMeans

## Dependencias

In [None]:
import urllib
import zipfile
import os
import scipy.io
import math

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy.spatial.distance import directed_hausdorff
from scipy import linalg

from sklearn.preprocessing import normalize
from sklearn.cluster import KMeans

# Some visualization stuff, not so important
sns.set()
plt.rcParams['figure.figsize'] = (15, 15)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Funciones

In [None]:
def plot_cluster(traj_lst, cluster_lst):
    cluster_count = np.max(cluster_lst) + 1
    
    for traj, cluster in zip(traj_lst, cluster_lst):
        plt.plot(traj[:, 0], traj[:, 1], c=plt.cm.tab20(cluster))
    plt.show()

## Obtención de los datos

Trabajaremos con el dataset LABOMNI que contiene trayectorias de humanos caminando por un laboratorio capturadas usando una cámara omni-direccional.

In [None]:
# link descontinuado 'http://cvrr.ucsd.edu/LISA/Datasets/TrajectoryClustering/CVRR_dataset_trajectory_clustering.zip', era el oficial

filename = '/content/drive/MyDrive/Curso-WorkingAnalyst/semana7/labomni.mat'

###### Función util si aún hay link, descarga un .zip
# is_download_required = not os.path.exists(data_folder)

#if is_download_required:
#    zip_filename = 'data.zip'
#    urllib.request.urlretrieve(dataset_link, zip_filename)
#    zip_ref = zipfile.ZipFile(zip_filename, 'r')
#    zip_ref.extractall(data_folder)
#    zip_ref.close()

# Import dataset
traj_data = scipy.io.loadmat(filename)['tracks']

traj_lst = []
for data_instance in traj_data:
    traj_lst.append(np.vstack(data_instance[0]).T)


In [None]:
raw_data = scipy.io.loadmat(filename)

In [None]:
raw_data['tracks'][0][0].T

In [None]:
# La longitud de la lista es la cantidad de caminos
traj_lst

In [None]:
traj_lst[0].shape

In [None]:
len(traj_lst)

## Visualización de los datos

In [None]:
# Plotting

for traj in traj_lst:
    plt.plot(traj[:, 0], traj[:, 1])

In [None]:
plt.plot(traj_lst[157][:,0],traj_lst[157][:,1])
plt.plot(traj_lst[193][:,0],traj_lst[193][:,1])

In [None]:
# auxiliar
lenghts = [len(i) for i in traj_lst]

array = np.array(lenghts)

In [None]:
# Pequeño ejercicio: 
# Encontrar los conjuntos de puntos mas grande y el mas pequeño 
#                        Pista: np.where()
index = np.where(array == array.max())[0][0]   
print(index)
traj_lst[index]

In [None]:
index = np.argmax(array)
index

In [None]:
len(traj_lst[index])

In [None]:
index2 = np.where(array == array.min())[0][0]
print(index2)
len(traj_lst[index2])

In [None]:
index2 = np.argmin(array)
index2

In [None]:
# En realidad, ¿que son nuestros datos?
plt.scatter(traj_lst[193][:,0], traj_lst[193][:,1])
plt.scatter(traj_lst[157][:,0], traj_lst[157][:,1])

In [None]:
# En realidad, ¿que son nuestros datos?
plt.scatter(traj_lst[157][:,0], traj_lst[157][:,1])

# Distancia de Hausdorff

Para calcular la similitud entre dos trayectorias utilizaremos la distancia de Hausdorff programada en [```scipy.spatial.distance.directed_hausdorff```](https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.directed_hausdorff.html)

In [None]:
# ¿Resulta familiar?
punto_a = np.array([[0,0]])
punto_b = np.array([[3,4]])
directed_hausdorff(punto_b, punto_a)

In [None]:
# ¿Y ahora?
conj_a = np.array([[1,1],[0,0]])
conj_b = np.array([[1,1]])
directed_hausdorff(conj_a, conj_b)

In [None]:
# ¿Y ahora?
conj_a = np.array([[1,1],[0,0]])
conj_b = np.array([[1,1]])
directed_hausdorff(conj_b, conj_a)

In [None]:
# Intente calcular la distancia de hausdorff entre 2 elementos y vea gráficamente que ocurre

## Matriz de similitud/distancia/adyacencia

In [None]:
%%time
def hausdorff( u, v):
    d = max(directed_hausdorff(u, v)[0], directed_hausdorff(v, u)[0])
    return d

traj_count = len(traj_lst)
A = np.zeros((traj_count, traj_count))

# This may take a while
for i in range(traj_count):
    for j in range(traj_count):
        distance = hausdorff(traj_lst[i], traj_lst[j])
        A[i, j] = distance

In [None]:
print(A.shape)
A[:10, :4]

In [None]:
# PENDIENTE (minimo sin contar los ceros)
np.min(A[A > 0])

In [None]:
np.min(A[A > 4])

## Clustering Espectral

Obtenemos la $D$ que es una matriz diagonal en la que tendremos el ```grado``` de la trayectoría $i$ en la $i-ésima$ entrada.

$D_{i} = \sum_j A_{i, j}$

In [None]:
D_vect = np.sum(A, axis=1) # suma por renglones
D_vect

In [None]:
D = np.diag(D_vect) # matriz diagonal de un vector
D[:10, :4]

Calculamos la matriz $L$. No es la matriz Laplaciana de $A$, pero esta relacionada.

$L = D^{-1/2}~A~D^{-1/2}$

In [None]:
D_sqrtinv = np.diag(np.sqrt(1/D_vect))
L_norm = D_sqrtinv @ A @ D_sqrtinv
L_norm[:10, :4]

In [None]:
L_norm.shape

Hacemos la descomposición en valores singulares 

$L = U~\Sigma~V^T$.

Los eigenvectores van son las columnas de $U$.

In [None]:
U, sigma, _ = linalg.svd(L_norm, full_matrices=False)
print(U.shape, sigma.shape)
sigma[:10]

In [None]:
np.max(L_norm - U @ np.diag(sigma) @ U.T)

In [None]:
suma = np.sum(sigma)
suma_parcial = np.sum(sigma[:15])
suma_parcial/suma

In [None]:
sigma[200]

Definimos $k$ como el número de clusters que queremos crear y nos *quedamos* con los $k$ eigenvectores correspondientes a los $k$ eigenvalores más grandes.

In [None]:
k = 15
Uk = U[:, :k]
Uk.shape

Finalmente, normalizamos cada fila de la matriz resultante, $U_k$, y ocupamos éstas como *feature vectors* para KMeans.

In [None]:
y_pred = KMeans(n_clusters = 15).fit_predict(normalize(Uk))
y_pred

In [None]:
y_pred = y_pred + 1

In [None]:
y_pred.shape

In [None]:
plot_cluster(traj_lst, y_pred)

In [None]:
cluster_n = 4
plot_cluster([i for (i, v) in zip(traj_lst, y_pred == cluster_n) if v], y_pred[y_pred == cluster_n])

In [None]:
y_pred

In [None]:
unique, counts = np.unique(y_pred, return_counts=True)
print(np.asarray((unique, counts)).T)

### Ejercicios

- En este notebook esta implementado el algoritmo de Ng, Jordan y Weiss (NJW). Implementar cualquier otro algoritmo ([referencia](https://sites.stat.washington.edu/spectral/papers/UW-CSE-03-05-01.pdf))
- Comparar los resultados obtenidos con los verdaderos clusters que se encuentran en ```scipy.io.loadmat(filename)['truth']``` (pistas abajo)


In [None]:
y_true = scipy.io.loadmat(filename)['truth']

In [None]:
y_true

In [None]:
true_pd = pd.DataFrame([element[0] for element in y_true])

In [None]:
true_pd.value_counts()

In [None]:
y_pred

In [None]:
comparative = pd.concat([true_pd, pd.DataFrame(y_pred, columns=[1])], axis=1)

In [None]:
comparative.rename(columns = {0:'True', 1:'Predicted'}, inplace = True)

In [None]:
comparative

In [None]:
comparative[comparative['True'] == comparative['Predicted']]

Otro Ejercicio: ¿Porque creen que pasa lo anterior?