In [None]:
import pandas as pd
from qgrid import show_grid
import seaborn as sns
from pandas_profiling import ProfileReport
from funpymodeling.exploratory import freq_tbl, status, profiling_num, cat_vars, num_vars
import numpy as np

### 1) Carga y preparación de datos

In [None]:
# Fuente: https://github.com/rfordatascience/tidytuesday/blob/master/data/2020/2020-01-21/readme.md
data=pd.read_csv("https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-01-21/spotify_songs.csv")

status(data)

Removemos duplicados de canciones:

In [None]:
data=data.drop_duplicates(subset="track_id")

In [None]:
show_grid(data, grid_options={'forceFitColumns': False, 'defaultColumnWidth': 200})

In [None]:
len(data)

28356

### 2) Preparación de datos

In [None]:
x_data=data.drop(cat_vars(data), axis=1)

# saquemos otras...
x_data=x_data.drop(['key','speechiness', 'mode', 'tempo', 'duration_ms'], axis=1)

In [None]:
status(x_data)

### 3) Creación del modelo

Doc oficial: https://hdbscan.readthedocs.io/en/latest/

Ojo: en sklearn esta dbscan (sin la H). Es casi igual pero con mas hiperparámetros.
En HDBSCAN encuentra internamente prueba distintos valores (usen este).

In [None]:
import hdbscan

Generamos el modelo y fiteamos:
Condición todas las variables numéricas y sin nulos.

In [None]:
model_hdb = hdbscan.HDBSCAN()
model_hdb.fit(x_data)

HDBSCAN()

In [None]:
# Nro de cluster
model_hdb.labels_

In [None]:
from funpymodeling.exploratory import freq_tbl, todf

freq_tbl(model_hdb.labels_.astype('str'))

Muchos clusters! **171** 

Y uno de ellos es de ruido (indicado con el `-1`)

### 4) Tuning/regularización de HDBSCAN para menos clusters

In [None]:
model_hdb2 = hdbscan.HDBSCAN(min_cluster_size=80).fit(x_data)

In [None]:
freq_tbl(model_hdb2.labels_.astype('str'))

Notar el cluster de ruido. ¿qué cambió?

### 5) Análisis del modelo cluster (profiling)

In [None]:
cluster_var='cluster' # definan nombre de var de clustering
x_data_cl=x_data.copy() # hagan copia de los datos de TR para no perderlos
x_data_cl[cluster_var]=model_hdb2.labels_ # ojo aca! el predict es de los datos normalizados

In [None]:
x_data_cl.head()

Saquemos el cluster de ruido:

In [None]:
x_data_cl=x_data_cl[x_data_cl['cluster']!=-1]

In [None]:
from funpymodeling.model_validation import coord_plot
d_orig, d_transf = coord_plot(x_data_cl, cluster_var)

In [None]:
d_orig

In [None]:
d_transf

In [None]:
freq_tbl(x_data_cl['cluster'])

### 6) _Sanity check!_

In [None]:
data_check=data.copy()
data_check['cluster']=model_hdb2.labels_
#data_check=data_check[['cluster', 'track_name']]

In [None]:
show_grid(data_check, grid_options={'forceFitColumns': False, 'defaultColumnWidth': 200})

#### Calculandolo especialmente para HDBSCAN

In [None]:
from sklearn.metrics import silhouette_score, silhouette_samples

sil_avg = silhouette_score(x_data, model_hdb2.labels_)

`silhouette_score`: nos da el promedio global

In [None]:
sil_avg

`silhouette_samples` nos da el valor silhouette para cada registro:

In [None]:
sample_silhouette_values = silhouette_samples(x_data, model_hdb2.labels_)

In [None]:
sample_silhouette_values

In [None]:
res_sil=pd.DataFrame({'sil_value': sample_silhouette_values, 'cluster': model_hdb2.labels_})

In [None]:
g = sns.FacetGrid(res_sil, col='cluster')
g = g.map(sns.kdeplot, 'sil_value')

Promedio de Silhouette por cluster:

In [None]:
res_sil.groupby('cluster').mean('sil_value')