## Máster en Big Data y Data Science

### Metodologías de gestión y diseño de proyectos de big data

#### AP2 - Descubrimiento de grupos en los datos

---

En esta libreta se generan los modelos de clusterización sobre el dataset final del escenario para su posterior evaluación y análisis. Se utilizará como herramienta de soporte a mlflow para el registro completo de la experimentación. 

---

In [None]:
# Importación de librerías

import pandas as pd
# Se importa mlflow para registro de la experimentación 
import mlflow
# Se importan los métodos a utilizar para clusterizar
from sklearn.cluster import KMeans, AgglomerativeClustering, Birch
# Otras opciones: DBSCAN, MeanShift, BisectingKMeans

# Se importan las métricas a utilizar para evaluar el proceso
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
from mlflow.models.signature import infer_signature

----

##### Lectura del dataset

In [23]:
df = pd.read_csv("../../../../data/final/datos_finales_clusterizacion.csv", sep=";")
df.head(5)

Unnamed: 0,edad,importe_solicitado,duracion_credito,antiguedad_empleado,ingresos,pct_ingreso,tasa_interes,estado_credito,antiguedad_cliente,gastos_ult_12m,...,estado_cliente_ACTIVO,estado_cliente_PASIVO,genero_F,genero_M,nivel_educativo_DESCONOCIDO,nivel_educativo_POSGRADO_COMPLETO,nivel_educativo_POSGRADO_INCOMPLETO,nivel_educativo_SECUNDARIO_COMPLETO,nivel_educativo_UNIVERSITARIO_COMPLETO,nivel_educativo_UNIVERSITARIO_INCOMPLETO
0,25,5500,3,1.0,9600,0.57,12.87,1,44.0,1291.0,...,True,False,True,False,False,False,False,False,True,False
1,24,35000,4,8.0,54400,0.55,14.27,1,54.0,1314.0,...,True,False,False,True,True,False,False,False,False,False
2,26,35000,3,8.0,77100,0.45,12.42,1,21.0,816.0,...,True,False,False,True,False,False,False,False,False,True
3,24,35000,4,5.0,78956,0.44,11.11,1,46.0,1330.0,...,True,False,False,True,True,False,False,False,False,False
4,21,1600,3,6.0,10000,0.16,14.74,1,36.0,1350.0,...,True,False,False,True,False,False,False,False,False,True


In [24]:
# Transformación por las características de mlflow para la detección de nulos en campos de tipo integer
df = df.astype({col: 'float64' for col in df.select_dtypes(include='int').columns})

----

##### Configuración de la experimentación

In [None]:
# Se genera el experimento en mlflow
exp_name = 'Experimentación clustering #1 (SP7)'
exp_id = mlflow.create_experiment(name=exp_name)

MlflowException: Experiment 'Experimentación clustering #1 (SP7)' already exists.

In [26]:
# Por cada método se debe registrar la ejecución
with mlflow.start_run(experiment_id=exp_id, run_name="Kmeans - K=2"):
    # Selección y configuración de la técnica
    modelo_clusters = KMeans(n_clusters=2)
    
    trained_model = modelo_clusters.fit(df)
    cluster_labels = trained_model.labels_

    # Se realizar el cálculo de las métricas seleccionadas
    score_s = silhouette_score(df, cluster_labels)
    score_db = davies_bouldin_score(df, cluster_labels)
    score_ch = calinski_harabasz_score(df, cluster_labels)

    # Se registra el parámetro K
    mlflow.log_param('Valor K', 2)

    # Se registran las métricas de evaluación
    mlflow.log_metric('silhouette_score', score_s)
    mlflow.log_metric('davies_bouldin_score', score_db)
    mlflow.log_metric('calinski_harabasz_score', score_ch)

    # Se guarda el modelo generado
    input_example = df.iloc[0].to_frame().T
    signature = infer_signature(df, cluster_labels)
    mlflow.sklearn.log_model(trained_model, "Kmeans_K2", input_example=input_example, signature=signature)

    # Se finaliza el registro
    mlflow.end_run()



Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

Para contabilizar los elementos por cluster se utilizan las labels generadas

In [27]:
# Se preserva el conjunto de datos original para evitar problemas
df_kmeans_k2 = df.copy()
# Se agregan las labels generadas
df_kmeans_k2['cluster'] = cluster_labels
df_kmeans_k2['cluster'].value_counts()

cluster
0    5479
1     427
Name: count, dtype: int64

Se hace la exportación de los resultados a un archivo .csv nuevo

In [7]:
df_kmeans_k2.to_csv("../../../data/final/df_kms_k2.csv", sep=";", index=False)

Se pasa a probar otro método (clustering jerárquico)

In [28]:
# Por cada método se debe registrar la ejecución
with mlflow.start_run(experiment_id=exp_id, run_name="AGClustering - K=2"):
    # Selección y configuración de la técnica
    modelo_clusters = AgglomerativeClustering(n_clusters=2)
    
    trained_model = modelo_clusters.fit(df)
    cluster_labels = trained_model.labels_

    # Se realizar el cálculo de las métricas seleccionadas
    score_s = silhouette_score(df, cluster_labels)
    score_db = davies_bouldin_score(df, cluster_labels)
    score_ch = calinski_harabasz_score(df, cluster_labels)

    # Se registra el parámetro K
    mlflow.log_param('Valor K', 2)

    # Se registran las métricas de evaluación
    mlflow.log_metric('silhouette_score', score_s)
    mlflow.log_metric('davies_bouldin_score', score_db)
    mlflow.log_metric('calinski_harabasz_score', score_ch)

    # Se guarda el modelo generado
    # input_example = df.iloc[0].to_frame().T
    signature = infer_signature(df, cluster_labels)
    mlflow.sklearn.log_model(trained_model, "AGC_2", signature=signature)

    # Se finaliza el registro
    mlflow.end_run()



Para contabilizar los elementos por cluster se utilizan las labels generadas

In [29]:
# Se preserva el conjunto de datos original para evitar problemas
df_agc_k2 = df.copy()
# Se agregan las labels generadas
df_agc_k2['cluster'] = cluster_labels
df_agc_k2['cluster'].value_counts()

cluster
0    5778
1     128
Name: count, dtype: int64

Se realiza la exportación de los resultados

In [None]:
df_agc_k2.to_csv("../../../data/final/df_agc_k2.csv", sep=";", index=False)

Prueba con otro método paramétrico

In [30]:
with mlflow.start_run(experiment_id=exp_id, run_name="Birch - K = 2"):
    modelo_clusters = Birch(n_clusters=2)
    trained_model = modelo_clusters.fit(df)
    cluster_labels = trained_model.labels_

    # Calcular métricas
    score_s = silhouette_score(df, cluster_labels)
    score_db = davies_bouldin_score(df, cluster_labels)
    score_ch = calinski_harabasz_score(df, cluster_labels)

    # Se registra el parámetro K
    mlflow.log_param('Valor K', 2)

    # Registrar métricas
    mlflow.log_metric('silhouette_score', score_s)
    mlflow.log_metric('davies_bouldin_score', score_db)
    mlflow.log_metric('calinski_harabasz_score', score_ch)

    # Guardar el modelo
    signature = infer_signature(df, cluster_labels)
    mlflow.sklearn.log_model(trained_model, "Birch_Model", signature=signature)

    mlflow.end_run()



In [None]:
# Se preserva el conjunto de datos original para evitar problemas
df_bc = df.copy()
# Se agregan las labels generadas
df_bc['cluster'] = cluster_labels
df_bc['cluster'].value_counts()

cluster
0    5778
1     128
Name: count, dtype: int64

Se prueba con Kmeans pero con K = 3

Para contabilizar los elementos por cluster se utilizan las labels generadas

In [None]:
# Por cada método se debe registrar la ejecución
with mlflow.start_run(experiment_id=exp_id, run_name="Kmeans - K=3"):
    # Selección y configuración de la técnica
    modelo_clusters = KMeans(n_clusters=3)
    
    trained_model = modelo_clusters.fit(df)
    cluster_labels = trained_model.labels_

    # Se realizar el cálculo de las métricas seleccionadas
    score_s = silhouette_score(df, cluster_labels)
    score_db = davies_bouldin_score(df, cluster_labels)
    score_ch = calinski_harabasz_score(df, cluster_labels)

    # Se registra el parámetro K
    mlflow.log_param('Valor K', 3)

    # Se registran las métricas de evaluación
    mlflow.log_metric('silhouette_score', score_s)
    mlflow.log_metric('davies_bouldin_score', score_db)
    mlflow.log_metric('calinski_harabasz_score', score_ch)

    # Se guarda el modelo generado
    input_example = df.iloc[0].to_frame().T
    signature = infer_signature(df, cluster_labels)
    mlflow.sklearn.log_model(trained_model, "Kmeans_K3", input_example=input_example, signature=signature)

    # Se finaliza el registro
    mlflow.end_run()



Downloading artifacts:   0%|          | 0/7 [00:00<?, ?it/s]

In [None]:
# Se preserva el conjunto de datos original para evitar problemas
df_kms_k3 = df.copy()
# Se agregan las labels generadas
df_kms_k3['cluster'] = cluster_labels
df_kms_k3['cluster'].value_counts()

### Opciones de optimización del proceso

Utilizar PCA (solo para visualización de clusters) y un proceso de normalización de valores para eliminar el impacto de las diferencias en el dataset en la clusterización.

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Normalización de los datos
scaler = StandardScaler()
df_normalizado = scaler.fit_transform(df)

# Aplicación de PCA
pca = PCA(n_components=2)
df_pca = pca.fit_transform(df_normalizado)

# Clusterización con las diferentes técnicas

In [None]:
# Se genera el experimento en mlflow
exp_name = 'Experimentación clustering #2'
exp_id = mlflow.create_experiment(name=exp_name)

In [None]:
# Por cada método se debe registrar la ejecución
with mlflow.start_run(experiment_id=exp_id, run_name="Kmeans N - K=2"):
    # Selección y configuración de la técnica
    modelo_clusters = KMeans(n_clusters=2)
    
    trained_model = modelo_clusters.fit(df_normalizado)
    cluster_labels = trained_model.labels_

    # Se realizar el cálculo de las métricas seleccionadas
    score_s = silhouette_score(df_normalizado, cluster_labels)
    score_db = davies_bouldin_score(df_normalizado, cluster_labels)
    score_ch = calinski_harabasz_score(df_normalizado, cluster_labels)

    # Se registra el parámetro K
    mlflow.log_param('Valor K', 2)

    # Se registran las métricas de evaluación
    mlflow.log_metric('silhouette_score', score_s)
    mlflow.log_metric('davies_bouldin_score', score_db)
    mlflow.log_metric('calinski_harabasz_score', score_ch)

    # Se guarda el modelo generado
    # input_example = df_normalizado.iloc[0].to_frame().T
    signature = infer_signature(df_normalizado, cluster_labels)
    mlflow.sklearn.log_model(trained_model, "Kmeans_K2_N", input_example=input_example, signature=signature)

    # Se finaliza el registro
    mlflow.end_run()

In [None]:
# Se preserva el conjunto de datos original para evitar problemas
# Convertir df_normalizado a un DataFrame de pandas
df_kms_k2_n = pd.DataFrame(df_normalizado, columns=df.columns)

# Se agregan las labels generadas
df_kms_k2_n['cluster'] = cluster_labels

# Contar los elementos por cluster
df_kms_k2_n['cluster'].value_counts()