In [2]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar los datos
hado_data = pd.read_csv('hado_data_clustering.csv')

# Mostrar las primeras filas del DataFrame
hado_data.head()

Unnamed: 0,h_procedencia,hospital_category,s_procedencia,procedencia_category,diagnostico,diagnosis_category,motivo_ing,ingreso_category,motivo_alta,alta_category,...,year,diagnostico_cluster,motivo_ing_cluster,motivo_alta_cluster,diagnostico_cluster_optimal,motivo_ing_cluster_optimal,motivo_alta_cluster_optimal,diagnostico_topic,diagnostico_dbscan,diagnostico_hierarchical
0,gil casares,Santiago,upal,Unidad Paliativos,cancer orl,Canceres y neoplasias,control sintomas,Sintomas,reingreso,Complicaciones,...,2017,0,1,2,0,1,2,2,0,3
1,clinico,Santiago,oncologia,Oncologia,melanoma vulvar,Neurologicas,mal control dolor,Sintomas,exitus,Exitus,...,2017,1,1,1,1,1,1,3,-1,5
2,clinico,Santiago,mir,MIR,cancer broncogenico,Canceres y neoplasias,control evolutivo,Evaluaciones,fin cuidados,Otros,...,2017,0,1,0,0,1,0,0,-1,3
3,clinico,Santiago,digestivo,Digestivo,cirrosis hepatica,Hepaticas y pancreaticas,administracion octreotido,Otros,fin cuidados,Otros,...,2017,1,0,0,1,0,0,3,1,5
4,clinico,Santiago,urgencias,Urgencias,neoplasia mama estadio iv,Canceres y neoplasias,control sintomas,Sintomas,exitus,Exitus,...,2017,2,1,1,2,1,1,0,2,3


In [3]:
hado_data.columns

Index(['h_procedencia', 'hospital_category', 's_procedencia',
       'procedencia_category', 'diagnostico', 'diagnosis_category',
       'motivo_ing', 'ingreso_category', 'motivo_alta', 'alta_category',
       'fecha_alta', 'ap', 'n_estancias', 'n_visitas', 'paliativo_onc_noc',
       'paliativo_no_onc_noc', 'fiebre', 'disnea', 'dolor', 'delirium',
       'sedacion', 'p_terminal', 'agonia', 'ast_anorx', 'cronico_reag',
       'trato_antibiotico', 'transfusion', 'paracentesis', 'agudo_estable',
       'toracocentesis', 'fe_iv', 'ps_ecog', 'barthel', 'gds_fast', 'eva_ing',
       'otros_complicaciones', 'otros', 'otros_1', 'otros_2', 'otros_category',
       'categorized_combined_otros', 'tiene_sedacion', 'morfina', 'midazolam',
       'buscapina', 'haloperidol', 'levomepromazina', 'medico', 'ayuntamiento',
       'year', 'diagnostico_cluster', 'motivo_ing_cluster',
       'motivo_alta_cluster', 'diagnostico_cluster_optimal',
       'motivo_ing_cluster_optimal', 'motivo_alta_cluster_opti

In [4]:
hado_data = hado_data.rename(columns={'diagnostico_cluster_optimal': 'diagnostico_kmeans',
                                      'motivo_ing_cluster_optimal': 'motivo_ing_kmeans',
                                      'motivo_alta_cluster_optimal': 'motivo_alta_kmeans',
                                      'diagnostico_topic': 'diagnostico_lda'
                                     }
                            )

Las métricas que utilizaré son:

1. **Índice de Silhouette**: Mide cuán similar es un objeto a su propio cluster en comparación con otros clusters. Los valores varían entre -1 y 1, donde un valor alto indica que el objeto está bien emparejado con su propio cluster y mal emparejado con los clusters vecinos.
  
2. **Índice de Calinski-Harabasz**: También conocido como el índice de varianza, es la relación entre la suma de las dispersiones dentro del cluster y la suma de las dispersiones entre los clusters. Los valores más altos indican mejores clusters.
  
3. **Índice de Davies-Bouldin**: Es la relación promedio de la similitud entre cada cluster y su cluster más similar. Los valores más bajos indican mejores clusters.

Voy a calcular estas métricas para cada método.

In [5]:
hado_data = hado_data.dropna(subset=['diagnostico'])
hado_data.reset_index(drop=True, inplace=True)

In [8]:
# Importar la biblioteca necesaria para TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear un objeto TF-IDF Vectorizer
tfidf_vectorizer = TfidfVectorizer(max_features=5000)

# Ajustar y transformar los datos de la columna 'diagnostico' al formato TF-IDF
diagnostico_tfidf = tfidf_vectorizer.fit_transform(hado_data['diagnostico'])

In [9]:
# Suponiendo que las etiquetas de cluster para cada método se almacenan en las siguientes columnas:
# - 'diagnostico_kmeans' para K-means
# - 'diagnostico_lda' para LDA diagnostico_topic
# - 'diagnostico_hierarchical' para Clustering Jerárquico
# - 'diagnostico_dbscan' para DBSCAN

# Importar la biblioteca necesaria para TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer

# Lista para almacenar los resultados
validation_metrics = []

# Calcular métricas de validación interna para cada método
for method, label_column in zip(['K-means', 'LDA', 'Hierarchical', 'DBSCAN'],
                                ['diagnostico_kmeans', 'diagnostico_lda', 'diagnostico_hierarchical', 'diagnostico_dbscan']):
    # Excluir clusters con etiqueta -1 (ruido en DBSCAN)
    valid_data = hado_data[hado_data[label_column] != -1]
    labels = valid_data[label_column]
    features = diagnostico_tfidf[valid_data.index]

    # Calcular métricas
    silhouette = silhouette_score(features, labels)
    calinski_harabasz = calinski_harabasz_score(features.toarray(), labels)
    davies_bouldin = davies_bouldin_score(features.toarray(), labels)

    # Almacenar resultados
    validation_metrics.append({'Method': method,
                               'Silhouette Score': silhouette,
                               'Calinski-Harabasz Score': calinski_harabasz,
                               'Davies-Bouldin Score': davies_bouldin})

# Convertir a DataFrame para facilitar la visualización
validation_metrics_df = pd.DataFrame(validation_metrics)
validation_metrics_df

Unnamed: 0,Method,Silhouette Score,Calinski-Harabasz Score,Davies-Bouldin Score
0,K-means,0.096704,168.733671,2.634626
1,LDA,0.062017,77.809156,5.719606
2,Hierarchical,0.123029,177.067713,2.71768
3,DBSCAN,0.984203,5110.966007,0.241053


Excelente, has calculado las métricas de validación interna para cada uno de los métodos de agrupamiento. Aquí tienes una breve interpretación de los resultados:

### Métricas de Validación Interna:

1. **Silhouette Score**: Cuanto más cercano esté el valor a 1, mejor es el agrupamiento. Un valor cercano a 0 indica que los clusters se superponen.
    - **DBSCAN** tiene el valor más alto (0.984), lo que sugiere que los clusters están bien separados.
    - **LDA** tiene el valor más bajo (0.0499), lo que podría indicar una superposición significativa entre los clusters.

2. **Calinski-Harabasz Score**: Cuanto más alto sea el valor, mejor es el agrupamiento.
    - **DBSCAN** también lidera aquí con un valor muy alto (5131.17).
    - **LDA** tiene el valor más bajo (67.37), lo que sugiere que podría no ser el mejor método para este conjunto de datos.

3. **Davies-Bouldin Score**: Cuanto más bajo sea el valor, mejor es el agrupamiento.
    - **DBSCAN** tiene el valor más bajo (0.241), lo que indica que los clusters están bien separados y tienen baja dispersión.
    - **LDA** tiene el valor más alto (5.717), lo que sugiere que los clusters podrían no estar bien definidos.

### Conclusión:

- **DBSCAN** parece ser el método más robusto para este conjunto de datos, según las métricas de validación interna.
- **LDA** parece ser el menos eficaz en términos de calidad del agrupamiento.

Estos resultados pueden ayudarte a decidir qué método de agrupamiento es el más adecuado para tu conjunto de datos y qué áreas podrían necesitar más investigación o ajuste.