# Evaluación del modelo
### El objetivo es evaluar el rendimiento y la calidad del modelo entrenado.

## Importación de librerías

In [2]:
import pandas as pd
import numpy as np
import joblib
from sklearn.metrics import silhouette_score, adjusted_rand_score, normalized_mutual_info_score
import plotly.express as px
import plotly.graph_objects as go
import logging

# Configuración del logger
logging.basicConfig(level=logging.INFO)

## Carda del modelo y datos

In [None]:
# # Cargar el modelo KMeans entrenado
# kmeans_model = joblib.load('../models/kmeans_bert_model.pkl')

# # Cargar el DataFrame de embeddings con clusters
# embeddings_df = pd.read_csv('../data/processed/bert_embeddings_with_clusters.csv')

# # Mostrar las primeras filas del DataFrame
# embeddings_df.head()


In [3]:
kmeans_model = joblib.load('../models/kmeans.pkl')

In [6]:
data = pd.read_csv('../data/outputs/pca_df.csv')

In [7]:
data.columns

Index(['PC1', 'PC2', 'PC3', 'Cluster'], dtype='object')

## Evaluación del modelo

In [8]:
# Obtener los labels predichos por el modelo
predicted_labels = data['Cluster']

# Evaluación con Silhouette Score
silhouette_avg = silhouette_score(data.drop('Cluster', axis=1), predicted_labels)
print(f'Puntaje de Silhouette: {silhouette_avg}')

# Evaluación con Adjusted Rand Index (si tienes etiquetas verdaderas)
# true_labels = embeddings_df['TrueLabel']
# ari_score = adjusted_rand_score(true_labels, predicted_labels)
# print(f'Adjusted Rand Index: {ari_score}')

# Evaluación con Normalized Mutual Information (si tienes etiquetas verdaderas)
# nmi_score = normalized_mutual_info_score(true_labels, predicted_labels)
# print(f'Normalized Mutual Information: {nmi_score}')


Puntaje de Silhouette: 0.5830729671359918


## Visualización de resultados

In [9]:
# Reducir la dimensionalidad de los embeddings a 3 componentes con PCA
from sklearn.decomposition import PCA

pca = PCA(n_components=3)
pca_result = pca.fit_transform(data.drop('Cluster', axis=1))

# Crear un DataFrame con los resultados de PCA
pca_df = pd.DataFrame(pca_result, columns=['PC1', 'PC2', 'PC3'])
pca_df['Cluster'] = predicted_labels

# Visualizar los clusters en 3D
fig = px.scatter_3d(pca_df, x='PC1', y='PC2', z='PC3', color='Cluster', title='Clusters en 3D')
fig.show()


## Análisis de Resultados
- **Puntaje de Silhouette**: Indica la coherencia de los clusters. Un valor más cercano a 1 implica clusters bien definidos.
- **Visualización en 3D**: Permite observar visualmente la separación de los clusters y evaluar su calidad.
- **Otras métricas (opcional)**: Si se dispone de etiquetas verdaderas, se pueden utilizar métricas como Adjusted Rand Index y Normalized Mutual Information para evaluar la precisión del clustering.

## Observaciones
- Analiza los clusters obtenidos y compara con el conocimiento previo del dominio.
- Identifica posibles mejoras en el modelo o en la preprocesamiento de datos.


## Conclusiones
- El modelo KMeans entrenado ha sido evaluado con diversas métricas.
- La visualización en 3D muestra la separación de los clusters.

## Próximos Pasos
1. Ajustar los parámetros del modelo para mejorar la calidad del clustering.
2. Implementar técnicas adicionales de evaluación para una mejor interpretación de los resultados.
3. Desarrollar una interfaz de usuario para clasificar nuevos documentos y visualizar los resultados.
