# üîµ Modelo 8: K-Means Clustering
## Segmentaci√≥n de Exportaciones (Aprendizaje No Supervisado)

---

## üéØ Objetivo
Agrupar exportaciones colombianas en clusters similares usando el algoritmo K-Means, sin necesidad de etiquetas previas.

K-Means es un algoritmo de clustering que particiona n observaciones en k clusters, donde cada observaci√≥n pertenece al cluster con la media m√°s cercana (centroide).

## üìä Variables
- **Features**: Variables num√©ricas relacionadas con las exportaciones
- **M√©todo**: Clustering no supervisado
- **Algoritmo**: K-Means con inicializaci√≥n inteligente

## üìã Contenido
1. Importaci√≥n de librer√≠as
2. Carga y exploraci√≥n de datos
3. Preprocesamiento de datos
4. Determinaci√≥n del n√∫mero √≥ptimo de clusters
5. Entrenamiento del modelo K-Means
6. Evaluaci√≥n de clusters
7. An√°lisis de caracter√≠sticas de clusters
8. Visualizaci√≥n de resultados
9. Guardado del modelo

## 1. Importaci√≥n de Librer√≠as

Importamos todas las librer√≠as necesarias para el an√°lisis de clustering.

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Librer√≠as de machine learning
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
from sklearn.decomposition import PCA
import pickle

# Configuraci√≥n de gr√°ficos
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print('‚úÖ Librer√≠as importadas correctamente')

## 2. Carga de Datos

Cargamos el dataset original desde el archivo Excel y realizamos una exploraci√≥n inicial.

In [None]:
# Cargar el dataset desde Excel
df = pd.read_excel('../DATA/DATAPROYECTO.xlsx', sheet_name='Detalle')

print(f'üì¶ Dataset cargado exitosamente')
print(f'   Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas')
print(f'   Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB')

# Vista r√°pida de las primeras filas
df.head()

## 3. Preprocesamiento de Datos

Realizamos el preprocesamiento necesario para preparar los datos para el clustering.

In [None]:
# Crear una copia para trabajar
df_processed = df.copy()

print('üîß Iniciando preprocesamiento...')

# 1. Manejo de valores faltantes
print('\n1Ô∏è‚É£ Tratamiento de valores faltantes:')

# Para columnas num√©ricas: imputar con la mediana
numeric_cols = df_processed.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    if df_processed[col].isnull().sum() > 0:
        median_val = df_processed[col].median()
        df_processed[col].fillna(median_val, inplace=True)
        print(f'   ‚úì {col}: Imputado con mediana = {median_val:.2f}')

print(f'\n   Valores nulos restantes: {df_processed.isnull().sum().sum()}')

# 2. Feature Engineering - Crear variables derivadas
print('\n2Ô∏è‚É£ Feature Engineering:')

# Ratio Peso Bruto/Neto
df_processed['Ratio_Peso_Bruto_Neto'] = df_processed['Peso en kilos brutos'] / (df_processed['Peso en kilos netos'] + 1e-10)
print('   ‚úì Ratio_Peso_Bruto_Neto creado')

# Valor por kilogramo
df_processed['Valor_Por_Kg'] = df_processed['Valor FOB (USD)'] / (df_processed['Peso en kilos netos'] + 1e-10)
print('   ‚úì Valor_Por_Kg creado')

## 4. Selecci√≥n de Features para Clustering

Seleccionamos las variables num√©ricas m√°s relevantes para el clustering.

In [None]:
# Seleccionar features num√©ricas para clustering
features = [
    'Valor FOB (USD)', 'Peso en kilos netos', 'Peso en kilos brutos',
    'Cantidad(es)', 'N√∫mero de art√≠culos', 'Precio Unitario FOB (USD) Peso Neto',
    'Ratio_Peso_Bruto_Neto', 'Valor_Por_Kg'
]

# Crear dataset para clustering
df_clustering = df_processed[features].copy().dropna()
df_clustering = df_clustering.replace([np.inf, -np.inf], np.nan).dropna()

# Tomar muestra para eficiencia si el dataset es muy grande
sample_size = min(15000, len(df_clustering))  # M√°ximo 15k muestras para eficiencia
if len(df_clustering) > sample_size:
    df_clustering = df_clustering.sample(sample_size, random_state=42)
    print(f'üìä Muestreo aplicado: {sample_size:,} registros de {len(df_processed):,}')

print(f'üìä Dataset para clustering:')
print(f'   ‚Ä¢ Features: {len(features)} variables num√©ricas')
print(f'   ‚Ä¢ Muestras: {df_clustering.shape[0]:,}')

# Estad√≠sticas descriptivas
print('\nüìà Estad√≠sticas descriptivas:')
display(df_clustering.describe())

# Escalamiento (crucial para K-Means)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_clustering)

print(f'\nüìè Escalamiento aplicado (StandardScaler)')
print(f'   ‚Ä¢ Crucial para K-Means ya que usa distancias euclidianas')

## 5. Determinaci√≥n del N√∫mero √ìptimo de Clusters

Usamos el m√©todo del codo y otras t√©cnicas para determinar el n√∫mero √≥ptimo de clusters k.

In [None]:
# M√©todo del codo para encontrar k √≥ptimo
print('üîç Determinando n√∫mero √≥ptimo de clusters...')

inertias = []
silhouette_scores = []
k_range = range(2, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    clusters = kmeans.fit_predict(X_scaled)
    
    inertias.append(kmeans.inertia_)
    
    # Calcular silhouette score
    if k > 1:  # Silhouette requiere al menos 2 clusters
        sil_score = silhouette_score(X_scaled, clusters)
        silhouette_scores.append(sil_score)

# Visualizaci√≥n del m√©todo del codo
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Gr√°fico del codo
ax1.plot(k_range, inertias, 'bo-', linewidth=2, markersize=8)
ax1.set_xlabel('N√∫mero de Clusters (k)', fontsize=12)
ax1.set_ylabel('Inercia (Within-cluster sum of squares)', fontsize=12)
ax1.set_title('M√©todo del Codo', fontweight='bold', fontsize=14)
ax1.grid(alpha=0.3)

# Marcar el "codo" aproximado
ax1.axvline(x=4, color='red', linestyle='--', alpha=0.7, label='k=4 sugerido')
ax1.legend()

# Gr√°fico de Silhouette Score
ax2.plot(k_range[1:], silhouette_scores, 'go-', linewidth=2, markersize=8)
ax2.set_xlabel('N√∫mero de Clusters (k)', fontsize=12)
ax2.set_ylabel('Silhouette Score', fontsize=12)
ax2.set_title('Silhouette Score', fontweight='bold', fontsize=14)
ax2.grid(alpha=0.3)
ax2.axvline(x=4, color='red', linestyle='--', alpha=0.7, label='k=4 sugerido')
ax2.legend()

plt.tight_layout()
plt.show()

print('üí° Interpretaci√≥n:')
print('   ‚Ä¢ M√©todo del codo: Buscar el "codo" donde la inercia deja de disminuir r√°pidamente')
print('   ‚Ä¢ Silhouette Score: Valores m√°s cercanos a 1 indican mejores clusters')
print(f'   ‚Ä¢ Mejor Silhouette Score: k={k_range[np.argmax(silhouette_scores)+1]} (score={max(silhouette_scores):.4f})')

## 6. Entrenamiento del Modelo K-Means

Entrenamos el modelo K-Means con el n√∫mero √≥ptimo de clusters.

In [None]:
# Entrenar K-Means con k=4 (basado en el an√°lisis de categor√≠as de valor)
k_optimal = 4

print(f'ü§ñ Entrenando K-Means con k={k_optimal}...')

kmeans = KMeans(
    n_clusters=k_optimal,
    random_state=42,
    n_init=10,  # N√∫mero de inicializaciones
    init='k-means++',  # M√©todo de inicializaci√≥n inteligente
    max_iter=300  # M√°ximo de iteraciones
)

# Entrenamiento
clusters = kmeans.fit_predict(X_scaled)

# Agregar clusters al dataframe
df_clustering['Cluster'] = clusters

print('‚úÖ K-Means entrenado exitosamente')
print(f'   ‚Ä¢ N√∫mero de clusters: {k_optimal}')
print(f'   ‚Ä¢ Algoritmo convergi√≥ en {kmeans.n_iter_} iteraciones')
print(f'   ‚Ä¢ Inercia final: {kmeans.inertia_:.2f}')

# Distribuci√≥n de clusters
print(f'\nüìä Distribuci√≥n de clusters:')
cluster_counts = df_clustering['Cluster'].value_counts().sort_index()
for cluster_id, count in cluster_counts.items():
    percentage = (count / len(df_clustering)) * 100
    print(f'   ‚Ä¢ Cluster {cluster_id}: {count:,} registros ({percentage:.1f}%)')

## 7. Evaluaci√≥n de la Calidad de los Clusters

Evaluamos la calidad de los clusters usando m√©tricas espec√≠ficas para clustering.

In [None]:
# M√©tricas de evaluaci√≥n de clustering
silhouette = silhouette_score(X_scaled, clusters)
davies_bouldin = davies_bouldin_score(X_scaled, clusters)
calinski_harabasz = calinski_harabasz_score(X_scaled, clusters)

print('üìä M√âTRICAS DE EVALUACI√ìN DE CLUSTERING:')
print('='*60)
print(f'  Silhouette Score:     {silhouette:.4f}')
print(f'    ‚Ä¢ Rango: [-1, 1] - M√°s cercano a 1 = mejor')
print(f'    ‚Ä¢ > 0.5: Clusters razonablemente separados')
print(f'    ‚Ä¢ > 0.7: Clusters bien separados')
print()
print(f'  Davies-Bouldin Index: {davies_bouldin:.4f}')
print(f'    ‚Ä¢ Rango: [0, ‚àû] - M√°s cercano a 0 = mejor')
print(f'    ‚Ä¢ < 1.0: Clusters aceptables')
print()
print(f'  Calinski-Harabasz:    {calinski_harabasz:.2f}')
print(f'    ‚Ä¢ Rango: [0, ‚àû] - Valores m√°s altos = mejor')
print(f'    ‚Ä¢ Mide la separaci√≥n entre clusters')
print()
print(f'  Inercia (Within-cluster sum of squares): {kmeans.inertia_:.2f}')
print(f'    ‚Ä¢ Suma de distancias cuadradas dentro de clusters')
print(f'    ‚Ä¢ Valores m√°s bajos = mejor compacidad')

# Interpretaci√≥n autom√°tica
print('\nüéØ Interpretaci√≥n autom√°tica:')
if silhouette > 0.5:
    print('   ‚úÖ Clusters bien separados (Silhouette > 0.5)')
elif silhouette > 0.25:
    print('   ‚ö†Ô∏è Clusters razonables (Silhouette > 0.25)')
else:
    print('   ‚ùå Clusters pobremente separados (Silhouette < 0.25)')

if davies_bouldin < 1.0:
    print('   ‚úÖ Buena separaci√≥n entre clusters (DB < 1.0)')
else:
    print('   ‚ö†Ô∏è Separaci√≥n entre clusters podr√≠a mejorar (DB > 1.0)')

## 8. An√°lisis de Caracter√≠sticas de los Clusters

Analizamos las caracter√≠sticas principales de cada cluster para entender su significado.

In [None]:
# An√°lisis detallado de cada cluster
print('üìã AN√ÅLISIS DETALLADO DE CLUSTERS:')
print('='*80)

cluster_profiles = []

for i in range(k_optimal):
    cluster_data = df_clustering[df_clustering['Cluster'] == i]
    
    print(f'\nüîµ CLUSTER {i} (n={len(cluster_data):,})')
    print('-' * 50)
    
    # Estad√≠sticas clave
    stats = cluster_data[features].describe()
    
    print(f'üìä Estad√≠sticas principales:')
    print(f'   ‚Ä¢ Valor FOB: ${cluster_data["Valor FOB (USD)"].mean():,.2f} ¬± ${cluster_data["Valor FOB (USD)"].std():,.2f}')
    print(f'   ‚Ä¢ Peso neto: {cluster_data["Peso en kilos netos"].mean():,.2f} ¬± {cluster_data["Peso en kilos netos"].std():,.2f} kg')
    print(f'   ‚Ä¢ Cantidad: {cluster_data["Cantidad(es)"].mean():,.2f} ¬± {cluster_data["Cantidad(es)"].std():,.2f}')
    print(f'   ‚Ä¢ Precio unitario: ${cluster_data["Precio Unitario FOB (USD) Peso Neto"].mean():,.2f}')
    
    # Caracter√≠sticas distintivas (comparadas con la media global)
    print(f'\nüéØ Caracter√≠sticas distintivas:')
    global_mean = df_clustering[features].mean()
    cluster_mean = cluster_data[features].mean()
    
    for feature in features:
        diff_pct = ((cluster_mean[feature] - global_mean[feature]) / global_mean[feature]) * 100
        if abs(diff_pct) > 20:  # M√°s de 20% de diferencia
            direction = "mayor" if diff_pct > 0 else "menor"
            print(f'   ‚Ä¢ {feature}: {abs(diff_pct):.1f}% {direction} que el promedio')
    
    # Guardar perfil del cluster
    cluster_profiles.append({
        'cluster_id': i,
        'size': len(cluster_data),
        'percentage': (len(cluster_data) / len(df_clustering)) * 100,
        'features_mean': cluster_mean.to_dict(),
        'features_std': cluster_data[features].std().to_dict()
    })

# Resumen comparativo
print(f'\nüìä RESUMEN COMPARATIVO DE CLUSTERS:')
print('='*80)
summary_df = df_clustering.groupby('Cluster')[features[:3]].mean()  # Solo primeras 3 features para resumen
display(summary_df.style.background_gradient(cmap='Blues', axis=0))

## 9. Visualizaci√≥n de los Clusters

Visualizamos los clusters usando reducci√≥n de dimensionalidad (PCA).

In [None]:
# Reducci√≥n de dimensionalidad con PCA para visualizaci√≥n
pca = PCA(n_components=2, random_state=42)
X_pca = pca.fit_transform(X_scaled)

# Visualizaci√≥n 2D de los clusters
plt.figure(figsize=(14, 10))

# Scatter plot de los puntos
scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], 
                     c=clusters, cmap='viridis', 
                     alpha=0.6, s=50, edgecolors='white', linewidth=0.5)

# Centroides de los clusters
centers_pca = pca.transform(kmeans.cluster_centers_)
plt.scatter(centers_pca[:, 0], centers_pca[:, 1], 
           c='red', marker='X', s=400, edgecolors='black', linewidths=3,
           label='Centroides')

# Etiquetas y t√≠tulo
plt.xlabel(f'Componente Principal 1 ({pca.explained_variance_ratio_[0]:.1%} varianza)', fontsize=12)
plt.ylabel(f'Componente Principal 2 ({pca.explained_variance_ratio_[1]:.1%} varianza)', fontsize=12)
plt.title('Visualizaci√≥n de Clusters K-Means (Reducci√≥n PCA)', 
          fontsize=16, fontweight='bold')

# Barra de colores
cbar = plt.colorbar(scatter)
cbar.set_label('Cluster', fontsize=12)

# Leyenda
plt.legend(loc='upper right')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print('üìä Informaci√≥n de la visualizaci√≥n:')
print(f'   ‚Ä¢ Varianza explicada por las 2 componentes: {pca.explained_variance_ratio_.sum():.1%}')
print('   ‚Ä¢ Cada punto representa una exportaci√≥n')
print('   ‚Ä¢ Colores indican la pertenencia al cluster')
print('   ‚Ä¢ X rojas marcan los centroides de cada cluster')

# Informaci√≥n adicional sobre PCA
print(f'\nüîç Componentes principales:')
for i, component in enumerate(pca.components_):
    top_features = np.argsort(np.abs(component))[-3:]  # Top 3 features
    print(f'   ‚Ä¢ PC{i+1}: {features[top_features[2]]}, {features[top_features[1]]}, {features[top_features[0]]}')

## 10. Guardado del Modelo

Guardamos el modelo de clustering junto con todos los objetos necesarios.

In [None]:
# Preparar paquete completo del modelo
model_package = {
    'model': kmeans,
    'scaler': scaler,
    'pca': pca,
    'features': features,
    'n_clusters': k_optimal,
    'cluster_profiles': cluster_profiles,
    'metrics': {
        'silhouette_score': silhouette,
        'davies_bouldin_index': davies_bouldin,
        'calinski_harabasz_score': calinski_harabasz,
        'inertia': kmeans.inertia_,
        'n_iterations': kmeans.n_iter_
    },
    'model_info': {
        'algorithm': 'K-Means Clustering',
        'n_clusters': k_optimal,
        'init_method': 'k-means++',
        'n_init': 10,
        'max_iter': 300,
        'random_state': 42,
        'n_features': len(features),
        'n_samples': len(df_clustering),
        'features_list': features
    }
}

# Guardar el modelo
with open('model_kmeans.pkl', 'wb') as f:
    pickle.dump(model_package, f)

print('üíæ Modelo guardado exitosamente')
print('   ‚Ä¢ Archivo: model_kmeans.pkl')
print('   ‚Ä¢ Contiene: modelo K-Means, scaler, PCA, perfiles de clusters y m√©tricas')

# Verificar que se guard√≥ correctamente
import os
if os.path.exists('model_kmeans.pkl'):
    size = os.path.getsize('model_kmeans.pkl') / 1024
    print(f'   ‚Ä¢ Tama√±o: {size:.2f} KB')
    print('‚úÖ Verificaci√≥n exitosa')
else:
    print('‚ùå Error al guardar el modelo')

## üéØ Conclusiones

### Resumen del Clustering K-Means:

**Fortalezas:**
- **Simplicidad**: Algoritmo f√°cil de entender e implementar
- **Escalabilidad**: Funciona bien con grandes datasets
- **Interpretabilidad**: Los centroides son f√°ciles de analizar
- **Velocidad**: R√°pido para datos num√©ricos
- **Determin√≠stico**: Resultados reproducibles con semilla fija

**Limitaciones:**
- **N√∫mero de clusters**: Requiere definir k a priori
- **Formas esf√©ricas**: Asume clusters de forma esf√©rica
- **Escala sensible**: Requiere escalamiento de features
- **Outliers**: Sensible a valores at√≠picos
- **Inicializaci√≥n**: Puede converger a √≥ptimos locales

### Resultados Obtenidos:
- **N√∫mero de clusters:** 4
- **Muestras clusterizadas:** {len(df_clustering):,}
- **Silhouette Score:** {silhouette:.4f}
- **Davies-Bouldin Index:** {davies_bouldin:.4f}
- **Inercia final:** {kmeans.inertia_:.2f}
- **Varianza explicada por PCA:** {pca.explained_variance_ratio_.sum():.1%}

### Distribuci√≥n de Clusters:
{cluster_counts.to_dict()}

### Recomendaciones:
1. **Interpretaci√≥n de clusters**: Analizar los perfiles de cada cluster para asignar nombres descriptivos
2. **Validaci√≥n externa**: Si hay etiquetas disponibles, comparar con clustering supervisado
3. **T√©cnicas alternativas**: Considerar DBSCAN o Gaussian Mixture Models para clusters no esf√©ricos
4. **Reducci√≥n de features**: Si hay muchas features, considerar PCA antes del clustering
5. **Robustez**: Ejecutar m√∫ltiples inicializaciones para asegurar estabilidad

---

**üîµ Modelo K-Means completado exitosamente** ‚úÖ

*Los datos han sido segmentados en clusters naturales que pueden usarse para an√°lisis de patrones o estrategias de negocio.*