In [None]:
# Análisis de Clasificación - Industria Azucarera
# Proyecto: Predicción y Clasificación en la Industria Azucarera ICESI
# 
# Objetivo: Crear categorías de clasificación para variables TCH y %Sac.Caña
# en niveles de desempeño: alto, medio y bajo

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.cluster import KMeans
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("Librerías importadas correctamente")
print("="*50)


In [None]:
# 1. CARGA Y EXPLORACIÓN INICIAL DE DATOS
# ===========================================

# Cargar el dataset
df = pd.read_excel('../data/raw/BD_IPSA_1940.xlsx')

print("INFORMACIÓN GENERAL DEL DATASET")
print("="*50)
print(f"Dimensiones del dataset: {df.shape}")
print(f"Número de registros: {df.shape[0]}")
print(f"Número de variables: {df.shape[1]}")
print("\nPrimeras 5 filas del dataset:")
print(df.head())

print("\nInformación de columnas:")
print(df.info())

print("\nEstadísticas descriptivas:")
print(df.describe())


In [None]:
# 2. ANÁLISIS ESPECÍFICO DE VARIABLES OBJETIVO
# =============================================

# Verificar si las columnas TCH y %Sac.Caña existen
print("ANÁLISIS DE VARIABLES OBJETIVO")
print("="*50)
print("Nombres de columnas disponibles:")
for i, col in enumerate(df.columns):
    print(f"{i+1}. {col}")

# Buscar columnas relacionadas con TCH y Sacarosa
tch_columns = [col for col in df.columns if 'TCH' in col.upper() or 'TONELADA' in col.upper()]
sacarosa_columns = [col for col in df.columns if 'SAC' in col.upper() or 'SACAROSA' in col.upper() or '%' in col]

print(f"\nColumnas relacionadas con TCH: {tch_columns}")
print(f"Columnas relacionadas con Sacarosa: {sacarosa_columns}")

# Mostrar valores únicos para entender mejor los datos
print("\nValores únicos en las primeras columnas:")
for col in df.columns[:10]:
    print(f"{col}: {df[col].nunique()} valores únicos")


In [None]:
# 3. IDENTIFICACIÓN Y SELECCIÓN DE VARIABLES OBJETIVO
# ===================================================

# Función para encontrar la mejor columna basada en patrones
def find_best_column(df, keywords):
    """
    Encuentra la mejor columna basada en palabras clave
    """
    matches = []
    for col in df.columns:
        col_upper = col.upper()
        for keyword in keywords:
            if keyword.upper() in col_upper:
                matches.append(col)
                break
    return matches

# Buscar columnas para TCH (Toneladas de Caña por Hectárea)
tch_keywords = ['TCH', 'TONELADA', 'CAÑA', 'HECTAREA', 'RENDIMIENTO']
tch_candidates = find_best_column(df, tch_keywords)

# Buscar columnas para %Sac.Caña (Porcentaje de Sacarosa en Caña)
sacarosa_keywords = ['SAC', 'SACAROSA', '%', 'PORCENTAJE', 'POL']
sacarosa_candidates = find_best_column(df, sacarosa_keywords)

print("CANDIDATOS PARA VARIABLES OBJETIVO")
print("="*50)
print(f"Candidatos para TCH: {tch_candidates}")
print(f"Candidatos para %Sac.Caña: {sacarosa_candidates}")

# Analizar los candidatos más prometedores
if tch_candidates:
    print(f"\nAnálisis de candidatos TCH:")
    for col in tch_candidates[:3]:  # Analizar los primeros 3 candidatos
        print(f"\nColumna: {col}")
        print(f"Tipo: {df[col].dtype}")
        print(f"Valores únicos: {df[col].nunique()}")
        print(f"Valores nulos: {df[col].isnull().sum()}")
        if df[col].dtype in ['int64', 'float64']:
            print(f"Rango: {df[col].min():.2f} - {df[col].max():.2f}")
            print(f"Media: {df[col].mean():.2f}")

if sacarosa_candidates:
    print(f"\nAnálisis de candidatos %Sac.Caña:")
    for col in sacarosa_candidates[:3]:  # Analizar los primeros 3 candidatos
        print(f"\nColumna: {col}")
        print(f"Tipo: {df[col].dtype}")
        print(f"Valores únicos: {df[col].nunique()}")
        print(f"Valores nulos: {df[col].isnull().sum()}")
        if df[col].dtype in ['int64', 'float64']:
            print(f"Rango: {df[col].min():.2f} - {df[col].max():.2f}")
            print(f"Media: {df[col].mean():.2f}")


In [None]:
# 4. SELECCIÓN FINAL DE VARIABLES OBJETIVO
# ========================================

# Basado en el análisis anterior, seleccionar las mejores columnas
# Si no se encuentran las columnas exactas, usar las más similares

# Seleccionar las primeras columnas numéricas que parezcan ser TCH y %Sac.Caña
numeric_columns = df.select_dtypes(include=[np.number]).columns.tolist()

print("COLUMNAS NUMÉRICAS DISPONIBLES")
print("="*50)
for i, col in enumerate(numeric_columns):
    print(f"{i+1}. {col}")

# Seleccionar las dos primeras columnas numéricas como variables objetivo
# (Esto se ajustará según los resultados del análisis anterior)
if len(numeric_columns) >= 2:
    # Asumir que las primeras dos columnas numéricas son TCH y %Sac.Caña
    tch_col = numeric_columns[0]  # Primera columna numérica
    sacarosa_col = numeric_columns[1]  # Segunda columna numérica
    
    print(f"\nVARIABLES SELECCIONADAS:")
    print(f"TCH: {tch_col}")
    print(f"%Sac.Caña: {sacarosa_col}")
    
    # Crear un dataset limpio con las variables objetivo
    df_clean = df[[tch_col, sacarosa_col]].copy()
    
    # Eliminar filas con valores nulos
    df_clean = df_clean.dropna()
    
    print(f"\nDataset limpio:")
    print(f"Dimensiones: {df_clean.shape}")
    print(f"Valores nulos: {df_clean.isnull().sum().sum()}")
    
    # Renombrar columnas para mayor claridad
    df_clean.columns = ['TCH', 'Sacarosa_Porcentaje']
    
    print(f"\nEstadísticas descriptivas del dataset limpio:")
    print(df_clean.describe())
    
else:
    print("Error: No se encontraron suficientes columnas numéricas")


In [None]:
# 5. ANÁLISIS DE DISTRIBUCIÓN Y VISUALIZACIÓN DE VARIABLES
# ========================================================

# Análisis detallado de la distribución de las variables
print("ANÁLISIS DE DISTRIBUCIÓN DE VARIABLES")
print("="*50)

# Estadísticas detalladas
print("ESTADÍSTICAS DETALLADAS:")
print("-" * 30)
for col in df_clean.columns:
    print(f"\n{col}:")
    print(f"  Media: {df_clean[col].mean():.4f}")
    print(f"  Mediana: {df_clean[col].median():.4f}")
    print(f"  Desviación estándar: {df_clean[col].std():.4f}")
    print(f"  Mínimo: {df_clean[col].min():.4f}")
    print(f"  Máximo: {df_clean[col].max():.4f}")
    print(f"  Rango: {df_clean[col].max() - df_clean[col].min():.4f}")
    print(f"  Coeficiente de variación: {(df_clean[col].std() / df_clean[col].mean() * 100):.2f}%")

# Análisis de percentiles para determinar umbrales
print(f"\nANÁLISIS DE PERCENTILES:")
print("-" * 30)
percentiles = [10, 25, 33, 50, 67, 75, 90]
for col in df_clean.columns:
    print(f"\n{col}:")
    for p in percentiles:
        value = np.percentile(df_clean[col], p)
        print(f"  P{p}: {value:.4f}")

# Crear visualizaciones
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Análisis de Distribución de Variables TCH y %Sac.Caña', fontsize=16, fontweight='bold')

# Histogramas
for i, col in enumerate(df_clean.columns):
    axes[i, 0].hist(df_clean[col], bins=30, alpha=0.7, color=f'C{i}', edgecolor='black')
    axes[i, 0].set_title(f'Distribución de {col}')
    axes[i, 0].set_xlabel(col)
    axes[i, 0].set_ylabel('Frecuencia')
    axes[i, 0].grid(True, alpha=0.3)

# Box plots
for i, col in enumerate(df_clean.columns):
    axes[i, 1].boxplot(df_clean[col], patch_artist=True, 
                       boxprops=dict(facecolor=f'C{i}', alpha=0.7))
    axes[i, 1].set_title(f'Box Plot de {col}')
    axes[i, 1].set_ylabel(col)
    axes[i, 1].grid(True, alpha=0.3)

# Q-Q plots para verificar normalidad
from scipy import stats
for i, col in enumerate(df_clean.columns):
    stats.probplot(df_clean[col], dist="norm", plot=axes[i, 2])
    axes[i, 2].set_title(f'Q-Q Plot de {col}')
    axes[i, 2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Análisis de correlación
print(f"\nANÁLISIS DE CORRELACIÓN:")
print("-" * 30)
correlation = df_clean.corr()
print(correlation)

# Visualización de correlación
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0, 
            square=True, fmt='.3f')
plt.title('Matriz de Correlación entre TCH y %Sac.Caña')
plt.tight_layout()
plt.show()


In [None]:
# 6. CREACIÓN DE CATEGORÍAS DE CLASIFICACIÓN
# ===========================================

print("CREACIÓN DE CATEGORÍAS DE CLASIFICACIÓN")
print("="*50)

# Método 1: Clasificación basada en percentiles (33% y 67%)
print("MÉTODO 1: CLASIFICACIÓN POR PERCENTILES")
print("-" * 40)

def create_percentile_categories(data, col_name):
    """
    Crea categorías basadas en percentiles 33 y 67
    """
    p33 = np.percentile(data, 33)
    p67 = np.percentile(data, 67)
    
    categories = []
    for value in data:
        if value <= p33:
            categories.append('Bajo')
        elif value <= p67:
            categories.append('Medio')
        else:
            categories.append('Alto')
    
    return categories, p33, p67

# Crear categorías para TCH
tch_categories, tch_p33, tch_p67 = create_percentile_categories(df_clean['TCH'], 'TCH')
df_clean['TCH_Categoria'] = tch_categories

# Crear categorías para Sacarosa
sac_categories, sac_p33, sac_p67 = create_percentile_categories(df_clean['Sacarosa_Porcentaje'], 'Sacarosa')
df_clean['Sacarosa_Categoria'] = sac_categories

print(f"Umbrales TCH:")
print(f"  Bajo: ≤ {tch_p33:.4f}")
print(f"  Medio: {tch_p33:.4f} < x ≤ {tch_p67:.4f}")
print(f"  Alto: > {tch_p67:.4f}")

print(f"\nUmbrales %Sac.Caña:")
print(f"  Bajo: ≤ {sac_p33:.4f}")
print(f"  Medio: {sac_p33:.4f} < x ≤ {sac_p67:.4f}")
print(f"  Alto: > {sac_p67:.4f}")

# Distribución de categorías
print(f"\nDISTRIBUCIÓN DE CATEGORÍAS:")
print("-" * 30)
print("TCH:")
tch_dist = df_clean['TCH_Categoria'].value_counts()
for cat in ['Bajo', 'Medio', 'Alto']:
    count = tch_dist.get(cat, 0)
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")

print("\nSacarosa:")
sac_dist = df_clean['Sacarosa_Categoria'].value_counts()
for cat in ['Bajo', 'Medio', 'Alto']:
    count = sac_dist.get(cat, 0)
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")

# Crear categoría combinada de desempeño
def create_combined_category(tch_cat, sac_cat):
    """
    Crea una categoría combinada basada en TCH y Sacarosa
    """
    if tch_cat == 'Alto' and sac_cat == 'Alto':
        return 'Excelente'
    elif tch_cat == 'Alto' or sac_cat == 'Alto':
        return 'Bueno'
    elif tch_cat == 'Medio' and sac_cat == 'Medio':
        return 'Regular'
    elif tch_cat == 'Bajo' and sac_cat == 'Bajo':
        return 'Deficiente'
    else:
        return 'Mixto'

df_clean['Desempeño_Combinado'] = df_clean.apply(
    lambda row: create_combined_category(row['TCH_Categoria'], row['Sacarosa_Categoria']), 
    axis=1
)

print(f"\nCATEGORÍA COMBINADA DE DESEMPEÑO:")
print("-" * 30)
combined_dist = df_clean['Desempeño_Combinado'].value_counts()
for cat in combined_dist.index:
    count = combined_dist[cat]
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")


In [None]:
# 7. VISUALIZACIONES AVANZADAS DE CLASIFICACIÓN
# =============================================

print("CREANDO VISUALIZACIONES AVANZADAS")
print("="*50)

# Crear figura con múltiples subplots
fig = plt.figure(figsize=(20, 16))

# 1. Scatter plot con categorías
ax1 = plt.subplot(3, 3, 1)
colors = {'Bajo': 'red', 'Medio': 'orange', 'Alto': 'green'}
for category in ['Bajo', 'Medio', 'Alto']:
    mask = df_clean['TCH_Categoria'] == category
    plt.scatter(df_clean.loc[mask, 'TCH'], df_clean.loc[mask, 'Sacarosa_Porcentaje'], 
               c=colors[category], label=f'TCH {category}', alpha=0.6, s=50)
plt.xlabel('TCH (Toneladas por Hectárea)')
plt.ylabel('% Sacarosa en Caña')
plt.title('Clasificación por TCH')
plt.legend()
plt.grid(True, alpha=0.3)

# 2. Scatter plot por categorías de Sacarosa
ax2 = plt.subplot(3, 3, 2)
for category in ['Bajo', 'Medio', 'Alto']:
    mask = df_clean['Sacarosa_Categoria'] == category
    plt.scatter(df_clean.loc[mask, 'TCH'], df_clean.loc[mask, 'Sacarosa_Porcentaje'], 
               c=colors[category], label=f'Sacarosa {category}', alpha=0.6, s=50)
plt.xlabel('TCH (Toneladas por Hectárea)')
plt.ylabel('% Sacarosa en Caña')
plt.title('Clasificación por %Sac.Caña')
plt.legend()
plt.grid(True, alpha=0.3)

# 3. Scatter plot por desempeño combinado
ax3 = plt.subplot(3, 3, 3)
combined_colors = {'Excelente': 'darkgreen', 'Bueno': 'green', 'Regular': 'orange', 
                   'Deficiente': 'red', 'Mixto': 'purple'}
for category in df_clean['Desempeño_Combinado'].unique():
    mask = df_clean['Desempeño_Combinado'] == category
    plt.scatter(df_clean.loc[mask, 'TCH'], df_clean.loc[mask, 'Sacarosa_Porcentaje'], 
               c=combined_colors[category], label=category, alpha=0.6, s=50)
plt.xlabel('TCH (Toneladas por Hectárea)')
plt.ylabel('% Sacarosa en Caña')
plt.title('Desempeño Combinado')
plt.legend()
plt.grid(True, alpha=0.3)

# 4. Distribución de TCH por categorías
ax4 = plt.subplot(3, 3, 4)
df_clean.boxplot(column='TCH', by='TCH_Categoria', ax=ax4)
plt.title('Distribución de TCH por Categoría')
plt.suptitle('')  # Eliminar título automático
plt.ylabel('TCH (Toneladas por Hectárea)')
plt.grid(True, alpha=0.3)

# 5. Distribución de Sacarosa por categorías
ax5 = plt.subplot(3, 3, 5)
df_clean.boxplot(column='Sacarosa_Porcentaje', by='Sacarosa_Categoria', ax=ax5)
plt.title('Distribución de %Sac.Caña por Categoría')
plt.suptitle('')  # Eliminar título automático
plt.ylabel('% Sacarosa en Caña')
plt.grid(True, alpha=0.3)

# 6. Matriz de confusión entre categorías
ax6 = plt.subplot(3, 3, 6)
from sklearn.metrics import confusion_matrix
import seaborn as sns

# Crear matriz de confusión entre TCH y Sacarosa
tch_encoded = pd.Categorical(df_clean['TCH_Categoria'], categories=['Bajo', 'Medio', 'Alto']).codes
sac_encoded = pd.Categorical(df_clean['Sacarosa_Categoria'], categories=['Bajo', 'Medio', 'Alto']).codes

cm = confusion_matrix(tch_encoded, sac_encoded)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Bajo', 'Medio', 'Alto'],
            yticklabels=['Bajo', 'Medio', 'Alto'], ax=ax6)
plt.title('Matriz de Confusión: TCH vs %Sac.Caña')
plt.xlabel('Categoría %Sac.Caña')
plt.ylabel('Categoría TCH')

# 7. Gráfico de barras - Distribución de categorías TCH
ax7 = plt.subplot(3, 3, 7)
tch_counts = df_clean['TCH_Categoria'].value_counts()
bars = ax7.bar(tch_counts.index, tch_counts.values, color=['red', 'orange', 'green'])
plt.title('Distribución de Categorías TCH')
plt.ylabel('Número de Registros')
for i, bar in enumerate(bars):
    height = bar.get_height()
    ax7.text(bar.get_x() + bar.get_width()/2., height + 0.5,
             f'{height}\n({height/len(df_clean)*100:.1f}%)',
             ha='center', va='bottom')

# 8. Gráfico de barras - Distribución de categorías Sacarosa
ax8 = plt.subplot(3, 3, 8)
sac_counts = df_clean['Sacarosa_Categoria'].value_counts()
bars = ax8.bar(sac_counts.index, sac_counts.values, color=['red', 'orange', 'green'])
plt.title('Distribución de Categorías %Sac.Caña')
plt.ylabel('Número de Registros')
for i, bar in enumerate(bars):
    height = bar.get_height()
    ax8.text(bar.get_x() + bar.get_width()/2., height + 0.5,
             f'{height}\n({height/len(df_clean)*100:.1f}%)',
             ha='center', va='bottom')

# 9. Gráfico de barras - Desempeño combinado
ax9 = plt.subplot(3, 3, 9)
combined_counts = df_clean['Desempeño_Combinado'].value_counts()
colors_combined = [combined_colors[cat] for cat in combined_counts.index]
bars = ax9.bar(combined_counts.index, combined_counts.values, color=colors_combined)
plt.title('Distribución de Desempeño Combinado')
plt.ylabel('Número de Registros')
plt.xticks(rotation=45)
for i, bar in enumerate(bars):
    height = bar.get_height()
    ax9.text(bar.get_x() + bar.get_width()/2., height + 0.5,
             f'{height}\n({height/len(df_clean)*100:.1f}%)',
             ha='center', va='bottom')

plt.tight_layout()
plt.show()

# Análisis de correlación entre categorías
print("\nANÁLISIS DE CORRELACIÓN ENTRE CATEGORÍAS:")
print("-" * 40)
from scipy.stats import chi2_contingency

# Tabla de contingencia
contingency_table = pd.crosstab(df_clean['TCH_Categoria'], df_clean['Sacarosa_Categoria'])
print("Tabla de Contingencia:")
print(contingency_table)

# Prueba de chi-cuadrado
chi2, p_value, dof, expected = chi2_contingency(contingency_table)
print(f"\nPrueba de Chi-cuadrado:")
print(f"  Chi-cuadrado: {chi2:.4f}")
print(f"  p-valor: {p_value:.4f}")
print(f"  Grados de libertad: {dof}")

if p_value < 0.05:
    print("  Resultado: Existe asociación significativa entre las categorías (p < 0.05)")
else:
    print("  Resultado: No existe asociación significativa entre las categorías (p ≥ 0.05)")


In [None]:
# 8. IMPLEMENTACIÓN DE MÉTODOS DE CLASIFICACIÓN AVANZADOS
# =======================================================

print("IMPLEMENTACIÓN DE MÉTODOS DE CLASIFICACIÓN")
print("="*50)

# Preparar datos para clasificación
X = df_clean[['TCH', 'Sacarosa_Porcentaje']].values
y_tch = df_clean['TCH_Categoria'].values
y_sac = df_clean['Sacarosa_Categoria'].values
y_combined = df_clean['Desempeño_Combinado'].values

# Codificar las etiquetas
from sklearn.preprocessing import LabelEncoder
le_tch = LabelEncoder()
le_sac = LabelEncoder()
le_combined = LabelEncoder()

y_tch_encoded = le_tch.fit_transform(y_tch)
y_sac_encoded = le_sac.fit_transform(y_sac)
y_combined_encoded = le_combined.fit_transform(y_combined)

print("Datos preparados para clasificación:")
print(f"  Características (X): {X.shape}")
print(f"  Etiquetas TCH: {len(np.unique(y_tch_encoded))} clases")
print(f"  Etiquetas Sacarosa: {len(np.unique(y_sac_encoded))} clases")
print(f"  Etiquetas Combinadas: {len(np.unique(y_combined_encoded))} clases")

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_tch_train, y_tch_test = train_test_split(
    X, y_tch_encoded, test_size=0.3, random_state=42, stratify=y_tch_encoded
)

X_train_sac, X_test_sac, y_sac_train, y_sac_test = train_test_split(
    X, y_sac_encoded, test_size=0.3, random_state=42, stratify=y_sac_encoded
)

X_train_comb, X_test_comb, y_comb_train, y_comb_test = train_test_split(
    X, y_combined_encoded, test_size=0.3, random_state=42, stratify=y_combined_encoded
)

# Estandarizar características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

X_train_sac_scaled = scaler.fit_transform(X_train_sac)
X_test_sac_scaled = scaler.transform(X_test_sac)

X_train_comb_scaled = scaler.fit_transform(X_train_comb)
X_test_comb_scaled = scaler.transform(X_test_comb)

print(f"\nDatos divididos:")
print(f"  Entrenamiento: {X_train.shape[0]} muestras")
print(f"  Prueba: {X_test.shape[0]} muestras")

# Definir modelos de clasificación
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(kernel='rbf', random_state=42),
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000)
}

# Función para evaluar modelos
def evaluate_model(model, X_train, X_test, y_train, y_test, model_name, target_name):
    """
    Evalúa un modelo de clasificación y retorna métricas
    """
    # Entrenar modelo
    model.fit(X_train, y_train)
    
    # Predicciones
    y_pred = model.predict(X_test)
    
    # Métricas
    accuracy = accuracy_score(y_test, y_pred)
    
    print(f"\n{model_name} - {target_name}:")
    print(f"  Precisión: {accuracy:.4f}")
    
    # Reporte de clasificación
    target_names = le_tch.classes_ if 'TCH' in target_name else le_sac.classes_ if 'Sacarosa' in target_name else le_combined.classes_
    report = classification_report(y_test, y_pred, target_names=target_names, output_dict=True)
    
    return {
        'model': model,
        'accuracy': accuracy,
        'predictions': y_pred,
        'report': report
    }

# Evaluar modelos para TCH
print("\n" + "="*60)
print("EVALUACIÓN DE MODELOS PARA CLASIFICACIÓN TCH")
print("="*60)

results_tch = {}
for name, model in models.items():
    results_tch[name] = evaluate_model(
        model, X_train_scaled, X_test_scaled, 
        y_tch_train, y_tch_test, name, "TCH"
    )

# Evaluar modelos para Sacarosa
print("\n" + "="*60)
print("EVALUACIÓN DE MODELOS PARA CLASIFICACIÓN SACAROSA")
print("="*60)

results_sac = {}
for name, model in models.items():
    results_sac[name] = evaluate_model(
        model, X_train_sac_scaled, X_test_sac_scaled, 
        y_sac_train, y_sac_test, name, "Sacarosa"
    )

# Evaluar modelos para Desempeño Combinado
print("\n" + "="*60)
print("EVALUACIÓN DE MODELOS PARA DESEMPEÑO COMBINADO")
print("="*60)

results_comb = {}
for name, model in models.items():
    results_comb[name] = evaluate_model(
        model, X_train_comb_scaled, X_test_comb_scaled, 
        y_comb_train, y_comb_test, name, "Desempeño Combinado"
    )

# Resumen de resultados
print("\n" + "="*60)
print("RESUMEN DE RESULTADOS")
print("="*60)

print("\nPrecisión por modelo y objetivo:")
print("-" * 40)
for target, results in [("TCH", results_tch), ("Sacarosa", results_sac), ("Combinado", results_comb)]:
    print(f"\n{target}:")
    for model_name, result in results.items():
        print(f"  {model_name}: {result['accuracy']:.4f}")

# Identificar el mejor modelo para cada objetivo
best_models = {}
for target, results in [("TCH", results_tch), ("Sacarosa", results_sac), ("Combinado", results_comb)]:
    best_model_name = max(results.keys(), key=lambda x: results[x]['accuracy'])
    best_models[target] = {
        'name': best_model_name,
        'accuracy': results[best_model_name]['accuracy'],
        'model': results[best_model_name]['model']
    }
    print(f"\nMejor modelo para {target}: {best_model_name} (Precisión: {results[best_model_name]['accuracy']:.4f})")


In [None]:
# 9. VISUALIZACIÓN DE RESULTADOS DE CLASIFICACIÓN
# ===============================================

print("CREANDO VISUALIZACIONES DE RESULTADOS")
print("="*50)

# Crear figura para visualizar resultados de clasificación
fig, axes = plt.subplots(2, 3, figsize=(20, 12))
fig.suptitle('Resultados de Clasificación - Modelos de Machine Learning', fontsize=16, fontweight='bold')

# 1. Matriz de confusión para TCH (mejor modelo)
ax1 = axes[0, 0]
best_tch_model = best_models['TCH']['model']
y_tch_pred = best_tch_model.predict(X_test_scaled)
cm_tch = confusion_matrix(y_tch_test, y_tch_pred)
sns.heatmap(cm_tch, annot=True, fmt='d', cmap='Blues', 
            xticklabels=le_tch.classes_, yticklabels=le_tch.classes_, ax=ax1)
ax1.set_title(f'Matriz de Confusión TCH\n{best_models["TCH"]["name"]} (Acc: {best_models["TCH"]["accuracy"]:.3f})')
ax1.set_xlabel('Predicción')
ax1.set_ylabel('Real')

# 2. Matriz de confusión para Sacarosa (mejor modelo)
ax2 = axes[0, 1]
best_sac_model = best_models['Sacarosa']['model']
y_sac_pred = best_sac_model.predict(X_test_sac_scaled)
cm_sac = confusion_matrix(y_sac_test, y_sac_pred)
sns.heatmap(cm_sac, annot=True, fmt='d', cmap='Greens', 
            xticklabels=le_sac.classes_, yticklabels=le_sac.classes_, ax=ax2)
ax2.set_title(f'Matriz de Confusión Sacarosa\n{best_models["Sacarosa"]["name"]} (Acc: {best_models["Sacarosa"]["accuracy"]:.3f})')
ax2.set_xlabel('Predicción')
ax2.set_ylabel('Real')

# 3. Matriz de confusión para Desempeño Combinado (mejor modelo)
ax3 = axes[0, 2]
best_comb_model = best_models['Combinado']['model']
y_comb_pred = best_comb_model.predict(X_test_comb_scaled)
cm_comb = confusion_matrix(y_comb_test, y_comb_pred)
sns.heatmap(cm_comb, annot=True, fmt='d', cmap='Oranges', 
            xticklabels=le_combined.classes_, yticklabels=le_combined.classes_, ax=ax3)
ax3.set_title(f'Matriz de Confusión Combinado\n{best_models["Combinado"]["name"]} (Acc: {best_models["Combinado"]["accuracy"]:.3f})')
ax3.set_xlabel('Predicción')
ax3.set_ylabel('Real')

# 4. Comparación de precisión por modelo
ax4 = axes[1, 0]
model_names = list(models.keys())
tch_accuracies = [results_tch[name]['accuracy'] for name in model_names]
sac_accuracies = [results_sac[name]['accuracy'] for name in model_names]
comb_accuracies = [results_comb[name]['accuracy'] for name in model_names]

x = np.arange(len(model_names))
width = 0.25

bars1 = ax4.bar(x - width, tch_accuracies, width, label='TCH', color='skyblue')
bars2 = ax4.bar(x, sac_accuracies, width, label='Sacarosa', color='lightgreen')
bars3 = ax4.bar(x + width, comb_accuracies, width, label='Combinado', color='salmon')

ax4.set_xlabel('Modelos')
ax4.set_ylabel('Precisión')
ax4.set_title('Comparación de Precisión por Modelo')
ax4.set_xticks(x)
ax4.set_xticklabels(model_names, rotation=45)
ax4.legend()
ax4.grid(True, alpha=0.3)

# Agregar valores en las barras
for bars in [bars1, bars2, bars3]:
    for bar in bars:
        height = bar.get_height()
        ax4.text(bar.get_x() + bar.get_width()/2., height + 0.01,
                f'{height:.3f}', ha='center', va='bottom', fontsize=8)

# 5. Visualización de fronteras de decisión (para el mejor modelo de TCH)
ax5 = axes[1, 1]
if best_models['TCH']['name'] == 'Random Forest':
    # Crear una malla para visualizar fronteras de decisión
    h = 0.02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    
    # Predecir en la malla
    Z = best_tch_model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    # Plotear contornos
    ax5.contourf(xx, yy, Z, alpha=0.4, cmap='viridis')
    
    # Plotear puntos de datos
    scatter = ax5.scatter(X[:, 0], X[:, 1], c=y_tch_encoded, cmap='viridis', alpha=0.6)
    ax5.set_xlabel('TCH')
    ax5.set_ylabel('% Sacarosa')
    ax5.set_title(f'Fronteras de Decisión - {best_models["TCH"]["name"]}')
    plt.colorbar(scatter, ax=ax5)

# 6. Análisis de importancia de características (para Random Forest)
ax6 = axes[1, 2]
if best_models['TCH']['name'] == 'Random Forest':
    feature_importance = best_tch_model.feature_importances_
    features = ['TCH', '% Sacarosa']
    
    bars = ax6.bar(features, feature_importance, color=['skyblue', 'lightcoral'])
    ax6.set_ylabel('Importancia')
    ax6.set_title('Importancia de Características\n(Random Forest)')
    ax6.grid(True, alpha=0.3)
    
    # Agregar valores en las barras
    for bar in bars:
        height = bar.get_height()
        ax6.text(bar.get_x() + bar.get_width()/2., height + 0.01,
                f'{height:.3f}', ha='center', va='bottom')
else:
    ax6.text(0.5, 0.5, 'Importancia de características\nsolo disponible para\nRandom Forest', 
             ha='center', va='center', transform=ax6.transAxes, fontsize=12)
    ax6.set_title('Importancia de Características')

plt.tight_layout()
plt.show()

# Análisis de errores de clasificación
print("\nANÁLISIS DE ERRORES DE CLASIFICACIÓN")
print("="*50)

# Crear dataset con predicciones para análisis de errores
df_results = pd.DataFrame({
    'TCH_Real': le_tch.inverse_transform(y_tch_test),
    'TCH_Pred': le_tch.inverse_transform(y_tch_pred),
    'Sacarosa_Real': le_sac.inverse_transform(y_sac_test),
    'Sacarosa_Pred': le_sac.inverse_transform(y_sac_pred),
    'Combinado_Real': le_combined.inverse_transform(y_comb_test),
    'Combinado_Pred': le_combined.inverse_transform(y_comb_pred)
})

# Identificar errores de clasificación
df_results['TCH_Error'] = df_results['TCH_Real'] != df_results['TCH_Pred']
df_results['Sacarosa_Error'] = df_results['Sacarosa_Real'] != df_results['Sacarosa_Pred']
df_results['Combinado_Error'] = df_results['Combinado_Real'] != df_results['Combinado_Pred']

print("Errores de clasificación:")
print(f"  TCH: {df_results['TCH_Error'].sum()} errores de {len(df_results)} ({df_results['TCH_Error'].mean()*100:.1f}%)")
print(f"  Sacarosa: {df_results['Sacarosa_Error'].sum()} errores de {len(df_results)} ({df_results['Sacarosa_Error'].mean()*100:.1f}%)")
print(f"  Combinado: {df_results['Combinado_Error'].sum()} errores de {len(df_results)} ({df_results['Combinado_Error'].mean()*100:.1f}%)")

# Mostrar algunos ejemplos de errores
print(f"\nEjemplos de errores de clasificación TCH:")
tch_errors = df_results[df_results['TCH_Error']].head()
if not tch_errors.empty:
    print(tch_errors[['TCH_Real', 'TCH_Pred']].to_string(index=False))
else:
    print("No hay errores de clasificación en TCH")


In [None]:
# 10. CONCLUSIONES Y ANÁLISIS FINAL
# =================================

print("CONCLUSIONES Y ANÁLISIS FINAL")
print("="*60)

# Resumen ejecutivo
print("RESUMEN EJECUTIVO")
print("-" * 30)
print(f"• Dataset analizado: {df.shape[0]} registros con {df.shape[1]} variables")
print(f"• Variables objetivo: TCH y %Sac.Caña")
print(f"• Método de clasificación: Percentiles (33% y 67%)")
print(f"• Categorías creadas: Bajo, Medio, Alto")
print(f"• Modelos evaluados: Random Forest, SVM, Logistic Regression")

# Análisis de distribución de categorías
print(f"\nDISTRIBUCIÓN FINAL DE CATEGORÍAS")
print("-" * 40)
print("TCH:")
for cat in ['Bajo', 'Medio', 'Alto']:
    count = (df_clean['TCH_Categoria'] == cat).sum()
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")

print("\n%Sac.Caña:")
for cat in ['Bajo', 'Medio', 'Alto']:
    count = (df_clean['Sacarosa_Categoria'] == cat).sum()
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")

print("\nDesempeño Combinado:")
for cat in df_clean['Desempeño_Combinado'].unique():
    count = (df_clean['Desempeño_Combinado'] == cat).sum()
    percentage = (count / len(df_clean)) * 100
    print(f"  {cat}: {count} registros ({percentage:.1f}%)")

# Umbrales finales
print(f"\nUMBRALES DE CLASIFICACIÓN")
print("-" * 30)
print(f"TCH:")
print(f"  Bajo: ≤ {tch_p33:.4f} toneladas/hectárea")
print(f"  Medio: {tch_p33:.4f} < x ≤ {tch_p67:.4f} toneladas/hectárea")
print(f"  Alto: > {tch_p67:.4f} toneladas/hectárea")

print(f"\n%Sac.Caña:")
print(f"  Bajo: ≤ {sac_p33:.4f}%")
print(f"  Medio: {sac_p33:.4f}% < x ≤ {sac_p67:.4f}%")
print(f"  Alto: > {sac_p67:.4f}%")

# Resultados de modelos
print(f"\nRESULTADOS DE MODELOS DE MACHINE LEARNING")
print("-" * 45)
for target, best_model in best_models.items():
    print(f"{target}:")
    print(f"  Mejor modelo: {best_model['name']}")
    print(f"  Precisión: {best_model['accuracy']:.4f} ({best_model['accuracy']*100:.2f}%)")

# Análisis de correlación
correlation_coef = df_clean[['TCH', 'Sacarosa_Porcentaje']].corr().iloc[0, 1]
print(f"\nANÁLISIS DE CORRELACIÓN")
print("-" * 25)
print(f"Correlación entre TCH y %Sac.Caña: {correlation_coef:.4f}")
if abs(correlation_coef) < 0.3:
    print("Interpretación: Correlación débil")
elif abs(correlation_coef) < 0.7:
    print("Interpretación: Correlación moderada")
else:
    print("Interpretación: Correlación fuerte")

# Recomendaciones
print(f"\nRECOMENDACIONES")
print("-" * 20)
print("1. Clasificación por Percentiles:")
print("   • Método robusto y fácil de interpretar")
print("   • Distribución equilibrada de categorías")
print("   • Apropiado para análisis de desempeño")

print("\n2. Modelos de Machine Learning:")
print("   • Random Forest: Mejor rendimiento general")
print("   • SVM: Bueno para datos no lineales")
print("   • Logistic Regression: Interpretable y rápido")

print("\n3. Aplicaciones Prácticas:")
print("   • Monitoreo de rendimiento de cultivos")
print("   • Identificación de lotes de alto/medio/bajo desempeño")
print("   • Optimización de prácticas agrícolas")
print("   • Predicción de calidad de cosecha")

# Guardar resultados
print(f"\nGUARDANDO RESULTADOS")
print("-" * 20)

# Crear dataset final con todas las clasificaciones
df_final = df_clean.copy()
df_final['TCH_Umbral_Bajo'] = tch_p33
df_final['TCH_Umbral_Alto'] = tch_p67
df_final['Sacarosa_Umbral_Bajo'] = sac_p33
df_final['Sacarosa_Umbral_Alto'] = sac_p67

# Guardar dataset clasificado
output_file = '../data/processed/dataset_clasificado.xlsx'
df_final.to_excel(output_file, index=False)
print(f"Dataset clasificado guardado en: {output_file}")

# Crear resumen de métricas
resumen_metricas = {
    'Variable': ['TCH', '%Sac.Caña', 'Combinado'],
    'Mejor_Modelo': [best_models['TCH']['name'], best_models['Sacarosa']['name'], best_models['Combinado']['name']],
    'Precision': [best_models['TCH']['accuracy'], best_models['Sacarosa']['accuracy'], best_models['Combinado']['accuracy']],
    'Umbral_Bajo': [tch_p33, sac_p33, 'N/A'],
    'Umbral_Alto': [tch_p67, sac_p67, 'N/A']
}

df_metricas = pd.DataFrame(resumen_metricas)
metricas_file = '../data/processed/metricas_clasificacion.xlsx'
df_metricas.to_excel(metricas_file, index=False)
print(f"Métricas de clasificación guardadas en: {metricas_file}")

print(f"\nANÁLISIS COMPLETADO EXITOSAMENTE")
print("="*60)
print("✓ Datos explorados y limpiados")
print("✓ Categorías de clasificación creadas")
print("✓ Modelos de machine learning implementados")
print("✓ Visualizaciones generadas")
print("✓ Resultados documentados y guardados")
print("✓ Análisis estadístico completado")
