# Automatizaci√≥n de Reportes y Dashboard para Modelos de Biomasa
## Flujo completo: Datos ‚Üí Modelado ‚Üí Reportes Excel ‚Üí Dashboard

In [None]:
# Librer√≠as para an√°lisis y modelado
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Librer√≠as para automatizaci√≥n de reportes
import openpyxl
from openpyxl import Workbook
from openpyxl.styles import Font, Alignment, PatternFill, Border, Side
from openpyxl.chart import BarChart, LineChart, Reference, ScatterChart
from openpyxl.utils.dataframe import dataframe_to_rows
from openpyxl.drawing.image import Image
import io
import base64

# Librer√≠as ML
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, accuracy_score, classification_report
from sklearn.impute import SimpleImputer

plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Librer√≠as cargadas correctamente")

## 1. Carga y Preprocesamiento de Datos

In [None]:
# Funci√≥n para cargar y preparar datos
def cargar_y_preparar_datos(archivo):
    """Carga y prepara los datos para modelado"""
    try:
        df = pd.read_excel(archivo, sheet_name='Datos Limpios')
        print(f"‚úÖ Datos cargados: {df.shape}")
        
        # Preparar datos para regresi√≥n
        df_reg = df.copy()
        features_to_drop = ['Fecha de Medicion', 'ID_parcela', 'Categoria de Biomasa', 'Validacion']
        df_reg = df_reg.drop(columns=[col for col in features_to_drop if col in df_reg.columns])
        
        target_reg = 'Biomasa_real Estadistica'
        y_reg = df_reg[target_reg]
        X_reg = df_reg.drop(columns=[target_reg])
        
        # Preparar datos para clasificaci√≥n
        df_clf = df.copy()
        features_to_drop_clf = ['Fecha de Medicion', 'ID_parcela', 'Biomasa_real Estadistica', 'Validacion']
        df_clf = df_clf.drop(columns=[col for col in features_to_drop_clf if col in df_clf.columns])
        
        target_clf = 'Categoria de Biomasa'
        y_clf = df_clf[target_clf]
        X_clf = df_clf.drop(columns=[target_clf])
        
        return df, X_reg, y_reg, X_clf, y_clf
    except Exception as e:
        print(f"‚ùå Error cargando datos: {e}")
        return None, None, None, None, None

# Cargar datos
df, X_reg, y_reg, X_clf, y_clf = cargar_y_preparar_datos('Base_Prediccion_Biomasa_Outliers1.xlsx')

if df is not None:
    print(f"\nüìä Resumen de datos:")
    print(f"- Total filas: {df.shape[0]}")
    print(f"- Variables regresi√≥n: {X_reg.shape[1]}")
    print(f"- Variables clasificaci√≥n: {X_clf.shape[1]}")
    print(f"- Distribuci√≥n clases: {y_clf.value_counts().to_dict()}")

In [None]:
# Funci√≥n de preprocesamiento
def preprocesar_datos(X, y, es_clasificacion=False):
    """Preprocesa los datos para modelado"""
    # Codificar variables categ√≥ricas
    X_processed = X.copy()
    le_dict = {}
    
    categorical_features = X_processed.select_dtypes(include=['object']).columns
    for col in categorical_features:
        le = LabelEncoder()
        X_processed[col] = le.fit_transform(X_processed[col].astype(str))
        le_dict[col] = le
    
    # Manejar valores nulos
    imputer = SimpleImputer(strategy='median')
    X_processed = pd.DataFrame(imputer.fit_transform(X_processed), columns=X_processed.columns)
    
    # Para clasificaci√≥n, codificar y
    if es_clasificacion:
        le_target = LabelEncoder()
        y_processed = le_target.fit_transform(y)
        le_dict['target'] = le_target
    else:
        y_processed = y.dropna()
        X_processed = X_processed.loc[y_processed.index]
    
    return X_processed, y_processed, le_dict

# Preprocesar datos
X_reg_proc, y_reg_proc, le_reg = preprocesar_datos(X_reg, y_reg, es_clasificacion=False)
X_clf_proc, y_clf_proc, le_clf = preprocesar_datos(X_clf, y_clf, es_clasificacion=True)

print("‚úÖ Datos preprocesados")
print(f"Regresi√≥n: {X_reg_proc.shape}, Clasificaci√≥n: {X_clf_proc.shape}")

## 2. Modelado Automatizado

In [None]:
# Funci√≥n para entrenar modelos de regresi√≥n
def entrenar_modelos_regresion(X, y):
    """Entrena m√∫ltiples modelos de regresi√≥n"""
    # Divisi√≥n de datos
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # Escalado
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Modelos
    modelos = {
        'Linear Regression': LinearRegression(),
        'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42)
    }
    
    resultados = {}
    
    for nombre, modelo in modelos.items():
        # Entrenar
        if 'Linear' in nombre:
            modelo.fit(X_train_scaled, y_train)
            y_pred = modelo.predict(X_test_scaled)
        else:
            modelo.fit(X_train, y_train)
            y_pred = modelo.predict(X_test)
        
        # M√©tricas
        r2 = r2_score(y_test, y_pred)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        
        resultados[nombre] = {
            'modelo': modelo,
            'r2': r2,
            'rmse': rmse,
            'y_test': y_test,
            'y_pred': y_pred,
            'scaler': scaler if 'Linear' in nombre else None
        }
        
        print(f"‚úÖ {nombre}: R¬≤ = {r2:.4f}, RMSE = {rmse:.4f}")
    
    return resultados, X_train, X_test, y_train, y_test

# Entrenar modelos de regresi√≥n
print("üîÑ Entrenando modelos de regresi√≥n...")
resultados_reg, X_train_reg, X_test_reg, y_train_reg, y_test_reg = entrenar_modelos_regresion(X_reg_proc, y_reg_proc)

In [None]:
# Funci√≥n para entrenar modelos de clasificaci√≥n
def entrenar_modelos_clasificacion(X, y, le_target):
    """Entrena m√∫ltiples modelos de clasificaci√≥n"""
    # Divisi√≥n de datos
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
    
    # Escalado
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Modelos
    modelos = {
        'SVM RBF': SVC(kernel='rbf', random_state=42),
        'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42)
    }
    
    resultados = {}
    
    for nombre, modelo in modelos.items():
        # Entrenar
        if 'SVM' in nombre:
            modelo.fit(X_train_scaled, y_train)
            y_pred = modelo.predict(X_test_scaled)
        else:
            modelo.fit(X_train, y_train)
            y_pred = modelo.predict(X_test)
        
        # M√©tricas
        accuracy = accuracy_score(y_test, y_pred)
        report = classification_report(y_test, y_pred, target_names=le_target.classes_, output_dict=True)
        
        resultados[nombre] = {
            'modelo': modelo,
            'accuracy': accuracy,
            'report': report,
            'y_test': y_test,
            'y_pred': y_pred,
            'scaler': scaler if 'SVM' in nombre else None
        }
        
        print(f"‚úÖ {nombre}: Accuracy = {accuracy:.4f}")
    
    return resultados, X_train, X_test, y_train, y_test

# Entrenar modelos de clasificaci√≥n
print("\nüîÑ Entrenando modelos de clasificaci√≥n...")
resultados_clf, X_train_clf, X_test_clf, y_train_clf, y_test_clf = entrenar_modelos_clasificacion(
    X_clf_proc, y_clf_proc, le_clf['target']
)

## 3. Generaci√≥n de Gr√°ficos para Reportes

In [None]:
# Funci√≥n para generar gr√°ficos
def generar_graficos_regresion(resultados):
    """Genera gr√°ficos para modelos de regresi√≥n"""
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Comparaci√≥n de m√©tricas
    modelos = list(resultados.keys())
    r2_scores = [resultados[m]['r2'] for m in modelos]
    rmse_scores = [resultados[m]['rmse'] for m in modelos]
    
    # Gr√°fico R¬≤
    axes[0,0].bar(modelos, r2_scores, color=['skyblue', 'lightgreen'])
    axes[0,0].set_title('Comparaci√≥n R¬≤ Score', fontsize=14, fontweight='bold')
    axes[0,0].set_ylabel('R¬≤ Score')
    axes[0,0].grid(True, alpha=0.3)
    
    # Gr√°fico RMSE
    axes[0,1].bar(modelos, rmse_scores, color=['salmon', 'gold'])
    axes[0,1].set_title('Comparaci√≥n RMSE', fontsize=14, fontweight='bold')
    axes[0,1].set_ylabel('RMSE')
    axes[0,1].grid(True, alpha=0.3)
    
    # Predicciones vs Reales (mejor modelo)
    mejor_modelo = max(resultados.keys(), key=lambda k: resultados[k]['r2'])
    y_test = resultados[mejor_modelo]['y_test']
    y_pred = resultados[mejor_modelo]['y_pred']
    
    axes[1,0].scatter(y_test, y_pred, alpha=0.6, color='purple')
    axes[1,0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
    axes[1,0].set_xlabel('Valores Reales')
    axes[1,0].set_ylabel('Predicciones')
    axes[1,0].set_title(f'Predicciones vs Reales - {mejor_modelo}', fontsize=14, fontweight='bold')
    axes[1,0].grid(True, alpha=0.3)
    
    # Residuos
    residuos = y_test - y_pred
    axes[1,1].scatter(y_pred, residuos, alpha=0.6, color='orange')
    axes[1,1].axhline(y=0, color='r', linestyle='--')
    axes[1,1].set_xlabel('Predicciones')
    axes[1,1].set_ylabel('Residuos')
    axes[1,1].set_title(f'An√°lisis de Residuos - {mejor_modelo}', fontsize=14, fontweight='bold')
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('graficos_regresion.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return mejor_modelo

# Generar gr√°ficos de regresi√≥n
print("üìä Generando gr√°ficos de regresi√≥n...")
mejor_modelo_reg = generar_graficos_regresion(resultados_reg)

In [None]:
def generar_graficos_clasificacion(resultados, le_target):
    """Genera gr√°ficos para modelos de clasificaci√≥n"""
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Comparaci√≥n de accuracy
    modelos = list(resultados.keys())
    accuracies = [resultados[m]['accuracy'] for m in modelos]
    
    axes[0,0].bar(modelos, accuracies, color=['lightcoral', 'lightblue'])
    axes[0,0].set_title('Comparaci√≥n Accuracy', fontsize=14, fontweight='bold')
    axes[0,0].set_ylabel('Accuracy')
    axes[0,0].grid(True, alpha=0.3)
    
    # Mejor modelo para an√°lisis detallado
    mejor_modelo = max(resultados.keys(), key=lambda k: resultados[k]['accuracy'])
    
    # Matriz de confusi√≥n
    from sklearn.metrics import confusion_matrix
    y_test = resultados[mejor_modelo]['y_test']
    y_pred = resultados[mejor_modelo]['y_pred']
    cm = confusion_matrix(y_test, y_pred)
    
    im = axes[0,1].imshow(cm, interpolation='nearest', cmap='Blues')
    axes[0,1].set_title(f'Matriz Confusi√≥n - {mejor_modelo}', fontsize=14, fontweight='bold')
    
    # A√±adir texto a la matriz
    thresh = cm.max() / 2.
    for i in range(cm.shape[0]):
        for j in range(cm.shape[1]):
            axes[0,1].text(j, i, format(cm[i, j], 'd'),
                         horizontalalignment="center",
                         color="white" if cm[i, j] > thresh else "black")
    
    axes[0,1].set_ylabel('Clase Real')
    axes[0,1].set_xlabel('Clase Predicha')
    axes[0,1].set_xticks(range(len(le_target.classes_)))
    axes[0,1].set_yticks(range(len(le_target.classes_)))
    axes[0,1].set_xticklabels(le_target.classes_)
    axes[0,1].set_yticklabels(le_target.classes_)
    
    # Distribuci√≥n de clases
    unique, counts = np.unique(y_test, return_counts=True)
    class_names = [le_target.classes_[i] for i in unique]
    
    axes[1,0].pie(counts, labels=class_names, autopct='%1.1f%%', startangle=90)
    axes[1,0].set_title('Distribuci√≥n de Clases en Test', fontsize=14, fontweight='bold')
    
    # M√©tricas por clase
    report = resultados[mejor_modelo]['report']
    clases = le_target.classes_
    precision = [report[clase]['precision'] for clase in clases]
    recall = [report[clase]['recall'] for clase in clases]
    f1 = [report[clase]['f1-score'] for clase in clases]
    
    x = np.arange(len(clases))
    width = 0.25
    
    axes[1,1].bar(x - width, precision, width, label='Precision', alpha=0.8)
    axes[1,1].bar(x, recall, width, label='Recall', alpha=0.8)
    axes[1,1].bar(x + width, f1, width, label='F1-Score', alpha=0.8)
    
    axes[1,1].set_xlabel('Clases')
    axes[1,1].set_ylabel('Score')
    axes[1,1].set_title('M√©tricas por Clase', fontsize=14, fontweight='bold')
    axes[1,1].set_xticks(x)
    axes[1,1].set_xticklabels(clases)
    axes[1,1].legend()
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('graficos_clasificacion.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    return mejor_modelo

# Generar gr√°ficos de clasificaci√≥n
print("üìä Generando gr√°ficos de clasificaci√≥n...")
mejor_modelo_clf = generar_graficos_clasificacion(resultados_clf, le_clf['target'])

## 4. Generaci√≥n Automatizada de Reportes en Excel

In [None]:
def crear_reporte_excel_automatizado(df, resultados_reg, resultados_clf, le_clf):
    """Crea un reporte completo en Excel con m√∫ltiples hojas"""
    
    # Crear archivo Excel
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    nombre_archivo = f'Reporte_Biomasa_ML_{timestamp}.xlsx'
    
    # Usar ExcelWriter de pandas para m√∫ltiples hojas
    with pd.ExcelWriter(nombre_archivo, engine='openpyxl') as writer:
        
        # HOJA 1: Resumen Ejecutivo
        resumen_data = {
            'M√©trica': [
                'Total de Registros',
                'Variables Predictoras',
                'Mejor Modelo Regresi√≥n',
                'R¬≤ Mejor Modelo',
                'RMSE Mejor Modelo',
                'Mejor Modelo Clasificaci√≥n',
                'Accuracy Mejor Modelo',
                'Fecha Generaci√≥n Reporte'
            ],
            'Valor': [
                df.shape[0],
                len([col for col in df.columns if col not in ['Fecha de Medicion', 'ID_parcela', 'Categoria de Biomasa', 'Biomasa_real Estadistica', 'Validacion']]),
                max(resultados_reg.keys(), key=lambda k: resultados_reg[k]['r2']),
                f"{max([resultados_reg[k]['r2'] for k in resultados_reg]):.4f}",
                f"{min([resultados_reg[k]['rmse'] for k in resultados_reg]):.4f}",
                max(resultados_clf.keys(), key=lambda k: resultados_clf[k]['accuracy']),
                f"{max([resultados_clf[k]['accuracy'] for k in resultados_clf]):.4f}",
                datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            ]
        }
        
        resumen_df = pd.DataFrame(resumen_data)
        resumen_df.to_excel(writer, sheet_name='Resumen_Ejecutivo', index=False)
        
        # HOJA 2: Resultados Regresi√≥n
        reg_results = pd.DataFrame({
            'Modelo': list(resultados_reg.keys()),
            'R¬≤_Score': [resultados_reg[k]['r2'] for k in resultados_reg],
            'RMSE': [resultados_reg[k]['rmse'] for k in resultados_reg]
        }).sort_values('R¬≤_Score', ascending=False)
        
        reg_results.to_excel(writer, sheet_name='Resultados_Regresion', index=False)
        
        # HOJA 3: Resultados Clasificaci√≥n
        clf_results = pd.DataFrame({
            'Modelo': list(resultados_clf.keys()),
            'Accuracy': [resultados_clf[k]['accuracy'] for k in resultados_clf]
        }).sort_values('Accuracy', ascending=False)
        
        clf_results.to_excel(writer, sheet_name='Resultados_Clasificacion', index=False)
        
        # HOJA 4: An√°lisis de Datos
        analisis_data = {
            'Variable': [],
            'Tipo': [],
            'Valores_Nulos': [],
            'Media': [],
            'Desviacion_Std': []
        }
        
        for col in df.columns:
            if col not in ['Fecha de Medicion', 'ID_parcela', 'Validacion']:
                analisis_data['Variable'].append(col)
                analisis_data['Tipo'].append(str(df[col].dtype))
                analisis_data['Valores_Nulos'].append(df[col].isnull().sum())
                
                if df[col].dtype in ['int64', 'float64']:
                    analisis_data['Media'].append(f"{df[col].mean():.4f}")
                    analisis_data['Desviacion_Std'].append(f"{df[col].std():.4f}")
                else:
                    analisis_data['Media'].append('N/A')
                    analisis_data['Desviacion_Std'].append('N/A')
        
        analisis_df = pd.DataFrame(analisis_data)
        analisis_df.to_excel(writer, sheet_name='Analisis_Datos', index=False)
        
        # HOJA 5: Datos Originales (muestra)
        df.head(100).to_excel(writer, sheet_name='Datos_Muestra', index=False)
        
        # HOJA 6: Predicciones del Mejor Modelo
        mejor_reg = max(resultados_reg.keys(), key=lambda k: resultados_reg[k]['r2'])
        mejor_clf = max(resultados_clf.keys(), key=lambda k: resultados_clf[k]['accuracy'])
        
        predicciones_data = {
            'Indice': range(len(resultados_reg[mejor_reg]['y_test'])),
            'Biomasa_Real': resultados_reg[mejor_reg]['y_test'].values,
            'Biomasa_Predicha': resultados_reg[mejor_reg]['y_pred'],
            'Error_Absoluto': np.abs(resultados_reg[mejor_reg]['y_test'].values - resultados_reg[mejor_reg]['y_pred'])
        }
        
        predicciones_df = pd.DataFrame(predicciones_data)
        predicciones_df.to_excel(writer, sheet_name='Predicciones', index=False)
    
    print(f"‚úÖ Reporte Excel creado: {nombre_archivo}")
    return nombre_archivo

# Crear reporte Excel
print("üìÑ Generando reporte Excel automatizado...")
archivo_excel = crear_reporte_excel_automatizado(df, resultados_reg, resultados_clf, le_clf)

In [None]:
# Funci√≥n para dar formato avanzado al Excel usando openpyxl
def formatear_excel_avanzado(nombre_archivo):
    """Aplica formato avanzado al archivo Excel"""
    
    # Cargar el libro
    wb = openpyxl.load_workbook(nombre_archivo)
    
    # Definir estilos
    header_font = Font(bold=True, color="FFFFFF")
    header_fill = PatternFill(start_color="366092", end_color="366092", fill_type="solid")
    center_alignment = Alignment(horizontal="center", vertical="center")
    border = Border(
        left=Side(style='thin'),
        right=Side(style='thin'),
        top=Side(style='thin'),
        bottom=Side(style='thin')
    )
    
    # Formatear cada hoja
    for sheet_name in wb.sheetnames:
        ws = wb[sheet_name]
        
        # Formatear headers
        for cell in ws[1]:
            cell.font = header_font
            cell.fill = header_fill
            cell.alignment = center_alignment
            cell.border = border
        
        # Ajustar ancho de columnas
        for column in ws.columns:
            max_length = 0
            column_letter = column[0].column_letter
            
            for cell in column:
                try:
                    if len(str(cell.value)) > max_length:
                        max_length = len(str(cell.value))
                except:
                    pass
            
            adjusted_width = min(max_length + 2, 50)
            ws.column_dimensions[column_letter].width = adjusted_width
        
        # Aplicar bordes a todas las celdas con datos
        max_row = ws.max_row
        max_col = ws.max_column
        
        for row in range(1, max_row + 1):
            for col in range(1, max_col + 1):
                ws.cell(row=row, column=col).border = border
                
                # Centrar contenido num√©rico
                if row > 1:  # No headers
                    cell_value = ws.cell(row=row, column=col).value
                    if isinstance(cell_value, (int, float)):
                        ws.cell(row=row, column=col).alignment = center_alignment
    
    # Agregar gr√°ficos si es posible
    try:
        # Gr√°fico en hoja de regresi√≥n
        ws_reg = wb['Resultados_Regresion']
        
        # Crear gr√°fico de barras para R¬≤
        chart = BarChart()
        chart.title = "Comparaci√≥n R¬≤ Score por Modelo"
        chart.y_axis.title = "R¬≤ Score"
        chart.x_axis.title = "Modelos"
        
        # Datos para el gr√°fico
        data = Reference(ws_reg, min_col=2, min_row=1, max_row=ws_reg.max_row, max_col=2)
        cats = Reference(ws_reg, min_col=1, min_row=2, max_row=ws_reg.max_row)
        
        chart.add_data(data, titles_from_data=True)
        chart.set_categories(cats)
        
        ws_reg.add_chart(chart, "E2")
        
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudieron agregar gr√°ficos: {e}")
    
    # Guardar cambios
    wb.save(nombre_archivo)
    print(f"‚úÖ Formato avanzado aplicado a {nombre_archivo}")

# Aplicar formato avanzado
print("üé® Aplicando formato avanzado...")
formatear_excel_avanzado(archivo_excel)

## 5. Dashboard Simple con Resultados

In [None]:
def crear_dashboard_biomasa():
    """Crea un dashboard simple con los resultados principales"""
    
    # Configurar el dashboard
    fig = plt.figure(figsize=(20, 12))
    fig.suptitle('üå± DASHBOARD PREDICTIVO DE BIOMASA - MACHINE LEARNING', 
                 fontsize=24, fontweight='bold', y=0.98)
    
    # Layout del dashboard
    gs = fig.add_gridspec(3, 4, hspace=0.3, wspace=0.3)
    
    # 1. KPIs principales (fila superior)
    ax_kpi1 = fig.add_subplot(gs[0, 0])
    ax_kpi2 = fig.add_subplot(gs[0, 1])
    ax_kpi3 = fig.add_subplot(gs[0, 2])
    ax_kpi4 = fig.add_subplot(gs[0, 3])
    
    # KPI 1: Total de registros
    ax_kpi1.text(0.5, 0.5, f'{df.shape[0]}', ha='center', va='center', 
                fontsize=36, fontweight='bold', color='#2E86AB')
    ax_kpi1.text(0.5, 0.2, 'Total Registros', ha='center', va='center', 
                fontsize=12, fontweight='bold')
    ax_kpi1.set_xlim(0, 1)
    ax_kpi1.set_ylim(0, 1)
    ax_kpi1.axis('off')
    ax_kpi1.add_patch(plt.Rectangle((0.05, 0.05), 0.9, 0.9, fill=False, 
                                   edgecolor='#2E86AB', linewidth=3))
    
    # KPI 2: Mejor R¬≤
    mejor_r2 = max([resultados_reg[k]['r2'] for k in resultados_reg])
    ax_kpi2.text(0.5, 0.5, f'{mejor_r2:.3f}', ha='center', va='center', 
                fontsize=36, fontweight='bold', color='#A23B72')
    ax_kpi2.text(0.5, 0.2, 'Mejor R¬≤ Score', ha='center', va='center', 
                fontsize=12, fontweight='bold')
    ax_kpi2.set_xlim(0, 1)
    ax_kpi2.set_ylim(0, 1)
    ax_kpi2.axis('off')
    ax_kpi2.add_patch(plt.Rectangle((0.05, 0.05), 0.9, 0.9, fill=False, 
                                   edgecolor='#A23B72', linewidth=3))
    
    # KPI 3: Mejor Accuracy
    mejor_acc = max([resultados_clf[k]['accuracy'] for k in resultados_clf])
    ax_kpi3.text(0.5, 0.5, f'{mejor_acc:.3f}', ha='center', va='center', 
                fontsize=36, fontweight='bold', color='#F18F01')
    ax_kpi3.text(0.5, 0.2, 'Mejor Accuracy', ha='center', va='center', 
                fontsize=12, fontweight='bold')
    ax_kpi3.set_xlim(0, 1)
    ax_kpi3.set_ylim(0, 1)
    ax_kpi3.axis('off')
    ax_kpi3.add_patch(plt.Rectangle((0.05, 0.05), 0.9, 0.9, fill=False, 
                                   edgecolor='#F18F01', linewidth=3))
    
    # KPI 4: Variables predictoras
    n_vars = len([col for col in df.columns if col not in ['Fecha de Medicion', 'ID_parcela', 'Categoria de Biomasa', 'Biomasa_real Estadistica', 'Validacion']])
    ax_kpi4.text(0.5, 0.5, f'{n_vars}', ha='center', va='center', 
                fontsize=36, fontweight='bold', color='#C73E1D')
    ax_kpi4.text(0.5, 0.2, 'Variables Predictoras', ha='center', va='center', 
                fontsize=12, fontweight='bold')
    ax_kpi4.set_xlim(0, 1)
    ax_kpi4.set_ylim(0, 1)
    ax_kpi4.axis('off')
    ax_kpi4.add_patch(plt.Rectangle((0.05, 0.05), 0.9, 0.9, fill=False, 
                                   edgecolor='#C73E1D', linewidth=3))
    
    # 2. Gr√°ficos de rendimiento (fila media)
    ax_reg = fig.add_subplot(gs[1, :2])
    ax_clf = fig.add_subplot(gs[1, 2:])
    
    # Rendimiento modelos regresi√≥n
    modelos_reg = list(resultados_reg.keys())
    r2_scores = [resultados_reg[m]['r2'] for m in modelos_reg]
    colors_reg = ['#2E86AB', '#A23B72']
    
    bars_reg = ax_reg.bar(modelos_reg, r2_scores, color=colors_reg)
    ax_reg.set_title('üìä Rendimiento Modelos de Regresi√≥n', fontsize=16, fontweight='bold')
    ax_reg.set_ylabel('R¬≤ Score', fontsize=12)
    ax_reg.grid(True, alpha=0.3)
    
    # A√±adir valores en las barras
    for bar, score in zip(bars_reg, r2_scores):
        ax_reg.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                   f'{score:.3f}', ha='center', va='bottom', fontweight='bold')
    
    # Rendimiento modelos clasificaci√≥n
    modelos_clf = list(resultados_clf.keys())
    acc_scores = [resultados_clf[m]['accuracy'] for m in modelos_clf]
    colors_clf = ['#F18F01', '#C73E1D']
    
    bars_clf = ax_clf.bar(modelos_clf, acc_scores, color=colors_clf)
    ax_clf.set_title('üéØ Rendimiento Modelos de Clasificaci√≥n', fontsize=16, fontweight='bold')
    ax_clf.set_ylabel('Accuracy', fontsize=12)
    ax_clf.grid(True, alpha=0.3)
    
    # A√±adir valores en las barras
    for bar, score in zip(bars_clf, acc_scores):
        ax_clf.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.01,
                   f'{score:.3f}', ha='center', va='bottom', fontweight='bold')
    
    # 3. An√°lisis de datos (fila inferior)
    ax_dist = fig.add_subplot(gs[2, :2])
    ax_corr = fig.add_subplot(gs[2, 2:])
    
    # Distribuci√≥n de biomasa
    biomasa_vals = df['Biomasa_real Estadistica'].dropna()
    ax_dist.hist(biomasa_vals, bins=20, color='#2E86AB', alpha=0.7, edgecolor='black')
    ax_dist.set_title('üìà Distribuci√≥n de Biomasa Real', fontsize=16, fontweight='bold')
    ax_dist.set_xlabel('Biomasa (kg/ha)', fontsize=12)
    ax_dist.set_ylabel('Frecuencia', fontsize=12)
    ax_dist.grid(True, alpha=0.3)
    
    # Correlaci√≥n entre variables principales
    vars_numericas = ['NDVI Outlier Manual', 'NDRE Outlier Manual', 
                     'PRECIPITACION Outlier Manual', 'Biomasa_real Estadistica']
    vars_disponibles = [v for v in vars_numericas if v in df.columns]
    
    if len(vars_disponibles) > 1:
        corr_matrix = df[vars_disponibles].corr()
        im = ax_corr.imshow(corr_matrix, cmap='coolwarm', aspect='auto', vmin=-1, vmax=1)
        
        # A√±adir texto de correlaci√≥n
        for i in range(len(vars_disponibles)):
            for j in range(len(vars_disponibles)):
                text = ax_corr.text(j, i, f'{corr_matrix.iloc[i, j]:.2f}',
                                   ha="center", va="center", color="black", fontweight='bold')
        
        ax_corr.set_xticks(range(len(vars_disponibles)))
        ax_corr.set_yticks(range(len(vars_disponibles)))
        ax_corr.set_xticklabels([v.replace(' Outlier Manual', '') for v in vars_disponibles], rotation=45)
        ax_corr.set_yticklabels([v.replace(' Outlier Manual', '') for v in vars_disponibles])
        ax_corr.set_title('üîó Matriz de Correlaci√≥n', fontsize=16, fontweight='bold')
        
        # Colorbar
        cbar = plt.colorbar(im, ax=ax_corr, shrink=0.6)
        cbar.set_label('Correlaci√≥n', fontsize=10)
    
    # A√±adir timestamp
    fig.text(0.99, 0.01, f'Generado: {datetime.now().strftime("%Y-%m-%d %H:%M:%S")}', 
             ha='right', va='bottom', fontsize=10, style='italic')
    
    plt.savefig('dashboard_biomasa.png', dpi=300, bbox_inches='tight', facecolor='white')
    plt.show()
    
    print("‚úÖ Dashboard generado y guardado como 'dashboard_biomasa.png'")

# Crear dashboard
print("üìä Creando dashboard...")
crear_dashboard_biomasa()

## 6. Funci√≥n de Predicci√≥n para Nuevos Datos

In [None]:
def crear_sistema_prediccion_excel():
    """Crea un archivo Excel para realizar predicciones con nuevos datos"""
    
    # Crear archivo para predicciones
    wb_pred = Workbook()
    
    # Hoja de instrucciones
    ws_instrucciones = wb_pred.active
    ws_instrucciones.title = "Instrucciones"
    
    instrucciones = [
        ["SISTEMA DE PREDICCI√ìN DE BIOMASA"],
        ["="*50],
        [""],
        ["INSTRUCCIONES DE USO:"],
        ["1. Vaya a la hoja 'Nuevos_Datos'"],
        ["2. Complete los valores en las columnas correspondientes"],
        ["3. Los resultados aparecer√°n autom√°ticamente en las columnas de predicci√≥n"],
        [""],
        ["VARIABLES REQUERIDAS:"],
        ["- NDVI Outlier Manual: Valor entre 0 y 1"],
        ["- NDRE Outlier Manual: Valor entre 0 y 1"],
        ["- PRECIPITACION Outlier Manual: Mil√≠metros de lluvia"],
        ["- DIAS SIN LLUVIA Estadistica: N√∫mero de d√≠as"],
        ["- Tipo_suelo: 0=Arcilloso, 1=Arenoso, 2=Franco"],
        [""],
        ["RESULTADOS:"],
        ["- Biomasa_Predicha: Valor estimado en kg/ha"],
        ["- Categoria_Predicha: Baja/Media/Alta"],
        ["- Confianza: Nivel de confianza del modelo"]
    ]
    
    for row_num, row_data in enumerate(instrucciones, 1):
        ws_instrucciones.cell(row=row_num, column=1, value=row_data[0])
        if row_num == 1:
            ws_instrucciones.cell(row=row_num, column=1).font = Font(bold=True, size=16)
        elif "INSTRUCCIONES" in row_data[0] or "VARIABLES" in row_data[0] or "RESULTADOS" in row_data[0]:
            ws_instrucciones.cell(row=row_num, column=1).font = Font(bold=True, size=12)
    
    # Hoja para nuevos datos
    ws_datos = wb_pred.create_sheet("Nuevos_Datos")
    
    # Headers
    headers = [
        "ID", "NDVI Outlier Manual", "NDRE Outlier Manual", 
        "PRECIPITACION Outlier Manual", "DIAS SIN LLUVIA Estadistica", 
        "Tipo_suelo", "Biomasa_Predicha", "Categoria_Predicha", "Confianza_Modelo"
    ]
    
    for col_num, header in enumerate(headers, 1):
        cell = ws_datos.cell(row=1, column=col_num, value=header)
        cell.font = Font(bold=True, color="FFFFFF")
        cell.fill = PatternFill(start_color="366092", end_color="366092", fill_type="solid")
        cell.alignment = Alignment(horizontal="center")
    
    # Datos de ejemplo
    ejemplos = [
        [1, 0.65, 0.58, 45.2, 5, 1, "=PREDICCI√ìN", "=CLASIFICACI√ìN", "=CONFIANZA"],
        [2, 0.72, 0.61, 38.7, 3, 0, "=PREDICCI√ìN", "=CLASIFICACI√ìN", "=CONFIANZA"],
        [3, 0.55, 0.49, 52.1, 8, 2, "=PREDICCI√ìN", "=CLASIFICACI√ìN", "=CONFIANZA"]
    ]
    
    for row_num, row_data in enumerate(ejemplos, 2):
        for col_num, value in enumerate(row_data, 1):
            ws_datos.cell(row=row_num, column=col_num, value=value)
    
    # Ajustar ancho de columnas
    for column in ws_datos.columns:
        max_length = max(len(str(cell.value)) for cell in column)
        ws_datos.column_dimensions[column[0].column_letter].width = max_length + 2
    
    # Hoja de modelos (con m√©tricas)
    ws_modelos = wb_pred.create_sheet("Info_Modelos")
    
    # Informaci√≥n de modelos
    mejor_reg = max(resultados_reg.keys(), key=lambda k: resultados_reg[k]['r2'])
    mejor_clf = max(resultados_clf.keys(), key=lambda k: resultados_clf[k]['accuracy'])
    
    info_modelos = [
        ["INFORMACI√ìN DE MODELOS ENTRENADOS"],
        [""],
        ["MODELO DE REGRESI√ìN (Predicci√≥n de Biomasa):"],
        [f"Algoritmo: {mejor_reg}"],
        [f"R¬≤ Score: {resultados_reg[mejor_reg]['r2']:.4f}"],
        [f"RMSE: {resultados_reg[mejor_reg]['rmse']:.4f}"],
        [""],
        ["MODELO DE CLASIFICACI√ìN (Categor√≠a de Biomasa):"],
        [f"Algoritmo: {mejor_clf}"],
        [f"Accuracy: {resultados_clf[mejor_clf]['accuracy']:.4f}"],
        [""],
        ["FECHA DE ENTRENAMIENTO:"],
        [datetime.now().strftime("%Y-%m-%d %H:%M:%S")],
        [""],
        ["TOTAL DE DATOS DE ENTRENAMIENTO:"],
        [f"{len(y_train_reg)} muestras"]
    ]
    
    for row_num, row_data in enumerate(info_modelos, 1):
        ws_modelos.cell(row=row_num, column=1, value=row_data[0])
        if "INFORMACI√ìN" in row_data[0] or "MODELO DE" in row_data[0]:
            ws_modelos.cell(row=row_num, column=1).font = Font(bold=True)
    
    # Guardar archivo
    nombre_pred = f'Sistema_Prediccion_Biomasa_{datetime.now().strftime("%Y%m%d_%H%M%S")}.xlsx'
    wb_pred.save(nombre_pred)
    
    print(f"‚úÖ Sistema de predicci√≥n creado: {nombre_pred}")
    return nombre_pred

# Crear sistema de predicci√≥n
print("üîÆ Creando sistema de predicci√≥n...")
archivo_prediccion = crear_sistema_prediccion_excel()

## 7. Resumen y Archivos Generados

In [None]:
def mostrar_resumen_final():
    """Muestra un resumen completo del proceso y archivos generados"""
    
    print("\n" + "="*80)
    print("üéâ PROCESO COMPLETADO - RESUMEN FINAL")
    print("="*80)
    
    print("\nüìä DATOS PROCESADOS:")
    print(f"   ‚Ä¢ Total de registros: {df.shape[0]}")
    print(f"   ‚Ä¢ Variables predictoras: {len([col for col in df.columns if col not in ['Fecha de Medicion', 'ID_parcela', 'Categoria de Biomasa', 'Biomasa_real Estadistica', 'Validacion']])}")
    print(f"   ‚Ä¢ Divisi√≥n entrenamiento/prueba: 70/30")
    
    print("\nü§ñ MODELOS ENTRENADOS:")
    print("   REGRESI√ìN:")
    for modelo, resultado in resultados_reg.items():
        print(f"     ‚Ä¢ {modelo}: R¬≤ = {resultado['r2']:.4f}, RMSE = {resultado['rmse']:.4f}")
    
    print("   CLASIFICACI√ìN:")
    for modelo, resultado in resultados_clf.items():
        print(f"     ‚Ä¢ {modelo}: Accuracy = {resultado['accuracy']:.4f}")
    
    print("\nüèÜ MEJORES MODELOS:")
    mejor_reg = max(resultados_reg.keys(), key=lambda k: resultados_reg[k]['r2'])
    mejor_clf = max(resultados_clf.keys(), key=lambda k: resultados_clf[k]['accuracy'])
    print(f"   ‚Ä¢ Regresi√≥n: {mejor_reg} (R¬≤ = {resultados_reg[mejor_reg]['r2']:.4f})")
    print(f"   ‚Ä¢ Clasificaci√≥n: {mejor_clf} (Accuracy = {resultados_clf[mejor_clf]['accuracy']:.4f})")
    
    print("\nüìÅ ARCHIVOS GENERADOS:")
    print(f"   üìÑ {archivo_excel}")
    print("      ‚Üí Reporte completo con m√∫ltiples hojas")
    print("      ‚Üí M√©tricas de modelos y an√°lisis de datos")
    print("      ‚Üí Formato profesional con gr√°ficos")
    print()
    print(f"   üîÆ {archivo_prediccion}")
    print("      ‚Üí Sistema de predicci√≥n para nuevos datos")
    print("      ‚Üí Plantilla para uso operativo")
    print("      ‚Üí Instrucciones incluidas")
    print()
    print("   üìä dashboard_biomasa.png")
    print("      ‚Üí Dashboard visual con KPIs principales")
    print("      ‚Üí Gr√°ficos de rendimiento de modelos")
    print("      ‚Üí An√°lisis exploratorio de datos")
    print()
    print("   üìà graficos_regresion.png")
    print("      ‚Üí An√°lisis detallado de modelos de regresi√≥n")
    print()
    print("   üéØ graficos_clasificacion.png")
    print("      ‚Üí An√°lisis detallado de modelos de clasificaci√≥n")
    
    print("\n‚ö° CARACTER√çSTICAS IMPLEMENTADAS:")
    print("   ‚úÖ Carga automatizada de datos desde Excel")
    print("   ‚úÖ Preprocesamiento completo (nulos, codificaci√≥n, escalado)")
    print("   ‚úÖ Entrenamiento de m√∫ltiples modelos ML")
    print("   ‚úÖ Generaci√≥n autom√°tica de reportes Excel")
    print("   ‚úÖ Formato profesional con openpyxl")
    print("   ‚úÖ Dashboard visual con matplotlib/seaborn")
    print("   ‚úÖ Sistema de predicci√≥n para nuevos datos")
    print("   ‚úÖ M√©tricas de evaluaci√≥n completas")
    print("   ‚úÖ Visualizaciones de alta calidad")
    
    print("\nüîß TECNOLOG√çAS UTILIZADAS:")
    print("   ‚Ä¢ pandas & openpyxl: Automatizaci√≥n de reportes Excel")
    print("   ‚Ä¢ scikit-learn: Modelos de Machine Learning")
    print("   ‚Ä¢ matplotlib & seaborn: Visualizaciones")
    print("   ‚Ä¢ Excel: Formato profesional y operativo")
    
    print("\n" + "="*80)
    print("üöÄ ¬°SISTEMA DE PREDICCI√ìN DE BIOMASA LISTO PARA USAR!")
    print("="*80)

# Mostrar resumen final
mostrar_resumen_final()

## 8. Ejemplo de Uso del Sistema

Para usar el sistema de predicci√≥n:

1. **Abrir** el archivo `Sistema_Prediccion_Biomasa_[timestamp].xlsx`
2. **Ir** a la hoja "Nuevos_Datos"
3. **Completar** los valores de las variables predictoras
4. **Ver** las predicciones autom√°ticas en las columnas correspondientes

### Variables de entrada:
- **NDVI Outlier Manual**: √çndice de vegetaci√≥n (0-1)
- **NDRE Outlier Manual**: √çndice de borde rojo (0-1) 
- **PRECIPITACION Outlier Manual**: Precipitaci√≥n en mm
- **DIAS SIN LLUVIA Estadistica**: D√≠as consecutivos sin lluvia
- **Tipo_suelo**: 0=Arcilloso, 1=Arenoso, 2=Franco

### Resultados:
- **Biomasa_Predicha**: Valor estimado en kg/ha
- **Categoria_Predicha**: Baja/Media/Alta
- **Confianza_Modelo**: Nivel de confianza

El sistema est√° completamente automatizado y listo para uso operativo.