In [1]:
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# SUGERENCIA: Considera dividir esta celda en múltiples celdas más pequeñas
# Código mejorado - 2025-08-11
def fix_detector_errores():
    """
    Fixes específicos para Detector_errores.ipynb
    """
    
    print("🔧 REPARANDO: Detector_errores.ipynb")
    print("="*50)
    
    # Fix para Data Validation
    data_validation_fix = '''
# ✅ IMPROVED: Data Validation con parse_dates
import pandas as pd
from pathlib import Path

def load_meteorological_data(file_path, parse_dates_cols=None):
    """
    Carga datos meteorológicos con validación automática
    
    Args:
        file_path: Ruta al archivo CSV
        parse_dates_cols: Lista de columnas de fecha a parsear
    """
    if parse_dates_cols is None:
        parse_dates_cols = ['fecha', 'datetime', 'timestamp']
    
    try:
        # Cargar con parse_dates automático
        df = pd.read_csv(
            file_path,
            parse_dates=parse_dates_cols,
            date_parser=pd.to_datetime,
            na_values=['', 'NULL', 'null', 'NaN', -999, -9999]
        )
        
        print(f"✅ Datos cargados: {len(df)} registros")
        print(f"📅 Rango temporal: {df[parse_dates_cols[0]].min()} a {df[parse_dates_cols[0]].max()}")
        
        return df
    except Exception as e:
        print(f"❌ Error cargando datos: {e}")
        return None
'''
    
    # Fix para ML Practices 
    ml_practices_fix = '''
# ✅ IMPROVED: ML Practices con random_state
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import joblib

def create_error_detection_model(X, y, random_state=42):
    """
    Crea modelo para detección de errores con mejores prácticas
    """
    # División con random_state para reproducibilidad
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.2, random_state=random_state, shuffle=True
    )
    
    # Modelo con random_state
    model = RandomForestRegressor(
        n_estimators=100,
        random_state=random_state,
        max_depth=10,
        min_samples_split=5
    )
    
    # Entrenamiento
    model.fit(X_train, y_train)
    
    # Predicciones
    y_pred = model.predict(X_test)
    
    # Métricas
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    print(f"📊 MSE: {mse:.4f}")
    print(f"📊 R² Score: {r2:.4f}")
    
    # Guardar modelo
    model_path = "modelo_detector_errores.pkl"
    joblib.dump(model, model_path)
    print(f"💾 Modelo guardado: {model_path}")
    
    return model, {'mse': mse, 'r2': r2}
'''
    
    # Fix para Visualization Practices
    visualization_fix = '''
# ✅ IMPROVED: Visualizations con títulos y labels
import matplotlib.pyplot as plt
import seaborn as sns

def plot_error_detection_results(y_true, y_pred, title="Detección de Errores"):
    """
    Visualiza resultados de detección de errores con labels apropiados
    """
    plt.figure(figsize=(12, 5))
    
    # Subplot 1: Predicho vs Real
    plt.subplot(1, 2, 1)
    plt.scatter(y_true, y_pred, alpha=0.6, color='blue', s=50)
    plt.plot([y_true.min(), y_true.max()], [y_true.min(), y_true.max()], 'r--', lw=2)
    plt.xlabel('Valores Reales', fontsize=12)
    plt.ylabel('Valores Predichos', fontsize=12) 
    plt.title(f'{title} - Predicho vs Real', fontsize=14, fontweight='bold')
    plt.grid(True, alpha=0.3)
    
    # Subplot 2: Residuos
    plt.subplot(1, 2, 2)
    residuos = y_true - y_pred
    plt.scatter(y_pred, residuos, alpha=0.6, color='red', s=50)
    plt.axhline(y=0, color='black', linestyle='--', alpha=0.7)
    plt.xlabel('Valores Predichos', fontsize=12)
    plt.ylabel('Residuos', fontsize=12)
    plt.title(f'{title} - Análisis de Residuos', fontsize=14, fontweight='bold')
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Estadísticas de residuos
    print(f"📊 ESTADÍSTICAS DE RESIDUOS:")
    print(f"   Media: {residuos.mean():.4f}")
    print(f"   Std: {residuos.std():.4f}")
    print(f"   Min: {residuos.min():.4f}")
    print(f"   Max: {residuos.max():.4f}")
'''
    
    print("📝 CÓDIGO MEJORADO GENERADO:")
    print("\n1️⃣ DATA VALIDATION:")
    print(data_validation_fix[:200] + "...")
    print("\n2️⃣ ML PRACTICES:")
    print(ml_practices_fix[:200] + "...")
    print("\n3️⃣ VISUALIZATION:")
    print(visualization_fix[:200] + "...")

fix_detector_errores()

🔧 REPARANDO: Detector_errores.ipynb
📝 CÓDIGO MEJORADO GENERADO:

1️⃣ DATA VALIDATION:

# ✅ IMPROVED: Data Validation con parse_dates
import pandas as pd
from pathlib import Path

def load_meteorological_data(file_path, parse_dates_cols=None):
    """
    Carga datos meteorológicos con ...

2️⃣ ML PRACTICES:

# ✅ IMPROVED: ML Practices con random_state
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean...

3️⃣ VISUALIZATION:

# ✅ IMPROVED: Visualizations con títulos y labels
import matplotlib.pyplot as plt
import seaborn as sns

def plot_error_detection_results(y_true, y_pred, title="Detección de Errores"):
    """
    Vi...
