<a href="https://colab.research.google.com/github/TatanPerez/Teoria_Aprendizaje_Maquina/blob/main/Parciales/1_Dashboard.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Modelos de Regresion**

**Elaborado por:** Wilmer Sebastian Perez C. wiperezc@unal.edu.co

**Universidad Nacional de Colombia - Sede Manizales**

**Mayo del 2025-I**

# **Conjunto de datos Ames Housing Dataset como ejemplo completo para un problema de regresión usando sci-kitlearn**

El siguiente ejemplo presenta las etapas básicas de un proyecto de analítica de datos en una tarea de regresión, orientadas a:

- Preproceso de atributos con campos vacios y tipo texto.
- Entrenamiento y selección de un modelo de regresión bajo una estrategia de validación cruzada.
- La utilización de diccionarios para la sintonización de hiperparámetros.
- Se ilustra también la creación de clases (objetos) propios compatibles con la clase pipeline de sci-kitlearn.

**Base de datos utilizada**: [Ames Housing - Kaggle](https://www.kaggle.com/datasets/shashanknecrothapa/ames-housing-dataset).

## **Instalación de librerías**

In [None]:
!pip install scikit-optimize
!pip install streamlit -q #instalación de librerías
!pip install pyngrok
!pip install optuna
!pip install streamlit pandas matplotlib seaborn scikit-learn pyngrok kagglehub
!pip install pyngrok streamlit --quiet

Collecting scikit-optimize
  Downloading scikit_optimize-0.10.2-py2.py3-none-any.whl.metadata (9.7 kB)
Collecting pyaml>=16.9 (from scikit-optimize)
  Downloading pyaml-25.1.0-py3-none-any.whl.metadata (12 kB)
Downloading scikit_optimize-0.10.2-py2.py3-none-any.whl (107 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m107.8/107.8 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyaml-25.1.0-py3-none-any.whl (26 kB)
Installing collected packages: pyaml, scikit-optimize
Successfully installed pyaml-25.1.0 scikit-optimize-0.10.2
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m591.2 kB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m23.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m27.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m79.1/79.1 kB[0m [

###Crear carpeta pages para trabajar Multiapp en Streamlit

In [None]:
!mkdir pages

## **Página principal**

In [None]:
%%writefile TAM.py
import streamlit as st
from pyngrok import ngrok
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import joblib
import shap
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import ElasticNet, SGDRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.metrics import mean_squared_error, r2_score
import optuna
from optuna.samplers import TPESampler
from scipy.stats import loguniform, uniform
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# -----------------------
# CONFIGURACIÓN INICIAL
# -----------------------
st.set_page_config(page_title="TAM - Modelos Regresión", page_icon="👋", layout="wide")
st.write("Parcial 1 TAM - Modelos de regresión")

# Sidebar con información del equipo
st.sidebar.title("Equipo del Proyecto")
st.sidebar.success("Seleccciona una modelo a explorar.")
st.markdown("""
### Conjunto de datos Ames Housing Dataset como ejemplo completo para un problema de regresión usando sci-kitlearn

El siguiente ejemplo presenta las etapas básicas de un proyecto de analítica de datos en una tarea de regresión, orientadas a:

- Preproceso de atributos con campos vacios y tipo texto.
- Entrenamiento y selección de un modelo de regresión bajo una estrategia de validación cruzada.
- La utilización de diccionarios para la sintonización de hiperparámetros.
- Se ilustra también la creación de clases (objetos) propios compatibles con la clase pipeline de sci-kitlearn.

**Base de datos utilizada**: [Ames Housing - Kaggle](https://www.kaggle.com/datasets/shashanknecrothapa/ames-housing-dataset).
""")


Writing TAM.py


## **Páginas**

### **Analisis De Datos**

In [None]:
%%writefile 1_📊_ANALISIS_EXPLORATORIO.py
import os
import streamlit as st
import time
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
from sklearn.preprocessing import StandardScaler

st.set_page_config(page_title="Analisis Exploratorio", page_icon="📊")

st.markdown("Analisis  Exploratorio")
st.sidebar.header("Analisis Exploratorio")

# ===============================
# 1. Cargar la base de datos
# ===============================
@st.cache_data
def load_data():
    path = kagglehub.dataset_download("shashanknecrothapa/ames-housing-dataset")
    csv_file_path = os.path.join(path, "AmesHousing.csv")
    return pd.read_csv(csv_file_path)

with st.spinner('Cargando datos...'):
    df = load_data()
    Xdata = df.copy()

# Mostrar opciones de visualización de datos
if st.checkbox('Mostrar datos crudos'):
    st.dataframe(Xdata.head())

# ===============================
# 2. Análisis Exploratorio
# ===============================
st.header("🔍 Análisis Exploratorio")

# Mostrar información básica
col1, col2 = st.columns(2)
with col1:
    st.metric("Número de filas", Xdata.shape[0])
    st.metric("Número de columnas", Xdata.shape[1])

with col2:
    st.write("Tipos de variables:")
    st.write(Xdata.dtypes.value_counts())

# Columnas numéricas y categóricas
num_cols = Xdata.select_dtypes(include=["int64", "float64"]).columns
cat_cols = Xdata.select_dtypes(include=["object"]).columns

# Valores nulos
st.subheader("Valores nulos")
missing_values = Xdata.isnull().sum()
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)
st.bar_chart(missing_values)

# ===============================
# 3. Análisis Descriptivo
# ===============================
st.header("📊 Análisis Descriptivo")

if st.checkbox('Mostrar estadísticas descriptivas'):
    desc_stats = Xdata[num_cols].describe().T
    st.dataframe(desc_stats)

# Correlación con el target
st.subheader("Correlación con SalePrice")
correlation_with_target = Xdata[num_cols].corr()["SalePrice"].sort_values(ascending=False)

col1, col2 = st.columns(2)
with col1:
    st.write("Correlación positiva más fuerte:")
    st.dataframe(correlation_with_target.head(10))

with col2:
    st.write("Correlación negativa más fuerte:")
    st.dataframe(correlation_with_target.tail(10))

# ===============================
# 4. Análisis Relacional (Correlación visual)
# ===============================
st.header("🔗 Análisis Relacional")

# Agregar slider en el sidebar para seleccionar el umbral de correlación
min_corr = st.sidebar.slider(
    "Umbral mínimo de correlación (|r|)",
    min_value=0.1,
    max_value=0.9,
    value=0.3,
    step=0.05,
    help="Seleccione el valor mínimo absoluto de correlación para incluir variables en el análisis"
)

if st.checkbox('Mostrar matriz de correlación'):
    # Usar el valor seleccionado en el slider
    strong_corr = Xdata[num_cols].corr()["SalePrice"].abs()
    strong_vars = strong_corr[strong_corr > min_corr].index

    # Verificar que hayamos seleccionado al menos 2 variables
    if len(strong_vars) < 2:
        st.warning(f"No hay suficientes variables con correlación |r| > {min_corr}. Reduzca el umbral.")
    else:
        filtered_corr = Xdata[strong_vars].corr()

        fig, ax = plt.subplots(figsize=(12, 10))
        sns.heatmap(filtered_corr, annot=True, cmap="coolwarm", fmt=".2f", square=True, ax=ax)
        ax.set_title(f"Matriz de Correlación (|r| > {min_corr}) con SalePrice")
        st.pyplot(fig)

        # Explicación del análisis
        st.subheader("🧠 ¿Qué hace este análisis?")

        explanation = f"""
        **Este análisis muestra las correlaciones entre variables con una relación significativa con SalePrice (|r| > {min_corr}):**

        - **Variables incluidas:** {len(strong_vars)} variables numéricas
        - **Umbral de correlación:** |r| > {min_corr}
        - **Interpretación de colores:**
          - 🔴 Rojo: Correlación positiva
          - 🔵 Azul: Correlación negativa
          - Color más intenso = Correlación más fuerte

        **Variables seleccionadas:** {', '.join(strong_vars)}
        """

        st.markdown(explanation)

        # Mostrar correlaciones individuales con SalePrice
        st.write("**Correlaciones individuales con SalePrice:**")
        corr_with_target = Xdata[strong_vars].corr()["SalePrice"].sort_values(ascending=False)
        st.dataframe(corr_with_target.to_frame("Correlación"))

        # Consejo sobre multicolinealidad
        st.info("""
        💡 **Consejo profesional:**
        Si dos variables predictoras tienen correlación > 0.8 entre sí, considere:
        - Eliminar una de ellas
        - Crear una nueva característica combinada
        - Usar técnicas de reducción de dimensionalidad como PCA
        """)

# ===============================
# 5. Análisis Visual de Relaciones Clave
# ===============================
st.header("📈 Análisis Visual")

important_features = st.multiselect(
    "Seleccione características para visualizar",
    options=num_cols.tolist(),
    default=["1st Flr SF", "Year Built", "Overall Qual"]
)

if important_features:
    plot_data = Xdata[important_features + ["SalePrice"]].copy()

    # Normalizar los datos
    scaler = StandardScaler()
    plot_data_normalized = pd.DataFrame(scaler.fit_transform(plot_data),
                                      columns=plot_data.columns,
                                      index=plot_data.index)

    for feature in important_features:
        st.subheader(f"Relación entre {feature} y SalePrice")

        col1, col2 = st.columns(2)

        with col1:
            fig, ax = plt.subplots()
            sns.scatterplot(data=plot_data, x=feature, y="SalePrice", ax=ax)
            ax.set_title(f"Original")
            st.pyplot(fig)

        with col2:
            fig, ax = plt.subplots()
            sns.scatterplot(data=plot_data_normalized, x=feature, y="SalePrice", ax=ax)
            ax.set_title(f"Normalizado")
            st.pyplot(fig)


# ===============================
# 6. Limpieza de datos
# ===============================
st.header("🧹 Limpieza de Datos")

if st.checkbox('Realizar limpieza de datos'):
    # Guardar el estado original para comparación
    original_shape = Xdata.shape
    original_columns = Xdata.columns.tolist()

    # Realizar limpieza
    Xdata = Xdata.sample(frac=0.20, random_state=42)
    cols_to_drop = ['Order', 'PID']
    Xdata.drop(columns=[col for col in cols_to_drop if col in Xdata.columns], inplace=True)

    high_null_cols = Xdata.columns[Xdata.isnull().mean() > 0.4].tolist()
    Xdata.drop(columns=high_null_cols, inplace=True)

    st.success("Limpieza completada!")

    # Mostrar comparación visual
    st.subheader("📊 Comparación Antes/Después de la Limpieza")

    col1, col2 = st.columns(2)

    with col1:
        st.markdown("**Antes de la limpieza**")
        st.metric("Número de filas", original_shape[0])
        st.metric("Número de columnas", original_shape[1])
        st.write("Ejemplo de datos:")
        st.dataframe(df.head(3))

    with col2:
        st.markdown("**Después de la limpieza**")
        st.metric("Número de filas", Xdata.shape[0], delta=f"{-((original_shape[0]-Xdata.shape[0])/original_shape[0]*100):.1f}%")
        st.metric("Número de columnas", Xdata.shape[1], delta=f"{-((original_shape[1]-Xdata.shape[1])/original_shape[1]*100):.1f}%")
        st.write("Ejemplo de datos limpios:")
        st.dataframe(Xdata.head(3))

    # Mostrar columnas eliminadas y conservadas
    st.subheader("🔍 Detalles de la Limpieza")

    dropped_columns = list(set(original_columns) - set(Xdata.columns))
    st.write(f"✅ Columnas conservadas: {len(Xdata.columns)}")
    st.write(f"❌ Columnas eliminadas: {len(dropped_columns)}")

    if dropped_columns:
        st.write("Columnas eliminadas:")
        st.write(dropped_columns)

    # Visualización de valores nulos después de la limpieza
    st.subheader("🔎 Valores Nulos Restantes")
    missing_after = Xdata.isnull().sum()
    missing_after = missing_after[missing_after > 0].sort_values(ascending=False)

    if not missing_after.empty:
        st.bar_chart(missing_after)
        st.write("Nota: Aún quedan algunas columnas con valores nulos que podrían necesitar tratamiento adicional.")
    else:
        st.success("¡No hay valores nulos restantes en el dataset!")

    # Mostrar estructura final del dataset
    st.subheader("🏁 Estructura Final del Dataset")
    st.write("Tipos de variables en el dataset limpio:")
    st.write(Xdata.dtypes.value_counts())


Writing 1_📊_ANALISIS_EXPLORATORIO.py


In [None]:
!mv 1_📊_ANALISIS_EXPLORATORIO.py pages/

### **Pre-Seleccion de modelos**

In [None]:
%%writefile 2_🔍_Preseleccion_de_modelo.py
import os
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_validate
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet, BayesianRidge, SGDRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
import kagglehub

st.set_page_config(page_title="Modelados Predictivos", page_icon="📊", layout="wide")
st.markdown("Modelos preditivos")
st.sidebar.header("Pre-seleccion de modelo")

# ===============================
# 1. Carga y Preparación de Datos
# ===============================
st.header("🏡 Carga y Preparación de Datos")

@st.cache_data
def load_and_prepare_data():
    with st.spinner('Descargando y preparando datos...'):
        path = kagglehub.dataset_download("shashanknecrothapa/ames-housing-dataset")
        csv_file_path = os.path.join(path, "AmesHousing.csv")
        Xdata = pd.read_csv(csv_file_path)

        # Limpieza de datos
        Xdata = Xdata.sample(frac=0.20, random_state=42)
        cols_to_drop = ['Order', 'PID']
        Xdata.drop(columns=[col for col in cols_to_drop if col in Xdata.columns], inplace=True)
        high_null_cols = Xdata.columns[Xdata.isnull().mean() > 0.4].tolist()
        Xdata.drop(columns=high_null_cols, inplace=True)

        return Xdata

Xdata = load_and_prepare_data()

# Mostrar datos
if st.checkbox('Mostrar datos preparados'):
    st.dataframe(Xdata.head())

# ===============================
# 2. Transformación de Variables
# ===============================
st.header("📐 Transformación de Variables")

col_sal = "SalePrice"

# Selector para visualizar transformación
transform_col = st.selectbox("Seleccione columna para visualizar transformación",
                            options=Xdata.select_dtypes(include=['int64', 'float64']).columns)

col1, col2 = st.columns(2)

with col1:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(Xdata[transform_col], kde=True)
    plt.title(f'Distribución Original de {transform_col}')
    st.pyplot(fig)

with col2:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(np.log1p(Xdata[transform_col]), kde=True)
    plt.title(f'Distribución con log1p de {transform_col}')
    st.pyplot(fig)

st.info("""
💡 **Transformación logarítmica (log1p):**
- Se aplica para manejar distribuciones sesgadas
- log1p = log(1 + x) evita problemas con valores cero
- Ayuda a cumplir supuestos de normalidad en modelos lineales
""")

# ===============================
# 3. División de Datos
# ===============================
st.header("✂️ División del Dataset")

test_size = st.slider("Porcentaje para test", 10, 40, 30, 5)

Xtrain, Xtest = train_test_split(Xdata, test_size=test_size/100, random_state=42)
ytrain = np.log1p(Xtrain[col_sal])
ytest = np.log1p(Xtest[col_sal])
Xtrain = Xtrain.drop(columns=col_sal)
Xtest = Xtest.drop(columns=col_sal)

st.success(f"""
División completada:
- Entrenamiento: {Xtrain.shape[0]} registros ({100-test_size}%)
- Prueba: {Xtest.shape[0]} registros ({test_size}%)
""")

# ===============================
# 4. Preprocesamiento
# ===============================
st.header("🔧 Pipeline de Preprocesamiento")

numeric_cols = Xtrain.select_dtypes(include=["int64", "float64"]).columns.tolist()
categorical_cols = Xtrain.select_dtypes(include=["object", "category"]).columns.tolist()

preprocessor = ColumnTransformer(transformers=[
    ('num', Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ]), numeric_cols),
    ('cat', Pipeline([
        ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
        ('encoder', OneHotEncoder(handle_unknown='ignore'))
    ]), categorical_cols)
])

with st.expander("Ver detalles de preprocesamiento"):
    st.write("**Columnas numéricas:**")
    st.write(numeric_cols)
    st.write("**Transformaciones:** Imputación con mediana + Estandarización")

    st.write("\n**Columnas categóricas:**")
    st.write(categorical_cols)
    st.write("**Transformaciones:** Imputación con 'missing' + One-Hot Encoding")

# ===============================
# 5. Selección de Modelos
# ===============================
st.header("🤖 Selección de Modelos")

# Configuración de modelos
models = {
    "LinearRegression": LinearRegression(),
    "Lasso": Lasso(alpha=0.1),
    "ElasticNet": ElasticNet(alpha=0.1, l1_ratio=0.5),
    "KernelRidge": KernelRidge(alpha=1.0),
    "SGDRegressor": SGDRegressor(max_iter=1000, tol=1e-3),
    "BayesianRidge": BayesianRidge(),
    "GaussianProcess": GaussianProcessRegressor(),
    "RandomForest": RandomForestRegressor(n_estimators=100, random_state=42),
    "SVR": SVR()
}

# Permitir selección de modelos
selected_models = st.multiselect(
    "Seleccione modelos a evaluar",
    options=list(models.keys()),
    default=["LinearRegression", "RandomForest", "Lasso"]
)

# Configuración de métricas
scoring = {
    'MAE': 'neg_mean_absolute_error',
    'MSE': 'neg_mean_squared_error',
    'R2': 'r2',
    'MAPE': 'neg_mean_absolute_percentage_error'
}

# ===============================
# 6. Evaluación de Modelos (Versión Mejorada)
# ===============================
if st.button("Evaluar Modelos"):
    st.header("📊 Resultados de Evaluación")

    progress_bar = st.progress(0)
    status_text = st.empty()

    # Estructura para almacenar resultados
    results = {
        'Modelo': [],
        'MAE_mean': [], 'MAE_std': [],
        'MSE_mean': [], 'MSE_std': [],
        'R2_mean': [], 'R2_std': [],
        'MAPE_mean': [], 'MAPE_std': []
    }

    for i, (name, regressor) in enumerate([(m, models[m]) for m in selected_models]):
        status_text.text(f"Evaluando {name}...")
        progress_bar.progress((i+1)/len(selected_models))

        model = Pipeline(steps=[
            ("preprocessing", preprocessor),
            ("regressor", regressor)
        ])

        cv_results = cross_validate(model, Xtrain, ytrain, cv=5, scoring=scoring)

        # Almacenar resultados con media y desviación estándar
        results['Modelo'].append(name)

        # MAE
        results['MAE_mean'].append(-cv_results['test_MAE'].mean())
        results['MAE_std'].append(cv_results['test_MAE'].std())

        # MSE
        results['MSE_mean'].append(-cv_results['test_MSE'].mean())
        results['MSE_std'].append(cv_results['test_MSE'].std())

        # R2
        results['R2_mean'].append(cv_results['test_R2'].mean())
        results['R2_std'].append(cv_results['test_R2'].std())

        # MAPE (convertido a porcentaje)
        results['MAPE_mean'].append(-cv_results['test_MAPE'].mean() * 100)
        results['MAPE_std'].append(cv_results['test_MAPE'].std() * 100)

    # Crear DataFrame con los resultados
    results_df = pd.DataFrame(results).set_index('Modelo')

    # Mostrar resultados en una tabla expandible
    with st.expander("📋 Resultados Detallados (Media ± Desviación Estándar)", expanded=True):
        # Crear representación de cadenas para media ± std
        display_df = pd.DataFrame(index=results_df.index)

        for metric in ['MAE', 'MSE', 'R2', 'MAPE']:
            display_df[metric] = results_df.apply(
                lambda x: f"{x[f'{metric}_mean']:.4f} ± {x[f'{metric}_std']:.4f}",
                axis=1
            )
            # Formato especial para MAPE (porcentaje)
            if metric == 'MAPE':
                display_df[metric] = results_df.apply(
                    lambda x: f"{x[f'{metric}_mean']:.2f}% ± {x[f'{metric}_std']:.2f}%",
                    axis=1
                )

        st.dataframe(display_df.style.background_gradient(cmap='Blues', axis=0))

    # Visualización de resultados con intervalos de confianza
    st.subheader("📈 Comparación Visual con Variabilidad")

    metric_to_plot = st.selectbox("Seleccione métrica para visualizar",
                                options=['MAE', 'MSE', 'R2', 'MAPE'])

    fig, ax = plt.subplots(figsize=(10, 6))

    # Ordenar modelos por la métrica seleccionada
    sorted_models = results_df[f'{metric_to_plot}_mean'].sort_values().index

    # Crear gráfico de barras con barras de error
    y_pos = range(len(sorted_models))
    means = results_df.loc[sorted_models, f'{metric_to_plot}_mean']
    stds = results_df.loc[sorted_models, f'{metric_to_plot}_std']

    bars = ax.barh(y_pos, means, xerr=stds, align='center', alpha=0.7, capsize=5)
    ax.set_yticks(y_pos)
    ax.set_yticklabels(sorted_models)
    ax.invert_yaxis()  # Mejor modelo en la parte superior

    if metric_to_plot == 'MAPE':
        ax.set_xlabel(f"{metric_to_plot} (%)")
    else:
        ax.set_xlabel(metric_to_plot)

    ax.set_title(f"Comparación de {metric_to_plot} entre Modelos\n(con desviación estándar)")

    # Añadir valores numéricos a las barras
    for bar, mean, std in zip(bars, means, stds):
        if metric_to_plot == 'MAPE':
            ax.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2,
                   f'{mean:.2f} ± {std:.2f}',
                   va='center', ha='left')
        else:
            ax.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2,
                   f'{mean:.4f} ± {std:.4f}',
                   va='center', ha='left')

    st.pyplot(fig)

    # Análisis de estabilidad de modelos
    st.subheader("🔍 Análisis de Estabilidad de Modelos")

    # Calcular coeficiente de variación para cada modelo (std/mean)
    stability_df = pd.DataFrame(index=results_df.index)
    for metric in ['MAE', 'MSE', 'R2', 'MAPE']:
        stability_df[f'CV_{metric}'] = results_df[f'{metric}_std'] / results_df[f'{metric}_mean']

    # Identificar modelos más estables (menor variabilidad relativa)
    st.write("**Coeficiente de Variación (CV = σ/μ) - Menor es mejor:**")
    st.dataframe(stability_df.style.background_gradient(cmap='Greens_r', axis=0))

    st.info("""
    **Interpretación:**
    - La desviación estándar muestra cuánto varían los resultados entre los folds de validación cruzada
    - Un modelo con baja desviación estándar es más consistente
    - El coeficiente de variación (CV) normaliza la variabilidad respecto a la media
    """)

    # Recomendación del mejor modelo considerando media y variabilidad
    best_model_mean = results_df['R2_mean'].idxmax()
    best_model_stable = stability_df['CV_R2'].idxmin()

    if best_model_mean == best_model_stable:
        st.success(f"🎯 **Mejor modelo:** {best_model_mean} (Mayor R²: {results_df.loc[best_model_mean, 'R2_mean']:.4f} y menor variabilidad)")
    else:
        st.success(f"""
        🎯 **Recomendaciones:**
        - **Mejor rendimiento:** {best_model_mean} (R² = {results_df.loc[best_model_mean, 'R2_mean']:.4f})
        - **Más estable:** {best_model_stable} (CV = {stability_df.loc[best_model_stable, 'CV_R2']:.4f})
        """)

Writing 2_🔍_Preseleccion_de_modelo.py


In [None]:
!mv 2_🔍_Preseleccion_de_modelo.py pages/

### **1. 🔗 Elastic Net: Función de optimización**

El modelo **Elastic Net** busca minimizar la siguiente función objetivo:

$$
\min_{\beta} \; \frac{1}{2n} \| y - X\beta \|_2^2 + \lambda \left( \alpha \|\beta\|_1 + \frac{1 - \alpha}{2} \|\beta\|_2^2 \right)
$$

**Donde:**
- $X \in \mathbb{R}^{n \times p} \$ : matriz de características (n muestras, p variables).


- $y \in \mathbb{R}^{n} \$  : vector de salida.


- $\beta \in \mathbb{R}^{p} \$  : vector de coeficientes a estimar.


- $ \lambda \geq 0 \$  : parámetro de regularización total.


- $ \alpha \in [0, 1] \$  : coeficiente de mezcla entre L1 y L2.


**Interpretación:**

- Si $\alpha=1$, Elastic Net es equivalente a **Lasso**.

- Si $ \alpha = 0 \$, es equivalente a **Ridge**.

- Si $ \alpha \in (0, 1) $, se obtiene una combinación convexa de ambos métodos.



In [None]:
%%writefile 3_ElasticNet.py
import os
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from scipy.stats import loguniform, uniform
import optuna
from optuna.samplers import TPESampler
from optuna.visualization import plot_optimization_history, plot_param_importances, plot_contour

st.set_page_config(page_title="Optimización de Hiperparámetros", page_icon="⚙️", layout="wide")

# ===============================
# 1. Carga y Preparación de Datos
# ===============================
@st.cache_data
def load_and_prepare_data():
    with st.spinner('Descargando y preparando datos...'):
        path = kagglehub.dataset_download("shashanknecrothapa/ames-housing-dataset")
        csv_file_path = os.path.join(path, "AmesHousing.csv")
        Xdata = pd.read_csv(csv_file_path)

        # Limpieza de datos
        Xdata = Xdata.sample(frac=0.20, random_state=42)
        cols_to_drop = ['Order', 'PID']
        Xdata.drop(columns=[col for col in cols_to_drop if col in Xdata.columns], inplace=True)
        high_null_cols = Xdata.columns[Xdata.isnull().mean() > 0.4].tolist()
        Xdata.drop(columns=high_null_cols, inplace=True)

        return Xdata

Xdata = load_and_prepare_data()

# ===============================
# 2. Transformación de Variables
# ===============================
st.header("📐 Transformación de Variables")

col_sal = "SalePrice"

# Selector para visualizar transformación
transform_col = st.selectbox("Seleccione columna para visualizar transformación",
                            options=Xdata.select_dtypes(include=['int64', 'float64']).columns)

col1, col2 = st.columns(2)

with col1:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(Xdata[transform_col], kde=True)
    plt.title(f'Distribución Original de {transform_col}')
    st.pyplot(fig)

with col2:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(np.log1p(Xdata[transform_col]), kde=True)
    plt.title(f'Distribución con log1p de {transform_col}')
    st.pyplot(fig)

st.info("""
💡 **Transformación logarítmica (log1p):**
- Se aplica para manejar distribuciones sesgadas
- log1p = log(1 + x) evita problemas con valores cero
- Ayuda a cumplir supuestos de normalidad en modelos lineales
""")

# ===============================
# 3. División de Datos
# ===============================
st.header("✂️ División del Dataset")

test_size = st.slider("Porcentaje para test", 10, 40, 30, 5)

Xtrain, Xtest = train_test_split(Xdata, test_size=test_size/100, random_state=42)
ytrain = np.log1p(Xtrain[col_sal])
ytest = np.log1p(Xtest[col_sal])
Xtrain = Xtrain.drop(columns=col_sal)
Xtest = Xtest.drop(columns=col_sal)

st.success(f"""
División completada:
- Entrenamiento: {Xtrain.shape[0]} registros ({100-test_size}%)
- Prueba: {Xtest.shape[0]} registros ({test_size}%)
""")

# ===============================
# 4. Preprocesamiento
# ===============================
st.header("🔧 Pipeline de Preprocesamiento")

numeric_cols = Xtrain.select_dtypes(include=["int64", "float64"]).columns.tolist()
categorical_cols = Xtrain.select_dtypes(include=["object", "category"]).columns.tolist()

preprocessor = ColumnTransformer(transformers=[
    ('num', Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ]), numeric_cols),
    ('cat', Pipeline([
        ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
        ('encoder', OneHotEncoder(handle_unknown='ignore'))
    ]), categorical_cols)
])

with st.expander("Ver detalles de preprocesamiento"):
    st.write("**Columnas numéricas:**")
    st.write(numeric_cols)
    st.write("**Transformaciones:** Imputación con mediana + Estandarización")

    st.write("\n**Columnas categóricas:**")
    st.write(categorical_cols)
    st.write("**Transformaciones:** Imputación con 'missing' + One-Hot Encoding")

# ===============================
# 5. Optimización de Hiperparámetros
# ===============================
st.header("⚙️ Optimización de Hiperparámetros - ElasticNet")

# Configuración común
cv = st.sidebar.slider("Número de folds para CV", 3, 10, 3)
random_state = st.sidebar.number_input("Random state", 42)
scoring = 'neg_mean_squared_error'

# Configuración de parámetros
col1, col2 = st.columns(2)
with col1:
    st.subheader("Grid Search")
    alpha_min = st.number_input("Alpha mínimo (log)", -4, 2, -4)
    alpha_max = st.number_input("Alpha máximo (log)", -4, 2, 2)
    alpha_points = st.slider("Puntos para alpha", 5, 20, 10)

with col2:
    st.subheader("Random Search")
    n_iter = st.slider("Número de iteraciones", 10, 100, 20)
    bayesian_trials = st.slider("Número de trials Bayesianos", 10, 100, 20)

if st.button("Ejecutar Optimización"):
    progress_bar = st.progress(0)
    status_text = st.empty()

    # Preparar parámetros
    param_grid = {
        'regressor__alpha': np.logspace(alpha_min, alpha_max, alpha_points),
        'regressor__l1_ratio': np.linspace(0, 1, 10)
    }

    param_dist = {
        'regressor__alpha': loguniform(1e-4, 1e2),
        'regressor__l1_ratio': uniform(0, 1)
    }

    # 1. Grid Search
    status_text.text("Ejecutando Grid Search...")
    grid_search = GridSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', ElasticNet())]),
        param_grid, scoring=scoring, cv=cv
    )
    grid_search.fit(Xtrain, ytrain)
    grid_results = [
        (params['regressor__alpha'], params['regressor__l1_ratio'], -score)
        for params, score in zip(grid_search.cv_results_['params'],
                               grid_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(33)

    # 2. Random Search
    status_text.text("Ejecutando Random Search...")
    random_search = RandomizedSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', ElasticNet())]),
        param_dist, n_iter=n_iter, scoring=scoring, cv=cv, random_state=random_state
    )
    random_search.fit(Xtrain, ytrain)
    random_results = [
        (params['regressor__alpha'], params['regressor__l1_ratio'], -score)
        for params, score in zip(random_search.cv_results_['params'],
                               random_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(66)

    # 3. Bayesian Optimization
    status_text.text("Ejecutando Bayesian Optimization...")

    def objective_elasticnet(trial):
        alpha = trial.suggest_float('alpha', 1e-4, 1e2, log=True)
        l1_ratio = trial.suggest_float('l1_ratio', 0, 1)
        model = Pipeline(steps=[
            ('preprocessing', preprocessor),
            ('regressor', ElasticNet(alpha=alpha, l1_ratio=l1_ratio))
        ])
        try:
            return -cross_val_score(model, Xtrain, ytrain, scoring=scoring, cv=cv).mean()
        except:
            return float('inf')

    study_elasticnet = optuna.create_study(direction='minimize', sampler=TPESampler())
    study_elasticnet.optimize(objective_elasticnet, n_trials=bayesian_trials)
    progress_bar.progress(100)

    # Almacenar resultados
    best_params = {
        'GridSearch': grid_search.best_params_,
        'RandomSearch': random_search.best_params_,
        'Bayesian': study_elasticnet.best_params
    }

    # ===============================
    # 6. Visualización de Resultados
    # ===============================
    st.success("Optimización completada!")

    # Mostrar mejores parámetros
    st.subheader("🏆 Mejores Parámetros Encontrados")
    cols = st.columns(3)
    with cols[0]:
        st.metric("Grid Search - Alpha", best_params['GridSearch']['regressor__alpha'])
        st.metric("Grid Search - L1 Ratio", best_params['GridSearch']['regressor__l1_ratio'])
    with cols[1]:
        st.metric("Random Search - Alpha", best_params['RandomSearch']['regressor__alpha'])
        st.metric("Random Search - L1 Ratio", best_params['RandomSearch']['regressor__l1_ratio'])
    with cols[2]:
        st.metric("Bayesian - Alpha", best_params['Bayesian']['alpha'])
        st.metric("Bayesian - L1 Ratio", best_params['Bayesian']['l1_ratio'])

    # Gráficos de comparación
    st.subheader("📊 Comparación de Métodos de Optimización")

    tab1, tab2, tab3 = st.tabs(["Grid Search", "Random Search", "Bayesian Optimization"])

    with tab1:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in grid_results]
        y_values = [r[1] for r in grid_results]
        scores = [r[2] for r in grid_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_ylabel('l1_ratio')
        ax.set_title('Grid Search - ElasticNet')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-grid_search.best_score_:.4f}")

    with tab2:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in random_results]
        y_values = [r[1] for r in random_results]
        scores = [r[2] for r in random_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_ylabel('l1_ratio')
        ax.set_title('Random Search - ElasticNet')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-random_search.best_score_:.4f}")

    with tab3:
        st.plotly_chart(plot_optimization_history(study_elasticnet))
        st.plotly_chart(plot_param_importances(study_elasticnet))
        st.plotly_chart(plot_contour(study_elasticnet, params=["alpha", "l1_ratio"]))
        st.write(f"Mejor MSE: {study_elasticnet.best_value:.4f}")

    # Análisis comparativo
    st.subheader("🔍 Análisis Comparativo Interactivo")

    # Crear un diccionario con todas las métricas disponibles
    metrics_data = {
        'MAE': {
            'GridSearch': mean_absolute_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_absolute_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_absolute_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', ElasticNet(**study_elasticnet.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MSE': {
            'GridSearch': mean_squared_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_squared_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_squared_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', ElasticNet(**study_elasticnet.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'R2': {
            'GridSearch': r2_score(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': r2_score(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': r2_score(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', ElasticNet(**study_elasticnet.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MAPE': {
            'GridSearch': mean_absolute_percentage_error(ytrain, grid_search.best_estimator_.predict(Xtrain)) * 100,
            'RandomSearch': mean_absolute_percentage_error(ytrain, random_search.best_estimator_.predict(Xtrain)) * 100,
            'Bayesian': mean_absolute_percentage_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', ElasticNet(**study_elasticnet.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain)) * 100
        }
    }

    # Selector de métrica
    selected_metric = st.selectbox(
        "Seleccione la métrica a visualizar:",
        options=['MAE', 'MSE', 'R2', 'MAPE'],
        index=1  # MSE por defecto
    )

    # Configuración de visualización según la métrica
    if selected_metric == 'MAPE':
        ylabel = 'MAPE (%)'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.2f%'
        ascending = True
    elif selected_metric == 'R2':
        ylabel = 'R²'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = False
    else:
        ylabel = selected_metric
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = True

    # Ordenar métodos según el rendimiento
    methods = pd.DataFrame({
        'Method': ['GridSearch', 'RandomSearch', 'Bayesian'],
        'Value': [metrics_data[selected_metric]['GridSearch'],
                metrics_data[selected_metric]['RandomSearch'],
                metrics_data[selected_metric]['Bayesian']]
    }).sort_values('Value', ascending=ascending)

    # Crear la figura
    fig, ax = plt.subplots(figsize=(10, 6))
    colors = ['skyblue', 'lightgreen', 'salmon']
    bars = ax.bar(methods['Method'], methods['Value'], color=colors)

    # Configurar el gráfico
    ax.set_ylabel(ylabel)
    ax.set_title(title)
    ax.grid(True, axis='y', linestyle='--', alpha=0.7)

    # Añadir los valores a las barras
    for bar in bars:
        height = bar.get_height()
        if selected_metric == 'MAPE':
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:.2f}%',
                    ha='center', va='bottom', fontsize=10)
        else:
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:{fmt}}',
                    ha='center', va='bottom', fontsize=10)

    # Rotar etiquetas del eje x para mejor legibilidad
    plt.xticks(rotation=45)
    plt.tight_layout()

    # Mostrar el gráfico en Streamlit
    st.pyplot(fig)

    # Mostrar tabla con todas las métricas
    st.subheader("📊 Resumen de Métricas")
    metrics_df = pd.DataFrame(metrics_data)
    metrics_df['MAPE'] = metrics_df['MAPE'].map('{:.2f}%'.format)
    metrics_df['MAE'] = metrics_df['MAE'].map('{:.4f}'.format)
    metrics_df['MSE'] = metrics_df['MSE'].map('{:.4f}'.format)
    metrics_df['R2'] = metrics_df['R2'].map('{:.4f}'.format)
    st.dataframe(metrics_df.style.background_gradient(cmap='Blues', axis=0))

    # Mostrar recomendación basada en la métrica seleccionada
    best_method = methods.iloc[0]['Method']
    best_value = methods.iloc[0]['Value']

    if selected_metric == 'MAPE':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.2f}%)")
    elif selected_metric == 'R2':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")
    else:
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")

# ===============================
# 7. Información Adicional
# ===============================
with st.expander("ℹ️ Instrucciones de Uso", expanded=True):
    st.write("""
    1. Configura los parámetros de búsqueda en el panel lateral
    2. Haz clic en "Ejecutar Optimización"
    3. Explora los resultados en las diferentes pestañas
    4. Compara el rendimiento de los diferentes métodos

    **Tipos de Búsqueda:**
    - **Grid Search:** Búsqueda exhaustiva en una grilla definida
    - **Random Search:** Muestreo aleatorio del espacio de parámetros
    - **Bayesian Optimization:** Optimización inteligente basada en modelos
    """)

# ===============================
# 8. Evaluación del Modelo en Test
# ===============================
st.header("📊 Evaluación del Modelo ElasticNet en Datos de Test")

# Seleccionar el mejor modelo (usaremos el de Bayesian Optimization por defecto)
best_params = study_elasticnet.best_params
final_model = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('regressor', ElasticNet(**best_params))
])
final_model.fit(Xtrain, ytrain)

# Predecir en test
ypred = final_model.predict(Xtest)

# Calcular métricas
test_mae = mean_absolute_error(ytest, ypred)
test_mse = mean_squared_error(ytest, ypred)
test_r2 = r2_score(ytest, ypred)
test_mape = mean_absolute_percentage_error(ytest, ypred) * 100

# Mostrar métricas
col1, col2, col3, col4 = st.columns(4)
with col1:
    st.metric("MAE (Test)", f"{test_mae:.4f}")
with col2:
    st.metric("MSE (Test)", f"{test_mse:.4f}")
with col3:
    st.metric("R² (Test)", f"{test_r2:.4f}")
with col4:
    st.metric("MAPE (Test)", f"{test_mape:.2f}%")

# Gráficos de evaluación
st.subheader("🔍 Gráficos de Evaluación")

tab1, tab2, tab3, tab4 = st.tabs(["Predicciones vs Reales", "Residuos", "Distribución de Errores", "Importancia de Variables"])

with tab1:
    # Gráfico de predicciones vs valores reales
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ytest, ypred, alpha=0.5)
    ax.plot([ytest.min(), ytest.max()], [ytest.min(), ytest.max()], 'k--', lw=2)
    ax.set_xlabel('Valores Reales (log1p)')
    ax.set_ylabel('Predicciones (log1p)')
    ax.set_title('Predicciones vs Valores Reales (ElasticNet)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Los puntos deberían estar cerca de la línea diagonal
    - Dispersión simétrica indica buen ajuste
    - ElasticNet tiende a ser más conservador que KernelRidge en sus predicciones
    """)

with tab2:
    # Gráfico de residuos
    residuals = ytest - ypred
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ypred, residuals, alpha=0.5)
    ax.axhline(y=0, color='r', linestyle='--')
    ax.set_xlabel('Predicciones (log1p)')
    ax.set_ylabel('Residuos')
    ax.set_title('Gráfico de Residuos (ElasticNet)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Residuos aleatorios alrededor de cero son deseables
    - ElasticNet suele mostrar residuos más homogéneos que otros modelos
    - Patrones no aleatorios pueden indicar relaciones no capturadas
    """)

with tab3:
    # Distribución de errores
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.histplot(residuals, kde=True, ax=ax)
    ax.set_xlabel('Error de Predicción')
    ax.set_title('Distribución de Errores (ElasticNet)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Distribución centrada en cero indica predicciones no sesgadas
    - La regularización L1+L2 de ElasticNet suele producir distribuciones más compactas
    - Colas pesadas pueden indicar valores atípicos problemáticos
    """)

with tab4:
    # Importancia de variables (solo para ElasticNet)
    try:
        # Obtener los coeficientes del modelo
        feature_names = numeric_cols + list(final_model.named_steps['preprocessing'].named_transformers_['cat'].named_steps['encoder'].get_feature_names_out(categorical_cols))
        coefficients = final_model.named_steps['regressor'].coef_

        # Crear DataFrame con coeficientes
        coef_df = pd.DataFrame({
            'Variable': feature_names,
            'Coeficiente': coefficients
        }).sort_values('Coeficiente', key=abs, ascending=False).head(20)

        # Gráfico de importancia
        fig, ax = plt.subplots(figsize=(10, 8))
        sns.barplot(data=coef_df, x='Coeficiente', y='Variable', ax=ax)
        ax.set_title('Top 20 Variables Más Importantes (ElasticNet)')
        st.pyplot(fig)

        st.write("""
        **Interpretación:**
        - Muestra las variables con mayor impacto en las predicciones
        - ElasticNet realiza selección de variables (algunos coeficientes son exactamente cero)
        - Coeficientes positivos aumentan el precio predicho, negativos lo disminuyen
        """)
    except Exception as e:
        st.warning(f"No se pudo generar el gráfico de importancia de variables: {str(e)}")

# Gráfico de valores reales vs predichos en escala original
st.subheader("💰 Predicciones en Escala Original (USD)")

# Convertir a escala original
ytest_orig = np.expm1(ytest)
ypred_orig = np.expm1(ypred)

fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(ytest_orig, ypred_orig, alpha=0.5)
ax.plot([ytest_orig.min(), ytest_orig.max()], [ytest_orig.min(), ytest_orig.max()], 'k--', lw=2)
ax.set_xlabel('Valores Reales (USD)')
ax.set_ylabel('Predicciones (USD)')
ax.set_title('Predicciones vs Valores Reales - Escala Original (ElasticNet)')
st.pyplot(fig)

# Calcular métricas en escala original
mae_orig = mean_absolute_error(ytest_orig, ypred_orig)
mape_orig = mean_absolute_percentage_error(ytest_orig, ypred_orig) * 100

col1, col2 = st.columns(2)
with col1:
    st.metric("MAE (USD)", f"${mae_orig:,.2f}")
with col2:
    st.metric("MAPE (USD)", f"{mape_orig:.2f}%")

# Análisis de errores por rango de precio
st.subheader("📈 Análisis de Errores por Rango de Precio")

# Crear categorías de precios
price_bins = pd.qcut(ytest_orig, q=5, duplicates='drop')
error_analysis = pd.DataFrame({
    'Precio Real': ytest_orig,
    'Error Absoluto': np.abs(ytest_orig - ypred_orig),
    'Rango Precio': price_bins
})

# Calcular métricas por rango
error_by_price = error_analysis.groupby('Rango Precio').agg({
    'Precio Real': 'mean',
    'Error Absoluto': ['mean', 'median', 'std']
}).reset_index()

error_by_price.columns = ['Rango Precio', 'Precio Promedio', 'MAE', 'Error Mediano', 'Desviación Error']

# Gráfico de MAE por rango de precio
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(data=error_by_price, x='Rango Precio', y='MAE', ax=ax)
ax.set_title('Error Absoluto Medio por Rango de Precio (ElasticNet)')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)
ax.set_ylabel('MAE (USD)')
ax.set_xlabel('Rango de Precio')
st.pyplot(fig)

st.write("""
**Interpretación:**
- ElasticNet suele tener un rendimiento más consistente en diferentes rangos de precio
- Los errores pueden aumentar en los extremos (propiedades muy baratas o muy caras)
- Puede sugerir la necesidad de ajustar los parámetros de regularización para ciertos rangos
""")

# Mostrar tabla de análisis
st.dataframe(error_by_price.style.background_gradient(subset=['MAE'], cmap='Reds'))

# Comparación con modelo naive (promedio)
st.subheader("🤔 Comparación con Modelo Naive (Promedio)")

naive_pred = np.full_like(ytest, ytrain.mean())
naive_mae = mean_absolute_error(ytest, naive_pred)
improvement = (naive_mae - test_mae) / naive_mae * 100

st.metric("Mejora sobre modelo naive", f"{improvement:.2f}%",
          delta=f"MAE naive: {naive_mae:.4f}, MAE ElasticNet: {test_mae:.4f}")

st.write("""
**Interpretación:**
- Muestra cuánto mejor es el modelo ElasticNet respecto a simplemente predecir el promedio
- Una mejora positiva indica que el modelo está aprendiendo patrones útiles
- ElasticNet suele superar significativamente al modelo naive en problemas de precios de viviendas
""")

Writing 3_ElasticNet.py


In [None]:
!mv 3_ElasticNet.py pages/

### **2. 📘 Kernel Ridge Regression: Función de optimización**

El modelo **Kernel Ridge Regression** extiende Ridge Regression utilizando **funciones núcleo** (kernels) para permitir la regresión en espacios de alta dimensión de características implícitas.

Minimiza la siguiente función objetivo:

$$
\min_{\alpha} \; \| y - K \alpha \|_2^2 + \lambda \alpha^\top K \alpha
$$

**Donde:**

- \$ y \in \mathbb{R}^n \$: vector de salidas (valores observados).
- \$K \in \mathbb{R}^{n \times n} \$: matriz de kernel, donde \$K_{ij} = k(x_i, x_j) \$
- \$ \alpha \in \mathbb{R}^n \$: coeficientes duales a estimar.
- \$ \lambda > 0 \$: parámetro de regularización.

---

### 💡 Formulación dual

El vector solución se obtiene como:

$$
\hat{\alpha} = (K + \lambda I)^{-1} y
$$

y la predicción para un nuevo punto \( x \) es:

$$
\hat{y}(x) = \sum_{i=1}^n \alpha_i \, k(x_i, x)
$$

---

### 🧠 Interpretación

- Si \$ k(x_i, x_j) = x_i^\top x_j \$, el modelo se reduce a Ridge Regression clásico.
- Permite ajustar relaciones no lineales mediante kernels como:
  - **Lineal**: \$ k(x, x') = x^\top x' \$
  - **Polinomial**: \$ k(x, x') = (x^\top x' + c)^d \$
  - **RBF (Gaussiano)**: \$ k(x, x') = \exp\left(-\frac{\|x - x'\|^2}{2\sigma^2}\right) \$

---

### ✅ Ventajas

- Combina la robustez de Ridge con el poder representativo de los kernels.
- No necesita transformar explícitamente los datos al espacio de características.


In [None]:
%%writefile 4_KernelRidge.py
import os
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.kernel_ridge import KernelRidge
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from scipy.stats import loguniform, uniform
import optuna
from optuna.samplers import TPESampler
from optuna.visualization import plot_optimization_history, plot_param_importances, plot_contour

st.set_page_config(page_title="Optimización de Hiperparámetros", page_icon="⚙️", layout="wide")

# ===============================
# 1. Carga y Preparación de Datos
# ===============================
@st.cache_data
def load_and_prepare_data():
    with st.spinner('Descargando y preparando datos...'):
        path = kagglehub.dataset_download("shashanknecrothapa/ames-housing-dataset")
        csv_file_path = os.path.join(path, "AmesHousing.csv")
        Xdata = pd.read_csv(csv_file_path)

        # Limpieza de datos
        Xdata = Xdata.sample(frac=0.20, random_state=42)
        cols_to_drop = ['Order', 'PID']
        Xdata.drop(columns=[col for col in cols_to_drop if col in Xdata.columns], inplace=True)
        high_null_cols = Xdata.columns[Xdata.isnull().mean() > 0.4].tolist()
        Xdata.drop(columns=high_null_cols, inplace=True)

        return Xdata

Xdata = load_and_prepare_data()

# ===============================
# 2. Transformación de Variables
# ===============================
st.header("📐 Transformación de Variables")

col_sal = "SalePrice"

# Selector para visualizar transformación
transform_col = st.selectbox("Seleccione columna para visualizar transformación",
                            options=Xdata.select_dtypes(include=['int64', 'float64']).columns)

col1, col2 = st.columns(2)

with col1:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(Xdata[transform_col], kde=True)
    plt.title(f'Distribución Original de {transform_col}')
    st.pyplot(fig)

with col2:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(np.log1p(Xdata[transform_col]), kde=True)
    plt.title(f'Distribución con log1p de {transform_col}')
    st.pyplot(fig)

st.info("""
💡 **Transformación logarítmica (log1p):**
- Se aplica para manejar distribuciones sesgadas
- log1p = log(1 + x) evita problemas con valores cero
- Ayuda a cumplir supuestos de normalidad en modelos lineales
""")

# ===============================
# 3. División de Datos
# ===============================
st.header("✂️ División del Dataset")

test_size = st.slider("Porcentaje para test", 10, 40, 30, 5)

Xtrain, Xtest = train_test_split(Xdata, test_size=test_size/100, random_state=42)
ytrain = np.log1p(Xtrain[col_sal])
ytest = np.log1p(Xtest[col_sal])
Xtrain = Xtrain.drop(columns=col_sal)
Xtest = Xtest.drop(columns=col_sal)

st.success(f"""
División completada:
- Entrenamiento: {Xtrain.shape[0]} registros ({100-test_size}%)
- Prueba: {Xtest.shape[0]} registros ({test_size}%)
""")

# ===============================
# 4. Preprocesamiento
# ===============================
st.header("🔧 Pipeline de Preprocesamiento")

numeric_cols = Xtrain.select_dtypes(include=["int64", "float64"]).columns.tolist()
categorical_cols = Xtrain.select_dtypes(include=["object", "category"]).columns.tolist()

preprocessor = ColumnTransformer(transformers=[
    ('num', Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ]), numeric_cols),
    ('cat', Pipeline([
        ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
        ('encoder', OneHotEncoder(handle_unknown='ignore'))
    ]), categorical_cols)
])

with st.expander("Ver detalles de preprocesamiento"):
    st.write("**Columnas numéricas:**")
    st.write(numeric_cols)
    st.write("**Transformaciones:** Imputación con mediana + Estandarización")

    st.write("\n**Columnas categóricas:**")
    st.write(categorical_cols)
    st.write("**Transformaciones:** Imputación con 'missing' + One-Hot Encoding")

# ===============================
# 5. Optimización de Hiperparámetros (KernelRidge)
# ===============================
st.header("⚙️ Optimización de Hiperparámetros - KernelRidge")

# Configuración común
cv = st.sidebar.slider("Número de folds para CV", 3, 10, 3)
random_state = st.sidebar.number_input("Random state", 42)
scoring = 'neg_mean_squared_error'

# Configuración de parámetros
col1, col2 = st.columns(2)
with col1:
    st.subheader("Grid Search")
    alpha_min = st.number_input("Alpha mínimo (log)", -4, 2, -4)
    alpha_max = st.number_input("Alpha máximo (log)", -4, 2, 2)
    alpha_points = st.slider("Puntos para alpha", 5, 20, 10)
    gamma_min = st.number_input("Gamma mínimo (log)", -4, 2, -4)
    gamma_max = st.number_input("Gamma máximo (log)", -4, 2, 2)
    gamma_points = st.slider("Puntos para gamma", 5, 20, 10)

with col2:
    st.subheader("Random Search")
    n_iter = st.slider("Número de iteraciones", 10, 100, 20)
    bayesian_trials = st.slider("Número de trials Bayesianos", 10, 100, 20)

if st.button("Ejecutar Optimización"):
    progress_bar = st.progress(0)
    status_text = st.empty()

    # Preparar parámetros
    param_grid = {
        'regressor__alpha': np.logspace(alpha_min, alpha_max, alpha_points),
        'regressor__gamma': np.logspace(gamma_min, gamma_max, gamma_points)
    }

    param_dist = {
        'regressor__alpha': loguniform(1e-4, 1e2),
        'regressor__gamma': loguniform(1e-4, 1e2)
    }

    # 1. Grid Search
    status_text.text("Ejecutando Grid Search...")
    grid_search = GridSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', KernelRidge())]),
        param_grid, scoring=scoring, cv=cv
    )
    grid_search.fit(Xtrain, ytrain)
    grid_results = [
        (params['regressor__alpha'], params['regressor__gamma'], -score)
        for params, score in zip(grid_search.cv_results_['params'],
                               grid_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(33)

    # 2. Random Search
    status_text.text("Ejecutando Random Search...")
    random_search = RandomizedSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', KernelRidge())]),
        param_dist, n_iter=n_iter, scoring=scoring, cv=cv, random_state=random_state
    )
    random_search.fit(Xtrain, ytrain)
    random_results = [
        (params['regressor__alpha'], params['regressor__gamma'], -score)
        for params, score in zip(random_search.cv_results_['params'],
                               random_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(66)

    # 3. Bayesian Optimization
    status_text.text("Ejecutando Bayesian Optimization...")

    def objective_kernelridge(trial):
        alpha = trial.suggest_float('alpha', 1e-4, 1e2, log=True)
        gamma = trial.suggest_float('gamma', 1e-4, 1e2, log=True)
        model = Pipeline(steps=[
            ('preprocessing', preprocessor),
            ('regressor', KernelRidge(alpha=alpha, gamma=gamma))
        ])
        try:
            return -cross_val_score(model, Xtrain, ytrain, scoring=scoring, cv=cv).mean()
        except:
            return float('inf')

    study_kernelridge = optuna.create_study(direction='minimize', sampler=TPESampler())
    study_kernelridge.optimize(objective_kernelridge, n_trials=bayesian_trials)
    progress_bar.progress(100)

    # Almacenar resultados
    best_params = {
        'GridSearch': grid_search.best_params_,
        'RandomSearch': random_search.best_params_,
        'Bayesian': study_kernelridge.best_params
    }

    # ===============================
    # 6. Visualización de Resultados
    # ===============================
    st.success("Optimización completada!")

    # Mostrar mejores parámetros
    st.subheader("🏆 Mejores Parámetros Encontrados")
    cols = st.columns(3)
    with cols[0]:
        st.metric("Grid Search - Alpha", best_params['GridSearch']['regressor__alpha'])
        st.metric("Grid Search - Gamma", best_params['GridSearch']['regressor__gamma'])
    with cols[1]:
        st.metric("Random Search - Alpha", best_params['RandomSearch']['regressor__alpha'])
        st.metric("Random Search - Gamma", best_params['RandomSearch']['regressor__gamma'])
    with cols[2]:
        st.metric("Bayesian - Alpha", best_params['Bayesian']['alpha'])
        st.metric("Bayesian - Gamma", best_params['Bayesian']['gamma'])

    # Gráficos de comparación
    st.subheader("📊 Comparación de Métodos de Optimización")

    tab1, tab2, tab3 = st.tabs(["Grid Search", "Random Search", "Bayesian Optimization"])

    with tab1:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in grid_results]
        y_values = [r[1] for r in grid_results]
        scores = [r[2] for r in grid_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_yscale('log')
        ax.set_ylabel('gamma')
        ax.set_title('Grid Search - KernelRidge')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-grid_search.best_score_:.4f}")

    with tab2:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in random_results]
        y_values = [r[1] for r in random_results]
        scores = [r[2] for r in random_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_yscale('log')
        ax.set_ylabel('gamma')
        ax.set_title('Random Search - KernelRidge')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-random_search.best_score_:.4f}")

    with tab3:
        st.plotly_chart(plot_optimization_history(study_kernelridge))
        st.plotly_chart(plot_param_importances(study_kernelridge))
        st.plotly_chart(plot_contour(study_kernelridge, params=["alpha", "gamma"]))
        st.write(f"Mejor MSE: {study_kernelridge.best_value:.4f}")

    # Análisis comparativo interactivo
    st.subheader("🔍 Análisis Comparativo Interactivo")

    # Crear un diccionario con todas las métricas disponibles
    metrics_data = {
        'MAE': {
            'GridSearch': mean_absolute_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_absolute_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_absolute_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', KernelRidge(**study_kernelridge.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MSE': {
            'GridSearch': mean_squared_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_squared_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_squared_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', KernelRidge(**study_kernelridge.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'R2': {
            'GridSearch': r2_score(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': r2_score(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': r2_score(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', KernelRidge(**study_kernelridge.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MAPE': {
            'GridSearch': mean_absolute_percentage_error(ytrain, grid_search.best_estimator_.predict(Xtrain)) * 100,
            'RandomSearch': mean_absolute_percentage_error(ytrain, random_search.best_estimator_.predict(Xtrain)) * 100,
            'Bayesian': mean_absolute_percentage_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', KernelRidge(**study_kernelridge.best_params))
            ]).fit(Xtrain, ytrain).predict(Xtrain)) * 100
        }
    }

    # Selector de métrica
    selected_metric = st.selectbox(
        "Seleccione la métrica a visualizar:",
        options=['MAE', 'MSE', 'R2', 'MAPE'],
        index=1  # MSE por defecto
    )

    # Configuración de visualización según la métrica
    if selected_metric == 'MAPE':
        ylabel = 'MAPE (%)'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.2f%'
        ascending = True
    elif selected_metric == 'R2':
        ylabel = 'R²'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = False
    else:
        ylabel = selected_metric
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = True

    # Ordenar métodos según el rendimiento
    methods = pd.DataFrame({
        'Method': ['GridSearch', 'RandomSearch', 'Bayesian'],
        'Value': [metrics_data[selected_metric]['GridSearch'],
                metrics_data[selected_metric]['RandomSearch'],
                metrics_data[selected_metric]['Bayesian']]
    }).sort_values('Value', ascending=ascending)

    # Crear la figura
    fig, ax = plt.subplots(figsize=(10, 6))
    colors = ['skyblue', 'lightgreen', 'salmon']
    bars = ax.bar(methods['Method'], methods['Value'], color=colors)

    # Configurar el gráfico
    ax.set_ylabel(ylabel)
    ax.set_title(title)
    ax.grid(True, axis='y', linestyle='--', alpha=0.7)

    # Añadir los valores a las barras
    for bar in bars:
        height = bar.get_height()
        if selected_metric == 'MAPE':
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:.2f}%',
                    ha='center', va='bottom', fontsize=10)
        else:
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:{fmt}}',
                    ha='center', va='bottom', fontsize=10)

    # Rotar etiquetas del eje x para mejor legibilidad
    plt.xticks(rotation=45)
    plt.tight_layout()

    # Mostrar el gráfico en Streamlit
    st.pyplot(fig)

    # Mostrar tabla con todas las métricas
    st.subheader("📊 Resumen de Métricas")
    metrics_df = pd.DataFrame(metrics_data)
    metrics_df['MAPE'] = metrics_df['MAPE'].map('{:.2f}%'.format)
    metrics_df['MAE'] = metrics_df['MAE'].map('{:.4f}'.format)
    metrics_df['MSE'] = metrics_df['MSE'].map('{:.4f}'.format)
    metrics_df['R2'] = metrics_df['R2'].map('{:.4f}'.format)
    st.dataframe(metrics_df.style.background_gradient(cmap='Blues', axis=0))

    # Mostrar recomendación basada en la métrica seleccionada
    best_method = methods.iloc[0]['Method']
    best_value = methods.iloc[0]['Value']

    if selected_metric == 'MAPE':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.2f}%)")
    elif selected_metric == 'R2':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")
    else:
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")

# ===============================
# 7. Información Adicional
# ===============================
with st.expander("ℹ️ Instrucciones de Uso", expanded=True):
    st.write("""
    1. Configura los parámetros de búsqueda en el panel lateral
    2. Haz clic en "Ejecutar Optimización"
    3. Explora los resultados en las diferentes pestañas
    4. Compara el rendimiento de los diferentes métodos

    **Tipos de Búsqueda:**
    - **Grid Search:** Búsqueda exhaustiva en una grilla definida
    - **Random Search:** Muestreo aleatorio del espacio de parámetros
    - **Bayesian Optimization:** Optimización inteligente basada en modelos

    **Hiperparámetros de KernelRidge:**
    - **alpha:** Parámetro de regularización (controla la penalización)
    - **gamma:** Parámetro del kernel (controla el alcance de influencia)
    """)

# ===============================
# 8. Evaluación del Modelo en Test
# ===============================
st.header("📊 Evaluación del Modelo en Datos de Test")

# Seleccionar el mejor modelo (usaremos el de Bayesian Optimization por defecto)
best_params = study_kernelridge.best_params
final_model = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('regressor', KernelRidge(**best_params))
])
final_model.fit(Xtrain, ytrain)

# Predecir en test
ypred = final_model.predict(Xtest)

# Calcular métricas
test_mae = mean_absolute_error(ytest, ypred)
test_mse = mean_squared_error(ytest, ypred)
test_r2 = r2_score(ytest, ypred)
test_mape = mean_absolute_percentage_error(ytest, ypred) * 100

# Mostrar métricas
col1, col2, col3, col4 = st.columns(4)
with col1:
    st.metric("MAE (Test)", f"{test_mae:.4f}")
with col2:
    st.metric("MSE (Test)", f"{test_mse:.4f}")
with col3:
    st.metric("R² (Test)", f"{test_r2:.4f}")
with col4:
    st.metric("MAPE (Test)", f"{test_mape:.2f}%")

# Gráficos de evaluación
st.subheader("🔍 Gráficos de Evaluación")

tab1, tab2, tab3 = st.tabs(["Predicciones vs Reales", "Residuos", "Distribución de Errores"])

with tab1:
    # Gráfico de predicciones vs valores reales
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ytest, ypred, alpha=0.5)
    ax.plot([ytest.min(), ytest.max()], [ytest.min(), ytest.max()], 'k--', lw=2)
    ax.set_xlabel('Valores Reales (log1p)')
    ax.set_ylabel('Predicciones (log1p)')
    ax.set_title('Predicciones vs Valores Reales')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Los puntos deberían estar cerca de la línea diagonal
    - Dispersión simétrica indica buen ajuste
    - Patrones no aleatorios pueden indicar problemas en el modelo
    """)

with tab2:
    # Gráfico de residuos
    residuals = ytest - ypred
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ypred, residuals, alpha=0.5)
    ax.axhline(y=0, color='r', linestyle='--')
    ax.set_xlabel('Predicciones (log1p)')
    ax.set_ylabel('Residuos')
    ax.set_title('Gráfico de Residuos')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Los residuos deberían distribuirse aleatoriamente alrededor del cero
    - Patrones visibles indican que el modelo no captura alguna relación en los datos
    - Residuos heterocedásticos (que cambian de varianza) son problemáticos
    """)

with tab3:
    # Distribución de errores
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.histplot(residuals, kde=True, ax=ax)
    ax.set_xlabel('Error de Predicción')
    ax.set_title('Distribución de Errores')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Distribución centrada en cero indica predicciones no sesgadas
    - Forma aproximadamente normal es deseable
    - Colas pesadas pueden indicar valores atípicos problemáticos
    """)

# Gráfico de valores reales vs predichos en escala original
st.subheader("🔍 Predicciones en Escala Original")

# Convertir a escala original
ytest_orig = np.expm1(ytest)
ypred_orig = np.expm1(ypred)

fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(ytest_orig, ypred_orig, alpha=0.5)
ax.plot([ytest_orig.min(), ytest_orig.max()], [ytest_orig.min(), ytest_orig.max()], 'k--', lw=2)
ax.set_xlabel('Valores Reales (USD)')
ax.set_ylabel('Predicciones (USD)')
ax.set_title('Predicciones vs Valores Reales (Escala Original)')
st.pyplot(fig)

# Calcular métricas en escala original
mae_orig = mean_absolute_error(ytest_orig, ypred_orig)
mape_orig = mean_absolute_percentage_error(ytest_orig, ypred_orig) * 100

col1, col2 = st.columns(2)
with col1:
    st.metric("MAE (USD)", f"${mae_orig:,.2f}")
with col2:
    st.metric("MAPE (USD)", f"{mape_orig:.2f}%")

# Análisis de errores por rango de precio
st.subheader("📈 Análisis de Errores por Rango de Precio")

# Crear categorías de precios
price_bins = pd.qcut(ytest_orig, q=5, duplicates='drop')
error_analysis = pd.DataFrame({
    'Precio Real': ytest_orig,
    'Error Absoluto': np.abs(ytest_orig - ypred_orig),
    'Rango Precio': price_bins
})

# Calcular métricas por rango
error_by_price = error_analysis.groupby('Rango Precio').agg({
    'Precio Real': 'mean',
    'Error Absoluto': ['mean', 'median', 'std']
}).reset_index()

error_by_price.columns = ['Rango Precio', 'Precio Promedio', 'MAE', 'Error Mediano', 'Desviación Error']

# Gráfico de MAE por rango de precio
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(data=error_by_price, x='Rango Precio', y='MAE', ax=ax)
ax.set_title('Error Absoluto Medio por Rango de Precio')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)
ax.set_ylabel('MAE (USD)')
ax.set_xlabel('Rango de Precio')
st.pyplot(fig)

st.write("""
**Interpretación:**
- Identifica en qué rangos de precio el modelo tiene mayor error
- Errores consistentes pueden indicar problemas con ciertos tipos de propiedades
- Puede sugerir la necesidad de modelos segmentados o más datos en ciertos rangos
""")

# Mostrar tabla de análisis
st.dataframe(error_by_price.style.background_gradient(subset=['MAE'], cmap='Reds'))

Writing 4_KernelRidge.py


In [None]:
!mv 4_KernelRidge.py pages/

### **3. ⚙️ SGDRegressor: Función de optimización**

El modelo **SGDRegressor** estima los coeficientes \( \beta \in \mathbb{R}^p \) al minimizar una función de pérdida sobre los datos utilizando **descenso de gradiente estocástico** (SGD). La forma general de la función objetivo es:

$$
\min_{\beta} \; \frac{1}{n} \sum_{i=1}^{n} \mathcal{L}(y_i, \beta^\top x_i) + \lambda R(\beta)
$$

---

### 🧾 Componentes:

- \$\mathcal{L}(y_i, \hat{y}_i) \$: función de pérdida (por defecto: **cuadrática**)
  
  $$
  \mathcal{L}(y_i, \hat{y}_i) = \frac{1}{2}(y_i - \hat{y}_i)^2
  $$

- \$ R(\beta) \$: término de regularización (puede ser L1, L2 o ambos)
  
  - **L2 (Ridge):** \$ R(\beta) = \frac{1}{2} \|\beta\|_2^2 \$
  - **L1 (Lasso):** \$ R(\beta) = \|\beta\|_1 \$
  - **ElasticNet:** \$ R(\beta) = \alpha \|\beta\|_1 + \frac{1 - \alpha}{2} \|\beta\|_2^2 \$

- \$ \lambda \$: parámetro de penalización en `SGDRegressor`, \$\alpha=\lambda$.

---

### 🔁 Iteración de SGD

En cada iteración, los parámetros se actualan con:

$$
\beta \leftarrow \beta - \eta \cdot \left( \nabla_\beta \mathcal{L} + \lambda \nabla_\beta R(\beta) \right)
$$

donde \( \eta \) es la tasa de aprendizaje (*learning rate*).

---

### ⚠️ Notas importantes:

- El algoritmo trabaja sobre **minibatches** o **una muestra por iteración**.
- Admite diferentes esquemas de actualización: `'constant'`, `'optimal'`, `'invscaling'`, etc.
- Es ideal para conjuntos de datos grandes y dispersos (alta dimensionalidad).

---

### ✅ Recomendación

Ajustar cuidadosamente:

- `penalty`: `'l2'`, `'l1'`, `'elasticnet'`
- `alpha`: fuerza de regularización
- `learning_rate`: tipo de actualización
- `eta0`: tasa de aprendizaje inicial


In [None]:
%%writefile 5_SGDRegressor.py
import os
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from scipy.stats import loguniform, uniform
import optuna
from optuna.samplers import TPESampler
from optuna.visualization import plot_optimization_history, plot_param_importances, plot_contour

st.set_page_config(page_title="Optimización de Hiperparámetros", page_icon="⚙️", layout="wide")

# ===============================
# 1. Carga y Preparación de Datos
# ===============================
@st.cache_data
def load_and_prepare_data():
    with st.spinner('Descargando y preparando datos...'):
        path = kagglehub.dataset_download("shashanknecrothapa/ames-housing-dataset")
        csv_file_path = os.path.join(path, "AmesHousing.csv")
        Xdata = pd.read_csv(csv_file_path)

        # Limpieza de datos
        Xdata = Xdata.sample(frac=0.20, random_state=42)
        cols_to_drop = ['Order', 'PID']
        Xdata.drop(columns=[col for col in cols_to_drop if col in Xdata.columns], inplace=True)
        high_null_cols = Xdata.columns[Xdata.isnull().mean() > 0.4].tolist()
        Xdata.drop(columns=high_null_cols, inplace=True)

        return Xdata

Xdata = load_and_prepare_data()

# ===============================
# 2. Transformación de Variables
# ===============================
st.header("📐 Transformación de Variables")

col_sal = "SalePrice"

# Selector para visualizar transformación
transform_col = st.selectbox("Seleccione columna para visualizar transformación",
                            options=Xdata.select_dtypes(include=['int64', 'float64']).columns)

col1, col2 = st.columns(2)

with col1:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(Xdata[transform_col], kde=True)
    plt.title(f'Distribución Original de {transform_col}')
    st.pyplot(fig)

with col2:
    fig = plt.figure(figsize=(10, 5))
    sns.histplot(np.log1p(Xdata[transform_col]), kde=True)
    plt.title(f'Distribución con log1p de {transform_col}')
    st.pyplot(fig)

st.info("""
💡 **Transformación logarítmica (log1p):**
- Se aplica para manejar distribuciones sesgadas
- log1p = log(1 + x) evita problemas con valores cero
- Ayuda a cumplir supuestos de normalidad en modelos lineales
""")

# ===============================
# 3. División de Datos
# ===============================
st.header("✂️ División del Dataset")

test_size = st.slider("Porcentaje para test", 10, 40, 30, 5)

Xtrain, Xtest = train_test_split(Xdata, test_size=test_size/100, random_state=42)
ytrain = np.log1p(Xtrain[col_sal])
ytest = np.log1p(Xtest[col_sal])
Xtrain = Xtrain.drop(columns=col_sal)
Xtest = Xtest.drop(columns=col_sal)

st.success(f"""
División completada:
- Entrenamiento: {Xtrain.shape[0]} registros ({100-test_size}%)
- Prueba: {Xtest.shape[0]} registros ({test_size}%)
""")

# ===============================
# 4. Preprocesamiento
# ===============================
st.header("🔧 Pipeline de Preprocesamiento")

numeric_cols = Xtrain.select_dtypes(include=["int64", "float64"]).columns.tolist()
categorical_cols = Xtrain.select_dtypes(include=["object", "category"]).columns.tolist()

preprocessor = ColumnTransformer(transformers=[
    ('num', Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('scaler', StandardScaler())
    ]), numeric_cols),
    ('cat', Pipeline([
        ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
        ('encoder', OneHotEncoder(handle_unknown='ignore'))
    ]), categorical_cols)
])

with st.expander("Ver detalles de preprocesamiento"):
    st.write("**Columnas numéricas:**")
    st.write(numeric_cols)
    st.write("**Transformaciones:** Imputación con mediana + Estandarización")

    st.write("\n**Columnas categóricas:**")
    st.write(categorical_cols)
    st.write("**Transformaciones:** Imputación con 'missing' + One-Hot Encoding")

# ===============================
# 5. Optimización de Hiperparámetros (SGDRegressor)
# ===============================
st.header("⚙️ Optimización de Hiperparámetros - SGDRegressor")

# Configuración común
cv = st.sidebar.slider("Número de folds para CV", 3, 10, 3)
random_state = st.sidebar.number_input("Random state", 42)
scoring = 'neg_mean_squared_error'

# Configuración de parámetros
col1, col2 = st.columns(2)
with col1:
    st.subheader("Grid Search")
    alpha_min = st.number_input("Alpha mínimo (log)", -4, 2, -4)
    alpha_max = st.number_input("Alpha máximo (log)", -4, 2, 2)
    alpha_points = st.slider("Puntos para alpha", 5, 20, 10)
    l1_ratio_points = st.slider("Puntos para l1_ratio", 5, 20, 10)

with col2:
    st.subheader("Random Search")
    n_iter = st.slider("Número de iteraciones", 10, 100, 20)
    bayesian_trials = st.slider("Número de trials Bayesianos", 10, 100, 20)

if st.button("Ejecutar Optimización"):
    progress_bar = st.progress(0)
    status_text = st.empty()

    # Preparar parámetros
    param_grid = {
        'regressor__alpha': np.logspace(alpha_min, alpha_max, alpha_points),
        'regressor__l1_ratio': np.linspace(0, 1, l1_ratio_points)
    }

    param_dist = {
        'regressor__alpha': loguniform(1e-4, 1e2),
        'regressor__l1_ratio': uniform(0, 1)
    }

    # 1. Grid Search
    status_text.text("Ejecutando Grid Search...")
    grid_search = GridSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', SGDRegressor(random_state=random_state))]),
        param_grid, scoring=scoring, cv=cv
    )
    grid_search.fit(Xtrain, ytrain)
    grid_results = [
        (params['regressor__alpha'], params['regressor__l1_ratio'], -score)
        for params, score in zip(grid_search.cv_results_['params'],
                               grid_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(33)

    # 2. Random Search
    status_text.text("Ejecutando Random Search...")
    random_search = RandomizedSearchCV(
        Pipeline(steps=[('preprocessing', preprocessor), ('regressor', SGDRegressor(random_state=random_state))]),
        param_dist, n_iter=n_iter, scoring=scoring, cv=cv, random_state=random_state
    )
    random_search.fit(Xtrain, ytrain)
    random_results = [
        (params['regressor__alpha'], params['regressor__l1_ratio'], -score)
        for params, score in zip(random_search.cv_results_['params'],
                               random_search.cv_results_['mean_test_score'])
    ]
    progress_bar.progress(66)

    # 3. Bayesian Optimization
    status_text.text("Ejecutando Bayesian Optimization...")

    def objective_sgd(trial):
        alpha = trial.suggest_float('alpha', 1e-4, 1e2, log=True)
        l1_ratio = trial.suggest_float('l1_ratio', 0, 1)
        model = Pipeline(steps=[
            ('preprocessing', preprocessor),
            ('regressor', SGDRegressor(
                alpha=alpha,
                l1_ratio=l1_ratio,
                random_state=random_state
            ))
        ])
        try:
            return -cross_val_score(model, Xtrain, ytrain, scoring=scoring, cv=cv).mean()
        except:
            return float('inf')

    study_sgd = optuna.create_study(direction='minimize', sampler=TPESampler())
    study_sgd.optimize(objective_sgd, n_trials=bayesian_trials)
    progress_bar.progress(100)

    # Almacenar resultados
    best_params = {
        'GridSearch': grid_search.best_params_,
        'RandomSearch': random_search.best_params_,
        'Bayesian': study_sgd.best_params
    }

    # ===============================
    # 6. Visualización de Resultados
    # ===============================
    st.success("Optimización completada!")

    # Mostrar mejores parámetros
    st.subheader("🏆 Mejores Parámetros Encontrados")
    cols = st.columns(3)
    with cols[0]:
        st.metric("Grid Search - Alpha", best_params['GridSearch']['regressor__alpha'])
        st.metric("Grid Search - L1 Ratio", best_params['GridSearch']['regressor__l1_ratio'])
    with cols[1]:
        st.metric("Random Search - Alpha", best_params['RandomSearch']['regressor__alpha'])
        st.metric("Random Search - L1 Ratio", best_params['RandomSearch']['regressor__l1_ratio'])
    with cols[2]:
        st.metric("Bayesian - Alpha", best_params['Bayesian']['alpha'])
        st.metric("Bayesian - L1 Ratio", best_params['Bayesian']['l1_ratio'])

    # Gráficos de comparación
    st.subheader("📊 Comparación de Métodos de Optimización")

    tab1, tab2, tab3 = st.tabs(["Grid Search", "Random Search", "Bayesian Optimization"])

    with tab1:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in grid_results]
        y_values = [r[1] for r in grid_results]
        scores = [r[2] for r in grid_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_ylabel('l1_ratio')
        ax.set_title('Grid Search - SGDRegressor')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-grid_search.best_score_:.4f}")

    with tab2:
        fig, ax = plt.subplots(figsize=(10, 6))
        x_values = [r[0] for r in random_results]
        y_values = [r[1] for r in random_results]
        scores = [r[2] for r in random_results]
        scatter = ax.scatter(x_values, y_values, c=scores, cmap='viridis')
        plt.colorbar(scatter, ax=ax, label='MSE')
        ax.set_xscale('log')
        ax.set_xlabel('alpha')
        ax.set_ylabel('l1_ratio')
        ax.set_title('Random Search - SGDRegressor')
        ax.grid(True, which='both', ls='--')
        st.pyplot(fig)
        st.write(f"Mejor MSE: {-random_search.best_score_:.4f}")

    with tab3:
        st.plotly_chart(plot_optimization_history(study_sgd))
        st.plotly_chart(plot_param_importances(study_sgd))
        st.plotly_chart(plot_contour(study_sgd, params=["alpha", "l1_ratio"]))
        st.write(f"Mejor MSE: {study_sgd.best_value:.4f}")

    # Análisis comparativo interactivo
    st.subheader("🔍 Análisis Comparativo Interactivo")

    # Crear un diccionario con todas las métricas disponibles
    metrics_data = {
        'MAE': {
            'GridSearch': mean_absolute_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_absolute_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_absolute_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', SGDRegressor(**study_sgd.best_params, random_state=random_state))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MSE': {
            'GridSearch': mean_squared_error(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': mean_squared_error(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': mean_squared_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', SGDRegressor(**study_sgd.best_params, random_state=random_state))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'R2': {
            'GridSearch': r2_score(ytrain, grid_search.best_estimator_.predict(Xtrain)),
            'RandomSearch': r2_score(ytrain, random_search.best_estimator_.predict(Xtrain)),
            'Bayesian': r2_score(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', SGDRegressor(**study_sgd.best_params, random_state=random_state))
            ]).fit(Xtrain, ytrain).predict(Xtrain))
        },
        'MAPE': {
            'GridSearch': mean_absolute_percentage_error(ytrain, grid_search.best_estimator_.predict(Xtrain)) * 100,
            'RandomSearch': mean_absolute_percentage_error(ytrain, random_search.best_estimator_.predict(Xtrain)) * 100,
            'Bayesian': mean_absolute_percentage_error(ytrain, Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', SGDRegressor(**study_sgd.best_params, random_state=random_state))
            ]).fit(Xtrain, ytrain).predict(Xtrain)) * 100
        }
    }

    # Selector de métrica
    selected_metric = st.selectbox(
        "Seleccione la métrica a visualizar:",
        options=['MAE', 'MSE', 'R2', 'MAPE'],
        index=1  # MSE por defecto
    )

    # Configuración de visualización según la métrica
    if selected_metric == 'MAPE':
        ylabel = 'MAPE (%)'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.2f%'
        ascending = True
    elif selected_metric == 'R2':
        ylabel = 'R²'
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = False
    else:
        ylabel = selected_metric
        title = f'Comparación de {selected_metric} entre Métodos'
        fmt = '.4f'
        ascending = True

    # Ordenar métodos según el rendimiento
    methods = pd.DataFrame({
        'Method': ['GridSearch', 'RandomSearch', 'Bayesian'],
        'Value': [metrics_data[selected_metric]['GridSearch'],
                metrics_data[selected_metric]['RandomSearch'],
                metrics_data[selected_metric]['Bayesian']]
    }).sort_values('Value', ascending=ascending)

    # Crear la figura
    fig, ax = plt.subplots(figsize=(10, 6))
    colors = ['skyblue', 'lightgreen', 'salmon']
    bars = ax.bar(methods['Method'], methods['Value'], color=colors)

    # Configurar el gráfico
    ax.set_ylabel(ylabel)
    ax.set_title(title)
    ax.grid(True, axis='y', linestyle='--', alpha=0.7)

    # Añadir los valores a las barras
    for bar in bars:
        height = bar.get_height()
        if selected_metric == 'MAPE':
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:.2f}%',
                    ha='center', va='bottom', fontsize=10)
        else:
            ax.text(bar.get_x() + bar.get_width()/2., height,
                    f'{height:{fmt}}',
                    ha='center', va='bottom', fontsize=10)

    # Rotar etiquetas del eje x para mejor legibilidad
    plt.xticks(rotation=45)
    plt.tight_layout()

    # Mostrar el gráfico en Streamlit
    st.pyplot(fig)

    # Mostrar tabla con todas las métricas
    st.subheader("📊 Resumen de Métricas")
    metrics_df = pd.DataFrame(metrics_data)
    metrics_df['MAPE'] = metrics_df['MAPE'].map('{:.2f}%'.format)
    metrics_df['MAE'] = metrics_df['MAE'].map('{:.4f}'.format)
    metrics_df['MSE'] = metrics_df['MSE'].map('{:.4f}'.format)
    metrics_df['R2'] = metrics_df['R2'].map('{:.4f}'.format)
    st.dataframe(metrics_df.style.background_gradient(cmap='Blues', axis=0))

    # Mostrar recomendación basada en la métrica seleccionada
    best_method = methods.iloc[0]['Method']
    best_value = methods.iloc[0]['Value']

    if selected_metric == 'MAPE':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.2f}%)")
    elif selected_metric == 'R2':
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")
    else:
        st.success(f"✅ **Mejor modelo según {selected_metric}:** {best_method} ({best_value:.4f})")

# ===============================
# 7. Información Adicional
# ===============================
with st.expander("ℹ️ Instrucciones de Uso", expanded=True):
    st.write("""
    1. Configura los parámetros de búsqueda en el panel lateral
    2. Haz clic en "Ejecutar Optimización"
    3. Explora los resultados en las diferentes pestañas
    4. Compara el rendimiento de los diferentes métodos

    **Tipos de Búsqueda:**
    - **Grid Search:** Búsqueda exhaustiva en una grilla definida
    - **Random Search:** Muestreo aleatorio del espacio de parámetros
    - **Bayesian Optimization:** Optimización inteligente basada en modelos

    **Hiperparámetros de SGDRegressor:**
    - **alpha:** Parámetro de regularización (controla la penalización)
    - **l1_ratio:** Balance entre regularización L1 y L2 (0 = L2, 1 = L1)
    """)
# ===============================
# 8. Evaluación del Modelo en Test
# ===============================
st.header("📊 Evaluación del Modelo SGDRegressor en Datos de Test")

# Seleccionar el mejor modelo (usaremos el de Bayesian Optimization por defecto)
best_params = study_sgd.best_params
final_model = Pipeline(steps=[
    ('preprocessing', preprocessor),
    ('regressor', SGDRegressor(**best_params, random_state=random_state))
])
final_model.fit(Xtrain, ytrain)

# Predecir en test
ypred = final_model.predict(Xtest)

# Calcular métricas
test_mae = mean_absolute_error(ytest, ypred)
test_mse = mean_squared_error(ytest, ypred)
test_r2 = r2_score(ytest, ypred)
test_mape = mean_absolute_percentage_error(ytest, ypred) * 100

# Mostrar métricas
col1, col2, col3, col4 = st.columns(4)
with col1:
    st.metric("MAE (Test)", f"{test_mae:.4f}")
with col2:
    st.metric("MSE (Test)", f"{test_mse:.4f}")
with col3:
    st.metric("R² (Test)", f"{test_r2:.4f}")
with col4:
    st.metric("MAPE (Test)", f"{test_mape:.2f}%")

# Gráficos de evaluación
st.subheader("🔍 Gráficos de Evaluación")

tab1, tab2, tab3, tab4 = st.tabs(["Predicciones vs Reales", "Residuos", "Distribución de Errores", "Convergencia"])

with tab1:
    # Gráfico de predicciones vs valores reales
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ytest, ypred, alpha=0.5)
    ax.plot([ytest.min(), ytest.max()], [ytest.min(), ytest.max()], 'k--', lw=2)
    ax.set_xlabel('Valores Reales (log1p)')
    ax.set_ylabel('Predicciones (log1p)')
    ax.set_title('Predicciones vs Valores Reales (SGDRegressor)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - SGD puede mostrar más dispersión que otros modelos debido a su naturaleza estocástica
    - Los puntos deberían agruparse alrededor de la línea diagonal
    - Patrones no lineales pueden indicar que se necesita un modelo más complejo
    """)

with tab2:
    # Gráfico de residuos
    residuals = ytest - ypred
    fig, ax = plt.subplots(figsize=(10, 6))
    ax.scatter(ypred, residuals, alpha=0.5)
    ax.axhline(y=0, color='r', linestyle='--')
    ax.set_xlabel('Predicciones (log1p)')
    ax.set_ylabel('Residuos')
    ax.set_title('Gráfico de Residuos (SGDRegressor)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Residuos deberían distribuirse aleatoriamente alrededor del cero
    - SGD puede mostrar más variabilidad en los residuos que otros modelos
    - Patrones visibles pueden indicar que el learning rate no fue óptimo
    """)

with tab3:
    # Distribución de errores
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.histplot(residuals, kde=True, ax=ax)
    ax.set_xlabel('Error de Predicción')
    ax.set_title('Distribución de Errores (SGDRegressor)')
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Distribución centrada en cero indica que no hay sesgo sistemático
    - La forma de la distribución muestra cómo se comportan los errores
    - SGD puede producir distribuciones con colas más pesadas que otros métodos
    """)

with tab4:
    # Gráfico de convergencia (para SGD)
    try:
        # Entrenar modelo guardando pérdida en cada epoch
        partial_model = Pipeline(steps=[
            ('preprocessing', preprocessor),
            ('regressor', SGDRegressor(**best_params, random_state=random_state))
        ])

        # Crear lista para guardar pérdidas
        train_errors = []
        test_errors = []

        # Mini-batch para simular epochs de SGD
        for epoch in range(1, 101):
            partial_model.fit(Xtrain, ytrain)
            train_errors.append(mean_squared_error(ytrain, partial_model.predict(Xtrain)))
            test_errors.append(mean_squared_error(ytest, partial_model.predict(Xtest)))

        # Gráfico de convergencia
        fig, ax = plt.subplots(figsize=(10, 6))
        ax.plot(range(1, 101), train_errors, 'b-', label='Train MSE')
        ax.plot(range(1, 101), test_errors, 'r-', label='Test MSE')
        ax.set_xlabel('Epochs')
        ax.set_ylabel('MSE')
        ax.set_title('Curva de Aprendizaje (SGDRegressor)')
        ax.legend()
        ax.grid(True)
        st.pyplot(fig)

        st.write("""
        **Interpretación:**
        - Muestra cómo evoluciona el error durante el entrenamiento
        - SGD debería converger a un valor estable después de varias epochs
        - Si las curvas no convergen, puede indicar que el learning rate es inadecuado
        """)
    except Exception as e:
        st.warning(f"No se pudo generar el gráfico de convergencia: {str(e)}")

# Gráfico de valores reales vs predichos en escala original
st.subheader("💰 Predicciones en Escala Original (USD)")

# Convertir a escala original
ytest_orig = np.expm1(ytest)
ypred_orig = np.expm1(ypred)

fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(ytest_orig, ypred_orig, alpha=0.5)
ax.plot([ytest_orig.min(), ytest_orig.max()], [ytest_orig.min(), ytest_orig.max()], 'k--', lw=2)
ax.set_xlabel('Valores Reales (USD)')
ax.set_ylabel('Predicciones (USD)')
ax.set_title('Predicciones vs Valores Reales - Escala Original (SGDRegressor)')
st.pyplot(fig)

# Calcular métricas en escala original
mae_orig = mean_absolute_error(ytest_orig, ypred_orig)
mape_orig = mean_absolute_percentage_error(ytest_orig, ypred_orig) * 100

col1, col2 = st.columns(2)
with col1:
    st.metric("MAE (USD)", f"${mae_orig:,.2f}")
with col2:
    st.metric("MAPE (USD)", f"{mape_orig:.2f}%")

# Análisis de errores por rango de precio
st.subheader("📈 Análisis de Errores por Rango de Precio")

# Crear categorías de precios
price_bins = pd.qcut(ytest_orig, q=5, duplicates='drop')
error_analysis = pd.DataFrame({
    'Precio Real': ytest_orig,
    'Error Absoluto': np.abs(ytest_orig - ypred_orig),
    'Rango Precio': price_bins
})

# Calcular métricas por rango
error_by_price = error_analysis.groupby('Rango Precio').agg({
    'Precio Real': 'mean',
    'Error Absoluto': ['mean', 'median', 'std']
}).reset_index()

error_by_price.columns = ['Rango Precio', 'Precio Promedio', 'MAE', 'Error Mediano', 'Desviación Error']

# Gráfico de MAE por rango de precio
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(data=error_by_price, x='Rango Precio', y='MAE', ax=ax)
ax.set_title('Error Absoluto Medio por Rango de Precio (SGDRegressor)')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45)
ax.set_ylabel('MAE (USD)')
ax.set_xlabel('Rango de Precio')
st.pyplot(fig)

st.write("""
**Interpretación:**
- SGD puede tener un rendimiento diferente en distintos rangos de precio
- Errores mayores en extremos (propiedades muy baratas o muy caras) son comunes
- Puede indicar la necesidad de ajustar parámetros de regularización
""")

# Mostrar tabla de análisis
st.dataframe(error_by_price.style.background_gradient(subset=['MAE'], cmap='Reds'))

# Comparación con modelo naive (promedio)
st.subheader("🤔 Comparación con Modelo Naive (Promedio)")

naive_pred = np.full_like(ytest, ytrain.mean())
naive_mae = mean_absolute_error(ytest, naive_pred)
improvement = (naive_mae - test_mae) / naive_mae * 100

st.metric("Mejora sobre modelo naive", f"{improvement:.2f}%",
          delta=f"MAE naive: {naive_mae:.4f}, MAE SGD: {test_mae:.4f}")

st.write("""
**Interpretación:**
- Muestra el valor añadido del modelo SGD respecto a una predicción simple
- Una mejora positiva indica que el modelo está aprendiendo patrones útiles
- SGD puede ser especialmente sensible a la escala de los datos y parámetros de regularización
""")

# Análisis de sensibilidad a parámetros
st.subheader("🎚️ Sensibilidad a Parámetros")

# Crear gráfico de sensibilidad para alpha y l1_ratio
try:
    alphas = np.logspace(-3, 2, 10)
    l1_ratios = np.linspace(0, 1, 5)

    mse_values = []
    for alpha in alphas:
        for l1_ratio in l1_ratios:
            model = Pipeline(steps=[
                ('preprocessing', preprocessor),
                ('regressor', SGDRegressor(alpha=alpha, l1_ratio=l1_ratio, random_state=random_state))
            ])
            mse = -cross_val_score(model, Xtrain, ytrain, scoring='neg_mean_squared_error', cv=3).mean()
            mse_values.append((alpha, l1_ratio, mse))

    sens_df = pd.DataFrame(mse_values, columns=['alpha', 'l1_ratio', 'MSE'])

    fig, ax = plt.subplots(figsize=(10, 6))
    for l1_ratio in l1_ratios:
        subset = sens_df[sens_df['l1_ratio'] == l1_ratio]
        ax.plot(subset['alpha'], subset['MSE'], 'o-', label=f'l1_ratio={l1_ratio:.1f}')

    ax.set_xscale('log')
    ax.set_xlabel('alpha (log scale)')
    ax.set_ylabel('MSE')
    ax.set_title('Sensibilidad del MSE a alpha y l1_ratio')
    ax.legend()
    ax.grid(True)
    st.pyplot(fig)

    st.write("""
    **Interpretación:**
    - Muestra cómo cambia el rendimiento con diferentes parámetros
    - SGD puede ser muy sensible a la elección de alpha (parámetro de regularización)
    - El balance entre L1 y L2 (l1_ratio) afecta la selección de características
    """)
except Exception as e:
    st.warning(f"No se pudo generar el gráfico de sensibilidad: {str(e)}")

Writing 5_SGDRegressor.py


In [None]:
!mv 5_SGDRegressor.py pages/

## **Inicialización del Dashboard a partir de túnel local**

In [None]:
!wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
!chmod +x cloudflared-linux-amd64
!mv cloudflared-linux-amd64 /usr/local/bin/cloudflared

#Ejecutar Streamlit
!streamlit run TAM.py &>/content/logs.txt & #Cambiar 0_👋_Hello.py por el nombre de tu archivo principal

#Exponer el puerto 8501 con Cloudflare Tunnel
!cloudflared tunnel --url http://localhost:8501 > /content/cloudflared.log 2>&1 &

#Leer la URL pública generada por Cloudflare
import time
time.sleep(5)  # Esperar que se genere la URL

import re
found_context = False  # Indicador para saber si estamos en la sección correcta

with open('/content/cloudflared.log') as f:
    for line in f:
        #Detecta el inicio del contexto que nos interesa
        if "Your quick Tunnel has been created" in line:
            found_context = True

        #Busca una URL si ya se encontró el contexto relevante
        if found_context:
            match = re.search(r'https?://\S+', line)
            if match:
                url = match.group(0)  #Extrae la URL encontrada
                print(f'Tu aplicación está disponible en: {url}')
                break  #Termina el bucle después de encontrar la URL

--2025-05-24 02:19:23--  https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64 [following]
--2025-05-24 02:19:23--  https://github.com/cloudflare/cloudflared/releases/download/2025.5.0/cloudflared-linux-amd64
Reusing existing connection to github.com:443.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/106867604/797840ed-70cb-47b8-a6fe-ecb4b3385c94?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20250524%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20250524T021805Z&X-Amz-Expires=300&X-Amz-Signature=f3770c8694699edf9705fb6b2d1f6d26606145f00cc982260689876750f958d6&X-Amz-S