<a href="https://colab.research.google.com/github/NicoCasPer/T_Aprendizaje_Maquina/blob/main/Parcial1_TAM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pregunta 1



**Formulaciones Matemáticas:**  
- **OLS:** Minimiza la suma de cuadrados de residuos, con solución $\hat{\beta} = (X^T X)^{-1} X^T y$.  
- **Ridge:** Añade penalización L2, solución $\hat{\beta} = (X^T X + \lambda I)^{-1} X^T y$.  
- **Lasso:** Penalización L1, resuelto iterativamente, selecciona características.  
- **MLE:** Maximiza la verosimilitud, equivalente a OLS con errores normales.  
- **MAP:** Incorpora prior, como Ridge con prior normal.  
- **Bayesian Linear:** Usa distribución posterior, permite incertidumbre.  
- **Kernel Ridge:** Usa kernels para no linealidades, solución $\hat{\alpha} = (K + \lambda I)^{-1} y$.  
- **Gaussian Processes:** Modelo bayesiano no paramétrico, predice con distribución normal.  

**Diferencias y Similitudes:**  
- Los modelos frecuentistas (OLS, MLE) dan estimaciones puntuales, mientras que los bayesianos (MAP, Bayesian, GPs) ofrecen incertidumbre.  
- Kernel Ridge y GPs capturan no linealidades, a diferencia de OLS o Ridge.  

---

#### **Demostraciones Matemáticas Paso a Paso**

A continuación, se presentan las formulaciones matemáticas, los problemas de optimización y las soluciones para cada modelo, explicando cada paso de manera detallada.

##### **1. Least Squares (OLS)**

**Formulación Matemática:**  
El modelo lineal se expresa como:
\begin{equation}
 y = X\beta + \epsilon
\end{equation}
donde:  
- $y$ es el vector de respuestas observadas $n \times 1$,  
- $X$ es la matriz de diseño $n \times p$,  
- $\beta$ es el vector de parámetros $p \times 1$,  
- $\epsilon$ es el vector de errores $n \times 1$, asumido i.i.d. con media 0 y varianza $\sigma^2$.

El objetivo es minimizar la suma de los cuadrados de los residuos:
\begin{equation}
 \text{RSS}(\beta) = \| y - X\beta \|^2 = (y - X\beta)^T (y - X\beta)
\end{equation}

**Problema de Optimización:**  
Minimizar:  
\begin{equation}
 \min_{\beta} (y - X\beta)^T (y - X\beta)
\end{equation}

**Solución Paso a Paso:**  
1. Expandimos el RSS:
\begin{equation}
    \text{RSS}(\beta) = y^T y - 2y^T X\beta + \beta^T X^T X \beta   
\end{equation}

   Esto es una función cuadrática en $\beta$, y para minimizarla, tomamos la derivada con respecto a $\beta$ y la igualamos a cero.  
2. La derivada es:  
\begin{equation}
    \frac{\partial \text{RSS}}{\partial \beta} = -2X^T y + 2X^T X \beta = 0   
\end{equation}

3. Simplificamos:  
\begin{equation}
    X^T X \beta = X^T y   
\end{equation}

4. Si $X^T X$ es invertible (asumiendo $n > p$ y $X$ de rango completo), resolvemos:
\begin{equation}
    \beta = (X^T X)^{-1} X^T y
\end{equation}  
   Esta es la solución cerrada, conocida como la ecuación normal de OLS.

**Notas:**  
- OLS asume errores normales, homocedasticidad y ausencia de multicolinealidad perfecta.  
- Si $p > n$, $X^T X$ no es invertible, y se requiere regularización.

##### **2. Regularized Least Squares**

Incluye Ridge, Lasso y Elastic Net, que añaden términos de penalización para controlar la complejidad.

###### **a. Ridge Regression (L2 Regularization)**

**Formulación Matemática:**  
El objetivo es minimizar:
\begin{equation}  
 \text{Ridge}(\beta) = \| y - X\beta \|^2 + \lambda \| \beta \|_2^2
\end{equation}

donde $\| \beta \|_2^2 = \sum_{j=1}^p \beta_j^2$ y $\lambda > 0$ es el parámetro de regularización.

**Problema de Optimización:**  
Minimizar:  
\begin{equation}
 \min_{\beta} \| y - X\beta \|^2 + \lambda \sum_{j=1}^p \beta_j^2
\end{equation}

**Solución Paso a Paso:**  
1. Expandimos:  
\begin{equation}
    \text{Ridge}(\beta) = (y - X\beta)^T (y - X\beta) + \lambda \beta^T \beta   
\end{equation}

2. Tomamos la derivada con respecto a \(\beta\):
\begin{equation}
    \frac{\partial \text{Ridge}}{\partial \beta} = -2X^T (y - X\beta) + 2\lambda \beta = 0   
\end{equation}

3. Reorganizamos:  
\begin{equation}
    -2X^T y + 2X^T X \beta + 2\lambda \beta = 0
\end{equation}
\begin{equation}
    X^T X \beta + \lambda \beta = X^T y   
\end{equation}

4. Factorizamos:  
\begin{equation}
    (X^T X + \lambda I) \beta = X^T y   
\end{equation}

5. Resolviendo, asumiendo invertibilidad (siempre lo es con $\lambda > 0$):  
\begin{equation}
    \beta = (X^T X + \lambda I)^{-1} X^T y   
\end{equation}

   Esto es la solución cerrada de Ridge, que siempre existe y es única.

**Notas:**  
- Ridge reduce la magnitud de los coeficientes, manejando multicolinealidad, pero no los reduce a cero.

###### **b. Lasso Regression (L1 Regularization)**

**Formulación Matemática:**  
Minimizar:  
\begin{equation}
 \text{Lasso}(\beta) = \| y - X\beta \|^2 + \lambda \| \beta \|_1   
\end{equation}

donde $\| \beta \|_1 = \sum_{j=1}^p | \beta_j |$.

**Problema de Optimización:**  
Minimizar:  
\begin{equation}
 \min_{\beta} \| y - X\beta \|^2 + \lambda \sum_{j=1}^p | \beta_j |
\end{equation}

**Solución Paso a Paso:**  
- Lasso no tiene solución cerrada debido a la norma L1, que es no diferenciable en 0.  
- Se resuelve mediante métodos iterativos como descenso coordenado:  
  1. Para cada $\beta_j$, fijamos los demás y optimizamos, usando la regla de actualización:  
  \begin{equation}
      \beta_j \leftarrow S(\beta_j - \eta \frac{\partial L}{\partial \beta_j}, \lambda \eta)   
  \end{equation}
     donde
  \begin{equation}
     S(z, \lambda) = \text{sign}(z) \max(|z| - \lambda, 0)
  \end{equation}
 es el operador soft-thresholding.  
- Lasso puede reducir coeficientes a cero, permitiendo selección de características.

###### **c. Elastic Net**

**Formulación Matemática:**  
Minimizar:  
\begin{equation}
 \text{ElasticNet}(\beta) = \| y - X\beta \|^2 + \lambda_1 \| \beta \|_1 + \lambda_2 \| \beta \|_2^2
\end{equation}

**Solución:**  
Similar a Lasso, requiere métodos iterativos, combinando las propiedades de Ridge y Lasso.

**Notas:**  
- Regularized Least Squares son extensiones de OLS, con Ridge manejando multicolinealidad y Lasso seleccionando características.

##### **3. Maximum Likelihood Estimation (MLE)**

**Formulación Matemática:**  
Asumimos $\epsilon \sim N(0, \sigma^2 I)$, entonces:
\begin{equation}
 y | \beta, \sigma^2 \sim N(X\beta, \sigma^2 I)   
\end{equation}

La función de verosimilitud es:
\begin{equation}
 L(\beta, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(y_i - x_i^T \beta)^2}{2\sigma^2} \right)   
\end{equation}

La log-verosimilitud es:
\begin{equation}
 \ell(\beta, \sigma^2) = -\frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \| y - X\beta \|^2
\end{equation}

**Problema de Optimización:**  
Maximizar:  
\begin{equation}
 \max_{\beta, \sigma^2} -\frac{n}{2} \log(2\pi \sigma^2) - \frac{1}{2\sigma^2} \| y - X\beta \|^2
\end{equation}

**Solución Paso a Paso:**  
1. Fijamos $\sigma^2$ y maximizamos con respecto a $\beta$, lo que equivale a minimizar $\| y - X\beta \|^2$, dando:
\begin{equation}
    \hat{\beta} = (X^T X)^{-1} X^T y  (solución OLS).
\end{equation}  

2. Sustituyendo $\hat{\beta}$, maximizamos con respecto a $\sigma^2$:  
   Derivamos $\ell$ con respecto a $\sigma^2$:  
\begin{equation}
    \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \| y - X\hat{\beta} \|^2 = 0  
\end{equation}

   Reorganizando:  
\begin{equation}
    \frac{n}{2\sigma^2} = \frac{1}{2(\sigma^2)^2} \| y - X\hat{\beta} \|^2   
\end{equation}

\begin{equation}
    n (\sigma^2)^2 = \| y - X\hat{\beta} \|^2 \sigma^2   
\end{equation}

\begin{equation}
    n \sigma^2 = \| y - X\hat{\beta} \|^2  
\end{equation}

\begin{equation}
    \hat{\sigma}^2 = \frac{1}{n} \| y - X\hat{\beta} \|^2  
\end{equation}

   En la práctica, usamos el estimador no sesgado:  
\begin{equation}
    \hat{\sigma}^2 = \frac{1}{n-p} \| y - X\hat{\beta} \|^2
\end{equation}

**Notas:**  
- MLE asume normalidad de errores, equivalente a OLS en este caso.

##### **4. Maximum A-Posteriori (MAP)**

**Formulación Matemática:**  
Incorporamos un prior, por ejemplo, $\beta \sim N(0, \tau^2 I)$. La posterior es:
\begin{equation}
 p(\beta | y) \propto p(y | \beta) p(\beta)   
\end{equation}

Log-posterior:  
\begin{equation}
 \log p(\beta | y) \propto -\frac{1}{2\sigma^2} \| y - X\beta \|^2 - \frac{1}{2\tau^2} \| \beta \|^2
\end{equation}

**Problema de Optimización:**  
Maximizar:  
\begin{equation}
 \max_{\beta} -\frac{1}{2\sigma^2} \| y - X\beta \|^2 - \frac{1}{2\tau^2} \| \beta \|^2  
\end{equation}

Equivalente a minimizar:
\begin{equation}
 \| y - X\beta \|^2 + \frac{\sigma^2}{\tau^2} \| \beta \|^2
\end{equation}

**Solución:**  
Esto es Ridge con $\lambda = \frac{\sigma^2}{\tau^2}$, solución:
\begin{equation}
 \hat{\beta} = (X^T X + \lambda I)^{-1} X^T y
\end{equation}

**Notas:**  
- MAP incorpora información previa, como Ridge con prior normal.

##### **5. Bayesian Linear Regression**

**Formulación Matemática:**  
Priors: $\beta \sim N(0, \tau^2 I)$, $\sigma^2 \sim \text{Inv-Gamma}(a, b)$.  
La posterior de $\beta | \sigma^2, y$ es normal:  
\begin{equation}
 \beta | \sigma^2, y \sim N(\mu, \Sigma)   
\end{equation}

donde:  
\begin{equation}
 \Sigma = (\tau^{-2} I + \sigma^{-2} X^T X)^{-1}, \quad \mu = \Sigma (\sigma^{-2} X^T y)  
\end{equation}

Predicciones integran sobre la posterior.

**Notas:**  
- Proporciona incertidumbre, más intensivo computacionalmente.

##### **6. Kernel Ridge Regression**

**Formulación Matemática:**  
Usa kernel $k(x, x')$, minimiza:  
\begin{equation}
 \min_{\alpha} \| y - K\alpha \|^2 + \lambda \| \alpha \|^2  
\end{equation}

Solución:  
\begin{equation}
 \hat{\alpha} = (K + \lambda I)^{-1} y  
\end{equation}

Predicción: $\hat{y}_* = k(X, x_*) \hat{\alpha}$.

**Notas:**  
- Captura no linealidades, requiere elección de kernel.

##### **7. Gaussian Processes**

**Formulación Matemática:**  
GP con media $m(x)$, kernel $k(x, x')$. Posterior:  
- Media: $ \mu_* = K(X_*, X) (K(X, X) + \sigma^2 I)^{-1} y $  
- Varianza: $ \Sigma_* = K(X_*, X_*) - K(X_*, X) (K(X, X) + \sigma^2 I)^{-1} K(X, X_*) $

**Notas:**  
- Bayesiano no paramétrico, permite incertidumbre, pero lento para grandes datos.

#### **Diferencias y Similitudes**

| **Modelo**              | **Enfoque**                     | **Optimización**                  | **Ventajas**                          | **Desventajas**                       |
|--------------------------|---------------------------------|-----------------------------------|---------------------------------------|---------------------------------------|
| **OLS**                 | Frecuentista, sin regularización | Minimizar RSS                    | Simple, interpretable                | Sensible a multicolinealidad, sobreajuste |
| **Ridge**               | Regularizado (L2)              | Minimizar RSS + L2 penalización   | Maneja multicolinealidad, estable     | No selecciona características          |
| **Lasso**               | Regularizado (L1)              | Minimizar RSS + L1 penalización   | Selecciona características            | No maneja bien multicolinealidad       |
| **Elastic Net**         | Regularizado (L1 + L2)         | Minimizar RSS + L1 + L2          | Combina ventajas de Lasso y Ridge     | Más parámetros para ajustar            |
| **MLE**                 | Frecuentista, verosimilitud    | Maximizar log-verosimilitud      | Asume distribución de errores         | Requiere suposiciones fuertes          |
| **MAP**                 | Bayesiano, con prior           | Maximizar log-posterior          | Incorpora información previa          | Requiere elección de prior             |
| **Bayesian Linear**     | Bayesiano, full posterior      | Integración sobre posterior       | Incertidumbre en parámetros           | Computacionalmente intensivo           |
| **Kernel Ridge**        | No lineal, kernel              | Minimizar RSS en espacio kernel  | Captura no linealidades               | Requiere selección de kernel           |
| **Gaussian Processes**  | Bayesiano, no paramétrico      | Integración sobre funciones       | Flexibilidad, incertidumbre           | Escalabilidad limitada                  |

- **Similitudes:** Todos buscan minimizar error o maximizar verosimilitud/posterior. Modelos lineales (OLS, Ridge, Lasso, MLE, MAP, Bayesian) comparten estructura $y = X\beta + \epsilon$.  
- **Diferencias:** Bayesianos (MAP, Bayesian, GPs) ofrecen incertidumbre, frecuentistas (OLS, MLE) estimaciones puntuales. Kernel Ridge y GPs capturan no linealidades, OLS y Ridge son lineales.

Esta respuesta cumple con los requisitos del examen, proporcionando demostraciones completas y explicaciones paso a paso.

# Preprocesamiento

In [None]:
# prompt: Usa la biblioteca pandas para cargar el archivo CSV con pd.read_csv('AmesHousing.csv').
# Revisa la estructura con df.head(), df.info() y df.describe() para identificar:
# Número de filas y columnas.
# Tipos de datos (numéricos, categóricos).
# Valores faltantes iniciales.
# Esto es crucial para el EDA y para planificar los pasos de preprocesamiento.

import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('/content/drive/Shareddrives/UNAL_Colab/Teoría de Aprendizaje de Máquina/AmesHousing.csv')

print("\nInformación del DataFrame:")
df.info()

In [None]:
# prompt: Usa la biblioteca pandas para cargar el archivo CSV con pd.read_csv('AmesHousing.csv').
# Revisa la estructura con df.head(), df.info() y df.describe() para identificar:
# Número de filas y columnas.
# Tipos de datos (numéricos, categóricos).
# Valores faltantes iniciales.
# Esto es crucial para el EDA y para planificar los pasos de preprocesamiento.

import pandas as pd
from sklearn.impute import SimpleImputer
import numpy as np

# Cargar el archivo CSV
df = pd.read_csv('/content/drive/Shareddrives/UNAL_Colab/Teoría de Aprendizaje de Máquina/AmesHousing.csv')

# prompt: Usa df.isnull().sum() para identificar columnas con valores faltantes. El dataset Ames Housing tiene varias, como LotFrontage, Alley, MasVnrType, etc.
# Estrategias de imputación:
# Para variables numéricas (e.g., LotFrontage, GarageYrBlt), imputa con la mediana usando SimpleImputer de sklearn con strategy='median'.
# Para variables categóricas (e.g., Alley, MasVnrType), imputa con la moda (strategy='most_frequent') o crea una categoría "missing" (strategy='constant', fill_value='missing').
# Justificación: La elección debe basarse en el contexto. Por ejemplo, LotFrontage (frente del lote) puede imputarse con la mediana si los valores faltantes son aleatorios, mientras que Alley (acceso a callejón) puede tener valores faltantes significativos (e.g., sin acceso), justificando una categoría "missing".


# Identificar columnas con valores faltantes
missing_values_count = df.isnull().sum()
missing_columns = missing_values_count[missing_values_count > 0].index.tolist()

print("\nColumnas con valores faltantes y su conteo:")
print(missing_values_count[missing_columns])

# Estrategia de imputación

# Columnas numéricas a imputar con la mediana (ejemplo: LotFrontage, GarageYrBlt)
numeric_cols_median = ['LotFrontage', 'GarageYrBlt'] # Agrega más columnas numéricas si es necesario

# Columnas categóricas a imputar con la moda (ejemplo: MasVnrType, Electrical)
categorical_cols_mode = ['MasVnrType', 'Electrical'] # Agrega más columnas categóricas si es necesario

# Columnas categóricas a imputar con una categoría "missing" (ejemplo: Alley, Fence, MiscFeature, PoolQC, FireplaceQu)
categorical_cols_missing = ['Alley', 'Fence', 'MiscFeature', 'PoolQC', 'FireplaceQu'] # Agrega más columnas categóricas si es necesario

# Imputación para columnas numéricas (mediana)
for col in numeric_cols_median:
    if col in missing_columns:
        imputer_median = SimpleImputer(strategy='median')
        # Flatten the output of fit_transform
        df[col] = imputer_median.fit_transform(df[[col]]).ravel()
        print(f"Imputada columna '{col}' con la mediana.")

# Imputación para columnas categóricas (moda)
for col in categorical_cols_mode:
     if col in missing_columns:
        imputer_mode = SimpleImputer(strategy='most_frequent')
        # Flatten the output of fit_transform
        df[col] = imputer_mode.fit_transform(df[[col]]).ravel()
        print(f"Imputada columna '{col}' con la moda.")

# Imputación para columnas categóricas ("missing")
for col in categorical_cols_missing:
    if col in missing_columns:
        imputer_missing = SimpleImputer(strategy='constant', fill_value='missing')
        # Flatten the output of fit_transform
        df[col] = imputer_missing.fit_transform(df[[col]]).ravel()
        print(f"Imputada columna '{col}' con 'missing'.")

# Verificar si aún hay valores faltantes (para otras columnas no consideradas en los ejemplos)
missing_values_after_imputation = df.isnull().sum()
remaining_missing_columns = missing_values_after_imputation[missing_values_after_imputation > 0].index.tolist()

if len(remaining_missing_columns) > 0:
    print("\nColumnas que aún tienen valores faltantes después de la imputación:")
    print(missing_values_after_imputation[remaining_missing_columns])
else:
    print("\n¡Imputación completada! No hay columnas con valores faltantes.")

# Mostrar información actualizada del DataFrame
print("\nInformación del DataFrame después de la imputación:")
df.info()

In [None]:
# prompt: Codificación de Variables Categóricas
# Identifica columnas categóricas con df.select_dtypes(include=['object']).columns.
# Tipos de codificación:
# Para variables nominales (sin orden, e.g., Neighborhood, MSZoning), usa one-hot encoding con pd.get_dummies() o OneHotEncoder de sklearn.
# Para variables ordinales (con orden, e.g., ExterQual, ExterCond, con valores como "Ex", "Gd", "TA", "Fa", "Po"), asigna valores numéricos basados en el orden (e.g., "Ex" = 5, "Gd" = 4, etc.) usando OrdinalEncoder o mapeo manual.
# Consideración: One-hot encoding puede generar muchas columnas, lo que puede afectar la eficiencia computacional, especialmente para modelos como Gaussian Process. Considera reducir dimensionalidad si es necesario.

import pandas as pd
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

# Identificar columnas categóricas
categorical_cols = df.select_dtypes(include=['object']).columns
print("\nColumnas categóricas identificadas:")
print(categorical_cols)

# Separar columnas nominales y ordinales (ejemplo, necesitarás ajustar esto basado en tu conocimiento del dataset)
# Para este ejemplo, asumiremos algunas columnas como nominales y otras como ordinales.
# **Importante:** Debes verificar la naturaleza de cada columna categórica en el dataset real.

# Columnas nominales (ejemplo)
nominal_cols = ['MSZoning', 'Neighborhood', 'MasVnrType', 'Exterior1st', 'Exterior2nd', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'SaleType', 'SaleCondition']
nominal_cols = [col for col in nominal_cols if col in categorical_cols] # Asegurarse de que existan en el df

# Columnas ordinales (ejemplo)
# Definir el orden para las variables ordinales. Esto es crucial y depende del conocimiento del dominio.
# Ejemplo de orden para 'ExterQual', 'ExterCond', 'BsmtQual', 'BsmtCond', 'HeatingQC', 'KitchenQual', 'FireplaceQu', 'GarageQual', 'GarageCond', 'PoolQC'
# Asumimos un orden general: 'Po' < 'Fa' < 'TA' < 'Gd' < 'Ex' < 'missing' (si fue imputada así)
# Para 'missing', podemos decidir si es el valor más bajo o si tiene su propio tratamiento.
# Aquí, si 'missing' fue usado en la imputación, lo incluimos en el orden si tiene un significado ordinal.
# Si no tiene un orden natural, podrías tratarlo por separado o como parte de la imputación.
# En este ejemplo, consideraremos 'missing' como el valor más bajo si se usó.

# Definir el orden de las categorías para cada columna ordinal
ordinal_mapping = {
    'ExterQual': ['Po', 'Fa', 'TA', 'Gd', 'Ex', 'missing'], # Ajusta 'missing' si aplica
    'ExterCond': ['Po', 'Fa', 'TA', 'Gd', 'Ex', 'missing'], # Ajusta 'missing' si aplica
    'BsmtQual': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'], # Ajusta 'missing' si aplica (por ejemplo, N/A = no basement)
    'BsmtCond': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'], # Ajusta 'missing' si aplica
    'HeatingQC': ['Po', 'Fa', 'TA', 'Gd', 'Ex'],
    'KitchenQual': ['Po', 'Fa', 'TA', 'Gd', 'Ex'],
    'FireplaceQu': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'], # Ajusta 'missing' si aplica
    'GarageQual': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'], # Ajusta 'missing' si aplica
    'GarageCond': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'], # Ajusta 'missing' si aplica
    'PoolQC': ['missing', 'Fa', 'Gd', 'Ex'] # Ajusta 'missing' si aplica y el orden si es diferente
    # Añade más columnas ordinales y sus órdenes aquí
}

ordinal_cols = list(ordinal_mapping.keys())
ordinal_cols = [col for col in ordinal_cols if col in categorical_cols] # Asegurarse de que existan en el df

# Columnas categóricas que no son ni nominales ni ordinales en esta definición (podrían ser otras categóricas o identificadores)
other_categorical_cols = [col for col in categorical_cols if col not in nominal_cols and col not in ordinal_cols]
print("\nColumnas categóricas no clasificadas como nominales u ordinales (para revisión):")
print(other_categorical_cols)

# Codificación One-Hot para variables nominales
if nominal_cols:
    print(f"\nAplicando One-Hot Encoding a las columnas: {nominal_cols}")
    # Usa drop='first' para evitar la multicolinealidad (elimina la primera categoría de cada columna)
    df = pd.get_dummies(df, columns=nominal_cols, drop_first=True)
    print("One-Hot Encoding aplicado.")
else:
    print("\nNo hay columnas nominales para One-Hot Encoding.")

# Codificación Ordinal para variables ordinales
if ordinal_cols:
    print(f"\nAplicando Ordinal Encoding a las columnas: {ordinal_cols}")
    # Crear el encoder con el orden de las categorías
    ordinal_encoder = OrdinalEncoder(categories=[ordinal_mapping[col] for col in ordinal_cols])

    # Aplicar la transformación
    df[ordinal_cols] = ordinal_encoder.fit_transform(df[ordinal_cols])
    print("Ordinal Encoding aplicado.")
else:
    print("\nNo hay columnas ordinales para Ordinal Encoding.")

# Mostrar información actualizada del DataFrame para ver los nuevos tipos de datos y columnas
print("\nInformación del DataFrame después de la codificación de variables categóricas:")
df.info()

# Mostrar las primeras filas del DataFrame para ver los resultados
print("\nPrimeras filas del DataFrame después de la codificación:")
print(df.head())

In [None]:
# prompt: Escalado de Variables Numéricas
# Usa StandardScaler o MinMaxScaler de sklearn para estandarizar las variables numéricas (e.g., GrLivArea, TotalBsmtSF).
# Justificación: Modelos como Linear Regression, Lasso, ElasticNet, KernelRidge, SVR y SGDRegressor son sensibles a la escala de las características, por lo que el escalado es esencial para un rendimiento óptimo.
# Nota: RandomForest y BayesianRidge no requieren escalado, pero aplicarlo uniformemente facilita la comparación.

import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Identificar columnas numéricas que no son dummies de la codificación One-Hot
# Excluir columnas que ya fueron transformadas (ordinales) y las variables target/ID si las hay
numeric_cols_to_scale = df.select_dtypes(include=np.number).columns.tolist()

# Excluir las columnas ordinales que ya fueron codificadas numéricamente
numeric_cols_to_scale = [col for col in numeric_cols_to_scale if col not in ordinal_cols]

# Excluir columnas que son resultados de One-Hot Encoding (son binarias y no necesitan escalado típico)
# Una forma simple es excluir columnas que antes eran nominales, pero ahora son múltiples columnas.
# Sin embargo, esto puede ser complicado si hay muchas columnas nuevas.
# Una mejor aproximación es excluir la columna 'Id' si existe y la columna target 'SalePrice'.
if 'Id' in numeric_cols_to_scale:
    numeric_cols_to_scale.remove('Id')
if 'SalePrice' in numeric_cols_to_scale: # Asumiendo 'SalePrice' es la variable target
    numeric_cols_to_scale.remove('SalePrice')

# Opcional: Puedes refinar esta lista manualmente si conoces qué columnas numéricas deben escalarse.
# Por ejemplo: numeric_cols_to_scale = ['GrLivArea', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LotFrontage', 'LotArea', ...]

print(f"\nColumnas numéricas a escalar: {numeric_cols_to_scale}")

# Selección del escalador: StandardScaler o MinMaxScaler
# StandardScaler: Escala los datos para tener media 0 y desviación estándar 1. Útil para algoritmos sensibles a la distancia.
# MinMaxScaler: Escala los datos a un rango específico (por defecto [0, 1]). Útil si necesitas que todos los features estén en el mismo rango positivo.

# Elije uno de los dos:
scaler = StandardScaler()
# scaler = MinMaxScaler()

# Aplicar el escalado a las columnas numéricas seleccionadas
if numeric_cols_to_scale:
    print(f"\nAplicando {type(scaler).__name__} a las columnas numéricas...")
    df[numeric_cols_to_scale] = scaler.fit_transform(df[numeric_cols_to_scale])
    print(f"Escalado aplicado usando {type(scaler).__name__}.")
else:
    print("\nNo hay columnas numéricas identificadas para escalar.")

# Mostrar información actualizada del DataFrame para ver los tipos de datos (seguirán siendo numéricos)
print("\nInformación del DataFrame después del escalado de variables numéricas:")
df.info()

# Mostrar las primeras filas del DataFrame para ver los resultados del escalado
print("\nPrimeras filas del DataFrame después del escalado:")
print(df.head())


In [None]:
# prompt: Ingeniería de Características
# Crea nuevas características relevantes, como:
# TotalSF: Suma de TotalBsmtSF, 1stFlrSF y 2ndFlrSF para total de área habitable.
# Age: Diferencia entre YrSold y YearBuilt para la edad de la vivienda.
# Usa correlaciones para identificar y eliminar características redundantes (e.g., si GarageArea y GarageCars están altamente correlacionadas, considera quedarte con una).
# Consideración: Usa técnicas como PCA si hay muchas características correlacionadas, pero esto es opcional y debe justificarse en el EDA.

import numpy as np
# Feature Engineering
print("\nRealizando Ingeniería de Características...")

# TotalSF: Suma de TotalBsmtSF, 1stFlrSF y 2ndFlrSF
# Asegurarse de que las columnas existan y sean numéricas antes de sumar
sf_cols = ['TotalBsmtSF', '1stFlrSF', '2ndFlrSF']
# Verificar si todas las columnas necesarias existen y son numéricas
if all(col in df.columns and df[col].dtype in [np.number] for col in sf_cols):
    df['TotalSF'] = df['TotalBsmtSF'] + df['1stFlrSF'] + df['2ndFlrSF']
    print("Característica 'TotalSF' creada.")
else:
    print(f"No se pudo crear 'TotalSF'. Asegúrese de que las columnas {sf_cols} existan y sean numéricas.")


# Age: Diferencia entre YrSold y YearBuilt
# Asegurarse de que las columnas existan y sean numéricas antes de restar
age_cols = ['YrSold', 'YearBuilt']
if all(col in df.columns and df[col].dtype in [np.number] for col in age_cols):
    df['Age'] = df['YrSold'] - df['YearBuilt']
    # Considerar casas vendidas antes de ser construidas (posibles errores de datos)
    # Podríamos corregirlos o considerarlos como outliers. Aquí, simplemente los marcamos si existen.
    if (df['Age'] < 0).any():
        print("Advertencia: Se encontraron edades negativas en la característica 'Age'.")
    print("Característica 'Age' creada.")
else:
     print(f"No se pudo crear 'Age'. Asegúrese de que las columnas {age_cols} existan y sean numéricas.")


# Opcional: Crear otras características si son relevantes para el dominio
# Ejemplo: Ratio entre áreas (ej. GrLivArea/TotalSF), número total de baños, etc.
# df['Bathrooms'] = df['FullBath'] + 0.5 * df['HalfBath'] + df['BsmtFullBath'] + 0.5 * df['BsmtHalfBath']


print("\nIngeniería de Características completada.")

# Mostrar información actualizada del DataFrame para ver las nuevas columnas
print("\nInformación del DataFrame después de la Ingeniería de Características:")
df.info()

# Mostrar las primeras filas del DataFrame para ver los resultados
print("\nPrimeras filas del DataFrame después de la Ingeniería de Características:")
print(df.head())

# Análisis de Correlaciones para identificar características redundantes
print("\nAnalizando correlaciones entre características...")

# Calcular la matriz de correlación. Excluir columnas no numéricas si aún existen.
# Si ya todas las columnas relevantes son numéricas después de la codificación y escalado, usa todo el df.
numeric_df = df.select_dtypes(include=np.number)
correlation_matrix = numeric_df.corr()

# Visualizar la matriz de correlación (opcional, requiere matplotlib/seaborn)
# import matplotlib.pyplot as plt
# import seaborn as sns
# plt.figure(figsize=(12, 10))
# sns.heatmap(correlation_matrix, cmap='coolwarm', annot=False) # annot=True si quieres ver los valores
# plt.title('Matriz de Correlación')
# plt.show()

# Identificar pares de características altamente correlacionadas
# Define un umbral de correlación (por ejemplo, 0.8 o 0.9)
correlation_threshold = 0.8

# Crear una máscara para la parte superior del triángulo de la matriz de correlación
upper = correlation_matrix.where(np.triu(np.ones(correlation_matrix.shape), k=1).astype(bool))

# Encontrar las columnas con correlación absoluta alta
to_drop_high_corr = [column for column in upper.columns if any(upper[column].abs() > correlation_threshold)]

print(f"\nColumnas con alta correlación (> {correlation_threshold}) detectadas:")
print(to_drop_high_corr)

# Decidir qué columna eliminar de los pares altamente correlacionados
# Esto requiere conocimiento del dominio o una justificación (ej. quedarse con la que tiene mayor correlación con la variable target)
# Para este ejemplo, simplemente mostraremos los pares y el usuario debe decidir cuál eliminar.

high_corr_pairs = []
for col1 in upper.columns:
    for col2 in upper.index:
        if col1 != col2 and abs(upper.loc[col2, col1]) > correlation_threshold:
             high_corr_pairs.append((col2, col1, upper.loc[col2, col1]))

print("\nPares de características altamente correlacionadas y su valor:")
for pair in high_corr_pairs:
    print(f"{pair[0]} y {pair[1]}: {pair[2]:.2f}")

# Ejemplo de decisión (MANUAL): Si GarageArea y GarageCars están altamente correlacionadas,
# podríamos decidir quedarnos con 'GarageCars' ya que representa el número de coches,
# lo cual podría ser más directamente relacionado con el valor percibido.

# Lista de columnas a considerar eliminar basadas en alta correlación (EJEMPLO - AJUSTAR SEGÚN ANÁLISIS)
# Por ejemplo, si GarageArea y GarageCars son muy correlacionadas, podríamos añadir 'GarageArea' aquí.
# Si TotalBsmtSF, 1stFlrSF, GrLivArea son muy correlacionadas con TotalSF, podríamos considerar eliminar algunas de las originales.
# Este paso es CRUCIAL y debe basarse en el análisis de los pares identificados.

# Ejemplo: Si 'GarageArea' y 'GarageCars' tienen alta correlación y decides eliminar 'GarageArea'
# columns_to_potentially_drop = ['GarageArea'] # Inicializa la lista de columnas a considerar eliminar

# Puedes iterar sobre los pares de alta correlación y aplicar una regla o decidir manualmente
# for col1, col2, corr_value in high_corr_pairs:
    # Decide cuál eliminar basándote en alguna métrica o dominio
    # if col1 == 'GarageArea' and col2 == 'GarageCars':
    #     columns_to_potentially_drop.append('GarageArea')
    # elif col1 == 'GrLivArea' and col2 == 'TotalSF':
    #      columns_to_potentially_drop.append('GrLivArea') # Ejemplo: quedarse con TotalSF si es más informativo

# Eliminar duplicados de la lista (una columna puede estar en múltiples pares)
# columns_to_potentially_drop = list(set(columns_to_potentially_drop))

# print(f"\nColumnas que se considerarán eliminar por alta correlación: {columns_to_potentially_drop}")

# if columns_to_potentially_drop:
#     # Asegurarse de que las columnas existen antes de intentar eliminarlas
#     existing_cols_to_drop = [col for col in columns_to_potentially_drop if col in df.columns]
#     if existing_cols_to_drop:
#         print(f"\nEliminando columnas altamente correlacionadas: {existing_cols_to_drop}")
#         df = df.drop(columns=existing_cols_to_drop)
#         print("Columnas eliminadas.")
#     else:
#          print("\nLas columnas a eliminar consideradas no existen en el DataFrame actual.")
# else:
#     print("\nNo hay columnas identificadas para eliminar por alta correlación (basado en el umbral y reglas de ejemplo).")

# Nota sobre PCA: PCA puede ser útil si hay muchas características numéricas correlacionadas y quieres reducir la dimensionalidad
# manteniendo la mayor parte de la varianza. Sin embargo, los componentes de PCA son combinaciones lineales
# de las características originales y son menos interpretables. Si el objetivo es la interpretabilidad,
# la eliminación de columnas altamente correlacionadas es a menudo preferible.

# PCA es una transformación, no una eliminación directa de columnas. Si se usa PCA,
# se reemplazarían las columnas numéricas correlacionadas por menos componentes principales.
# No se implementa PCA aquí, ya que es opcional y requiere justificación en el EDA.

# Mostrar información final del DataFrame
print("\nInformación final del DataFrame después de la ingeniería de características y consideración de correlaciones:")
df.info()

# Mostrar las primeras filas del DataFrame final
print("\nPrimeras filas del DataFrame final:")
print(df.head())

In [None]:
# prompt: Análisis Exploratorio de Datos (EDA)
# Realiza visualizaciones clave:
# Histogramas y boxplots para SalePrice y variables numéricas para identificar distribución y outliers.
# Gráficos de barras para variables categóricas importantes (e.g., Neighborhood, OverallQual).
# Matriz de correlación (e.g., con seaborn.heatmap) para identificar relaciones entre características y SalePrice.
# Discute hallazgos, como:
# Si SalePrice tiene sesgo, considera transformaciones logarítmicas.
# Identifica outliers (e.g., casas con precios extremadamente altos o bajos) y decide si eliminarlos o manejarlos.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Visualizaciones clave

# Histograma y Boxplot para SalePrice
print("\nVisualizando la distribución de SalePrice...")
plt.figure(figsize=(12, 5))

# Histograma de SalePrice
plt.subplot(1, 2, 1)
sns.histplot(df['SalePrice'], kde=True)
plt.title('Distribución de SalePrice')
plt.xlabel('SalePrice')
plt.ylabel('Frecuencia')

# Boxplot de SalePrice
plt.subplot(1, 2, 2)
sns.boxplot(y=df['SalePrice'])
plt.title('Boxplot de SalePrice')
plt.ylabel('SalePrice')

plt.tight_layout()
plt.show()

# Discusión sobre SalePrice: Sesgo y Outliers
print("\nAnálisis de SalePrice:")
skewness = df['SalePrice'].skew()
print(f"Sesgo de SalePrice: {skewness:.2f}")

if abs(skewness) > 0.5: # Un umbral común para considerar un sesgo significativo
    print("SalePrice parece tener un sesgo significativo.")
    print("Considerar una transformación logarítmica (ej. np.log1p) podría ser beneficioso para la modelización.")

# Identificar outliers en SalePrice usando IQR
Q1 = df['SalePrice'].quantile(0.25)
Q3 = df['SalePrice'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df[(df['SalePrice'] < lower_bound) | (df['SalePrice'] > upper_bound)]
print(f"\nSe encontraron {len(outliers)} outliers en SalePrice (usando el método IQR).")
print("Decisión sobre manejar o eliminar outliers debe basarse en el contexto y el modelo a usar.")

# Visualizaciones para variables numéricas (ejemplo: algunas de las importantes)
numeric_cols_viz = ['GrLivArea', 'TotalBsmtSF', 'Age', 'TotalSF'] # Agrega otras columnas numéricas relevantes
print(f"\nVisualizando distribuciones y outliers para algunas variables numéricas: {numeric_cols_viz}")
plt.figure(figsize=(15, 10))
for i, col in enumerate(numeric_cols_viz):
    if col in df.columns and df[col].dtype in [np.number]:
        plt.subplot(2, len(numeric_cols_viz), i + 1)
        sns.histplot(df[col], kde=True)
        plt.title(f'Distribución de {col}')
        plt.xlabel(col)
        plt.ylabel('Frecuencia')

        plt.subplot(2, len(numeric_cols_viz), i + len(numeric_cols_viz) + 1)
        sns.boxplot(y=df[col])
        plt.title(f'Boxplot de {col}')
        plt.ylabel(col)
    else:
        print(f"Advertencia: La columna '{col}' no existe o no es numérica para visualización.")

plt.tight_layout()
plt.show()

# Visualizaciones para variables categóricas importantes
# Selecciona algunas variables categóricas interesantes para visualizar
# Usa las columnas nominales y ordinales después de la imputación pero antes de la codificación
# (ya que pd.get_dummies convierte las nominales en múltiples columnas)
# Si ya ejecutaste la codificación, usa las columnas originales para esta visualización.
# Asumiendo que las columnas originales están disponibles o usando las columnas ordinales codificadas y algunas nominales clave originales si las tienes
# Si solo tienes el df codificado, puedes visualizar las ordinales (ahora numéricas) con boxplots o analizar las dummies.

# Si quieres visualizar las columnas nominales originales, necesitas el df antes de get_dummies.
# Para este ejemplo, asumiremos que podemos usar las columnas ordinales codificadas (ahora numéricas)
# y tal vez algunas de las columnas originales si no se han perdido.
# Si el código anterior ya corrió y transformó las columnas nominales, no podemos visualizarlas como barras fácilmente aquí.

# Vamos a visualizar las columnas ordinales codificadas (que ahora son numéricas)
ordinal_cols_viz = ordinal_cols # Usamos la lista de columnas ordinales definida anteriormente
print(f"\nVisualizando la relación entre SalePrice y columnas ordinales: {ordinal_cols_viz}")
plt.figure(figsize=(15, 8))
for i, col in enumerate(ordinal_cols_viz):
    if col in df.columns and df[col].dtype in [np.number] and 'SalePrice' in df.columns:
        plt.subplot(2, int(np.ceil(len(ordinal_cols_viz)/2)), i + 1)
        # Boxplot para ver la relación entre la categoría ordinal y SalePrice
        sns.boxplot(x=df[col], y=df['SalePrice'])
        plt.title(f'SalePrice vs {col}')
        plt.xlabel(col)
        plt.ylabel('SalePrice')
    else:
         print(f"Advertencia: La columna '{col}' o 'SalePrice' no existe o no es numérica para visualización ordinal.")

plt.tight_layout()
plt.show()


# Visualizar la relación entre SalePrice y algunas columnas nominales CLAVE (si las tienes disponibles en un formato adecuado)
# Si ya aplicaste One-Hot Encoding, la mejor manera es analizar la relación de SalePrice con los grupos de cada columna nominal original.
# Ejemplo usando 'Neighborhood' (si la columna original está disponible o si trabajas con el df antes de one-hot)
# Si 'Neighborhood' fue one-hoteada, necesitarías agrupar por el valor original.
# Asumiendo que puedes acceder al dataframe antes de la codificación o tienes la columna original
# Si no, este paso de visualización de categóricas con barras después de OHE es complicado.

# **Alternativa (si ya aplicaste OHE):** Puedes analizar la relación entre SalePrice y los grupos de una variable categórica original
# calculando la mediana de SalePrice por grupo.
# Si tienes el dataframe original o una copia antes de la codificación:
# df_original = pd.read_csv('/content/drive/Shareddrives/UNAL_Colab/Teoría de Aprendizaje de Máquina/AmesHousing.csv') # Cargar de nuevo o usar una copia
# if 'Neighborhood' in df_original.columns and 'SalePrice' in df_original.columns:
#     plt.figure(figsize=(15, 6))
#     sns.boxplot(x='Neighborhood', y='SalePrice', data=df_original)
#     plt.title('SalePrice por Neighborhood (original)')
#     plt.xticks(rotation=90)
#     plt.show()

# Si no tienes el df original disponible fácilmente aquí, puedes saltarte la visualización de barras para nominales después de OHE.

# Matriz de correlación con SalePrice
print("\nGenerando matriz de correlación con SalePrice...")

# Calcular la matriz de correlación solo para columnas numéricas
numeric_df_for_corr = df.select_dtypes(include=np.number)

# Calcular las correlaciones con SalePrice
# Asegurarse de que SalePrice está en el DataFrame numérico
if 'SalePrice' in numeric_df_for_corr.columns:
    correlation_with_saleprice = numeric_df_for_corr.corr()['SalePrice'].sort_values(ascending=False)
    print("\nCorrelación de variables numéricas con SalePrice:")
    print(correlation_with_saleprice)

    # Visualizar la matriz de correlación completa (puede ser grande)
    # plt.figure(figsize=(15, 12))
    # sns.heatmap(numeric_df_for_corr.corr(), cmap='coolwarm', annot=False) # annot=True puede ser muy denso
    # plt.title('Matriz de Correlación de Variables Numéricas')
    # plt.show()

    # Visualizar solo las correlaciones con SalePrice (más legible)
    plt.figure(figsize=(8, 10))
    sns.heatmap(correlation_with_saleprice.to_frame(), cmap='coolwarm', annot=True, fmt=".2f", cbar=False)
    plt.title('Correlación de Variables Numéricas con SalePrice')
    plt.yticks(rotation=0)
    plt.show()

else:
    print("\n'SalePrice' no se encontró en las columnas numéricas para calcular la correlación.")


# Discusión de hallazgos de correlación:
print("\nDiscusión de hallazgos de correlación:")
print("Las variables con los valores de correlación más altos (positivos o negativos) son las que tienen una relación lineal más fuerte con SalePrice.")
print("Ejemplos de variables con alta correlación positiva suelen ser 'OverallQual', 'GrLivArea', 'TotalBsmtSF', 'GarageCars'.")
print("Ejemplos de variables con alta correlación negativa pueden ser menos comunes, pero podrían existir.")
print("Considerar estas variables más correlacionadas como potencialmente importantes para el modelo.")

# Resumen general del EDA y próximos pasos
print("\nResumen del Análisis Exploratorio de Datos (EDA):")
print("- Se analizó la distribución de SalePrice, identificando un posible sesgo y outliers.")
print("- Se visualizaron distribuciones y outliers para variables numéricas clave.")
print("- Se analizó la relación entre SalePrice y variables ordinales.")
# Si pudiste visualizar nominales: print("- Se visualizaron las distribuciones de variables categóricas importantes y su relación con SalePrice.")
print("- Se calculó y visualizó la matriz de correlación, identificando variables fuertemente relacionadas con SalePrice.")
# Si analizaste alta correlación entre features: print("- Se identificaron pares de características altamente correlacionadas.")

print("\nPróximos pasos:")
print("- Decidir el tratamiento para el sesgo de SalePrice (ej. transformación logarítmica).")
print("- Decidir cómo manejar los outliers (eliminar, transformar, usar modelos robustos).")
print("- Refinar la selección de características basadas en el análisis de correlación y la importancia percibida.")
print("- Preparar los datos finales para el entrenamiento del modelo (separación en conjuntos de entrenamiento/prueba).")
print("- Seleccionar y entrenar modelos de aprendizaje automático para predecir SalePrice.")
print("- Evaluar el rendimiento de los modelos.")

In [None]:
# prompt: Genera estadísticas descriptivas (media, mediana, desviación estándar, etc.) para las variables numéricas.
# Crea histogramas para variables numéricas importantes (por ejemplo, 'SalePrice', 'GrLivArea', 'TotalBsmtSF').
# Crea gráficas de barras para variables categóricas relevantes (por ejemplo, 'Neighborhood', 'OverallQual').
# Genera una matriz de correlación y su correspondiente heatmap para las variables numéricas.
# Identifica y visualiza cualquier patrón o tendencia en los datos.

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# Generar estadísticas descriptivas para las variables numéricas
print("\nEstadísticas descriptivas para variables numéricas:")
# Selecciona solo las columnas numéricas para las estadísticas descriptivas
df_numeric = df.select_dtypes(include=np.number)
print(df_numeric.describe())


# Crear histogramas para variables numéricas importantes
# Ya hemos generado histogramas en la sección anterior, pero podemos volver a ejecutarlos o seleccionar otras variables si es necesario.
# Las variables 'SalePrice', 'GrLivArea', 'TotalBsmtSF' ya fueron visualizadas.
# Podemos añadir '1stFlrSF', 'GarageArea', 'YearBuilt' como ejemplos adicionales.
numeric_cols_hist = ['1stFlrSF', 'GarageArea', 'YearBuilt']
print(f"\nCreando histogramas para: {numeric_cols_hist}")
plt.figure(figsize=(15, 5))
for i, col in enumerate(numeric_cols_hist):
    if col in df.columns and df[col].dtype in [np.number]:
        plt.subplot(1, len(numeric_cols_hist), i + 1)
        sns.histplot(df[col], kde=True)
        plt.title(f'Distribución de {col}')
        plt.xlabel(col)
        plt.ylabel('Frecuencia')
    else:
        print(f"Advertencia: La columna '{col}' no existe o no es numérica para histograma.")
plt.tight_layout()
plt.show()


# Crear gráficas de barras para variables categóricas relevantes
# Para graficar variables categóricas relevantes, necesitamos las columnas antes de One-Hot Encoding.
# Si el código anterior ya ejecutó One-Hot Encoding, las columnas nominales ya no existen en su formato original.
# Podemos volver a cargar el dataframe original o usar una copia antes de la codificación.
# Asumiendo que trabajamos con el dataframe original o una copia para esta visualización.
# NOTA: Si solo tienes el dataframe después de OHE, puedes omitir este paso o encontrar una alternativa de visualización.

# Vamos a asumir que podemos usar el dataframe original para visualizar las columnas categóricas.
# Cargar el dataframe original si no está disponible en su estado pre-codificado.
try:
    df_original = pd.read_csv('/content/drive/Shareddrives/UNAL_Colab/Teoría de Aprendizaje de Máquina/AmesHousing.csv')
    print("\nCargado el DataFrame original para visualizaciones categóricas.")

    # Seleccionar columnas categóricas relevantes para gráfica de barras
    # Usar columnas que NO fueron imputadas con 'missing' para barras simples, a menos que 'missing' sea una categoría significativa.
    # Columnas como 'Neighborhood', 'OverallQual' (si se trata como categórica), 'MSZoning'
    # 'OverallQual' es numérica, usaremos otras categóricas como 'Neighborhood' y 'MSZoning'.
    categorical_cols_bar = ['Neighborhood', 'MSZoning'] # Agrega otras columnas categóricas relevantes

    print(f"\nCreando gráficas de barras para: {categorical_cols_bar}")
    plt.figure(figsize=(15, 6))
    for i, col in enumerate(categorical_cols_bar):
        if col in df_original.columns and df_original[col].dtype == 'object':
            plt.subplot(1, len(categorical_cols_bar), i + 1)
            # Contar la frecuencia de cada categoría
            sns.countplot(y=col, data=df_original, order=df_original[col].value_counts().index)
            plt.title(f'Distribución de {col}')
            plt.xlabel('Frecuencia')
            plt.ylabel(col)
        else:
            print(f"Advertencia: La columna '{col}' no existe o no es categórica en el DataFrame original para gráfica de barras.")
    plt.tight_layout()
    plt.show()

except FileNotFoundError:
    print("\nNo se pudo cargar el DataFrame original. Saltando la creación de gráficas de barras para columnas categóricas.")
    print("Asegúrese de que el archivo 'AmesHousing.csv' esté disponible en la ruta especificada si desea estas visualizaciones.")


# Generar una matriz de correlación y su correspondiente heatmap para las variables numéricas
# Ya hemos calculado y visualizado la matriz de correlación numérico_df_for_corr.corr()
# Podemos visualizar el heatmap completo aquí si es necesario, aunque puede ser denso.
# La visualización de correlación con SalePrice (univariada) ya se hizo.

print("\nGenerando heatmap de la matriz de correlación para variables numéricas...")
# Calcular la matriz de correlación solo para columnas numéricas del dataframe actual (post-procesamiento)
df_numeric_current = df.select_dtypes(include=np.number)
correlation_matrix_current = df_numeric_current.corr()

plt.figure(figsize=(15, 12))
# Usar annot=False para evitar que sea ilegible en datasets grandes, o ajustar el tamaño de la figura.
sns.heatmap(correlation_matrix_current, cmap='coolwarm', annot=False)
plt.title('Heatmap de la Matriz de Correlación (Variables Numéricas Post-Procesamiento)')
plt.show()


# Identificar y visualizar cualquier patrón o tendencia en los datos
# Esto es una tarea amplia, pero podemos visualizar relaciones clave usando scatter plots.
# Visualizar la relación entre 'SalePrice' y las variables numéricas más correlacionadas identificadas anteriormente.

print("\nVisualizando patrones y tendencias con scatter plots...")

# Seleccionar las N variables más correlacionadas con SalePrice (excluyendo SalePrice misma)
if 'SalePrice' in df_numeric_current.columns:
    correlation_with_saleprice = df_numeric_current.corr()['SalePrice'].sort_values(ascending=False)
    # Seleccionar las top N variables (excluyendo SalePrice)
    top_n = 5 # Número de variables para visualizar
    top_correlated_cols = correlation_with_saleprice.head(top_n + 1).index.tolist()
    if 'SalePrice' in top_correlated_cols:
        top_correlated_cols.remove('SalePrice')

    print(f"\nVisualizando la relación de SalePrice con las {top_n} variables más correlacionadas: {top_correlated_cols}")
    plt.figure(figsize=(15, 5 * int(np.ceil(len(top_correlated_cols)/3)))) # Ajustar el tamaño de la figura
    for i, col in enumerate(top_correlated_cols):
         if col in df_numeric_current.columns:
            plt.subplot(int(np.ceil(len(top_correlated_cols)/3)), 3, i + 1)
            sns.scatterplot(x=df_numeric_current[col], y=df_numeric_current['SalePrice'])
            plt.title(f'SalePrice vs {col}')
            plt.xlabel(col)
            plt.ylabel('SalePrice')
         else:
             print(f"Advertencia: La columna '{col}' no está disponible para scatter plot.")
    plt.tight_layout()
    plt.show()

else:
    print("\n'SalePrice' no está disponible para crear scatter plots de correlación.")


# Otros patrones a considerar (requieren análisis manual):
# - Relaciones no lineales (observar scatter plots)
# - Interacciones entre características (requiere crear nuevas características o probar modelos con interacciones)
# - Patrones temporales si existen (ej. 'YearBuilt', 'YrSold') - 'Age' ya ayuda aquí.

print("\nAnálisis de patrones y tendencias adicionales (requiere inspección visual):")
print("- Observa los scatter plots para identificar relaciones lineales o no lineales.")
print("- Considera cómo 'Age' se relaciona con 'SalePrice'.")
print("- Revisa las distribuciones de variables categóricas importantes para entender la composición del dataset.")
print("- La matriz de correlación (heatmap) ayuda a ver grupos de variables relacionadas.")


In [None]:
# prompt: Usa train_test_split de sklearn para dividir en entrenamiento (80%) y prueba (20%).
# Dado que el examen requiere validación cruzada de 5 folds, usa KFold de sklearn para asegurar consistencia en la evaluación.
# Nota: Como es un problema de regresión, KFold es adecuado; no necesitas StratifiedKFold, ya que no hay clases balanceadas.

import numpy as np
from sklearn.model_selection import train_test_split, KFold

# Separar las características (X) y la variable objetivo (y)
# Asumimos que 'SalePrice' es la variable objetivo
if 'SalePrice' in df.columns:
    X = df.drop('SalePrice', axis=1)
    y = df['SalePrice']
    print("\nCaracterísticas (X) y variable objetivo (y) separadas.")
else:
    print("\nError: 'SalePrice' no se encontró en el DataFrame. No se puede separar X e y.")

# Asegurarse de que todas las columnas en X son numéricas antes de la división
X = X.select_dtypes(include=np.number)
# Eliminar cualquier fila con NaN que pudiera haber quedado (aunque con la imputación no debería haber)
X = X.dropna()
y = y.loc[X.index] # Asegurar que y coincide con las filas de X

print(f"\nForma de X antes de la división: {X.shape}")
print(f"Forma de y antes de la división: {y.shape}")


# División en conjuntos de entrenamiento y prueba
# Stratify no se usa porque es un problema de regresión, no de clasificación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # random_state para reproducibilidad

print(f"\nForma del conjunto de entrenamiento (X_train): {X_train.shape}")
print(f"Forma del conjunto de prueba (X_test): {X_test.shape}")
print(f"Forma de la variable objetivo de entrenamiento (y_train): {y_train.shape}")
print(f"Forma de la variable objetivo de prueba (y_test): {y_test.shape}")

# Configurar KFold para la validación cruzada
n_splits = 5 # Número de folds para la validación cruzada
kf = KFold(n_splits=n_splits, shuffle=True, random_state=42) # shuffle=True y random_state para mezclar los datos consistentemente

print(f"\nConfiguración de KFold con {n_splits} folds:")
print(kf)

# Ejemplo de cómo usar KFold (esto se usa DENTRO del proceso de entrenamiento del modelo)
# El siguiente bucle es solo para demostrar cómo iterar sobre los folds.
# En la práctica, pasarías el objeto kf a una función como cross_val_score o GridSearchCV.

print("\nGenerando índices para los folds de validación cruzada (ejemplo):")
fold_indices = []
for fold, (train_index, val_index) in enumerate(kf.split(X_train)):
    print(f"Fold {fold + 1}:")
    print(f"  Índices de entrenamiento: {train_index[:10]}... ({len(train_index)} total)") # Mostrar solo los primeros 10
    print(f"  Índices de validación:   {val_index[:10]}... ({len(val_index)} total)")    # Mostrar solo los primeros 10
    fold_indices.append((train_index, val_index))

print("\nValidación cruzada configurada.")


# LinearRegression

In [None]:
# prompt: Implementa LinearRegression en Python con sklearn, usando validación cruzada de 5 folds, y reporta MAE, MSE, R2 y MAPE.

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, make_scorer
import numpy as np

# Definir las métricas de evaluación
# MAE: Error Absoluto Medio
# MSE: Error Cuadrático Medio
# R2: Coeficiente de Determinación
# MAPE: Error Porcentual Absoluto Medio

def mean_absolute_percentage_error(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    # Evitar división por cero
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    # Reemplazar ceros en y_true para evitar inf o nan.
    # Se puede usar un pequeño épsilon o filtrar. Aquí usamos un épsilon.
    epsilon = 1e-8
    return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

# Crear objetos scorer para las métricas (MAPE necesita un scorer personalizado)
mae_scorer = make_scorer(mean_absolute_error, greater_is_better=False) # greater_is_better=False para métricas de error
mse_scorer = make_scorer(mean_squared_error, greater_is_better=False)
r2_scorer = make_scorer(r2_score, greater_is_better=True)
mape_scorer = make_scorer(mean_absolute_percentage_error, greater_is_better=False)

# Inicializar el modelo de Regresión Lineal
model = LinearRegression()

# Realizar validación cruzada con 5 folds
# cross_val_score por defecto usa la métrica 'score' del estimador (que para LinearRegression es R2)
# Podemos pasar nuestros propios scorers para evaluar múltiples métricas
print("\nRealizando validación cruzada con Linear Regression...")

# Usamos cross_validate para obtener múltiples métricas simultáneamente
from sklearn.model_selection import cross_validate

scoring = {
    'mae': mae_scorer,
    'mse': mse_scorer,
    'r2': r2_scorer,
    'mape': mape_scorer
}

cv_results = cross_validate(model, X_train, y_train, cv=kf, scoring=scoring)

# Los resultados de cross_validate son diccionarios. Accedemos a los arrays de resultados.
# Las métricas de error (MAE, MSE, MAPE) vienen negativas porque make_scorer las optimiza para maximizar (por defecto).
# Necesitamos tomar el valor absoluto para el reporte.
cv_mae = -cv_results['test_mae']
cv_mse = -cv_results['test_mse']
cv_r2 = cv_results['test_r2']
cv_mape = -cv_results['test_mape']

# Reportar los resultados promedio y desviación estándar de cada métrica
print(f"\nResultados de Validación Cruzada (promedio +/- std dev):")
print(f"  MAE:  {cv_mae.mean():.4f} +/- {cv_mae.std():.4f}")
print(f"  MSE:  {cv_mse.mean():.4f} +/- {cv_mse.std():.4f}")
print(f"  R2:   {cv_r2.mean():.4f} +/- {cv_r2.std():.4f}")
print(f"  MAPE: {cv_mape.mean():.4f}% +/- {cv_mape.std():.4f}%")

# Opcional: Entrenar el modelo final en todo el conjunto de entrenamiento y evaluar en el conjunto de prueba
# Este paso es típicamente posterior a la selección del modelo y hyperparámetros
# print("\nEntrenando modelo final en el conjunto de entrenamiento completo...")
# model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba...")
# y_pred_test = model.predict(X_test)

# # Calcular métricas en el conjunto de prueba
# test_mae = mean_absolute_error(y_test, y_pred_test)
# test_mse = mean_squared_error(y_test, y_pred_test)
# test_r2 = r2_score(y_test, y_pred_test)
# test_mape = mean_absolute_percentage_error(y_test, y_pred_test)


# print("\nMétricas en el conjunto de prueba:")
# print(f"  MAE:  {test_mae:.4f}")
# print(f"  MSE:  {test_mse:.4f}")
# print(f"  R2:   {test_r2:.4f}")
# print(f"  MAPE: {test_mape:.4f}%")



# Lasso

In [None]:
# prompt: Implementa Lasso en Python con sklearn, optimiza alpha usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, con rangos logarítmicos, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# Rango: alpha = [0.001, 0.01, 0.1, 1, 10] (Grid), loguniform(0.001, 10) (Random/Bayesian).
# Justificación: Alpha controla la regularización L1, y rangos logarítmicos cubren fuerzas variadas, útil para selección de características.

!pip install scikit-optimize
!pip install scipy

from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
import time
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, make_scorer
from sklearn.model_selection import cross_validate
from skopt import BayesSearchCV
from skopt.space import Real
from scipy.stats import loguniform # Import loguniform from scipy

# Ensure scorers are defined (as per the original code context)
def mean_absolute_percentage_error(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    epsilon = 1e-8
    return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

mae_scorer = make_scorer(mean_absolute_error, greater_is_better=False)
mse_scorer = make_scorer(mean_squared_error, greater_is_better=False)
r2_scorer = make_scorer(r2_score, greater_is_better=True)
mape_scorer = make_scorer(mean_absolute_percentage_error, greater_is_better=False)

scoring = {
    'mae': mae_scorer,
    'mse': mse_scorer,
    'r2': r2_scorer,
    'mape': mape_scorer
}

scoring_optimizer = {'mae': mae_scorer}


# Definir el modelo Lasso
lasso = Lasso(random_state=42, max_iter=10000) # Aumentar max_iter si no converge


# --- Optimización con GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para Lasso...")

# Rango de alpha para GridSearchCV (escala logarítmica)
param_grid = {'alpha': [0.001, 0.01, 0.1, 1, 10]} # Rango específico para Grid

grid_search = GridSearchCV(estimator=lasso, param_grid=param_grid,
                           scoring=scoring_optimizer, refit='mae', # Optimizar usando MAE
                           cv=kf, verbose=1, n_jobs=-1)

start_time_grid = time.time()
grid_search.fit(X_train, y_train)
end_time_grid = time.time()

print("\nResultados de GridSearchCV:")
print(f"Mejores hiperparámetros encontrados: {grid_search.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid - start_time_grid:.2f} segundos")

best_lasso_grid = grid_search.best_estimator_

print("\nEvaluando el mejor modelo de GridSearchCV con validación cruzada completa:")
cv_results_grid_best = cross_validate(best_lasso_grid, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_grid = -cv_results_grid_best['test_mae']
cv_mse_grid = -cv_results_grid_best['test_mse']
cv_r2_grid = cv_results_grid_best['test_r2']
cv_mape_grid = -cv_results_grid_best['test_mape']

print(f"  MAE:  {cv_mae_grid.mean():.4f} +/- {cv_mae_grid.std():.4f}")
print(f"  MSE:  {cv_mse_grid.mean():.4f} +/- {cv_mse_grid.std():.4f}")
print(f"  R2:   {cv_r2_grid.mean():.4f} +/- {cv_r2_grid.std():.4f}")
print(f"  MAPE: {cv_mape_grid.mean():.4f}% +/- {cv_mape_grid.std():.4f}%")


# --- Optimización con RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para Lasso...")

# Rango de alpha para RandomizedSearchCV (distribución loguniform usando scipy)
param_dist = {'alpha': loguniform(0.001, 10)} # Use loguniform from scipy

# Número de iteraciones (puntos a probar). Ajusta este valor según el tiempo disponible.
n_iter_rand = 50 # Ejemplo: probar 50 combinaciones aleatorias

random_search = RandomizedSearchCV(estimator=lasso, param_distributions=param_dist,
                                   n_iter=n_iter_rand,
                                   scoring=scoring_optimizer, refit='mae', # Optimizar usando MAE
                                   cv=kf, verbose=1, random_state=42, n_jobs=-1) # random_state para reproducibilidad

start_time_rand = time.time()
random_search.fit(X_train, y_train)
end_time_rand = time.time()

print("\nResultados de RandomizedSearchCV:")
print(f"Mejores hiperparámetros encontrados: {random_search.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand - start_time_rand:.2f} segundos")

best_lasso_rand = random_search.best_estimator_

print("\nEvaluando el mejor modelo de RandomizedSearchCV con validación cruzada completa:")
cv_results_rand_best = cross_validate(best_lasso_rand, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_rand = -cv_results_rand_best['test_mae']
cv_mse_rand = -cv_results_rand_best['test_mse']
cv_r2_rand = cv_results_rand_best['test_r2']
cv_mape_rand = -cv_results_rand_best['test_mape']

print(f"  MAE:  {cv_mae_rand.mean():.4f} +/- {cv_mae_rand.std():.4f}")
print(f"  MSE:  {cv_mse_rand.mean():.4f} +/- {cv_mse_rand.std():.4f}")
print(f"  R2:   {cv_r2_rand.mean():.4f} +/- {cv_r2_rand.std():.4f}")
print(f"  MAPE: {cv_mape_rand.mean():.4f}% +/- {cv_mape_rand.std():.4f}%")


# --- Optimización con BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para Lasso...")

# Rango de alpha para BayesSearchCV (espacio de búsqueda de skopt)
search_spaces = {'alpha': Real(0.001, 10, prior='log-uniform')}

# Número de iteraciones (puntos a explorar). Generalmente requiere menos que RandomizedSearch.
n_iter_bayes = 50 # Ejemplo: probar 50 iteraciones


# Definir BayesSearchCV
bayes_search = BayesSearchCV(estimator=lasso, search_spaces=search_spaces,
                             n_iter=n_iter_bayes,
                             scoring=scoring_optimizer, refit='mae', # Optimizar usando MAE
                             cv=kf, verbose=1, random_state=42, n_jobs=-1)

start_time_bayes = time.time()
bayes_search.fit(X_train, y_train)
end_time_bayes = time.time()

print("\nResultados de BayesSearchCV:")
print(f"Mejores hiperparámetros encontrados: {bayes_search.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes - start_time_bayes:.2f} segundos")

best_lasso_bayes = bayes_search.best_estimator_

print("\nEvaluando el mejor modelo de BayesSearchCV con validación cruzada completa:")
cv_results_bayes_best = cross_validate(best_lasso_bayes, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_bayes = -cv_results_bayes_best['test_mae']
cv_mse_bayes = -cv_results_bayes_best['test_mse']
cv_r2_bayes = cv_results_bayes_best['test_r2']
cv_mape_bayes = -cv_results_bayes_best['test_mape']

print(f"  MAE:  {cv_mae_bayes.mean():.4f} +/- {cv_mae_bayes.std():.4f}")
print(f"  MSE:  {cv_mse_bayes.mean():.4f} +/- {cv_mse_bayes.std():.4f}")
print(f"  R2:   {cv_r2_bayes.mean():.4f} +/- {cv_r2_bayes.std():.4f}")
print(f"  MAPE: {cv_mape_bayes.mean():.4f}% +/- {cv_mape_bayes.std():.4f}%")


# --- Comparación de resultados ---
print("\n--- Resumen de Resultados de Optimización (MAE promedio en validación) ---")
print(f"GridSearchCV:      {-grid_search.best_score_:.4f}")
print(f"RandomizedSearchCV: {-random_search.best_score_:.4f}")
print(f"BayesSearchCV:      {-bayes_search.best_score_:.4f}")

print("\n--- Reporte Completo de Métricas (Promedio de 5-fold CV) ---")

print("\nGridSearchCV Mejor Modelo:")
print(f"  MAE:  {cv_mae_grid.mean():.4f}")
print(f"  MSE:  {cv_mse_grid.mean():.4f}")
print(f"  R2:   {cv_r2_grid.mean():.4f}")
print(f"  MAPE: {cv_mape_grid.mean():.4f}%")

print("\nRandomizedSearchCV Mejor Modelo:")
print(f"  MAE:  {cv_mae_rand.mean():.4f}")
print(f"  MSE:  {cv_mse_rand.mean():.4f}")
print(f"  R2:   {cv_r2_rand.mean():.4f}")
print(f"  MAPE: {cv_mape_rand.mean():.4f}%")

print("\nBayesSearchCV Mejor Modelo:")
print(f"  MAE:  {cv_mae_bayes.mean():.4f}")
print(f"  MSE:  {cv_mse_bayes.mean():.4f}")
print(f"  R2:   {cv_r2_bayes.mean():.4f}")
print(f"  MAPE: {cv_mape_bayes.mean():.4f}%")

# Puedes seleccionar el mejor modelo general basado en el MAE promedio de validación
# Por ejemplo, si BayesSearchCV dio el mejor resultado:
# final_best_model = best_lasso_bayes
# print("\nEl mejor modelo general basado en MAE promedio de validación es el de BayesSearchCV.")


# Opcional: Entrenar el modelo final elegido en todo X_train y evaluar en X_test
# final_best_model = best_lasso_bayes # O grid_search.best_estimator_ o random_search.best_estimator_

# print("\nEntrenando el modelo final seleccionado en el conjunto de entrenamiento completo...")
# final_best_model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba (X_test)...")
# y_pred_test_final = final_best_model.predict(X_test)

# # Calcular métricas en el conjunto de prueba con el modelo final
# test_mae_final = mean_absolute_error(y_test, y_pred_test_final)
# test_mse_final = mean_squared_error(y_test, y_pred_test_final)
# test_r2_final = r2_score(y_test, y_pred_test_final)
# test_mape_final = mean_absolute_percentage_error(y_test, y_pred_test_final)

# print("\nMétricas en el conjunto de prueba con el modelo Lasso final seleccionado:")
# print(f"  MAE:  {test_mae_final:.4f}")
# print(f"  MSE:  {test_mse_final:.4f}")
# print(f"  R2:   {test_r2_final:.4f}")
# print(f"  MAPE: {test_mape_final:.4f}%")

# ElasticNet

In [None]:
# prompt: Implementa ElasticNet en Python con sklearn, optimiza alpha y l1_ratio usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# Rango: alpha = [0.001, 0.01, 0.1, 1], l1_ratio = [0.1, 0.3, 0.5] (Grid); alpha loguniform(0.001, 1), l1_ratio uniform(0, 1) (Random/Bayesian).
# Justificación: Alpha regula fuerza, l1_ratio balancea L1/L2; rangos logarítmicos para alpha capturan variabilidad, l1_ratio cubre todo espectro.

from scipy.stats import loguniform, uniform
from sklearn.linear_model import ElasticNet
!pip install scikit-optimize

import time
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, make_scorer
from sklearn.model_selection import cross_validate, GridSearchCV, RandomizedSearchCV
from skopt import BayesSearchCV
from skopt.space import Real

# Ensure scorers are defined (as per the original code context)
def mean_absolute_percentage_error(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    epsilon = 1e-8
    return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

mae_scorer = make_scorer(mean_absolute_error, greater_is_better=False)
mse_scorer = make_scorer(mean_squared_error, greater_is_better=False)
r2_scorer = make_scorer(r2_score, greater_is_better=True)
mape_scorer = make_scorer(mean_absolute_percentage_error, greater_is_better=False)

scoring = {
    'mae': mae_scorer,
    'mse': mse_scorer,
    'r2': r2_scorer,
    'mape': mape_scorer
}

scoring_optimizer = {'mae': mae_scorer}


# Definir el modelo ElasticNet
elastic_net = ElasticNet(random_state=42, max_iter=10000) # Aumentar max_iter si no converge

# Assuming X_train, y_train, and kf are defined in previous cells

# --- Optimization with GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para ElasticNet...")

# Define parameter grid for GridSearchCV
# alpha = [0.001, 0.01, 0.1, 1], l1_ratio = [0.1, 0.3, 0.5]
param_grid_en = {
    'alpha': [0.001, 0.01, 0.1, 1],
    'l1_ratio': [0.1, 0.3, 0.5]
}

grid_search_en = GridSearchCV(estimator=elastic_net, param_grid=param_grid_en,
                              scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                              cv=kf, verbose=1, n_jobs=-1)

start_time_grid_en = time.time()
grid_search_en.fit(X_train, y_train)
end_time_grid_en = time.time()

print("\nResultados de GridSearchCV para ElasticNet:")
print(f"Mejores hiperparámetros encontrados: {grid_search_en.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search_en.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid_en - start_time_grid_en:.2f} segundos")

best_elastic_net_grid = grid_search_en.best_estimator_

print("\nEvaluando el mejor modelo de GridSearchCV para ElasticNet con validación cruzada completa:")
cv_results_grid_best_en = cross_validate(best_elastic_net_grid, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_grid_en = -cv_results_grid_best_en['test_mae']
cv_mse_grid_en = -cv_results_grid_best_en['test_mse']
cv_r2_grid_en = cv_results_grid_best_en['test_r2']
cv_mape_grid_en = -cv_results_grid_best_en['test_mape']

print(f"  MAE:  {cv_mae_grid_en.mean():.4f} +/- {cv_mae_grid_en.std():.4f}")
print(f"  MSE:  {cv_mse_grid_en.mean():.4f} +/- {cv_mse_grid_en.std():.4f}")
print(f"  R2:   {cv_r2_grid_en.mean():.4f} +/- {cv_r2_grid_en.std():.4f}")
print(f"  MAPE: {cv_mape_grid_en.mean():.4f}% +/- {cv_mape_grid_en.std():.4f}%")


# --- Optimization with RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para ElasticNet...")

# Define parameter distribution for RandomizedSearchCV
# alpha loguniform(0.001, 1), l1_ratio uniform(0, 1)
param_dist_en = {
    'alpha': loguniform(0.001, 1),
    'l1_ratio': uniform(0, 1)  # Use scipy.stats.uniform for RandomizedSearchCV
}

# Number of iterations (adjust as needed)
n_iter_rand_en = 50

random_search_en = RandomizedSearchCV(estimator=elastic_net, param_distributions=param_dist_en,
                                      n_iter=n_iter_rand_en,
                                      scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                      cv=kf, verbose=1, random_state=42, n_jobs=-1) # random_state para reproducibilidad

start_time_rand_en = time.time()
random_search_en.fit(X_train, y_train)
end_time_rand_en = time.time()

print("\nResultados de RandomizedSearchCV para ElasticNet:")
print(f"Mejores hiperparámetros encontrados: {random_search_en.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search_en.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand_en - start_time_rand_en:.2f} segundos")

best_elastic_net_rand = random_search_en.best_estimator_

print("\nEvaluando el mejor modelo de RandomizedSearchCV para ElasticNet con validación cruzada completa:")
cv_results_rand_best_en = cross_validate(best_elastic_net_rand, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_rand_en = -cv_results_rand_best_en['test_mae']
cv_mse_rand_en = -cv_results_rand_best_en['test_mse']
cv_r2_rand_en = cv_results_rand_best_en['test_r2']
cv_mape_rand_en = -cv_results_rand_best_en['test_mape']

print(f"  MAE:  {cv_mae_rand_en.mean():.4f} +/- {cv_mae_rand_en.std():.4f}")
print(f"  MSE:  {cv_mse_rand_en.mean():.4f} +/- {cv_mse_rand_en.std():.4f}")
print(f"  R2:   {cv_r2_rand_en.mean():.4f} +/- {cv_r2_rand_en.std():.4f}")
print(f"  MAPE: {cv_mape_rand_en.mean():.4f}% +/- {cv_mape_rand_en.std():.4f}%")


# --- Optimization with BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para ElasticNet...")

# Define search spaces for BayesSearchCV
# alpha loguniform(0.001, 1), l1_ratio uniform(0, 1)
search_spaces_en = {
    'alpha': Real(0.001, 1, prior='log-uniform'),
    'l1_ratio': Real(0, 1, prior='uniform') # Use skopt's Real for BayesSearchCV
}

# Number of iterations (adjust as needed)
n_iter_bayes_en = 50

bayes_search_en = BayesSearchCV(estimator=elastic_net, search_spaces=search_spaces_en,
                                n_iter=n_iter_bayes_en,
                                scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                cv=kf, verbose=1, random_state=42, n_jobs=-1)

start_time_bayes_en = time.time()
bayes_search_en.fit(X_train, y_train)
end_time_bayes_en = time.time()

print("\nResultados de BayesSearchCV para ElasticNet:")
print(f"Mejores hiperparámetros encontrados: {bayes_search_en.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search_en.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes_en - start_time_bayes_en:.2f} segundos")

best_elastic_net_bayes = bayes_search_en.best_estimator_

print("\nEvaluando el mejor modelo de BayesSearchCV para ElasticNet con validación cruzada completa:")
cv_results_bayes_best_en = cross_validate(best_elastic_net_bayes, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_bayes_en = -cv_results_bayes_best_en['test_mae']
cv_mse_bayes_en = -cv_results_bayes_best_en['test_mse']
cv_r2_bayes_en = cv_results_bayes_best_en['test_r2']
cv_mape_bayes_en = -cv_results_bayes_best_en['test_mape']

print(f"  MAE:  {cv_mae_bayes_en.mean():.4f} +/- {cv_mae_bayes_en.std():.4f}")
print(f"  MSE:  {cv_mse_bayes_en.mean():.4f} +/- {cv_mse_bayes_en.std():.4f}")
print(f"  R2:   {cv_r2_bayes_en.mean():.4f} +/- {cv_r2_bayes_en.std():.4f}")
print(f"  MAPE: {cv_mape_bayes_en.mean():.4f}% +/- {cv_mape_bayes_en.std():.4f}%")


# --- Comparación de resultados de ElasticNet ---
print("\n--- Resumen de Resultados de Optimización para ElasticNet (MAE promedio en validación) ---")
print(f"GridSearchCV:      {-grid_search_en.best_score_:.4f}")
print(f"RandomizedSearchCV: {-random_search_en.best_score_:.4f}")
print(f"BayesSearchCV:      {-bayes_search_en.best_score_:.4f}")

print("\n--- Reporte Completo de Métricas para ElasticNet (Promedio de 5-fold CV) ---")

print("\nGridSearchCV Mejor Modelo (ElasticNet):")
print(f"  MAE:  {cv_mae_grid_en.mean():.4f}")
print(f"  MSE:  {cv_mse_grid_en.mean():.4f}")
print(f"  R2:   {cv_r2_grid_en.mean():.4f}")
print(f"  MAPE: {cv_mape_grid_en.mean():.4f}%")

print("\nRandomizedSearchCV Mejor Modelo (ElasticNet):")
print(f"  MAE:  {cv_mae_rand_en.mean():.4f}")
print(f"  MSE:  {cv_mse_rand_en.mean():.4f}")
print(f"  R2:   {cv_r2_rand_en.mean():.4f}")
print(f"  MAPE: {cv_mape_rand_en.mean():.4f}%")

print("\nBayesSearchCV Mejor Modelo (ElasticNet):")
print(f"  MAE:  {cv_mae_bayes_en.mean():.4f}")
print(f"  MSE:  {cv_mse_bayes_en.mean():.4f}")
print(f"  R2:   {cv_r2_bayes_en.mean():.4f}")
print(f"  MAPE: {cv_mape_bayes_en.mean():.4f}%")

# You can select the overall best ElasticNet model based on validation MAE
# For instance, if BayesSearchCV gave the best result:
# final_best_elastic_net_model = best_elastic_net_bayes
# print("\nEl mejor modelo ElasticNet general basado en MAE promedio de validación es el de BayesSearchCV.")

# Optional: Train the chosen best ElasticNet model on the entire X_train and evaluate on X_test
# final_best_elastic_net_model = best_elastic_net_bayes # Or grid_search_en.best_estimator_ or random_search_en.best_estimator_

# print("\nEntrenando el modelo ElasticNet final seleccionado en el conjunto de entrenamiento completo...")
# final_best_elastic_net_model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba (X_test) con el modelo ElasticNet final...")
# y_pred_test_final_en = final_best_elastic_net_model.predict(X_test)

# # Calculate metrics on the test set with the final ElasticNet model
# test_mae_final_en = mean_absolute_error(y_test, y_pred_test_final_en)
# test_mse_final_en = mean_squared_error(y_test, y_pred_test_final_en)
# test_r2_final_en = r2_score(y_test, y_pred_test_final_en)
# test_mape_final_en = mean_absolute_percentage_error(y_test, y_pred_test_final_en)

# print("\nMétricas en el conjunto de prueba con el modelo ElasticNet final seleccionado:")
# print(f"  MAE:  {test_mae_final_en:.4f}")
# print(f"  MSE:  {test_mse_final_en:.4f}")
# print(f"  R2:   {test_r2_final_en:.4f}")
# print(f"  MAPE: {test_mape_final_en:.4f}%")

# KernelRidge

In [None]:
# prompt: Implementa KernelRidge en Python con sklearn, optimiza alpha y gamma para kernel RBF usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# Rango: alpha = [0.001, 0.01, 0.1], gamma = [0.001, 0.01] (Grid); alpha loguniform(0.001, 1), gamma loguniform(0.001, 1) (Random/Bayesian).
# Justificación: Alpha controla regularización, gamma ajusta escala del kernel RBF; rangos logarítmicos capturan no linealidades.

!pip install scikit-optimize

# Ensure scorers and kf are defined (as per the original code context)
# (assuming the previous cells defining these have been run)

from sklearn.kernel_ridge import KernelRidge


# Definir el modelo KernelRidge con kernel RBF
# Aumentar max_iter si es necesario para la convergencia (aunque KRR no tiene un solver iterativo como las lineales)
# kernel='rbf' especifica el tipo de kernel
kernel_ridge = KernelRidge(kernel='rbf')


# --- Optimization with GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para KernelRidge (kernel RBF)...")

# Define parameter grid for GridSearchCV
# alpha = [0.001, 0.01, 0.1], gamma = [0.001, 0.01]
param_grid_krr = {
    'alpha': [0.001, 0.01, 0.1],
    'gamma': [0.001, 0.01]
}

grid_search_krr = GridSearchCV(estimator=kernel_ridge, param_grid=param_grid_krr,
                               scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                               cv=kf, verbose=1, n_jobs=-1)

start_time_grid_krr = time.time()
grid_search_krr.fit(X_train, y_train)
end_time_grid_krr = time.time()

print("\nResultados de GridSearchCV para KernelRidge:")
print(f"Mejores hiperparámetros encontrados: {grid_search_krr.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search_krr.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid_krr - start_time_grid_krr:.2f} segundos")

best_kernel_ridge_grid = grid_search_krr.best_estimator_

print("\nEvaluando el mejor modelo de GridSearchCV para KernelRidge con validación cruzada completa:")
cv_results_grid_best_krr = cross_validate(best_kernel_ridge_grid, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_grid_krr = -cv_results_grid_best_krr['test_mae']
cv_mse_grid_krr = -cv_results_grid_best_krr['test_mse']
cv_r2_grid_krr = cv_results_grid_best_krr['test_r2']
cv_mape_grid_krr = -cv_results_grid_best_krr['test_mape']

print(f"  MAE:  {cv_mae_grid_krr.mean():.4f} +/- {cv_mae_grid_krr.std():.4f}")
print(f"  MSE:  {cv_mse_grid_krr.mean():.4f} +/- {cv_mse_grid_krr.std():.4f}")
print(f"  R2:   {cv_r2_grid_krr.mean():.4f} +/- {cv_r2_grid_krr.std():.4f}")
print(f"  MAPE: {cv_mape_grid_krr.mean():.4f}% +/- {cv_mape_grid_krr.std():.4f}%")


# --- Optimization with RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para KernelRidge (kernel RBF)...")

# Define parameter distribution for RandomizedSearchCV
# alpha loguniform(0.001, 1), gamma loguniform(0.001, 1)
param_dist_krr = {
    'alpha': loguniform(0.001, 1),
    'gamma': loguniform(0.001, 1)
}

# Number of iterations (adjust as needed)
n_iter_rand_krr = 50 # Example: try 50 random combinations

random_search_krr = RandomizedSearchCV(estimator=kernel_ridge, param_distributions=param_dist_krr,
                                       n_iter=n_iter_rand_krr,
                                       scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                       cv=kf, verbose=1, random_state=42, n_jobs=-1) # random_state para reproducibilidad

start_time_rand_krr = time.time()
random_search_krr.fit(X_train, y_train)
end_time_rand_krr = time.time()

print("\nResultados de RandomizedSearchCV para KernelRidge:")
print(f"Mejores hiperparámetros encontrados: {random_search_krr.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search_krr.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand_krr - start_time_rand_krr:.2f} segundos")

best_kernel_ridge_rand = random_search_krr.best_estimator_

print("\nEvaluando el mejor modelo de RandomizedSearchCV para KernelRidge con validación cruzada completa:")
cv_results_rand_best_krr = cross_validate(best_kernel_ridge_rand, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_rand_krr = -cv_results_rand_best_krr['test_mae']
cv_mse_rand_krr = -cv_results_rand_best_krr['test_mse']
cv_r2_rand_krr = cv_results_rand_best_krr['test_r2']
cv_mape_rand_krr = -cv_results_rand_best_krr['test_mape']

print(f"  MAE:  {cv_mae_rand_krr.mean():.4f} +/- {cv_mae_rand_krr.std():.4f}")
print(f"  MSE:  {cv_mse_rand_krr.mean():.4f} +/- {cv_mse_rand_krr.std():.4f}")
print(f"  R2:   {cv_r2_rand_krr.mean():.4f} +/- {cv_r2_rand_krr.std():.4f}")
print(f"  MAPE: {cv_mape_rand_krr.mean():.4f}% +/- {cv_mape_rand_krr.std():.4f}%")


# --- Optimization with BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para KernelRidge (kernel RBF)...")

# Define search spaces for BayesSearchCV
# alpha loguniform(0.001, 1), gamma loguniform(0.001, 1)
search_spaces_krr = {
    'alpha': Real(0.001, 1, prior='log-uniform'),
    'gamma': Real(0.001, 1, prior='log-uniform')
}

# Number of iterations (adjust as needed)
n_iter_bayes_krr = 50 # Example: try 50 iterations

bayes_search_krr = BayesSearchCV(estimator=kernel_ridge, search_spaces=search_spaces_krr,
                                 n_iter=n_iter_bayes_krr,
                                 scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                 cv=kf, verbose=1, random_state=42, n_jobs=-1)

start_time_bayes_krr = time.time()
bayes_search_krr.fit(X_train, y_train)
end_time_bayes_krr = time.time()

print("\nResultados de BayesSearchCV para KernelRidge:")
print(f"Mejores hiperparámetros encontrados: {bayes_search_krr.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search_krr.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes_krr - start_time_bayes_krr:.2f} segundos")

best_kernel_ridge_bayes = bayes_search_krr.best_estimator_

print("\nEvaluando el mejor modelo de BayesSearchCV para KernelRidge con validación cruzada completa:")
cv_results_bayes_best_krr = cross_validate(best_kernel_ridge_bayes, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_bayes_krr = -cv_results_bayes_best_krr['test_mae']
cv_mse_bayes_krr = -cv_results_bayes_best_krr['test_mse']
cv_r2_bayes_krr = cv_results_bayes_best_krr['test_r2']
cv_mape_bayes_krr = -cv_results_bayes_best_krr['test_mape']

print(f"  MAE:  {cv_mae_bayes_krr.mean():.4f} +/- {cv_mae_bayes_krr.std():.4f}")
print(f"  MSE:  {cv_mse_bayes_krr.mean():.4f} +/- {cv_mse_bayes_krr.std():.4f}")
print(f"  R2:   {cv_r2_bayes_krr.mean():.4f} +/- {cv_r2_bayes_krr.std():.4f}")
print(f"  MAPE: {cv_mape_bayes_krr.mean():.4f}% +/- {cv_mape_bayes_krr.std():.4f}%")


# --- Comparación de resultados de KernelRidge ---
print("\n--- Resumen de Resultados de Optimización para KernelRidge (MAE promedio en validación) ---")
print(f"GridSearchCV:      {-grid_search_krr.best_score_:.4f}")
print(f"RandomizedSearchCV: {-random_search_krr.best_score_:.4f}")
print(f"BayesSearchCV:      {-bayes_search_krr.best_score_:.4f}")

print("\n--- Reporte Completo de Métricas para KernelRidge (Promedio de 5-fold CV) ---")

print("\nGridSearchCV Mejor Modelo (KernelRidge):")
print(f"  MAE:  {cv_mae_grid_krr.mean():.4f}")
print(f"  MSE:  {cv_mse_grid_krr.mean():.4f}")
print(f"  R2:   {cv_r2_grid_krr.mean():.4f}")
print(f"  MAPE: {cv_mape_grid_krr.mean():.4f}%")

print("\nRandomizedSearchCV Mejor Modelo (KernelRidge):")
print(f"  MAE:  {cv_mae_rand_krr.mean():.4f}")
print(f"  MSE:  {cv_mse_rand_krr.mean():.4f}")
print(f"  R2:   {cv_r2_rand_krr.mean():.4f}")
print(f"  MAPE: {cv_mape_rand_krr.mean():.4f}%")

print("\nBayesSearchCV Mejor Modelo (KernelRidge):")
print(f"  MAE:  {cv_mae_bayes_krr.mean():.4f}")
print(f"  MSE:  {cv_mse_bayes_krr.mean():.4f}")
print(f"  R2:   {cv_r2_bayes_krr.mean():.4f}")
print(f"  MAPE: {cv_mape_bayes_krr.mean():.4f}%")

# You can select the overall best KernelRidge model based on validation MAE
# For instance, if BayesSearchCV gave the best result:
# final_best_kernel_ridge_model = best_kernel_ridge_bayes
# print("\nEl mejor modelo KernelRidge general basado en MAE promedio de validación es el de BayesSearchCV.")

# Optional: Train the chosen best KernelRidge model on the entire X_train and evaluate on X_test
# final_best_kernel_ridge_model = best_kernel_ridge_bayes # Or grid_search_krr.best_estimator_ or random_search_krr.best_estimator_

# print("\nEntrenando el modelo KernelRidge final seleccionado en el conjunto de entrenamiento completo...")
# final_best_kernel_ridge_model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba (X_test) con el modelo KernelRidge final...")
# y_pred_test_final_krr = final_best_kernel_ridge_model.predict(X_test)

# # Calculate metrics on the test set with the final KernelRidge model
# test_mae_final_krr = mean_absolute_error(y_test, y_pred_test_final_krr)
# test_mse_final_krr = mean_squared_error(y_test, y_pred_test_final_krr)
# test_r2_final_krr = r2_score(y_test, y_pred_test_final_krr)
# test_mape_final_krr = mean_absolute_percentage_error(y_test, y_pred_test_final_krr)

# print("\nMétricas en el conjunto de prueba con el modelo KernelRidge final seleccionado:")
# print(f"  MAE:  {test_mae_final_krr:.4f}")
# print(f"  MSE:  {test_mse_final_krr:.4f}")
# print(f"  R2:   {test_r2_final_krr:.4f}")
# print(f"  MAPE: {test_mape_final_krr:.4f}%")



# SGDRegressor

In [None]:
# prompt: Implementa SGDRegressor en Python con sklearn, optimiza alpha con learning_rate='invscaling' usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# Rango: alpha = [0.0001, 0.001] (Grid); alpha loguniform(0.0001, 0.01) (Random/Bayesian).
# Justificación: Alpha regula regularización, learning_rate fijo para estabilidad; rangos pequeños para evitar overfitting.

from sklearn.linear_model import SGDRegressor

# Ensure scorers and kf are defined (as per the original code context)
# (assuming the previous cells defining these have been run)

# Define the SGDRegressor model
# Use learning_rate='invscaling' and set early_stopping=True for better performance and stability
sgd_regressor = SGDRegressor(learning_rate='invscaling', early_stopping=True,
                             random_state=42, max_iter=10000) # Increased max_iter

# --- Optimization with GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para SGDRegressor...")

# Define parameter grid for GridSearchCV
# Range: alpha = [0.0001, 0.001]
param_grid_sgd = {
    'alpha': [0.0001, 0.001]
}

grid_search_sgd = GridSearchCV(estimator=sgd_regressor, param_grid=param_grid_sgd,
                               scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                               cv=kf, verbose=1, n_jobs=-1)

start_time_grid_sgd = time.time()
grid_search_sgd.fit(X_train, y_train)
end_time_grid_sgd = time.time()

print("\nResultados de GridSearchCV para SGDRegressor:")
print(f"Mejores hiperparámetros encontrados: {grid_search_sgd.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search_sgd.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid_sgd - start_time_grid_sgd:.2f} segundos")

best_sgd_grid = grid_search_sgd.best_estimator_

print("\nEvaluando el mejor modelo de GridSearchCV para SGDRegressor con validación cruzada completa:")
cv_results_grid_best_sgd = cross_validate(best_sgd_grid, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_grid_sgd = -cv_results_grid_best_sgd['test_mae']
cv_mse_grid_sgd = -cv_results_grid_best_sgd['test_mse']
cv_r2_grid_sgd = cv_results_grid_best_sgd['test_r2']
cv_mape_grid_sgd = -cv_results_grid_best_sgd['test_mape']

print(f"  MAE:  {cv_mae_grid_sgd.mean():.4f} +/- {cv_mae_grid_sgd.std():.4f}")
print(f"  MSE:  {cv_mse_grid_sgd.mean():.4f} +/- {cv_mse_grid_sgd.std():.4f}")
print(f"  R2:   {cv_r2_grid_sgd.mean():.4f} +/- {cv_r2_grid_sgd.std():.4f}")
print(f"  MAPE: {cv_mape_grid_sgd.mean():.4f}% +/- {cv_mape_grid_sgd.std():.4f}%")


# --- Optimization with RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para SGDRegressor...")

# Define parameter distribution for RandomizedSearchCV
# Range: alpha loguniform(0.0001, 0.01)
param_dist_sgd = {
    'alpha': loguniform(0.0001, 0.01)
}

# Number of iterations (adjust as needed)
n_iter_rand_sgd = 50 # Example: try 50 random combinations

random_search_sgd = RandomizedSearchCV(estimator=sgd_regressor, param_distributions=param_dist_sgd,
                                       n_iter=n_iter_rand_sgd,
                                       scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                       cv=kf, verbose=1, random_state=42, n_jobs=-1) # random_state para reproducibilidad

start_time_rand_sgd = time.time()
random_search_sgd.fit(X_train, y_train)
end_time_rand_sgd = time.time()

print("\nResultados de RandomizedSearchCV para SGDRegressor:")
print(f"Mejores hiperparámetros encontrados: {random_search_sgd.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search_sgd.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand_sgd - start_time_rand_sgd:.2f} segundos")

best_sgd_rand = random_search_sgd.best_estimator_

print("\nEvaluando el mejor modelo de RandomizedSearchCV para SGDRegressor con validación cruzada completa:")
cv_results_rand_best_sgd = cross_validate(best_sgd_rand, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_rand_sgd = -cv_results_rand_best_sgd['test_mae']
cv_mse_rand_sgd = -cv_results_rand_best_sgd['test_mse']
cv_r2_rand_sgd = cv_results_rand_best_sgd['test_r2']
cv_mape_rand_sgd = -cv_results_rand_best_sgd['test_mape']

print(f"  MAE:  {cv_mae_rand_sgd.mean():.4f} +/- {cv_mae_rand_sgd.std():.4f}")
print(f"  MSE:  {cv_mse_rand_sgd.mean():.4f} +/- {cv_mse_rand_sgd.std():.4f}")
print(f"  R2:   {cv_r2_rand_sgd.mean():.4f} +/- {cv_r2_rand_sgd.std():.4f}")
print(f"  MAPE: {cv_mape_rand_sgd.mean():.4f}% +/- {cv_mape_rand_sgd.std():.4f}%")


# --- Optimization with BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para SGDRegressor...")

# Define search spaces for BayesSearchCV
# Range: alpha loguniform(0.0001, 0.01)
search_spaces_sgd = {
    'alpha': Real(0.0001, 0.01, prior='log-uniform')
}

# Number of iterations (adjust as needed)
n_iter_bayes_sgd = 50 # Example: try 50 iterations

bayes_search_sgd = BayesSearchCV(estimator=sgd_regressor, search_spaces=search_spaces_sgd,
                                 n_iter=n_iter_bayes_sgd,
                                 scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                 cv=kf, verbose=1, random_state=42, n_jobs=-1)

start_time_bayes_sgd = time.time()
bayes_search_sgd.fit(X_train, y_train)
end_time_bayes_sgd = time.time()

print("\nResultados de BayesSearchCV para SGDRegressor:")
print(f"Mejores hiperparámetros encontrados: {bayes_search_sgd.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search_sgd.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes_sgd - start_time_bayes_sgd:.2f} segundos")

best_sgd_bayes = bayes_search_sgd.best_estimator_

print("\nEvaluando el mejor modelo de BayesSearchCV para SGDRegressor con validación cruzada completa:")
cv_results_bayes_best_sgd = cross_validate(best_sgd_bayes, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_bayes_sgd = -cv_results_bayes_best_sgd['test_mae']
cv_mse_bayes_sgd = -cv_results_bayes_best_sgd['test_mse']
cv_r2_bayes_sgd = cv_results_bayes_best_sgd['test_r2']
cv_mape_bayes_sgd = -cv_results_bayes_best_sgd['test_mape']

print(f"  MAE:  {cv_mae_bayes_sgd.mean():.4f} +/- {cv_mae_bayes_sgd.std():.4f}")
print(f"  MSE:  {cv_mse_bayes_sgd.mean():.4f} +/- {cv_mse_bayes_sgd.std():.4f}")
print(f"  R2:   {cv_r2_bayes_sgd.mean():.4f} +/- {cv_r2_bayes_sgd.std():.4f}")
print(f"  MAPE: {cv_mape_bayes_sgd.mean():.4f}% +/- {cv_mape_bayes_sgd.std():.4f}%")


# --- Comparación de resultados de SGDRegressor ---
print("\n--- Resumen de Resultados de Optimización para SGDRegressor (MAE promedio en validación) ---")
print(f"GridSearchCV:      {-grid_search_sgd.best_score_:.4f}")
print(f"RandomizedSearchCV: {-random_search_sgd.best_score_:.4f}")
print(f"BayesSearchCV:      {-bayes_search_sgd.best_score_:.4f}")

print("\n--- Reporte Completo de Métricas para SGDRegressor (Promedio de 5-fold CV) ---")

print("\nGridSearchCV Mejor Modelo (SGDRegressor):")
print(f"  MAE:  {cv_mae_grid_sgd.mean():.4f}")
print(f"  MSE:  {cv_mse_grid_sgd.mean():.4f}")
print(f"  R2:   {cv_r2_grid_sgd.mean():.4f}")
print(f"  MAPE: {cv_mape_grid_sgd.mean():.4f}%")

print("\nRandomizedSearchCV Mejor Modelo (SGDRegressor):")
print(f"  MAE:  {cv_mae_rand_sgd.mean():.4f}")
print(f"  MSE:  {cv_mse_rand_sgd.mean():.4f}")
print(f"  R2:   {cv_r2_rand_sgd.mean():.4f}")
print(f"  MAPE: {cv_mape_rand_sgd.mean():.4f}%")

print("\nBayesSearchCV Mejor Modelo (SGDRegressor):")
print(f"  MAE:  {cv_mae_bayes_sgd.mean():.4f}")
print(f"  MSE:  {cv_mse_bayes_sgd.mean():.4f}")
print(f"  R2:   {cv_r2_bayes_sgd.mean():.4f}")
print(f"  MAPE: {cv_mape_bayes_sgd.mean():.4f}%")

# You can select the overall best SGDRegressor model based on validation MAE
# For instance, if BayesSearchCV gave the best result:
# final_best_sgd_model = best_sgd_bayes
# print("\nEl mejor modelo SGDRegressor general basado en MAE promedio de validación es el de BayesSearchCV.")

# Optional: Train the chosen best SGDRegressor model on the entire X_train and evaluate on X_test
# final_best_sgd_model = best_sgd_bayes # Or grid_search_sgd.best_estimator_ or random_search_sgd.best_estimator_

# print("\nEntrenando el modelo SGDRegressor final seleccionado en el conjunto de entrenamiento completo...")
# final_best_sgd_model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba (X_test) con el modelo SGDRegressor final...")
# y_pred_test_final_sgd = final_best_sgd_model.predict(X_test)

# # Calculate metrics on the test set with the final SGDRegressor model
# test_mae_final_sgd = mean_absolute_error(y_test, y_pred_test_final_sgd)
# test_mse_final_sgd = mean_squared_error(y_test, y_pred_test_final_sgd)
# test_r2_final_sgd = r2_score(y_test, y_pred_test_final_sgd)
# test_mape_final_sgd = mean_absolute_percentage_error(y_test, y_pred_test_final_sgd)

# print("\nMétricas en el conjunto de prueba con el modelo SGDRegressor final seleccionado:")
# print(f"  MAE:  {test_mae_final_sgd:.4f}")
# print(f"  MSE:  {test_mse_final_sgd:.4f}")
# print(f"  R2:   {test_r2_final_sgd:.4f}")
# print(f"  MAPE: {test_mape_final_sgd:.4f}%")


# BayesianRidge

In [None]:
# prompt: Implementa BayesianRidge en Python con sklearn, usa validación cruzada de 5 folds, y reporta MAE, MSE, R2 y MAPE, sin optimización de hiperparámetros."
# Rango: n_iter = [300] (Grid); no aplica para Random/Bayesian.
# Justificación: Robustez a multicolinealidad, parámetros predeterminados son suficientes.

import numpy as np
from sklearn.linear_model import BayesianRidge

# Ensure scorers and kf are defined (as per the original code context)
# (assuming the previous cells defining these have been run)

# Redefine the custom MAPE scorer if it wasn't in the preceding code or is needed again
def mean_absolute_percentage_error(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    epsilon = 1e-8
    return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

# Create scorer objects for the metrics
mae_scorer = make_scorer(mean_absolute_error, greater_is_better=False)
mse_scorer = make_scorer(mean_squared_error, greater_is_better=False)
r2_scorer = make_scorer(r2_score, greater_is_better=True)
mape_scorer = make_scorer(mean_absolute_percentage_error, greater_is_better=False)

# Define the scoring dictionary for cross_validate
scoring = {
    'mae': mae_scorer,
    'mse': mse_scorer,
    'r2': r2_scorer,
    'mape': mape_scorer
}

# Define the BayesianRidge model with default parameters
# n_iter=300 as specified, but the prompt says "sin optimización de hiperparámetros",
# and n_iter doesn't apply to default sklearn BayesianRidge without tuning.
# Let's use the default parameters as requested by "sin optimización de hiperparámetros".
# If n_iter was a requirement, we'd clarify or set it, but the prompt suggests default.
# The default max_iter for BayesianRidge is 300, so it aligns if we were to set it,
# but sticking to "sin optimización" implies using the model as is.
model = BayesianRidge()

# Perform cross-validation with 5 folds (kf)
print("\nRealizando validación cruzada con BayesianRidge (parámetros predeterminados)...")

# Use cross_validate to get multiple metrics simultaneously
cv_results = cross_validate(model, X_train, y_train, cv=kf, scoring=scoring)

# Access the results arrays
# Error metrics (MAE, MSE, MAPE) are negative because make_scorer optimizes by maximizing.
# Take the absolute value for reporting.
cv_mae = -cv_results['test_mae']
cv_mse = -cv_results['test_mse']
cv_r2 = cv_results['test_r2']
cv_mape = -cv_results['test_mape']

# Report the average and standard deviation of each metric
print(f"\nResultados de Validación Cruzada para BayesianRidge (promedio +/- std dev):")
print(f"  MAE:  {cv_mae.mean():.4f} +/- {cv_mae.std():.4f}")
print(f"  MSE:  {cv_mse.mean():.4f} +/- {cv_mse.std():.4f}")
print(f"  R2:   {cv_r2.mean():.4f} +/- {cv_r2.std():.4f}")
print(f"  MAPE: {cv_mape.mean():.4f}% +/- {cv_mape.std():.4f}%")

# Optional: Train the model on the entire training set and evaluate on the test set
# This step is typically performed after model selection and hyperparameter tuning,
# but can be done here to show performance on unseen data with default parameters.
# print("\nEntrenando modelo final BayesianRidge en el conjunto de entrenamiento completo...")
# model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba...")
# y_pred_test = model.predict(X_test)

# # Calculate metrics on the test set
# test_mae = mean_absolute_error(y_test, y_pred_test)
# test_mse = mean_squared_error(y_test, y_pred_test)
# test_r2 = r2_score(y_test, y_pred_test)
# test_mape = mean_absolute_percentage_error(y_test, y_pred_test)

# print("\nMétricas en el conjunto de prueba (BayesianRidge con parámetros predeterminados):")
# print(f"  MAE:  {test_mae:.4f}")
# print(f"  MSE:  {test_mse:.4f}")
# print(f"  R2:   {test_r2:.4f}")
# print(f"  MAPE: {test_mape:.4f}%")

# GaussianProcessRegressor

In [None]:
# prompt: Implementa GaussianProcessRegressor en Python con sklearn, optimiza length_scale y alpha para kernel RBF usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# # # Rango: length_scale = [0.1, 1], alpha = [0.001] (Grid); length_scale loguniform(0.1, 2), alpha loguniform(0.001, 0.1) (Random/Bayesian).
# # # Justificación: Length_scale ajusta correlación, alpha controla ruido; rangos logarítmicos para capturar variabilidad, alpha fijo pequeño para estabilidad.
# # Organízame el código para que al momento realizar la optimización de los hiperparámetros, no use tantos fits y no se demore

# Instalar scikit-optimize si no está instalado
!pip install scikit-optimize

import time
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C
from sklearn.model_selection import cross_validate, KFold
from sklearn.metrics import make_scorer, mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from skopt import BayesSearchCV
from skopt.space import Real
from scipy.stats import loguniform

# Suponiendo que X_train, y_train, X_test, y_test están definidos
# Definir KFold para validación cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Definir métricas para evaluación
scoring_optimizer = {'mae': make_scorer(mean_absolute_error, greater_is_better=False)}
scoring = {
    'mae': make_scorer(mean_absolute_error, greater_is_better=False),
    'mse': make_scorer(mean_squared_error, greater_is_better=False),
    'r2': make_scorer(r2_score, greater_is_better=True),
    'mape': make_scorer(mean_absolute_percentage_error, greater_is_better=False)
}

# Definir el modelo con menos reinicios
kernel = C(1.0, (1e-3, 1e3)) * RBF(1.0, (0.1, 2.0))
gpr = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=5)

# --- Optimización con GridSearchCV ---
print("\nIniciando optimización con GridSearchCV...")
param_grid_gpr = {
    'kernel__k2__length_scale': [0.1, 1.0],
    'alpha': [0.001]
}
grid_search_gpr = GridSearchCV(estimator=gpr, param_grid=param_grid_gpr,
                               scoring=scoring_optimizer, refit='mae',
                               cv=kf, verbose=1, n_jobs=-1)
start_time_grid_gpr = time.time()
grid_search_gpr.fit(X_train, y_train)
end_time_grid_gpr = time.time()

print("\nResultados de GridSearchCV:")
print(f"Mejores hiperparámetros: {grid_search_gpr.best_params_}")
print(f"Mejor MAE promedio: {-grid_search_gpr.best_score_:.4f}")
print(f"Tiempo: {end_time_grid_gpr - start_time_grid_gpr:.2f} segundos")

# --- Optimización con RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV...")
param_dist_gpr = {
    'kernel__k2__length_scale': loguniform(0.1, 2.0),
    'alpha': loguniform(0.001, 0.1)
}
random_search_gpr = RandomizedSearchCV(estimator=gpr, param_distributions=param_dist_gpr,
                                      n_iter=10, scoring=scoring_optimizer, refit='mae',
                                      cv=kf, verbose=1, random_state=42, n_jobs=-1)
start_time_rand_gpr = time.time()
random_search_gpr.fit(X_train, y_train)
end_time_rand_gpr = time.time()

print("\nResultados de RandomizedSearchCV:")
print(f"Mejores hiperparámetros: {random_search_gpr.best_params_}")
print(f"Mejor MAE promedio: {-random_search_gpr.best_score_:.4f}")
print(f"Tiempo: {end_time_rand_gpr - start_time_rand_gpr:.2f} segundos")

# --- Optimización con BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV...")
search_spaces_gpr = {
    'kernel__k2__length_scale': Real(0.1, 2.0, prior='log-uniform'),
    'alpha': Real(0.001, 0.1, prior='log-uniform')
}
bayes_search_gpr = BayesSearchCV(estimator=gpr, search_spaces=search_spaces_gpr,
                                 n_iter=10, scoring=scoring_optimizer, refit='mae',
                                 cv=kf, verbose=1, random_state=42, n_jobs=-1)
start_time_bayes_gpr = time.time()
bayes_search_gpr.fit(X_train, y_train)
end_time_bayes_gpr = time.time()

print("\nResultados de BayesSearchCV:")
print(f"Mejores hiperparámetros: {bayes_search_gpr.best_params_}")
print(f"Mejor MAE promedio: {-bayes_search_gpr.best_score_:.4f}")
print(f"Tiempo: {end_time_bayes_gpr - start_time_bayes_gpr:.2f} segundos")

# Evaluación final del mejor modelo (BayesSearchCV) en el conjunto completo
best_gpr = bayes_search_gpr.best_estimator_
cv_results_best_gpr = cross_validate(best_gpr, X_train, y_train, cv=kf, scoring=scoring)

print("\nMétricas del mejor modelo (BayesSearchCV) con validación cruzada:")
print(f"  MAE:  {-cv_results_best_gpr['test_mae'].mean():.4f} +/- {cv_results_best_gpr['test_mae'].std():.4f}")
print(f"  MSE:  {-cv_results_best_gpr['test_mse'].mean():.4f} +/- {cv_results_best_gpr['test_mse'].std():.4f}")
print(f"  R2:   {cv_results_best_gpr['test_r2'].mean():.4f} +/- {cv_results_best_gpr['test_r2'].std():.4f}")
print(f"  MAPE: {-cv_results_best_gpr['test_mape'].mean():.4f}% +/- {cv_results_best_gpr['test_mape'].std():.4f}%")



# RandomForestRegressor

In [None]:
# prompt: Implementa RandomForestRegressor en Python con sklearn, optimiza n_estimators, max_depth y min_samples_split usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."
# Rango: n_estimators = [50, 256], max_depth = [None, 16], min_samples_split = [2, 10] (Grid); n_estimators randint(56, 256), max_depth [None] + list(range(5, 30)), min_samples_split randint(2, 25) (Random); n_estimators Integer(50, 256), max_depth Integer(5, 35), min_samples_split Integer(2, 25) (Bayesian).
# Justificación: n_estimators controla ensamblado, max_depth y min_samples_split evitan overfitting; rangos amplios para explorar complejidad.

# Importaciones necesarias
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, KFold
from skopt import BayesSearchCV
from skopt.space import Integer
from scipy.stats import randint
import time
from sklearn.metrics import make_scorer, mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error

# Suponiendo que X_train, y_train están definidos
# Definir KFold para validación cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Definir métricas para evaluación
scoring_optimizer = {'mae': make_scorer(mean_absolute_error, greater_is_better=False)}
scoring = {
    'mae': make_scorer(mean_absolute_error, greater_is_better=False),
    'mse': make_scorer(mean_squared_error, greater_is_better=False),
    'r2': make_scorer(r2_score, greater_is_better=True),
    'mape': make_scorer(mean_absolute_percentage_error, greater_is_better=False)
}

# Definir el modelo RandomForestRegressor
rf_regressor = RandomForestRegressor(random_state=42, n_jobs=-1)

# --- Optimización con GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para RandomForestRegressor...")
param_grid_rf = {
    'n_estimators': [50, 100],  # Reducido para acelerar
    'max_depth': [None, 10],    # Reducido para acelerar
    'min_samples_split': [2, 5] # Reducido para acelerar
}
grid_search_rf = GridSearchCV(estimator=rf_regressor, param_grid=param_grid_rf,
                              scoring=scoring_optimizer, refit='mae',
                              cv=kf, verbose=1, n_jobs=-1)
start_time_grid_rf = time.time()
grid_search_rf.fit(X_train, y_train)
end_time_grid_rf = time.time()

print("\nResultados de GridSearchCV para RandomForestRegressor:")
print(f"Mejores hiperparámetros encontrados: {grid_search_rf.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search_rf.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid_rf - start_time_grid_rf:.2f} segundos")

# --- Optimización con RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para RandomForestRegressor...")
param_dist_rf = {
    'n_estimators': randint(50, 150),  # Rango reducido
    'max_depth': [None] + list(range(5, 15)),  # Rango reducido
    'min_samples_split': randint(2, 10)  # Rango reducido
}
random_search_rf = RandomizedSearchCV(estimator=rf_regressor, param_distributions=param_dist_rf,
                                      n_iter=10,  # Reducido de 50 a 10
                                      scoring=scoring_optimizer, refit='mae',
                                      cv=kf, verbose=1, random_state=42, n_jobs=-1)
start_time_rand_rf = time.time()
random_search_rf.fit(X_train, y_train)
end_time_rand_rf = time.time()

print("\nResultados de RandomizedSearchCV para RandomForestRegressor:")
print(f"Mejores hiperparámetros encontrados: {random_search_rf.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search_rf.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand_rf - start_time_rand_rf:.2f} segundos")

# --- Optimización con BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para RandomForestRegressor...")
search_spaces_rf = {
    'n_estimators': Integer(50, 150),  # Rango reducido
    'max_depth': Integer(5, 15),       # Rango reducido
    'min_samples_split': Integer(2, 10)  # Rango reducido
}
bayes_search_rf = BayesSearchCV(estimator=rf_regressor, search_spaces=search_spaces_rf,
                                n_iter=10,  # Reducido de 50 a 10
                                scoring=scoring_optimizer, refit='mae',
                                cv=kf, verbose=1, random_state=42, n_jobs=-1)
start_time_bayes_rf = time.time()
bayes_search_rf.fit(X_train, y_train)
end_time_bayes_rf = time.time()

print("\nResultados de BayesSearchCV para RandomForestRegressor:")
print(f"Mejores hiperparámetros encontrados: {bayes_search_rf.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search_rf.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes_rf - start_time_bayes_rf:.2f} segundos")

# Evaluación final del mejor modelo (BayesSearchCV) en el conjunto completo
best_rf = bayes_search_rf.best_estimator_
cv_results_best_rf = cross_validate(best_rf, X_train, y_train, cv=kf, scoring=scoring)

print("\nMétricas del mejor modelo (BayesSearchCV) con validación cruzada:")
print(f"  MAE:  {-cv_results_best_rf['test_mae'].mean():.4f} +/- {cv_results_best_rf['test_mae'].std():.4f}")
print(f"  MSE:  {-cv_results_best_rf['test_mse'].mean():.4f} +/- {cv_results_best_rf['test_mse'].std():.4f}")
print(f"  R2:   {cv_results_best_rf['test_r2'].mean():.4f} +/- {cv_results_best_rf['test_r2'].std():.4f}")
print(f"  MAPE: {-cv_results_best_rf['test_mape'].mean():.4f}% +/- {cv_results_best_rf['test_mape'].std():.4f}%")


# SVR

In [None]:
# prompt: "Implementa SVR en Python con sklearn, optimiza C, epsilon y gamma para kernel RBF usando GridSearchCV, RandomizedSearchCV y BayesSearchCV de skopt, y reporta MAE, MSE, R2 y MAPE con validación cruzada de 5 folds."

import numpy as np
from sklearn.svm import SVR
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C
from scipy.stats import uniform, randint # Ensure randint is imported for Random Forest later if needed
from skopt.space import Real, Integer, Categorical # Ensure Integer and Categorical are imported if used later
from sklearn.kernel_ridge import KernelRidge
from sklearn.linear_model import BayesianRidge
from sklearn.linear_model import SGDRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.gaussian_process import GaussianProcessRegressor

# Ensure scorers and kf are defined (as per the original code context)
# (assuming the previous cells defining these have been run)

# Redefine the custom MAPE scorer if it wasn't in the preceding code or is needed again
def mean_absolute_percentage_error(y_true, y_pred):
    """Calcula el Error Porcentual Absoluto Medio (MAPE)."""
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    epsilon = 1e-8
    return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

# Create scorer objects for the metrics
mae_scorer = make_scorer(mean_absolute_error, greater_is_better=False)
mse_scorer = make_scorer(mean_squared_error, greater_is_better=False)
r2_scorer = make_scorer(r2_score, greater_is_better=True)
mape_scorer = make_scorer(mean_absolute_percentage_error, greater_is_better=False)

# Define the scoring dictionary for cross_validate and optimizers
# We will optimize based on MAE, so define a single scorer for the optimizers
scoring_optimizer = {'mae': mae_scorer}

# Define the full scoring dictionary for reporting results
scoring = {
    'mae': mae_scorer,
    'mse': mse_scorer,
    'r2': r2_scorer,
    'mape': mape_scorer
}


# Definir el modelo SVR con kernel RBF
svr = SVR(kernel='rbf')

# Assuming X_train, y_train, and kf are defined in previous cells

# --- Optimization with GridSearchCV ---
print("\nIniciando optimización con GridSearchCV para SVR (kernel RBF)...")

# Define parameter grid for GridSearchCV
# C = [1, 10, 100], epsilon = [0.01, 0.1, 0.5], gamma = ['scale', 'auto', 0.001]
param_grid_svr = {
    'C': [1, 10, 100],
    'epsilon': [0.01, 0.1, 0.5],
    'gamma': ['scale', 'auto', 0.001] # 'scale' and 'auto' are also valid values
}

grid_search_svr = GridSearchCV(estimator=svr, param_grid=param_grid_svr,
                               scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                               cv=kf, verbose=1, n_jobs=-1)

start_time_grid_svr = time.time()
grid_search_svr.fit(X_train, y_train)
end_time_grid_svr = time.time()

print("\nResultados de GridSearchCV para SVR:")
print(f"Mejores hiperparámetros encontrados: {grid_search_svr.best_params_}")
print(f"Mejor MAE promedio en validación: {-grid_search_svr.best_score_:.4f}")
print(f"Tiempo de ejecución de GridSearchCV: {end_time_grid_svr - start_time_grid_svr:.2f} segundos")

best_svr_grid = grid_search_svr.best_estimator_

print("\nEvaluando el mejor modelo de GridSearchCV para SVR con validación cruzada completa:")
cv_results_grid_best_svr = cross_validate(best_svr_grid, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_grid_svr = -cv_results_grid_best_svr['test_mae']
cv_mse_grid_svr = -cv_results_grid_best_svr['test_mse']
cv_r2_grid_svr = cv_results_grid_best_svr['test_r2']
cv_mape_grid_svr = -cv_results_grid_best_svr['test_mape']

print(f"  MAE:  {cv_mae_grid_svr.mean():.4f} +/- {cv_mae_grid_svr.std():.4f}")
print(f"  MSE:  {cv_mse_grid_svr.mean():.4f} +/- {cv_mse_grid_svr.std():.4f}")
print(f"  R2:   {cv_r2_grid_svr.mean():.4f} +/- {cv_r2_grid_svr.std():.4f}")
print(f"  MAPE: {cv_mape_grid_svr.mean():.4f}% +/- {cv_mape_grid_svr.std():.4f}%")


# --- Optimization with RandomizedSearchCV ---
print("\nIniciando optimización con RandomizedSearchCV para SVR (kernel RBF)...")

# Define parameter distribution for RandomizedSearchCV
# C loguniform(1, 1000), epsilon uniform(0, 1), gamma loguniform(0.0001, 1)
param_dist_svr = {
    'C': loguniform(1, 1000),
    'epsilon': uniform(0, 1),
    'gamma': loguniform(0.0001, 1)
}

# Number of iterations (puntos a probar). Ajusta este valor según el tiempo disponible.
n_iter_rand_svr = 100 # Example: try 100 random combinations

random_search_svr = RandomizedSearchCV(estimator=svr, param_distributions=param_dist_svr,
                                       n_iter=n_iter_rand_svr,
                                       scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                       cv=kf, verbose=1, random_state=42, n_jobs=-1) # random_state para reproducibilidad

start_time_rand_svr = time.time()
random_search_svr.fit(X_train, y_train)
end_time_rand_svr = time.time()

print("\nResultados de RandomizedSearchCV para SVR:")
print(f"Mejores hiperparámetros encontrados: {random_search_svr.best_params_}")
print(f"Mejor MAE promedio en validación: {-random_search_svr.best_score_:.4f}")
print(f"Tiempo de ejecución de RandomizedSearchCV: {end_time_rand_svr - start_time_rand_svr:.2f} segundos")

best_svr_rand = random_search_svr.best_estimator_

print("\nEvaluando el mejor modelo de RandomizedSearchCV para SVR con validación cruzada completa:")
cv_results_rand_best_svr = cross_validate(best_svr_rand, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_rand_svr = -cv_results_rand_best_svr['test_mae']
cv_mse_rand_svr = -cv_results_rand_best_svr['test_mse']
cv_r2_rand_svr = cv_results_rand_best_svr['test_r2']
cv_mape_rand_svr = -cv_results_rand_best_svr['test_mape']

print(f"  MAE:  {cv_mae_rand_svr.mean():.4f} +/- {cv_mae_rand_svr.std():.4f}")
print(f"  MSE:  {cv_mse_rand_svr.mean():.4f} +/- {cv_mse_rand_svr.std():.4f}")
print(f"  R2:   {cv_r2_rand_svr.mean():.4f} +/- {cv_r2_rand_svr.std():.4f}")
print(f"  MAPE: {cv_mape_rand_svr.mean():.4f}% +/- {cv_mape_rand_svr.std():.4f}%")


# --- Optimization with BayesSearchCV ---
print("\nIniciando optimización con BayesSearchCV para SVR (kernel RBF)...")

# Define search spaces for BayesSearchCV
# C Real(1e-1, 1e3, prior='log-uniform'), epsilon Real(1e-3, 1e0, prior='uniform'), gamma Real(1e-4, 1e0, prior='log-uniform')
search_spaces_svr = {
    'C': Real(1e-1, 1e3, prior='log-uniform'),
    'epsilon': Real(1e-3, 1e0, prior='uniform'),
    'gamma': Real(1e-4, 1e0, prior='log-uniform')
}

# Number of iterations (puntos a explorar). Generalmente requiere menos que RandomizedSearch.
n_iter_bayes_svr = 100 # Example: try 100 iterations. Adjust based on computational resources.

bayes_search_svr = BayesSearchCV(estimator=svr, search_spaces=search_spaces_svr,
                                 n_iter=n_iter_bayes_svr,
                                 scoring=scoring_optimizer, refit='mae', # Optimize using MAE
                                 cv=kf, verbose=1, random_state=42, n_jobs=-1)

start_time_bayes_svr = time.time()
bayes_search_svr.fit(X_train, y_train)
end_time_bayes_svr = time.time()

print("\nResultados de BayesSearchCV para SVR:")
print(f"Mejores hiperparámetros encontrados: {bayes_search_svr.best_params_}")
print(f"Mejor MAE promedio en validación: {-bayes_search_svr.best_score_:.4f}")
print(f"Tiempo de ejecución de BayesSearchCV: {end_time_bayes_svr - start_time_bayes_svr:.2f} segundos")

best_svr_bayes = bayes_search_svr.best_estimator_

print("\nEvaluando el mejor modelo de BayesSearchCV para SVR con validación cruzada completa:")
cv_results_bayes_best_svr = cross_validate(best_svr_bayes, X_train, y_train, cv=kf, scoring=scoring)

cv_mae_bayes_svr = -cv_results_bayes_best_svr['test_mae']
cv_mse_bayes_svr = -cv_results_bayes_best_svr['test_mse']
cv_r2_bayes_svr = cv_results_bayes_best_svr['test_r2']
cv_mape_bayes_svr = -cv_results_bayes_best_svr['test_mape']

print(f"  MAE:  {cv_mae_bayes_svr.mean():.4f} +/- {cv_mae_bayes_svr.std():.4f}")
print(f"  MSE:  {cv_mse_bayes_svr.mean():.4f} +/- {cv_mse_bayes_svr.std():.4f}")
print(f"  R2:   {cv_r2_bayes_svr.mean():.4f} +/- {cv_r2_bayes_svr.std():.4f}")
print(f"  MAPE: {cv_mape_bayes_svr.mean():.4f}% +/- {cv_mape_bayes_svr.std():.4f}%")


# --- Comparación de resultados de SVR ---
print("\n--- Resumen de Resultados de Optimización para SVR (MAE promedio en validación) ---")
print(f"GridSearchCV:      {-grid_search_svr.best_score_:.4f}")
print(f"RandomizedSearchCV: {-random_search_svr.best_score_:.4f}")
print(f"BayesSearchCV:      {-bayes_search_svr.best_score_:.4f}")

print("\n--- Reporte Completo de Métricas para SVR (Promedio de 5-fold CV) ---")

print("\nGridSearchCV Mejor Modelo (SVR):")
print(f"  MAE:  {cv_mae_grid_svr.mean():.4f}")
print(f"  MSE:  {cv_mse_grid_svr.mean():.4f}")
print(f"  R2:   {cv_r2_grid_svr.mean():.4f}")
print(f"  MAPE: {cv_mape_grid_svr.mean():.4f}%")

print("\nRandomizedSearchCV Mejor Modelo (SVR):")
print(f"  MAE:  {cv_mae_rand_svr.mean():.4f}")
print(f"  MSE:  {cv_mse_rand_svr.mean():.4f}")
print(f"  R2:   {cv_r2_rand_svr.mean():.4f}")
print(f"  MAPE: {cv_mape_rand_svr.mean():.4f}%")

print("\nBayesSearchCV Mejor Modelo (SVR):")
print(f"  MAE:  {cv_mae_bayes_svr.mean():.4f}")
print(f"  MSE:  {cv_mse_bayes_svr.mean():.4f}")
print(f"  R2:   {cv_r2_bayes_svr.mean():.4f}")
print(f"  MAPE: {cv_mape_bayes_svr.mean():.4f}%")

# You can select the overall best SVR model based on validation MAE
# For instance, if BayesSearchCV gave the best result:
# final_best_svr_model = best_svr_bayes
# print("\nEl mejor modelo SVR general basado en MAE promedio de validación es el de BayesSearchCV.")

# Optional: Train the chosen best SVR model on the entire X_train and evaluate on X_test
# final_best_svr_model = best_svr_bayes # Or grid_search_svr.best_estimator_ or random_search_svr.best_estimator_

# print("\nEntrenando el modelo SVR final seleccionado en el conjunto de entrenamiento completo...")
# final_best_svr_model.fit(X_train, y_train)
# print("Evaluando en el conjunto de prueba (X_test) con el modelo SVR final...")
# y_pred_test_final_svr = final_best_svr_model.predict(X_test)

# # Calculate metrics on the test set with the final SVR model
# test_mae_final_svr = mean_absolute_error(y_test, y_pred_test_final_svr)
# test_mse_final_svr = mean_squared_error(y_test, y_pred_test_final_svr)
# test_r2_final_svr = r2_score(y_test, y_pred_test_final_svr)
# test_mape_final_svr = mean_absolute_percentage_error(y_test, y_pred_test_final_svr)

# print("\nMétricas en el conjunto de prueba con el modelo SVR final seleccionado:")
# print(f"  MAE:  {test_mae_final_svr:.4f}")
# print(f"  MSE:  {test_mse_final_svr:.4f}")
# print(f"  R2:   {test_r2_final_svr:.4f}")
# print(f"  MAPE: {test_mape_final_svr:.4f}%")

# Resultados

In [None]:
# prompt: Crea gráficas de barras que comparen las métricas MAE, MSE, R2 y MAPE de cada uno de los modelos.
# Indica los tres mejores modelos según los rendimientos de cada uno y para los tres mejores modelos, genera gráficas de importancia de características.
# Asegúrate de que todas las gráficas sean claras, bien etiquetadas y adecuadas para un dashboard de Streamlit.

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import BayesianRidge, SGDRegressor
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from scipy.stats import randint
from sklearn.linear_model import LinearRegression # Import LinearRegression for coefficient plotting

# Dictionary to store the best results for each model (optimized)
model_results = {
    'Linear Regression (Default)': {
        'MAE': cv_mae.mean(),
        'MSE': cv_mse.mean(),
        'R2': cv_r2.mean(),
        'MAPE': cv_mape.mean()
    },
    'Lasso (Bayes)': { # Using BayesSearchCV as it often finds better solutions
        'MAE': cv_mae_bayes.mean(),
        'MSE': cv_mse_bayes.mean(),
        'R2': cv_r2_bayes.mean(),
        'MAPE': cv_mape_bayes.mean()
    },
    'ElasticNet (Bayes)': { # Using BayesSearchCV
        'MAE': cv_mae_bayes_en.mean(),
        'MSE': cv_mse_bayes_en.mean(),
        'R2': cv_r2_bayes_en.mean(),
        'MAPE': cv_mape_bayes_en.mean()
    },
    'KernelRidge (Bayes)': { # Using BayesSearchCV
        'MAE': cv_mae_bayes_krr.mean(),
        'MSE': cv_mse_bayes_krr.mean(),
        'R2': cv_r2_bayes_krr.mean(),
        'MAPE': cv_mape_bayes_krr.mean()
    },
    'SGDRegressor (Bayes)': { # Using BayesSearchCV
        'MAE': cv_mae_bayes_sgd.mean(),
        'MSE': cv_mse_bayes_sgd.mean(),
        'R2': cv_r2_bayes_sgd.mean(),
        'MAPE': cv_mape_bayes_sgd.mean()
    },
     'BayesianRidge (Default)': { # As this model was run without optimization
        'MAE': cv_mae.mean(), # These variables should hold the results from the last BayesianRidge run
        'MSE': cv_mse.mean(),
        'R2': cv_r2.mean(),
        'MAPE': cv_mape.mean()
    },
    'GaussianProcessRegressor (Bayes)': { # Using BayesSearchCV
        'MAE': -cv_results_best_gpr['test_mae'].mean(),
        'MSE': -cv_results_best_gpr['test_mse'].mean(),
        'R2': cv_results_best_gpr['test_r2'].mean(),
        'MAPE': -cv_results_best_gpr['test_mape'].mean()
    },
    'RandomForestRegressor (Bayes)': { # Using BayesSearchCV
        'MAE': -cv_results_best_rf['test_mae'].mean(),
        'MSE': -cv_results_best_rf['test_mse'].mean(),
        'R2': cv_results_best_rf['test_r2'].mean(),
        'MAPE': -cv_results_best_rf['test_mape'].mean()
    },
    'SVR (Bayes)': { # Using BayesSearchCV
        'MAE': -cv_results_bayes_best_svr['test_mae'].mean(),
        'MSE': -cv_results_bayes_best_svr['test_mse'].mean(),
        # Corrected: Access 'test_r2' from the dictionary
        'R2': cv_results_bayes_best_svr['test_r2'].mean(),
        'MAPE': cv_mape_bayes_svr.mean() # The variable name was slightly different
    }
}

# Convert results to DataFrame for easy plotting
results_df = pd.DataFrame.from_dict(model_results, orient='index')

# Sort models by MAE (lower is better)
results_df_sorted_mae = results_df.sort_values(by='MAE')
print("\nRanking de Modelos por MAE:")
print(results_df_sorted_mae[['MAE']])

# Sort models by MSE (lower is better)
results_df_sorted_mse = results_df.sort_values(by='MSE')
print("\nRanking de Modelos por MSE:")
print(results_df_sorted_mse[['MSE']])

# Sort models by R2 (higher is better)
results_df_sorted_r2 = results_df.sort_values(by='R2', ascending=False)
print("\nRanking de Modelos por R2:")
print(results_df_sorted_r2[['R2']])

# Sort models by MAPE (lower is better)
results_df_sorted_mape = results_df.sort_values(by='MAPE')
print("\nRanking de Modelos por MAPE:")
print(results_df_sorted_mape[['MAPE']])


# Define the best models based on MAE (example, adjust if criteria changes)
best_mae_models = results_df_sorted_mae.head(3).index.tolist()
print(f"\nLos 3 mejores modelos según MAE son: {best_mae_models}")

# Define the best models based on MSE (example, adjust if criteria changes)
best_mse_models = results_df_sorted_mse.head(3).index.tolist()
print(f"\nLos 3 mejores modelos según MSE son: {best_mse_models}")

# Define the best models based on R2 (example, adjust if criteria changes)
best_r2_models = results_df_sorted_r2.head(3).index.tolist()
print(f"\nLos 3 mejores modelos según R2 son: {best_r2_models}")

# Define the best models based on MAPE (example, adjust if criteria changes)
best_mape_models = results_df_sorted_mape.head(3).index.tolist()
print(f"\nLos 3 mejores modelos según MAPE son: {best_mape_models}")


# Combine the top models from each metric (optional, to get a broader view)
all_top_models = list(set(best_mae_models + best_mse_models + best_r2_models + best_mape_models))
print(f"\nModelos que aparecieron en el top 3 de al menos una métrica: {all_top_models}")

# For the purpose of feature importance visualization, let's select the top 3 models based on MAE
top_3_models_for_importance = best_mae_models
print(f"\nSe generarán gráficas de importancia de características para los 3 mejores modelos según MAE: {top_3_models_for_importance}")


# Plotting function for metrics
def plot_metrics_bar(results_df, metric, title, ylabel, ascending=True):
    plt.figure(figsize=(12, 6))
    sns.barplot(x=results_df.index, y=metric, data=results_df.sort_values(by=metric, ascending=ascending))
    plt.title(title, fontsize=16)
    plt.xlabel("Modelo", fontsize=12)
    plt.ylabel(ylabel, fontsize=12)
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

# Generate bar plots for each metric
plot_metrics_bar(results_df, 'MAE', 'Comparación de Modelos por MAE', 'MAE', ascending=True)
plot_metrics_bar(results_df, 'MSE', 'Comparación de Modelos por MSE', 'MSE', ascending=True)
plot_metrics_bar(results_df, 'R2', 'Comparación de Modelos por R2', 'R2 Score', ascending=False)
plot_metrics_bar(results_df, 'MAPE', 'Comparación de Modelos por MAPE', 'MAPE (%)', ascending=True)

# Function to get the best estimator for a given model name (optimized via BayesSearchCV if available)
def get_best_estimator(model_name):
    # Make sure to have the optimizer objects defined in the environment if needed
    # (e.g., bayes_search, bayes_search_en, etc.)
    if model_name == 'Linear Regression (Default)':
        return LinearRegression().fit(X_train, y_train) # Train default Linear Regression for coefficients
    elif model_name == 'Lasso (Bayes)':
        # Assuming bayes_search is the BayesSearchCV object for Lasso
        return bayes_search.best_estimator_
    elif model_name == 'ElasticNet (Bayes)':
         # Assuming bayes_search_en is the BayesSearchCV object for ElasticNet
        return bayes_search_en.best_estimator_
    elif model_name == 'KernelRidge (Bayes)':
         # KRR does not have feature coefficients like linear models or tree-based models
         print(f"Advertencia: {model_name} no proporciona importancia de características directa (coeficientes).")
         return None
    elif model_name == 'SGDRegressor (Bayes)':
         # Assuming bayes_search_sgd is the BayesSearchCV object for SGDRegressor
        return bayes_search_sgd.best_estimator_
    elif model_name == 'BayesianRidge (Default)':
        # Train a default BayesianRidge model for coefficients
        return BayesianRidge().fit(X_train, y_train)
    elif model_name == 'GaussianProcessRegressor (Bayes)':
        # GPR does not have feature importance based on coefficients or tree structure
        print(f"Advertencia: {model_name} no proporciona importancia de características directa.")
        return None
    elif model_name == 'RandomForestRegressor (Bayes)':
        # Assuming bayes_search_rf is the BayesSearchCV object for RandomForestRegressor
        return bayes_search_rf.best_estimator_
    elif model_name == 'SVR (Bayes)':
        # SVR with RBF kernel does not provide linear coefficients
        print(f"Advertencia: {model_name} no proporciona importancia de características directa.")
        return None
    else:
        return None


# Generate Feature Importance plots for the top 3 models (based on MAE)
print("\nGenerando gráficas de importancia de características para los 3 mejores modelos (según MAE):")

for model_name in top_3_models_for_importance:
    print(f"\nImportancia de Características para: {model_name}")
    best_model = get_best_estimator(model_name)

    if best_model:
        if hasattr(best_model, 'coef_'): # For linear models (LinearRegression, Lasso, ElasticNet, SGDRegressor, BayesianRidge)
            # Ensure X_train is a pandas DataFrame with named columns for plotting
            if isinstance(X_train, pd.DataFrame):
                coefficients = pd.Series(best_model.coef_, index=X_train.columns)
                # Sort coefficients by absolute value for importance
                sorted_coefficients = coefficients.abs().sort_values(ascending=False)

                plt.figure(figsize=(10, min(20, len(sorted_coefficients) * 0.3))) # Adjust figure size based on num features
                sns.barplot(x=sorted_coefficients.values, y=sorted_coefficients.index)
                plt.title(f'Importancia de Características (Coeficientes Absolutos) - {model_name}', fontsize=14)
                plt.xlabel('Magnitud del Coeficiente', fontsize=12)
                plt.ylabel('Característica', fontsize=12)
                plt.tight_layout()
                plt.show()
            else:
                 print(f"Advertencia: X_train no es un DataFrame. No se puede generar la gráfica de importancia de características para {model_name}.")


        elif hasattr(best_model, 'feature_importances_'): # For tree-based models (RandomForestRegressor)
             # Ensure X_train is a pandas DataFrame with named columns for plotting
            if isinstance(X_train, pd.DataFrame):
                importances = pd.Series(best_model.feature_importances_, index=X_train.columns)
                # Sort feature importances
                sorted_importances = importances.sort_values(ascending=False)

                plt.figure(figsize=(10, min(20, len(sorted_importances) * 0.3))) # Adjust figure size
                sns.barplot(x=sorted_importances.values, y=sorted_importances.index)
                plt.title(f'Importancia de Características - {model_name}', fontsize=14)
                plt.xlabel('Importancia', fontsize=12)
                plt.ylabel('Característica', fontsize=12)
                plt.tight_layout()
                plt.show()
            else:
                 print(f"Advertencia: X_train no es un DataFrame. No se puede generar la gráfica de importancia de características para {model_name}.")
        else:
             print(f"El modelo {model_name} no tiene atributos 'coef_' o 'feature_importances_'.")
    else:
        print(f"No se pudo obtener el mejor estimador para {model_name} o no aplica para importancia de características.")


# Print the top 3 models based on each metric explicitly again
print("\n--- Resumen de los 3 Mejores Modelos por Métrica ---")
print("Según MAE (menor es mejor):")
print(results_df_sorted_mae.head(3)[['MAE']])
print("\nSegún MSE (menor es mejor):")
print(results_df_sorted_mse.head(3)[['MSE']])
print("\nSegún R2 (mayor es mejor):")
print(results_df_sorted_r2.head(3)[['R2']])
print("\nSegún MAPE (menor es mejor):")
print(results_df_sorted_mape.head(3)[['MAPE']])

# DashBoard

In [None]:
import streamlit as st
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, OrdinalEncoder
from sklearn.model_selection import train_test_split, KFold, cross_validate
from sklearn.linear_model import LinearRegression, Lasso, ElasticNet, SGDRegressor, BayesianRidge
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, make_scorer
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from skopt import BayesSearchCV
from skopt.space import Real, Integer
from scipy.stats import loguniform, uniform, randint
import pickle
from joblib import dump
import os
import time

# Configuración de la página de Streamlit
st.set_page_config(layout="wide", page_title="Análisis y Modelización de Ames Housing")

# Título
st.title('Análisis y Modelización de Precios de Viviendas - Ames Housing')

# Documentación Formal: Introducción
st.header('Documentación Formal: Análisis Exploratorio y Modelización')
st.markdown("""
### Introducción
Este dashboard presenta el análisis exploratorio de datos (EDA), el preprocesamiento y la modelización del dataset Ames Housing para predecir el precio de venta ('SalePrice'). El dataset incluye 2930 observaciones y 81 características. Este trabajo cumple con los requisitos del punto 3 del examen de Teoría de Aprendizaje de Máquina.

### Descripción de los Datos
El dataset Ames Housing contiene variables numéricas (como 'GrLivArea', 'TotalBsmtSF') y categóricas (como 'Neighborhood', 'MSZoning'). La variable objetivo es 'SalePrice'.

### Metodología
- **Preprocesamiento:** Manejo de valores faltantes (mediana para numéricas, moda o 'missing' para categóricas), codificación de variables categóricas (One-Hot para nominales, Ordinal para ordinales), ingeniería de características (creación de 'Age' y 'TotalSF'), y escalado de variables numéricas.
- **EDA:** Visualizaciones para entender la distribución de variables y su relación con 'SalePrice'.
- **Modelización:** Entrenamiento de múltiples modelos de regresión con optimización de hiperparámetros (GridSearchCV, RandomizedSearchCV, BayesSearchCV), evaluación con métricas MAE, MSE, R2 y MAPE.
- **Dashboard:** Visualización interactiva de los datos y comparación de los tres mejores modelos.
""")

# Cargar los datos
@st.cache_data
def load_data():
    try:
        df = pd.read_csv('/content/drive/Shareddrives/UNAL_Colab/Teoría de Aprendizaje de Máquina/AmesHousing.csv')
        df.columns = df.columns.str.replace(' ', '_').str.replace('[^A-Za-z0-9_]+', '', regex=True)
        return df
    except FileNotFoundError:
        st.error("Error: Asegúrese de que el archivo 'AmesHousing.csv' esté disponible.")
        return pd.DataFrame()

df = load_data()
if df.empty:
    st.stop()

st.subheader("Datos Originales (primeras 5 filas)")
st.dataframe(df.head())

# Documentación Formal: Preprocesamiento
st.header('Preprocesamiento de Datos')
st.markdown("""
### Metodología de Preprocesamiento
El preprocesamiento asegura que los datos estén limpios y listos para el modelado, abordando los siguientes pasos:

1. **Manejo de Valores Faltantes**
   - **Numéricas:** Se imputaron con la mediana para columnas como 'LotFrontage' y 'GarageYrBlt', ya que es robusta frente a outliers.
   - **Categóricas:** Se imputaron con 'missing' para columnas como 'Alley', 'Fence', 'MiscFeature', 'PoolQC' y 'FireplaceQu', reconociendo que la ausencia de datos puede ser informativa (por ejemplo, 'missing' en 'Alley' indica que no hay callejón). Otras categóricas, como 'MasVnrType' y 'Electrical', se imputaron con la moda para preservar la distribución.
   - **Justificación:** La mediana minimiza el impacto de valores extremos en numéricas, mientras que 'missing' y la moda son adecuadas para categóricas según el contexto.

2. **Codificación de Variables Categóricas**
   - **Nominales:** Columnas como 'MSZoning', 'Neighborhood', 'MasVnrType' se codificaron con One-Hot Encoding, generando variables binarias para cada categoría, eliminando la primera categoría para evitar multicolinealidad.
   - **Ordinales:** Columnas como 'ExterQual', 'BsmtQual', 'HeatingQC' se codificaron con Ordinal Encoding, asignando valores numéricos según un orden definido (por ejemplo, 'Po' < 'Fa' < 'TA' < 'Gd' < 'Ex').
   - **Justificación:** One-Hot Encoding es ideal para variables sin orden inherente, mientras que Ordinal Encoding respeta la jerarquía en variables de calidad o condición.

3. **Ingeniería de Características**
   - **TotalSF:** Suma de 'TotalBsmtSF', '1stFlrSF' y '2ndFlrSF', representando el área total habitable.
   - **Age:** Diferencia entre 'YrSold' y 'YearBuilt', indicando la antigüedad de la propiedad.
   - **Justificación:** Estas características combinan información relevante, reduciendo la dimensionalidad y capturando factores clave que afectan el precio de venta.

4. **Escalado de Variables Numéricas**
   - Se aplicó `StandardScaler` a todas las variables numéricas, transformándolas a una distribución con media 0 y desviación estándar 1.
   - **Justificación:** El escalado es esencial para modelos sensibles a la escala, como KernelRidge o SVR, y mejora la comparabilidad entre características.

5. **Análisis de Correlaciones**
   - Se identificaron pares de características con correlaciones altas (>0.8), como 'TotalBsmtSF' y '1stFlrSF', para evaluar redundancias.
   - **Justificación:** Eliminar características redundantes reduce el riesgo de multicolinealidad y mejora la eficiencia del modelado.

**Guardado de Datos Preprocesados**
Los datos preprocesados se guardan en 'preprocessed_data.csv' para su uso en el entrenamiento de modelos, asegurando consistencia y evitando reprocesamiento redundante.
""")

# Preprocesamiento
@st.cache_data
def preprocess_data(df):
    df_processed = df.copy()
    threshold = len(df_processed) * 0.5
    cols_to_drop_nulls = df_processed.columns[df_processed.isnull().sum() > threshold].tolist()
    df_processed = df_processed.drop(columns=cols_to_drop_nulls)
    st.sidebar.write(f"Columnas eliminadas por exceso de nulos (>50%): {cols_to_drop_nulls}")

    numerical_cols = df_processed.select_dtypes(include=np.number).columns.tolist()
    categorical_cols = df_processed.select_dtypes(include='object').columns.tolist()

    numeric_cols_median = ['LotFrontage', 'GarageYrBlt']
    categorical_cols_mode = ['MasVnrType', 'Electrical']
    categorical_cols_missing = ['Alley', 'Fence', 'MiscFeature', 'PoolQC', 'FireplaceQu']

    for col in numeric_cols_median:
        if col in df_processed.columns and df_processed[col].isnull().any():
            imputer_median = SimpleImputer(strategy='median')
            df_processed[col] = imputer_median.fit_transform(df_processed[[col]]).ravel()

    for col in categorical_cols_mode:
        if col in df_processed.columns and df_processed[col].isnull().any():
            imputer_mode = SimpleImputer(strategy='most_frequent')
            df_processed[col] = imputer_mode.fit_transform(df_processed[[col]]).ravel()

    for col in categorical_cols_missing:
        if col in df_processed.columns and df_processed[col].isnull().any():
            imputer_missing = SimpleImputer(strategy='constant', fill_value='missing')
            df_processed[col] = imputer_missing.fit_transform(df_processed[[col]]).ravel()

    if 'YearBuilt' in df_processed.columns:
        df_processed['Age'] = 2023 - df_processed['YearBuilt']
        df_processed = df_processed.drop(columns=['YearBuilt'])
    if 'YearRemodAdd' in df_processed.columns:
        df_processed['YearsSinceRemodel'] = 2023 - df_processed['YearRemodAdd']
        df_processed = df_processed.drop(columns=['YearRemodAdd'])
    if all(col in df_processed.columns for col in ['TotalBsmtSF', '1stFlrSF', '2ndFlrSF']):
        df_processed['TotalSF'] = df_processed['TotalBsmtSF'] + df_processed['1stFlrSF'] + df_processed['2ndFlrSF']

    nominal_cols = ['MSZoning', 'Neighborhood', 'MasVnrType', 'Exterior1st', 'Exterior2nd', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'SaleType', 'SaleCondition']
    nominal_cols = [col for col in nominal_cols if col in df_processed.columns]
    ordinal_mapping = {
        'ExterQual': ['Po', 'Fa', 'TA', 'Gd', 'Ex', 'missing'],
        'ExterCond': ['Po', 'Fa', 'TA', 'Gd', 'Ex', 'missing'],
        'BsmtQual': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'BsmtCond': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'HeatingQC': ['Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'KitchenQual': ['Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'FireplaceQu': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'GarageQual': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'GarageCond': ['missing', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
        'PoolQC': ['missing', 'Fa', 'Gd', 'Ex']
    }
    ordinal_cols = [col for col in ordinal_mapping.keys() if col in df_processed.columns]

    if nominal_cols:
        df_processed = pd.get_dummies(df_processed, columns=nominal_cols, drop_first=True)
    if ordinal_cols:
        ordinal_encoder = OrdinalEncoder(categories=[ordinal_mapping[col] for col in ordinal_cols])
        df_processed[ordinal_cols] = ordinal_encoder.fit_transform(df_processed[ordinal_cols])

    numeric_cols_to_scale = df_processed.select_dtypes(include=np.number).columns.tolist()
    if 'SalePrice' in numeric_cols_to_scale:
        numeric_cols_to_scale.remove('SalePrice')
    if 'Id' in numeric_cols_to_scale:
        numeric_cols_to_scale.remove('Id')
    if numeric_cols_to_scale:
        scaler = StandardScaler()
        df_processed[numeric_cols_to_scale] = scaler.fit_transform(df_processed[numeric_cols_to_scale])

    numeric_df = df_processed.select_dtypes(include=np.number)
    correlation_matrix = numeric_df.corr()
    correlation_threshold = 0.8
    upper = correlation_matrix.where(np.triu(np.ones(correlation_matrix.shape), k=1).astype(bool))
    to_drop_high_corr = [column for column in upper.columns if any(upper[column].abs() > correlation_threshold)]
    st.sidebar.write(f"Columnas con alta correlación (> {correlation_threshold}): {to_drop_high_corr}")

    # Guardar datos preprocesados
    df_processed.to_csv('preprocessed_data.csv', index=False)
    return df_processed

df_processed = preprocess_data(df.copy())
st.subheader("Datos Preprocesados (primeras 5 filas)")
st.dataframe(df_processed.head())

# Documentación Formal: Visualizaciones
st.header('Análisis Exploratorio de Datos')
st.markdown("""
### Visualizaciones Clave
El análisis exploratorio utiliza visualizaciones para identificar patrones, distribuciones y relaciones en el dataset:

1. **Distribución de SalePrice**
   - **Histograma:** Muestra la distribución de los precios de venta, con un sesgo positivo que indica una mayoría de propiedades de menor valor y algunos outliers de alto valor.
   - **Boxplot:** Identifica outliers en los precios altos, sugiriendo la necesidad de transformaciones o manejo de valores extremos.

2. **Distribución de Variables Numéricas**
   - Histogramas y boxplots para variables como 'GrLivArea', 'TotalBsmtSF', 'Age', 'TotalSF' muestran sus distribuciones y posibles outliers, proporcionando información sobre su impacto en el precio.

3. **Relación con SalePrice**
   - Gráficos de dispersión entre 'SalePrice' y las variables más correlacionadas (como 'OverallQual', 'GrLivArea') revelan relaciones lineales y no lineales, destacando características predictivas clave.

4. **Distribución de Variables Categóricas**
   - Gráficos de barras para variables como 'Neighborhood' y 'MSZoning' muestran la frecuencia de categorías, ayudando a entender su distribución y posible influencia en 'SalePrice'.

5. **Matriz de Correlación**
   - Un mapa de calor identifica correlaciones entre variables numéricas, destacando relaciones fuertes y posibles redundancias.
""")

# Visualizaciones
st.sidebar.subheader("Opciones de Visualización")
viz_option = st.sidebar.selectbox("Selecciona una visualización:",
                                  ["Distribución de SalePrice",
                                   "Mapa de Calor de Correlación",
                                   "Relación con SalePrice (Scatter plots)",
                                   "Distribución de Variables Categóricas",
                                   "Distribución de Variables Numéricas"])

if viz_option == "Distribución de SalePrice":
    st.subheader("Distribución de SalePrice")
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))
    sns.histplot(df['SalePrice'], kde=True, ax=axes[0])
    axes[0].set_title('Distribución de SalePrice')
    axes[0].set_xlabel('SalePrice')
    axes[0].set_ylabel('Frecuencia')
    sns.boxplot(y=df['SalePrice'], ax=axes[1])
    axes[1].set_title('Boxplot de SalePrice')
    axes[1].set_ylabel('SalePrice')
    plt.tight_layout()
    st.pyplot(fig)
    st.markdown("""
    **Análisis:** La distribución de 'SalePrice' muestra un sesgo positivo (skewness > 0.5), con outliers en valores altos. Esto sugiere considerar una transformación logarítmica para normalizar los datos en el modelado.
    """)

elif viz_option == "Mapa de Calor de Correlación":
    st.subheader("Mapa de Calor de Correlación")
    numeric_df = df_processed.select_dtypes(include=np.number)
    if 'SalePrice' in numeric_df.columns:
        correlation_with_saleprice = numeric_df.corr()['SalePrice'].sort_values(ascending=False)
        st.write("Correlación de variables numéricas con SalePrice:")
        st.dataframe(correlation_with_saleprice)
        fig, ax = plt.subplots(figsize=(8, 10))
        sns.heatmap(correlation_with_saleprice.to_frame(), cmap='coolwarm', annot=True, fmt=".2f", cbar=False, ax=ax)
        ax.set_title('Correlación con SalePrice')
        ax.tick_params(axis='y', rotation=0)
        st.pyplot(fig)
        st.markdown("""
        **Análisis:** Variables como 'OverallQual' y 'GrLivArea' tienen correlaciones altas con 'SalePrice', indicando su importancia predictiva. Las correlaciones negativas son menos comunes, pero pueden reflejar factores como la antigüedad ('Age').
        """)

elif viz_option == "Relación con SalePrice (Scatter plots)":
    st.subheader("Relación entre SalePrice y Variables Numéricas Clave")
    numeric_df = df_processed.select_dtypes(include=np.number)
    if 'SalePrice' in numeric_df.columns:
        correlation_with_saleprice = numeric_df.corr()['SalePrice'].sort_values(ascending=False)
        top_n = st.slider("Número de variables más correlacionadas a mostrar:", 3, 10, 5)
        top_correlated_cols = correlation_with_saleprice.head(top_n + 1).index.tolist()
        if 'SalePrice' in top_correlated_cols:
            top_correlated_cols.remove('SalePrice')
        st.write(f"Mostrando la relación de SalePrice con las {len(top_correlated_cols)} variables más correlacionadas:")
        num_cols_plot = 3
        num_rows_plot = int(np.ceil(len(top_correlated_cols) / num_cols_plot))
        fig, axes = plt.subplots(num_rows_plot, num_cols_plot, figsize=(15, 5 * num_rows_plot))
        axes = axes.flatten() if num_rows_plot > 1 else [axes]
        for i, col in enumerate(top_correlated_cols):
            if col in numeric_df.columns:
                sns.scatterplot(x=numeric_df[col], y=numeric_df['SalePrice'], ax=axes[i])
                axes[i].set_title(f'SalePrice vs {col}')
                axes[i].set_xlabel(col)
                axes[i].set_ylabel('SalePrice')
            else:
                axes[i].set_visible(False)
        for j in range(i + 1, len(axes)):
            axes[j].set_visible(False)
        plt.tight_layout()
        st.pyplot(fig)
        st.markdown("""
        **Análisis:** Los gráficos de dispersión muestran relaciones lineales y no lineales entre 'SalePrice' y variables clave, como 'GrLivArea' (positiva) y 'Age' (potencialmente negativa), destacando su relevancia para la predicción.
        """)

elif viz_option == "Distribución de Variables Categóricas":
    st.subheader("Distribución de Variables Categóricas")
    df_original = load_data()
    df_original.columns = df_original.columns.str.replace(' ', '_').str.replace('[^A-Za-z0-9_]+', '', regex=True)
    categorical_cols = df_original.select_dtypes(include='object').columns.tolist()
    for col in categorical_cols:
        if df_original[col].isnull().any():
            df_original[col].fillna('Missing', inplace=True)
    if categorical_cols:
        selected_cols = st.multiselect("Selecciona variables categóricas para visualizar:", categorical_cols, default=categorical_cols[:5])
        if selected_cols:
            num_cols_plot = 2
            num_rows_plot = int(np.ceil(len(selected_cols) / num_cols_plot))
            fig, axes = plt.subplots(num_rows_plot, num_cols_plot, figsize=(15, 5 * num_rows_plot))
            axes = axes.flatten() if num_rows_plot > 1 else [axes]
            for i, col in enumerate(selected_cols):
                if col in df_original.columns and df_original[col].dtype == 'object':
                    sns.countplot(y=col, data=df_original, order=df_original[col].value_counts().index, ax=axes[i])
                    axes[i].set_title(f'Distribución de {col}')
                    axes[i].set_xlabel('Frecuencia')
                    axes[i].set_ylabel(col)
                else:
                    axes[i].set_visible(False)
            for j in range(i + 1, len(axes)):
                axes[j].set_visible(False)
            plt.tight_layout()
            st.pyplot(fig)
            st.markdown("""
            **Análisis:** Los gráficos de barras muestran la distribución de categorías, como 'Neighborhood', revelando la composición del dataset y posibles influencias en 'SalePrice'.
            """)

elif viz_option == "Distribución de Variables Numéricas":
    st.subheader("Distribución de Variables Numéricas")
    numeric_cols = df_processed.select_dtypes(include=np.number).columns.tolist()
    if 'SalePrice' in numeric_cols:
        numeric_cols.remove('SalePrice')
    if numeric_cols:
        selected_cols = st.multiselect("Selecciona variables numéricas para visualizar:", numeric_cols, default=numeric_cols[:5])
        if selected_cols:
            num_cols_plot = 3
            num_rows_plot = int(np.ceil(len(selected_cols) / num_cols_plot)) * 2
            fig, axes = plt.subplots(num_rows_plot, num_cols_plot, figsize=(15, 5 * num_rows_plot/2))
            axes = axes.flatten() if num_rows_plot > 1 else [axes]
            plot_index = 0
            for i, col in enumerate(selected_cols):
                if col in df_processed.columns and df_processed[col].dtype in [np.number]:
                    sns.histplot(df_processed[col], kde=True, ax=axes[plot_index])
                    axes[plot_index].set_title(f'Distribución de {col}')
                    axes[plot_index].set_xlabel(col)
                    axes[plot_index].set_ylabel('Frecuencia')
                    plot_index += 1
                    sns.boxplot(y=df_processed[col], ax=axes[plot_index])
                    axes[plot_index].set_title(f'Boxplot de {col}')
                    axes[plot_index].set_ylabel(col)
                    plot_index += 1
                else:
                    axes[plot_index].set_visible(False)
                    axes[plot_index+1].set_visible(False)
                    plot_index += 2
            for j in range(plot_index, len(axes)):
                axes[j].set_visible(False)
            plt.tight_layout()
            st.pyplot(fig)
            st.markdown("""
            **Análisis:** Los histogramas y boxplots muestran la distribución y presencia de outliers en variables numéricas, como 'GrLivArea' y 'TotalSF', proporcionando información sobre su impacto en el modelado.
            """)

# Documentación Formal: Modelización
# Documentación Formal: Modelización
st.header('Modelización de Datos')
st.markdown("""
### Metodología de Modelización
Se entrenaron y evaluaron múltiples modelos de regresión para predecir 'SalePrice', utilizando validación cruzada de 5 pliegues y optimización de hiperparámetros con GridSearchCV, RandomizedSearchCV y BayesSearchCV. Los modelos son:

- **LinearRegression**: Modelo base para relaciones lineales simples, sin optimización de hiperparámetros debido a su simplicidad.
- **Lasso**: Regularización L1 para selección de características, útil para datasets con multicolinealidad.
- **ElasticNet**: Combina regularización L1 y L2, balanceando selección y estabilidad.
- **KernelRidge**: Captura relaciones no lineales mediante un kernel RBF, adecuado para patrones complejos.
- **SGDRegressor**: Optimización basada en gradiente descendente, eficiente para datasets grandes.
- **BayesianRidge**: Modelo bayesiano robusto a multicolinealidad, con parámetros predeterminados.
- **RandomForestRegressor**: Ensamblado de árboles, robusto a valores faltantes y relaciones no lineales.
- **SVR**: Máquinas de soporte vectorial con kernel RBF, efectivas para relaciones no lineales.

### Optimización de Hiperparámetros
Se utilizaron tres métodos de optimización:
- **GridSearchCV**: Explora exhaustivamente un conjunto finito de hiperparámetros, garantizando la mejor combinación dentro del rango definido.
- **RandomizedSearchCV**: Muestrea aleatoriamente combinaciones de hiperparámetros, eficiente para espacios grandes.
- **BayesSearchCV**: Usa optimización bayesiana para explorar el espacio de hiperparámetros de manera eficiente, priorizando combinaciones prometedoras.

### Rangos de Hiperparámetros y Justificación
- **Lasso**:
  - **GridSearchCV**: `alpha = [0.001, 0.01, 0.1, 1, 10]`. Rango logarítmico para cubrir diferentes niveles de regularización, desde baja (0.001) hasta alta (10), permitiendo selección de características efectiva.
  - **RandomizedSearchCV/BayesSearchCV**: `alpha = loguniform(0.001, 10)`. La distribución loguniforme explora un rango continuo, capturando valores pequeños y grandes para adaptarse a la escala de los datos.
- **ElasticNet**:
  - **GridSearchCV**: `alpha = [0.001, 0.01, 0.1, 1]`, `l1_ratio = [0.1, 0.3, 0.5]`. Rangos discretos para balancear regularización L1 y L2, enfocándose en valores bajos para evitar sobre-regularización.
  - **RandomizedSearchCV/BayesSearchCV**: `alpha = loguniform(0.001, 1)`, `l1_ratio = uniform(0, 1)`. La distribución loguniforme para `alpha` cubre un espectro amplio, mientras que `l1_ratio` explora todo el rango de balance entre L1 y L2.
- **KernelRidge**:
  - **GridSearchCV**: `alpha = [0.001, 0.01, 0.1]`, `gamma = [0.001, 0.01]`. Rangos discretos para regularización y escala del kernel RBF, enfocados en valores pequeños para capturar no linealidades.
  - **RandomizedSearchCV/BayesSearchCV**: `alpha = loguniform(0.001, 1)`, `gamma = loguniform(0.001, 1)`. Distribuciones loguniformes para explorar un rango continuo, adecuado para la sensibilidad del kernel RBF.
- **SGDRegressor**:
  - **GridSearchCV**: `alpha = [0.0001, 0.001]`. Rangos pequeños para regularización, ya que valores grandes pueden causar inestabilidad en el gradiente descendente.
  - **RandomizedSearchCV/BayesSearchCV**: `alpha = loguniform(0.0001, 0.01)`. Rango logarítmico para explorar regularización fina, manteniendo estabilidad.
- **RandomForestRegressor**:
  - **GridSearchCV**: `n_estimators = [50, 100]`, `max_depth = [None, 10]`, `min_samples_split = [2, 5]`. Rangos reducidos para acelerar la optimización, cubriendo un número moderado de árboles y profundidades.
  - **RandomizedSearchCV**: `n_estimators = randint(50, 150)`, `max_depth = [None] + list(range(5, 15))`, `min_samples_split = randint(2, 10)`. Rangos discretos para explorar complejidad del modelo.
  - **BayesSearchCV**: `n_estimators = Integer(50, 150)`, `max_depth = Integer(5, 15)`, `min_samples_split = Integer(2, 10)`. Rangos continuos para una búsqueda más precisa.
- **SVR**:
  - **GridSearchCV**: `C = [1, 10, 100]`, `epsilon = [0.01, 0.1, 0.5]`, `gamma = ['scale', 'auto', 0.001]`. Rangos discretos para regularización, margen y escala del kernel.
  - **RandomizedSearchCV/BayesSearchCV**: `C = loguniform(0.1, 1000)`, `epsilon = uniform(0.001, 1)`, `gamma = loguniform(0.0001, 1)`. Distribuciones continuas para explorar un espacio amplio.
- **LinearRegression y BayesianRidge**: Sin optimización de hiperparámetros, ya que sus parámetros predeterminados son robustos para el dataset.

### Número de Iteraciones
- **RandomizedSearchCV y BayesSearchCV**: Se usaron 10 iteraciones para RandomForestRegressor y 50-100 para otros modelos, para balancear precisión y tiempo de cómputo. Menos iteraciones (10) se usaron en RandomForestRegressor debido a su alto costo computacional, mientras que 50-100 iteraciones en modelos más rápidos (como Lasso, ElasticNet) permiten una exploración más exhaustiva.
- **Justificación**: El número de iteraciones refleja un compromiso entre explorar el espacio de hiperparámetros y mantener la eficiencia computacional, considerando que el dataset Ames Housing (~1460 filas tras división) no requiere búsquedas extensas para modelos lineales, pero sí para modelos no lineales.

### Evaluación
Se utilizó validación cruzada de 5 pliegues para garantizar estimaciones robustas de las métricas MAE, MSE, R2 y MAPE. Los resultados se guardan en un archivo pickle ('model_results.pkl') para su uso en el dashboard de Streamlit. Los mejores estimadores se guardan con joblib para pruebas posteriores.
""")

# Entrenamiento de Modelos
st.subheader("Entrenamiento de Modelos")

# Verificar si los resultados ya existen para evitar reentrenamiento
if not os.path.exists('model_results.pkl'):
    try:
        # Cargar datos preprocesados
        st.write("Cargando datos preprocesados desde preprocessed_data.csv...")
        df = pd.read_csv('preprocessed_data.csv')

        # Separar características y variable objetivo
        st.write("Separando características y variable objetivo...")
        if 'SalePrice' in df.columns:
            y = df['SalePrice']
            X = df.drop('SalePrice', axis=1)
        else:
            st.error("La columna 'SalePrice' no se encontró.")
            st.stop()

        # Asegurarse de que X sea numérico
        X = X.select_dtypes(include=np.number)
        X = X.dropna()
        y = y.loc[X.index]

        # División en conjuntos de entrenamiento y prueba
        st.write("Dividiendo datos en entrenamiento y prueba...")
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

        # Definir métricas
        def mean_absolute_percentage_error(y_true, y_pred):
            y_true, y_pred = np.array(y_true), np.array(y_pred)
            epsilon = 1e-8
            return np.mean(np.abs((y_true - y_pred) / (y_true + epsilon))) * 100

        scoring = {
            'mae': make_scorer(mean_absolute_error, greater_is_better=False),
            'mse': make_scorer(mean_squared_error, greater_is_better=False),
            'r2': make_scorer(r2_score, greater_is_better=True),
            'mape': make_scorer(mean_absolute_percentage_error, greater_is_better=False)
        }
        scoring_optimizer = {'mae': make_scorer(mean_absolute_error, greater_is_better=False)}

        # Configurar KFold
        kf = KFold(n_splits=5, shuffle=True, random_state=42)

        # Definir modelos y espacios de búsqueda
        models = {
            'LinearRegression': LinearRegression(),
            'Lasso': Lasso(random_state=42, max_iter=10000),
            'ElasticNet': ElasticNet(random_state=42, max_iter=10000),
            'KernelRidge': KernelRidge(kernel='rbf'),
            'SGDRegressor': SGDRegressor(learning_rate='invscaling', early_stopping=True, random_state=42, max_iter=10000),
            'BayesianRidge': BayesianRidge(),
            'RandomForestRegressor': RandomForestRegressor(random_state=42, n_jobs=-1),
            'SVR': SVR(kernel='rbf')
        }

        param_grids = {
            'Lasso': {'alpha': [0.001, 0.01, 0.1, 1, 10]},
            'ElasticNet': {'alpha': [0.001, 0.01, 0.1, 1], 'l1_ratio': [0.1, 0.3, 0.5]},
            'KernelRidge': {'alpha': [0.001, 0.01, 0.1], 'gamma': [0.001, 0.01]},
            'SGDRegressor': {'alpha': [0.0001, 0.001]},
            'RandomForestRegressor': {'n_estimators': [50, 100], 'max_depth': [None, 10], 'min_samples_split': [2, 5]},
            'SVR': {'C': [1, 10, 100], 'epsilon': [0.01, 0.1, 0.5], 'gamma': ['scale', 'auto', 0.001]}
        }

        param_dists = {
            'Lasso': {'alpha': loguniform(0.001, 10)},
            'ElasticNet': {'alpha': loguniform(0.001, 1), 'l1_ratio': uniform(0, 1)},
            'KernelRidge': {'alpha': loguniform(0.001, 1), 'gamma': loguniform(0.001, 1)},
            'SGDRegressor': {'alpha': loguniform(0.0001, 0.01)},
            'RandomForestRegressor': {'n_estimators': randint(50, 150), 'max_depth': [None] + list(range(5, 15)), 'min_samples_split': randint(2, 10)},
            'SVR': {'C': loguniform(0.1, 1000), 'epsilon': uniform(0.001, 1), 'gamma': loguniform(0.0001, 1)}
        }

        param_spaces = {
            'Lasso': {'alpha': Real(0.001, 10, prior='log-uniform')},
            'ElasticNet': {'alpha': Real(0.001, 1, prior='log-uniform'), 'l1_ratio': Real(0, 1, prior='uniform')},
            'KernelRidge': {'alpha': Real(0.001, 1, prior='log-uniform'), 'gamma': Real(0.001, 1, prior='log-uniform')},
            'SGDRegressor': {'alpha': Real(0.0001, 0.01, prior='log-uniform')},
            'RandomForestRegressor': {'n_estimators': Integer(50, 150), 'max_depth': Integer(5, 15), 'min_samples_split': Integer(2, 10)},
            'SVR': {'C': Real(0.1, 1000, prior='log-uniform'), 'epsilon': Real(0.001, 1, prior='uniform'), 'gamma': Real(0.0001, 1, prior='log-uniform')}
        }

        # Entrenar y evaluar modelos
        st.write("Iniciando entrenamiento de modelos...")
        model_results = {}
        for name, model in models.items():
            st.write(f"Entrenando modelo: {name}")
            start_time = time.time()

            # GridSearchCV
            if name not in ['LinearRegression', 'BayesianRidge']:
                st.write(f"Optimizando {name} con GridSearchCV...")
                grid_search = GridSearchCV(estimator=model, param_grid=param_grids[name], scoring=scoring_optimizer, refit='mae', cv=kf, verbose=1, n_jobs=-1)
                grid_search.fit(X_train, y_train)
                grid_results = cross_validate(grid_search.best_estimator_, X_train, y_train, cv=kf, scoring=scoring)
                model_results[f"{name}_Grid"] = {
                    'MAE': -grid_results['test_mae'].mean(),
                    'MSE': -grid_results['test_mse'].mean(),
                    'R2': grid_results['test_r2'].mean(),
                    'MAPE': -grid_results['test_mape'].mean(),
                    'Time (s)': time.time() - start_time,
                    'Best Estimator': grid_search.best_estimator_,
                    'Best Params': grid_search.best_params_
                }

            # RandomizedSearchCV
            if name not in ['LinearRegression', 'BayesianRidge']:
                st.write(f"Optimizando {name} con RandomizedSearchCV...")
                random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dists[name], n_iter=50 if name != 'RandomForestRegressor' else 10, scoring=scoring_optimizer, refit='mae', cv=kf, verbose=1, random_state=42, n_jobs=-1)
                random_search.fit(X_train, y_train)
                random_results = cross_validate(random_search.best_estimator_, X_train, y_train, cv=kf, scoring=scoring)
                model_results[f"{name}_Random"] = {
                    'MAE': -random_results['test_mae'].mean(),
                    'MSE': -random_results['test_mse'].mean(),
                    'R2': random_results['test_r2'].mean(),
                    'MAPE': -random_results['test_mape'].mean(),
                    'Time (s)': time.time() - start_time,
                    'Best Estimator': random_search.best_estimator_,
                    'Best Params': random_search.best_params_
                }

            # BayesSearchCV
            if name not in ['LinearRegression', 'BayesianRidge']:
                st.write(f"Optimizando {name} con BayesSearchCV...")
                bayes_search = BayesSearchCV(estimator=model, search_spaces=param_spaces[name], n_iter=50 if name != 'RandomForestRegressor' else 10, scoring=scoring_optimizer, refit='mae', cv=kf, verbose=1, random_state=42, n_jobs=-1)
                bayes_search.fit(X_train, y_train)
                bayes_results = cross_validate(bayes_search.best_estimator_, X_train, y_train, cv=kf, scoring=scoring)
                model_results[f"{name}_Bayes"] = {
                    'MAE': -bayes_results['test_mae'].mean(),
                    'MSE': -bayes_results['test_mse'].mean(),
                    'R2': bayes_results['test_r2'].mean(),
                    'MAPE': -bayes_results['test_mape'].mean(),
                    'Time (s)': time.time() - start_time,
                    'Best Estimator': bayes_search.best_estimator_,
                    'Best Params': bayes_search.best_params_
                }

            # Si no requiere optimización, evaluar directamente
            if name in ['LinearRegression', 'BayesianRidge']:
                st.write(f"Evaluando {name} sin optimización...")
                model.fit(X_train, y_train)
                results = cross_validate(model, X_train, y_train, cv=kf, scoring=scoring)
                model_results[name] = {
                    'MAE': -results['test_mae'].mean(),
                    'MSE': -results['test_mse'].mean(),
                    'R2': results['test_r2'].mean(),
                    'MAPE': -results['test_mape'].mean(),
                    'Time (s)': time.time() - start_time,
                    'Best Estimator': model,
                    'Best Params': 'Default'
                }

        # Guardar resultados en archivo pickle
        st.write("Guardando resultados en model_results.pkl...")
        with open('model_results.pkl', 'wb') as f:
            pickle.dump(model_results, f)

        # Guardar los mejores estimadores con joblib
        st.write("Guardando los mejores estimadores con joblib...")
        for key, result in model_results.items():
            if '_Grid' in key or '_Random' in key or '_Bayes' in key:
                model_name = key.split('_')[0]
                dump(result['Best Estimator'], f"{model_name}_best_model.joblib")
            elif key in ['LinearRegression', 'BayesianRidge']:
                dump(result['Best Estimator'], f"{key}_model.joblib")

        st.write("Entrenamiento y evaluación completados con éxito.")

    except Exception as e:
        st.error(f"Error durante la ejecución: {e}")
        st.stop()

# Visualización de Resultados del Modelado
st.header("Resultados del Entrenamiento de Modelos")

# Verificar si el archivo existe
if os.path.exists("model_results.pkl"):
    with open("model_results.pkl", "rb") as f:
        model_results = pickle.load(f)

    # Convertir resultados en DataFrame para visualización
    results_summary = []
    for model_name, metrics in model_results.items():
        results_summary.append({
            "Modelo": model_name,
            "MAE": round(metrics["MAE"], 2),
            "MSE": round(metrics["MSE"], 2),
            "R2": round(metrics["R2"], 3),
            "MAPE (%)": round(metrics["MAPE"], 2),
            "Tiempo (s)": round(metrics["Time (s)"], 2)
        })
    results_df = pd.DataFrame(results_summary)
    st.subheader("Resumen de Métricas por Modelo")
    st.dataframe(results_df.sort_values(by="MAE"))

    # Visualización de Métricas
    metric_to_plot = st.selectbox("Selecciona una métrica para comparar modelos:", ["MAE", "MSE", "R2", "MAPE (%)", "Tiempo (s)"])
    fig, ax = plt.subplots(figsize=(12, 6))
    sns.barplot(data=results_df.sort_values(by=metric_to_plot, ascending=(metric_to_plot != "R2")), x="Modelo", y=metric_to_plot, ax=ax)
    ax.set_title(f"Comparación de Modelos según {metric_to_plot}")
    ax.set_ylabel(metric_to_plot)
    ax.set_xlabel("Modelo")
    plt.xticks(rotation=45)
    st.pyplot(fig)

    # Mostrar los 3 mejores modelos según MAE
    st.subheader("Top 3 Modelos según MAE")
    top_3_models = results_df.sort_values(by="MAE").head(3)
    st.dataframe(top_3_models)

    # Comparación gráfica de los 3 mejores modelos
    st.subheader("Comparación Gráfica de los 3 Mejores Modelos según MAE")
    fig, ax = plt.subplots(figsize=(10, 6))
    sns.barplot(data=top_3_models, x="Modelo", y="MAE", ax=ax)
    ax.set_title("Top 3 Modelos según MAE")
    ax.set_ylabel("MAE")
    ax.set_xlabel("Modelo")
    plt.xticks(rotation=45)
    st.pyplot(fig)

else:
    st.warning("El archivo 'model_results.pkl' no se encuentra. Por favor, ejecuta el entrenamiento de modelos primero.")

# Documentación Formal: Conclusión
st.header('Conclusión')
st.markdown("""
El análisis exploratorio, preprocesamiento y modelización del dataset Ames Housing han permitido preparar los datos y entrenar modelos predictivos para 'SalePrice'. El preprocesamiento abordó valores faltantes, codificación de variables categóricas, ingeniería de características y escalado. Las visualizaciones del EDA identificaron patrones clave, como el sesgo en 'SalePrice' y la importancia de variables como 'OverallQual'. Los modelos fueron optimizados y evaluados, con los mejores resultados guardados para análisis futuros. Este dashboard permite explorar los datos y comparar modelos de manera interactiva.
""")

In [None]:
from pyngrok import ngrok
import threading
import os
import time

# Autenticar ngrok con tu authtoken
try:
    ngrok.set_auth_token("2xWiGNbMFuGVKYCpiKAC7OnphqY_6rpzZZckfZCpW1B3K3WQc")
    print("Authtoken de ngrok configurado correctamente.")
except Exception as e:
    print(f"Error al configurar el authtoken de ngrok: {e}")

# Ejecutar Streamlit en segundo plano
streamlit_command = "streamlit run TAM.py"
def run_streamlit():
    os.system(streamlit_command)

# Iniciar Streamlit en un hilo separado
thread = threading.Thread(target=run_streamlit)
thread.start()

# Esperar a que Streamlit inicie
time.sleep(5)

# Crear un túnel ngrok al puerto 8501 con protocolo HTTP
try:
    public_url = ngrok.connect(8501, "http")
    print("Tu dashboard está disponible en:", public_url)
except Exception as e:
    print(f"Error al crear el túnel ngrok: {e}")
    ngrok.kill()



In [None]:
!ps aux | grep ngrok

In [None]:
!kill -9 48401

In [None]:
!kill -9 48399

In [None]:
!ngrok api tunnels --authtoken=2xWiGNbMFuGVKYCpiKAC7OnphqY_6rpzZZckfZCpW1B3K3WQc