In [None]:
# Configuración Inicial y Supresión de Warnings

# En ocasiones, algunas bibliotecas pueden generar advertencias (warnings) que no son críticas
# para la ejecución del código pero pueden clutter la salida.
# Esta sección las suprime para mantener una salida más limpia durante el desarrollo.
# Es una buena práctica revisar los warnings en fases finales para asegurar que no se ignora nada importante.

def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

print("Warnings suprimidos.")

### Configuración Inicial y Supresión de Warnings - Explicación

**Propósito de la Celda:**

Esta celda inicial se encarga de configurar el entorno para una ejecución más limpia, específicamente suprimiendo las advertencias (warnings) que Python o sus bibliotecas puedan generar.

**Detalles del Código:**

*   `def warn(*args, **kwargs): pass`: Se define una función vacía llamada `warn`.
*   `import warnings`: Se importa el módulo `warnings` de Python, que es el encargado de manejar cómo se muestran las advertencias.
*   `warnings.warn = warn`: Se sobrescribe la función `warn` original del módulo `warnings` con nuestra función vacía. Esto tiene el efecto de que, cuando una biblioteca intente emitir una advertencia, llamará a nuestra función `warn` que no hace nada, suprimiendo así la advertencia en la salida.
*   `print("Warnings suprimidos.")`: Un mensaje para confirmar que la configuración se ha aplicado.

**¿Por qué suprimir warnings?**

Durante el desarrollo y la exploración, las bibliotecas pueden emitir warnings sobre futuras deprecaciones de funciones, conversiones de tipos implícitas, o comportamientos que podrían cambiar. Si bien estos warnings son informativos, pueden hacer que la salida del notebook sea extensa y difícil de leer. Suprimirlos temporalmente puede ayudar a enfocarse en los resultados principales.

**Consideraciones Importantes:**

*   **Uso Cauteloso:** Es una buena práctica no ignorar los warnings permanentemente. Una vez que el código esté más estable o antes de una revisión final, es recomendable comentar esta sección para ver si hay advertencias importantes que necesiten ser atendidas (por ejemplo, el uso de una función que será eliminada en futuras versiones de una biblioteca).
*   **Entornos Específicos:** En algunos entornos de producción o para depuración, es preferible ver todos los warnings.

In [None]:
# Celda 2: Importación de Bibliotecas Principales

import pandas as pd               # Para manipulación y análisis de datos tabulares (DataFrames)
import numpy as np                # Para operaciones numéricas, especialmente con arrays
import matplotlib.pyplot as plt   # Para visualizaciones estáticas básicas
import seaborn as sns             # Para visualizaciones estadísticas más atractivas y complejas, basadas en matplotlib
import plotly.express as px       # Para visualizaciones interactivas y dinámicas
import plotly.graph_objects as go # Para mayor control sobre las visualizaciones de Plotly

# Configuración para que los gráficos de matplotlib se muestren directamente en el notebook
%matplotlib inline

# Configuraciones opcionales para mejorar la estética de los gráficos de Seaborn/Matplotlib
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6) # Tamaño por defecto de las figuras de matplotlib

print("Bibliotecas principales importadas y configuraciones aplicadas.")

### Importación de Bibliotecas Principales - Explicación

**Propósito de la Celda:**

Esta celda es fundamental ya que carga todas las bibliotecas (o "librerías") de Python que necesitaremos para llevar a cabo nuestro análisis de datos, visualización y modelado.

**Detalles del Código y Bibliotecas Importadas:**

*   **Instalación de Paquetes (para entornos específicos):**
    *   `try...except ImportError`: Este bloque intenta importar `piplite`.
    *   `import piplite`: `piplite` es un gestor de paquetes específico para entornos basados en WebAssembly como JupyterLite o Pyodide (el kernel que parece estar usando tu notebook original).
    *   `await piplite.install(['seaborn', 'plotly'])`: Si `piplite` está disponible, se utiliza para asegurar que las bibliotecas `seaborn` y `plotly` (que usaremos para visualizaciones avanzadas e interactivas) estén instaladas en ese entorno.
    *   **Nota para Entornos Locales:** Si estás ejecutando este notebook en un entorno Python local (como Anaconda, VS Code con un kernel de Python, o Jupyter Notebook/Lab estándar), `piplite` no será necesario. En ese caso, debes asegurarte de haber instalado estas bibliotecas previamente usando `pip` o `conda` (ej. `pip install pandas numpy matplotlib seaborn plotly scikit-learn`).

*   **Bibliotecas Estándar de Ciencia de Datos:**
    *   `import pandas as pd`: **Pandas** es la herramienta esencial para trabajar con datos estructurados (tablas). Proporciona estructuras de datos como el `DataFrame` y funciones para leer, escribir, limpiar, transformar y analizar datos. Se importa con el alias `pd`.
    *   `import numpy as np`: **NumPy** (Numerical Python) es la base para la computación numérica en Python. Proporciona soporte para arrays multidimensionales, matrices y una amplia gama de funciones matemáticas para operar sobre ellos. Pandas se basa en NumPy. Se importa con el alias `np`.
    *   `import matplotlib.pyplot as plt`: **Matplotlib** es una biblioteca fundamental para crear visualizaciones estáticas, como gráficos de líneas, barras, histogramas, etc. `pyplot` es un módulo dentro de Matplotlib que proporciona una interfaz similar a MATLAB. Se importa con el alias `plt`.
    *   `import seaborn as sns`: **Seaborn** es una biblioteca de visualización de datos basada en Matplotlib. Proporciona una interfaz de más alto nivel para dibujar gráficos estadísticos atractivos e informativos. Se importa con el alias `sns`.
    *   `import plotly.express as px` y `import plotly.graph_objects as go`: **Plotly** es una biblioteca para crear visualizaciones interactivas y de calidad de publicación. `plotly.express` (alias `px`) ofrece una interfaz concisa y de alto nivel (similar a Seaborn) para gráficos comunes, mientras que `plotly.graph_objects` (alias `go`) proporciona más control para gráficos personalizados y complejos.

*   **Configuraciones de Visualización:**
    *   `%matplotlib inline`: Es un "comando mágico" de IPython/Jupyter que asegura que los gráficos generados por Matplotlib se muestren directamente dentro del notebook, en lugar de en una ventana separada.
    *   `sns.set_style("whitegrid")`: Establece un estilo visual predeterminado para los gráficos de Seaborn (y por extensión Matplotlib), en este caso, un fondo blanco con rejilla.
    *   `plt.rcParams['figure.figsize'] = (10, 6)`: Configura el tamaño por defecto (ancho de 10 pulgadas, alto de 6 pulgadas) para las figuras generadas por Matplotlib.

Esta celda prepara el terreno con las herramientas necesarias antes de comenzar a trabajar con los datos.

In [None]:
# Función de Descarga de Datos

# Esta función es útil si el notebook se ejecuta en un entorno donde los archivos
# necesitan ser descargados desde una URL, como Google Colab o Pyodide.
# Si el archivo CSV ya está localmente en el mismo directorio que el notebook,
# esta función y su llamada pueden ser omitidas.

from pyodide.http import pyfetch # Específico para el entorno Pyodide

async def download(url, filename):
    """
    Descarga un archivo desde una URL y lo guarda localmente.
    Utiliza pyfetch, adecuado para entornos como Pyodide.
    """
    try:
        response = await pyfetch(url)
        if response.status == 200:
            with open(filename, "wb") as f:
                f.write(await response.bytes())
            print(f"Archivo '{filename}' descargado exitosamente desde {url}")
        else:
            print(f"Error al descargar {url}: Código de estado {response.status}")
    except Exception as e:
        print(f"Ocurrió un error durante la descarga: {e}")

# Confirmación de que la función está definida
print("Función 'download' definida.")

### Función de Descarga de Datos - Explicación

**Propósito de la Celda:**

Esta celda define una función asíncrona llamada `download`. Su propósito es descargar un archivo desde una URL especificada y guardarlo localmente con un nombre de archivo también especificado.

**Detalles del Código:**

*   `from pyodide.http import pyfetch`: Esta importación es específica para el entorno **Pyodide**, que es el que se utiliza en JupyterLite (y el kernel Python (Pyodide) que indicaste en los metadatos de tu notebook original). `pyfetch` es una función que permite realizar solicitudes HTTP (como descargar archivos) en este entorno basado en WebAssembly.
*   `async def download(url, filename):`:
    *   `async def`: Define la función como asíncrona. Esto es necesario porque `pyfetch` y `response.bytes()` son operaciones asíncronas (no bloqueantes).
    *   `url`: Parámetro que representa la URL del archivo a descargar.
    *   `filename`: Parámetro que representa el nombre con el que se guardará el archivo localmente.
*   `response = await pyfetch(url)`: Realiza la solicitud HTTP a la `url` y espera (`await`) la respuesta.
*   `if response.status == 200:`: Verifica si la solicitud fue exitosa (un código de estado HTTP 200 significa "OK").
*   `with open(filename, "wb") as f:`: Abre un archivo localmente en modo escritura binaria (`"wb"`). El uso de `with` asegura que el archivo se cierre correctamente incluso si ocurren errores.
*   `f.write(await response.bytes())`: Escribe el contenido de la respuesta (los bytes del archivo descargado) en el archivo local.
*   Los mensajes `print` informan sobre el éxito o el fracaso de la descarga.
*   El bloque `try...except` maneja posibles errores durante el proceso de descarga.

**Relevancia y Contexto:**

*   **Entornos Web/Remotos:** Esta función es particularmente útil cuando el notebook se ejecuta en entornos donde no se tiene acceso directo al sistema de archivos local para colocar el dataset, como Google Colab (que usaría `!wget` o `gdown`), JupyterLite, o cualquier otro servicio en la nube donde los datos deban ser traídos desde una fuente externa.
*   **Entornos Locales:** Si el archivo CSV (`kc_house_data_NaN.csv`) ya se encuentra en el mismo directorio que tu archivo Jupyter Notebook cuando lo ejecutas localmente, esta función `download` y la celda que la llama (Celda 5) no serían estrictamente necesarias, ya que podrías cargar el archivo directamente con `pd.read_csv("nombre_del_archivo.csv")`. Sin embargo, mantenerla hace el notebook más portable y reproducible en diferentes entornos.

In [None]:
# Definimos la URL del dataset

filepath = "https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.csv"
file_name_local = "housing.csv"

# Intentamos detectar si estamos en Pyodide
import sys

IN_PYODIDE = sys.platform == "emscripten"

if IN_PYODIDE:
    # Código para Pyodide / JupyterLite
    try:
        from pyodide.http import pyfetch
        import asyncio

        async def download(url, filename):
            response = await pyfetch(url)
            with open(filename, "wb") as f:
                f.write(await response.bytes())

        await download(filepath, file_name_local)
        print(f"Archivo descargado exitosamente en Pyodide como '{file_name_local}'.")

    except Exception as e:
        print(f"Ocurrió un error al intentar descargar en Pyodide: {e}")
        print(f"Puedes intentar descargar manualmente desde:\n{filepath}")
else:
    # Código para entorno local (Jupyter, VS Code, etc.)
    import os
    import pandas as pd

    if os.path.exists(file_name_local):
        print(f"El archivo '{file_name_local}' ya existe localmente.")
    else:
        try:
            import urllib.request
            urllib.request.urlretrieve(filepath, file_name_local)
            print(f"Archivo descargado exitosamente en entorno local como '{file_name_local}'.")
        except Exception as e:
            print(f"Ocurrió un error al intentar descargar en entorno local: {e}")
            print(f"Puedes descargar manualmente desde:\n{filepath}")

# Intentamos cargar el archivo en un DataFrame
try:
    import pandas as pd
    df = pd.read_csv(file_name_local)
    print(f"\nDatos cargados exitosamente. Dimensiones: {df.shape}")
except Exception as e:
    print(f"\nNo se pudo cargar el archivo '{file_name_local}': {e}")


### Descarga del Archivo de Datos - Explicación

**Propósito de la Celda:**

El objetivo principal de esta celda es obtener el archivo de datos (`.csv`) desde la URL especificada en la celda anterior (`filepath`) y guardarlo en el entorno de ejecución local del notebook bajo un nombre más manejable (`housing.csv`).

**Detalles del Código:**

*   `file_name_local = "housing.csv"`: Se define una variable que contendrá el nombre que queremos darle al archivo una vez descargado y guardado localmente.
*   `try...except NameError...except Exception...`: Se utiliza un bloque `try-except` para manejar la descarga.
    *   `await download(filepath, file_name_local)`: Se llama a la función `download` (definida en la Celda 3).
        *   `await`: Es necesario porque `download` es una función asíncrona.
        *   `filepath`: Es la URL del archivo fuente (definida en la Celda 4).
        *   `file_name_local`: Es el nombre con el que se guardará el archivo en el sistema de archivos del entorno donde se ejecuta el notebook.
    *   **Manejo de Errores (`except` blocks):**
        *   `except NameError as e`: Este bloque se activa si la función `download` o `pyfetch` no están definidas. Esto es común si se ejecuta el notebook en un entorno Python local estándar donde Pyodide no está presente. En tal caso, se imprime un mensaje informativo indicando al usuario que debe asegurarse de que el archivo esté disponible manualmente.
        *   `except Exception as e`: Captura cualquier otro error que pueda ocurrir durante el intento de descarga (problemas de red, URL incorrecta, etc.) e informa al usuario.
*   `print(...)`: Un mensaje final confirma que se intentó la descarga y qué nombre de archivo se usará para cargar los datos.

**Funcionamiento y Relevancia:**

*   **Entornos Pyodide/JupyterLite:** En estos entornos, el `await download(...)` ejecutará la descarga usando `pyfetch` y guardará `housing.csv` en el sistema de archivos virtual del navegador.
*   **Entornos Locales (Anaconda, VS Code, etc.):**
    *   Si la función `download` (y `pyfetch`) no están disponibles, el bloque `except NameError` se ejecutará.
    *   En este escenario, se asume que el usuario ya ha descargado el archivo `kc_house_data_NaN.csv`, lo ha renombrado (opcionalmente) a `housing.csv`, y lo ha colocado en el mismo directorio donde se está ejecutando el notebook. O bien, en la siguiente celda, se podría usar la URL directamente con `pd.read_csv()` si la conexión a internet es estable, aunque descargar una vez es más eficiente.

Esta celda actúa como un puente para asegurar que el conjunto de datos esté accesible para ser cargado por Pandas en la siguiente etapa.

In [None]:
# Carga de Datos en un DataFrame de Pandas

# Una vez que el archivo "housing.csv" está disponible localmente (ya sea descargado
# por la celda anterior o colocado manualmente), utilizamos la biblioteca Pandas
# para leer este archivo CSV y cargarlo en una estructura de datos tabular llamada DataFrame.
# El DataFrame es la principal herramienta con la que trabajaremos para analizar y manipular los datos.

try:
    df = pd.read_csv(file_name_local) # file_name_local fue definido como "housing.csv"
    print(f"Archivo '{file_name_local}' cargado exitosamente en un DataFrame.")
    print(f"El DataFrame tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
except FileNotFoundError:
    print(f"Error: El archivo '{file_name_local}' no fue encontrado.")
    print("Por favor, asegúrate de que el archivo fue descargado correctamente o está en el directorio de trabajo.")
    print(f"Puedes intentar descargarlo de nuevo o manualmente desde: {filepath}")
    df = pd.DataFrame() # Crear un DataFrame vacío para evitar errores en celdas posteriores si la carga falla
except Exception as e:
    print(f"Ocurrió un error al leer el archivo CSV: {e}")
    df = pd.DataFrame()

# Mostramos las primeras filas para una verificación rápida si la carga fue exitosa
if not df.empty:
    display(df.head())

### Carga de Datos en un DataFrame de Pandas - Explicación

**Propósito de la Celda:**

El objetivo de esta celda es leer el archivo de datos (`housing.csv`, que se obtuvo en la celda anterior) y cargarlo en una estructura de datos de **Pandas** llamada `DataFrame`. Un DataFrame es esencialmente una tabla, similar a una hoja de cálculo o una tabla de base de datos, y es la estructura fundamental para la manipulación y análisis de datos en Python con Pandas.

**Detalles del Código:**

*   `try...except FileNotFoundError...except Exception...`: Se utiliza un bloque `try-except` para manejar la carga del archivo de manera robusta.
    *   `df = pd.read_csv(file_name_local)`:
        *   `pd.read_csv()`: Es la función de Pandas utilizada para leer archivos CSV.
        *   `file_name_local`: Es la variable que contiene el nombre del archivo CSV a leer (definido como `"housing.csv"` en la celda anterior).
        *   El resultado de esta función (el contenido del archivo CSV leído y estructurado) se asigna a la variable `df`. A partir de ahora, `df` será nuestro DataFrame principal.
    *   `print(...)`: Se imprimen mensajes para informar sobre el resultado de la carga y las dimensiones del DataFrame (número de filas y columnas) usando `df.shape`.
    *   **Manejo de Errores:**
        *   `except FileNotFoundError`: Si el archivo `housing.csv` no se encuentra en el directorio de trabajo (por ejemplo, si la descarga falló y no se colocó manualmente), se captura este error y se informa al usuario. Se crea un `df` vacío para que las celdas siguientes no fallen inmediatamente por una variable `df` no definida, aunque el análisis no podrá continuar sin datos.
        *   `except Exception as e`: Captura cualquier otro error que pueda ocurrir durante la lectura del archivo (formato incorrecto, problemas de permisos, etc.).
*   `if not df.empty: display(df.head())`: Si el DataFrame `df` no está vacío (es decir, la carga fue exitosa o al menos se creó un DataFrame), se muestra una vista previa de las primeras 5 filas usando `df.head()`. Esto permite una verificación visual rápida de que los datos se han cargado correctamente y tienen la estructura esperada.

**Importancia del DataFrame:**

Una vez que los datos están en un DataFrame de Pandas, podemos:
*   Inspeccionar los datos (ver tipos de datos, valores faltantes, estadísticas descriptivas).
*   Limpiar y preprocesar los datos (manejar valores faltantes, convertir tipos, eliminar duplicados).
*   Transformar y manipular los datos (filtrar filas, seleccionar columnas, crear nuevas características).
*   Realizar análisis exploratorio de datos (EDA) y visualizaciones.
*   Preparar los datos para modelos de machine learning.

Esta celda marca el inicio formal del trabajo con el conjunto de datos dentro de nuestro entorno de análisis.

In [None]:
# Vista General del DataFrame
print("Primeras 5 filas del DataFrame:")
display(df.head())

print("\nInformación general del DataFrame (tipos de datos, nulos):")
df.info()

print("\nResumen estadístico de las columnas numéricas:")
display(df.describe())

### Vista General del DataFrame - Explicación

Esta celda nos proporciona una primera toma de contacto con nuestros datos.

1.  **`df.head()`**: Muestra las primeras 5 filas del DataFrame. Esto es útil para ver la estructura de los datos, los nombres de las columnas y algunos valores de ejemplo.
2.  **`df.info()`**: Proporciona un resumen conciso del DataFrame, incluyendo:
    *   El tipo de dato de cada columna (Dtype).
    *   El número de valores no nulos en cada columna. Esto es crucial para identificar columnas con datos faltantes.
    *   El uso de memoria del DataFrame.
3.  **`df.describe()`**: Genera estadísticas descriptivas para las columnas numéricas. Esto incluye:
    *   `count`: Número de valores no nulos.
    *   `mean`: Media.
    *   `std`: Desviación estándar.
    *   `min`: Valor mínimo.
    *   `25%`, `50%`, `75%`: Percentiles (cuartiles), donde el 50% es la mediana.
    *   `max`: Valor máximo.

**Observaciones Iniciales:**
*   Vemos columnas como `Unnamed: 0` e `id` que podrían no ser útiles para el modelado y podrían eliminarse.
*   La columna `date` es de tipo `object` (probablemente una cadena de texto) y necesitará ser convertida a un formato de fecha/hora si queremos extraer información temporal.
*   `bedrooms` y `bathrooms` tienen menos valores no nulos que el total de filas, indicando la presencia de NaNs que ya se identificaron en el notebook original.
*   Las estadísticas descriptivas nos dan una idea de la escala y distribución de cada variable numérica. Por ejemplo, `price` tiene una gran desviación estándar, lo que sugiere una amplia gama de precios.

Esta información inicial es fundamental para planificar los siguientes pasos de limpieza y preprocesamiento de datos.

In [None]:
# Eliminación de Columnas Irrelevantes

# Columnas a eliminar
columns_to_drop = ["id", "Unnamed: 0"]

# Verificamos si las columnas existen antes de intentar eliminarlas
existing_columns_to_drop = [col for col in columns_to_drop if col in df.columns]

if existing_columns_to_drop:
    df.drop(columns=existing_columns_to_drop, inplace=True)
    print(f"Columnas eliminadas: {existing_columns_to_drop}")
else:
    print("Las columnas especificadas para eliminar no se encontraron o ya fueron eliminadas.")

print("\nPrimeras filas después de eliminar columnas:")
display(df.head())

print("\nResumen estadístico después de eliminar columnas:")
display(df.describe())

### Eliminación de Columnas Irrelevantes - Explicación

En esta celda, procedemos a eliminar columnas que no aportan valor predictivo a nuestro modelo de precios de viviendas o que son redundantes.

1.  **Identificación de Columnas:**
    *   `id`: Es un identificador único para cada casa y no tiene relación intrínseca con el precio. Mantenerlo podría confundir al modelo.
    *   `Unnamed: 0`: Esta columna a menudo aparece cuando un DataFrame se guarda en CSV con el índice y luego se vuelve a cargar. Esencialmente, es un índice duplicado y no es útil.

2.  **Proceso de Eliminación:**
    *   Se define una lista `columns_to_drop`.
    *   Se verifica si estas columnas realmente existen en el DataFrame actual para evitar errores si el código se ejecuta múltiples veces o si las columnas ya fueron eliminadas.
    *   Se utiliza `df.drop(columns=existing_columns_to_drop, inplace=True)` para eliminar las columnas.
        *   `columns=...`: Especifica las columnas a eliminar.
        *   `inplace=True`: Modifica el DataFrame `df` directamente, sin necesidad de reasignarlo (ej. `df = df.drop(...)`).

3.  **Verificación:**
    *   Mostramos `df.head()` y `df.describe()` nuevamente para confirmar que las columnas han sido eliminadas y ver el estado actual del DataFrame.

**Resultado:**
El DataFrame ahora es más limpio y contiene solo columnas potencialmente relevantes para nuestro análisis y modelado. El resumen estadístico (`df.describe()`) ahora reflejará solo estas columnas restantes.

In [None]:
# Identificación y Visualización de Valores Nulos

print("Conteo de valores NaN por columna:")
nan_counts = df.isnull().sum()
print(nan_counts[nan_counts > 0]) # Mostrar solo columnas con NaNs

# Visualización de valores nulos (opcional, pero útil para datasets grandes)
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure(figsize=(12, 7))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Calor de Valores Nulos en el DataFrame')
plt.show()

### Identificación y Visualización de Valores Nulos - Explicación

Antes de imputar (rellenar) los valores faltantes, es crucial entender dónde se encuentran y cuántos hay.

1.  **Conteo de NaNs:**
    *   `df.isnull().sum()`: Este comando realiza dos operaciones:
        *   `df.isnull()`: Devuelve un DataFrame de las mismas dimensiones que `df`, pero con valores booleanos (`True` si el valor es NaN, `False` si no lo es).
        *   `.sum()`: Suma estos booleanos por columna (tratando `True` como 1 y `False` como 0). El resultado es una Serie que muestra el total de NaNs para cada columna.
    *   Filtramos para mostrar solo las columnas que efectivamente tienen valores faltantes (`nan_counts[nan_counts > 0]`).

2.  **Visualización con Mapa de Calor (Opcional pero Recomendado):**
    *   `sns.heatmap(df.isnull(), cbar=False, cmap='viridis')`: Genera un mapa de calor.
        *   `df.isnull()`: Es la matriz booleana de NaNs.
        *   `cbar=False`: Oculta la barra de color, ya que solo tenemos dos estados (NaN o no NaN).
        *   `cmap='viridis'`: Especifica el esquema de color. Los NaNs se mostrarán en un color (ej. amarillo) y los no-NaNs en otro (ej. morado oscuro).
    *   Esta visualización es muy útil para identificar patrones en los datos faltantes. Por ejemplo, si varias columnas tienen NaNs en las mismas filas, podría indicar un problema sistemático en la recolección de datos para esas observaciones.

**Observaciones (basadas en el notebook original):**
*   Las columnas `bedrooms` y `bathrooms` son las que presentan valores faltantes. Esto coincide con lo que se vio en `df.info()` y en el notebook original.
*   El mapa de calor nos daría una representación visual de dónde se encuentran estos NaNs. Para este dataset, con solo dos columnas con pocos NaNs, puede no ser tan impactante, pero es una excelente práctica.

El siguiente paso será decidir cómo tratar estos valores faltantes.

In [None]:
# Imputación de Valores Nulos

# Detectar automáticamente columnas con NaNs
cols_with_nans = df.columns[df.isnull().any()].tolist()

print(f"Columnas con valores nulos: {cols_with_nans}")

for col in cols_with_nans:
    mean_val = df[col].mean()
    df[col].fillna(mean_val, inplace=True)
    print(f"Valores NaN en '{col}' reemplazados con la media: {mean_val:.2f}")


### Imputación de Valores Nulos - Explicación

Una vez identificados los valores faltantes, debemos decidir cómo manejarlos. Eliminar filas con NaNs es una opción, pero puede llevar a la pérdida de información valiosa, especialmente si los NaNs son pocos. Otra estrategia común es la imputación, que consiste en rellenar los NaNs con un valor estimado.

1.  **Estrategia de Imputación Elegida: Media**
    *   Para las columnas `bedrooms` y `bathrooms`, que son numéricas (aunque representan conteos, la media puede ser una aproximación razonable si la distribución no es muy sesgada y los NaNs son pocos), se ha decidido imputar los valores faltantes con la media de cada columna respectiva.

2.  **Proceso de Imputación:**
    *   Se itera sobre las columnas `['bedrooms', 'bathrooms']`.
    *   `df[col].isnull().any()`: Se verifica si la columna actual realmente tiene algún NaN.
    *   `mean_val = df[col].mean()`: Se calcula la media de los valores no nulos de la columna.
    *   `df[col].fillna(mean_val, inplace=True)`: Se rellenan los NaNs (`NaN`) en la columna `col` con el valor `mean_val`.
        *   `inplace=True` modifica el DataFrame `df` directamente.

**Alternativas y Consideraciones:**
*   **Media:** Sensible a outliers. Adecuada para distribuciones aproximadamente simétricas.
*   **Mediana:** Más robusta a outliers. Buena opción para distribuciones sesgadas. Para conteos como `bedrooms` y `bathrooms`, la mediana podría ser incluso preferible, ya que siempre será un valor que existe en los datos (o el promedio de dos valores existentes) y es menos probable que resulte en un número fraccionario que no tenga sentido práctico (aunque la media también podría serlo).
*   **Moda:** Adecuada para variables categóricas, pero también puede usarse para numéricas discretas.
*   **Imputación Basada en Modelos:** Métodos más avanzados como la regresión para predecir los valores faltantes.
*   **Eliminación:** Si el porcentaje de NaNs es muy alto en una columna, podría considerarse eliminar la columna. Si es muy bajo en filas, eliminar las filas.

Para este caso, dado que la cantidad de NaNs es pequeña (13 en `bedrooms` y 10 en `bathrooms` sobre ~21600 filas), la imputación con la media (o mediana) es una solución simple y generalmente aceptable que no distorsionará significativamente los datos.

In [None]:
# Verificación Post-Imputación

print("Conteo de valores NaN por columna después de la imputación:")
nan_counts_after = df.isnull().sum()
print(nan_counts_after[nan_counts_after > 0])

if nan_counts_after.sum() == 0:
    print("\n¡Excelente! No quedan valores NaN en el DataFrame.")
else:
    print("\nAtención: Todavía hay valores NaN en el DataFrame.")

# Ver resumen estadístico solo de columnas numéricas con imputación (como 'total_bedrooms')
cols_to_check = ['total_bedrooms']  # Puedes agregar más si imputas otras

print("\nResumen estadístico de columnas imputadas después de la imputación:")
display(df[cols_to_check].describe())


### Verificación Post-Imputación - Explicación

Después de aplicar cualquier técnica de limpieza o transformación de datos, es crucial verificar que los cambios se hayan realizado correctamente.

1.  **Re-conteo de NaNs:**
    *   Volvemos a ejecutar `df.isnull().sum()` para obtener el conteo actualizado de NaNs por columna.
    *   Idealmente, las columnas `bedrooms` y `bathrooms` ahora deberían tener 0 NaNs.

2.  **Confirmación General:**
    *   `nan_counts_after.sum() == 0`: Sumamos todos los conteos de NaNs. Si el total es 0, significa que no quedan valores faltantes en todo el DataFrame.

3.  **Inspección de Columnas Imputadas:**
    *   `df[['bedrooms', 'bathrooms']].describe()`: Mostramos el resumen estadístico específicamente para las columnas que fueron imputadas. Esto nos permite observar si la media y la desviación estándar han cambiado sutilmente y si los conteos (`count`) ahora coinciden con el total de filas del DataFrame.

**Resultado:**
Esta celda confirma que el proceso de imputación ha sido exitoso y que las columnas `bedrooms` y `bathrooms` ya no contienen valores faltantes. El DataFrame está ahora un paso más cerca de estar listo para análisis más profundos y modelado.

In [None]:
# Análisis de la Característica 'ocean_proximity'

import plotly.express as px

# Contar las categorías de proximidad al océano
ocean_counts = df['ocean_proximity'].value_counts().reset_index()
ocean_counts.columns = ['ocean_proximity', 'count']
ocean_counts = ocean_counts.sort_values(by='ocean_proximity')

print("Distribución de la proximidad al océano:")
display(ocean_counts)

# Gráfico interactivo
fig_ocean = px.bar(ocean_counts, 
                   x='ocean_proximity', 
                   y='count',
                   title='Distribución de Proximidad al Océano',
                   labels={'ocean_proximity': 'Categoría', 'count': 'Cantidad de viviendas'},
                   text='count')
fig_ocean.update_layout(xaxis_type='category')
fig_ocean.show()


### Análisis de la Característica 'floors' - Explicación

Esta celda se enfoca en entender la distribución de la característica `floors` (número de pisos de las viviendas), que es una variable numérica discreta (o podría considerarse categórica ordinal).

1.  **Conteo de Valores Únicos:**
    *   `df['floors'].value_counts()`: Calcula la frecuencia de cada valor único en la columna `floors`.
    *   `.reset_index()`: Convierte la Serie resultante en un DataFrame, con los valores únicos como una columna y sus conteos como otra.
    *   `floor_counts.columns = ['floors', 'count']`: Renombra las columnas para mayor claridad, especialmente útil para Plotly.
    *   `floor_counts.sort_values(by='floors')`: Ordena los resultados por el número de pisos, lo que hace que el gráfico sea más fácil de interpretar.

2.  **Visualización con Gráfico de Barras Interactivo (Plotly):**
    *   `px.bar()`: Se utiliza la función `bar` de Plotly Express para crear un gráfico de barras.
        *   `x='floors'`: El número de pisos en el eje X.
        *   `y='count'`: La cantidad de viviendas en el eje Y.
        *   `title`, `labels`: Para mejorar la legibilidad del gráfico.
        *   `text='count'`: Muestra el valor del conteo directamente sobre cada barra.
        *   `fig_floors.update_layout(xaxis_type='category')`: Asegura que los valores de 'floors' (ej. 1.0, 1.5, 2.0) se traten como categorías distintas en el eje X, en lugar de un continuo numérico, lo cual es más apropiado para esta variable.

**Observaciones:**
*   La tabla de `floor_counts` muestra cuántas viviendas tienen 1 piso, 1.5 pisos, 2 pisos, etc.
*   El gráfico de barras interactivo permite visualizar esta distribución de forma clara. Se puede pasar el cursor sobre las barras para ver los conteos exactos.
*   La mayoría de las viviendas en este dataset tienen 1 o 2 pisos. Un número significativo tiene 1.5 pisos, y hay menos viviendas con 2.5, 3 o 3.5 pisos.

Este tipo de análisis es útil para entender las características predominantes en el mercado inmobiliario del dataset.

In [None]:
# Celda 13: Relación entre 'ocean_proximity' y 'median_house_value'

# Crear el boxplot interactivo comparando precios según proximidad al océano
fig_ocean_price = px.box(df, 
                         x='ocean_proximity', 
                         y='median_house_value',
                         color='ocean_proximity',
                         title='Distribución de Precios según Proximidad al Océano',
                         labels={'ocean_proximity': 'Proximidad al Océano', 'median_house_value': 'Valor Mediano de la Vivienda'})

fig_ocean_price.update_layout(xaxis_type='category')
fig_ocean_price.show()

# Estadísticas descriptivas agrupadas
print("\nEstadísticas de precios agrupadas por proximidad al océano:")
display(df.groupby('ocean_proximity')['median_house_value'].describe())


### Relación entre 'waterfront' y 'price' - Explicación

Esta celda investiga si tener una vista al mar (`waterfront`) tiene un impacto en el precio (`price`) de las viviendas. La característica `waterfront` es binaria (0 para no, 1 para sí). Un boxplot es una excelente manera de comparar las distribuciones de una variable numérica (`price`) a través de diferentes categorías de otra variable (`waterfront`).

1.  **Creación del Boxplot Interactivo (Plotly):**
    *   `px.box()`: Se utiliza la función `box` de Plotly Express.
        *   `df`: El DataFrame que contiene los datos.
        *   `x='waterfront'`: La variable categórica para el eje X.
        *   `y='price'`: La variable numérica cuya distribución se quiere analizar en el eje Y.
        *   `color='waterfront'`: Colorea las cajas de forma diferente para cada categoría de `waterfront`, mejorando la distinción visual.
        *   `title`, `labels`: Para una mejor interpretación.
        *   `notched=True` (Opcional): Añade "muescas" a las cajas. Si las muescas de dos cajas no se solapan, es una indicación (aunque no una prueba formal) de que las medianas son significativamente diferentes.
    *   `fig_waterfront_price.update_layout(xaxis_type='category')`: Se asegura que `waterfront` (0 y 1) se trate como categorías.

2.  **Estadísticas Descriptivas Agrupadas (Opcional):**
    *   `df.groupby('waterfront')['price'].describe()`: Calcula estadísticas descriptivas (media, mediana, desviación estándar, cuartiles, etc.) para la columna `price`, agrupadas por los valores de `waterfront`. Esto complementa la visualización con números concretos.

**Observaciones:**
*   **Visualización:** El boxplot mostrará dos cajas, una para las casas sin vista al mar (0) y otra para las que sí la tienen (1).
    *   La **línea media** de cada caja representa la mediana del precio.
    *   La **altura de la caja** representa el rango intercuartílico (IQR, la diferencia entre el percentil 75 y el 25).
    *   Los **"bigotes"** se extienden típicamente hasta 1.5 veces el IQR desde los bordes de la caja.
    *   Los **puntos fuera de los bigotes** son considerados outliers.
*   **Interpretación Esperada:** Es muy probable que las casas con vista al mar (`waterfront` = 1) tengan precios medianos y generales significativamente más altos que aquellas sin vista al mar. El boxplot permitirá comparar la dispersión de los precios también.
*   **Interacción:** Al usar Plotly, se puede pasar el cursor sobre las cajas para ver los valores exactos de los cuartiles, la mediana, y los outliers.

Este análisis ayuda a confirmar la intuición de que características premium como la vista al mar tienen una influencia positiva y considerable en el precio de una vivienda.

In [None]:
# Relación entre 'median_income' y 'median_house_value'

import plotly.express as px

# Crear scatter plot con línea de tendencia
fig_income_price = px.scatter(df, 
                              x='median_income', 
                              y='median_house_value',
                              title='Relación entre Ingreso Medio y Valor Mediano de la Vivienda',
                              labels={'median_income': 'Ingreso Medio', 'median_house_value': 'Valor Mediano de la Vivienda'},
                              opacity=0.5,
                              trendline='ols')  # Línea de regresión

fig_income_price.show()

# Correlación
correlation = df['median_income'].corr(df['median_house_value'])
print(f"\nCoeficiente de correlación de Pearson entre 'median_income' y 'median_house_value': {correlation:.2f}")


### Relación entre 'sqft_above' y 'price' - Explicación

Esta celda explora la relación entre `sqft_above` (pies cuadrados de la vivienda que están por encima del nivel del suelo) y `price` (el precio de la vivienda). Ambas son variables numéricas continuas, por lo que un diagrama de dispersión (scatter plot) es apropiado.

1.  **Creación del Scatter Plot Interactivo con Línea de Tendencia (Plotly):**
    *   `px.scatter()`: Se utiliza la función `scatter` de Plotly Express.
        *   `df`: El DataFrame.
        *   `x='sqft_above'`: Variable para el eje X.
        *   `y='price'`: Variable para el eje Y.
        *   `title`, `labels`: Para la legibilidad.
        *   `opacity=0.5`: Hace los puntos semi-transparentes. Esto es útil cuando hay muchos puntos superpuestos, ya que ayuda a visualizar la densidad.
        *   `trendline='ols'`: Añade automáticamente una línea de regresión lineal ajustada usando el método de Mínimos Cuadrados Ordinarios (Ordinary Least Squares). Esta línea muestra la tendencia general en la relación entre las dos variables.

2.  **Cálculo del Coeficiente de Correlación:**
    *   `df['sqft_above'].corr(df['price'])`: Calcula el coeficiente de correlación de Pearson entre `sqft_above` y `price`. Este coeficiente mide la fuerza y dirección de la relación lineal entre dos variables.
        *   Varía entre -1 y +1.
        *   Un valor cercano a +1 indica una fuerte correlación lineal positiva.
        *   Un valor cercano a -1 indica una fuerte correlación lineal negativa.
        *   Un valor cercano a 0 indica una débil o nula correlación lineal.

**Observaciones e Interpretación Esperada:**
*   **Visualización:** El scatter plot mostrará una nube de puntos. Cada punto representa una vivienda.
    *   Se espera una tendencia general ascendente: a medida que `sqft_above` aumenta, `price` también tiende a aumentar.
    *   La línea de tendencia OLS visualizará esta relación lineal promedio.
    *   La dispersión de los puntos alrededor de la línea de tendencia indica la variabilidad. Es probable que haya una considerable dispersión, ya que el precio depende de muchos otros factores además de `sqft_above`.
*   **Correlación:** Se espera un coeficiente de correlación positivo y moderadamente fuerte (por ejemplo, entre 0.4 y 0.7).
*   **Interacción:** Con Plotly, se puede hacer zoom, panear y pasar el cursor sobre los puntos para ver sus valores exactos.

Este análisis es un paso fundamental para entender cómo las características individuales se relacionan con la variable objetivo (precio) y para la selección de características en el modelado.

In [None]:
# 1. Matriz de Correlación (para variables numéricas)
correlation_matrix = df.corr(numeric_only=True)

plt.figure(figsize=(18, 15))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlación de Características Numéricas')
plt.show()

print("\nCorrelaciones más altas con 'median_house_value':")
display(correlation_matrix['median_house_value'].sort_values(ascending=False).head(10))

# 2. Feature Engineering básico
# Crear variable categórica simple: alta densidad poblacional
df['high_population_density'] = (df['population'] / df['households']) > 3  # por ejemplo

# Crear una nueva feature: habitaciones por persona
df['rooms_per_person'] = df['total_rooms'] / df['population']
df['bedrooms_per_room'] = df['total_bedrooms'] / df['total_rooms']

# Visualizar relaciones con el valor de la vivienda
fig1 = px.scatter(df, x='rooms_per_person', y='median_house_value',
                  title='Relación entre Habitaciones por Persona y Valor de la Vivienda',
                  opacity=0.5, trendline='ols')
fig1.show()

fig2 = px.scatter(df, x='bedrooms_per_room', y='median_house_value',
                  title='Relación entre Proporción de Dormitorios por Habitación y Valor de la Vivienda',
                  opacity=0.5, trendline='ols')
fig2.show()


### Matriz de Correlación y Feature Engineering Básico - Explicación

Esta celda expande nuestro Análisis Exploratorio de Datos (EDA) con dos técnicas importantes: el análisis de correlación y la ingeniería de características.

1.  **Matriz de Correlación:**
    *   `df.corr(numeric_only=True)`: Calcula la correlación de Pearson entre todas las pares de columnas numéricas del DataFrame.
    *   `sns.heatmap(...)`: Visualiza esta matriz de correlación como un mapa de calor.
        *   `annot=True`: Muestra los valores de correlación en cada celda.
        *   `cmap='coolwarm'`: Esquema de color donde los colores cálidos (rojos) indican correlación positiva y los fríos (azules) indican correlación negativa.
        *   `fmt=".2f"`: Formatea los números a dos decimales.
    *   También imprimimos las 10 características con mayor correlación (positiva o negativa, en valor absoluto) con `price`.

    **Interpretación de la Matriz de Correlación:**
    *   Nos ayuda a identificar multicolinealidad (alta correlación entre variables predictoras), lo cual puede ser un problema para algunos modelos.
    *   Muestra qué variables están más fuertemente relacionadas (linealmente) con la variable objetivo (`price`). Características como `sqft_living`, `grade`, y `sqft_above` suelen tener altas correlaciones positivas con el precio.

2.  **Feature Engineering (Ingeniería de Características):**
    La ingeniería de características es el proceso de crear nuevas variables (features) a partir de las existentes para mejorar el rendimiento del modelo.
    *   **Conversión de `date`:** La columna `date` (fecha de venta) se convierte al formato `datetime` para poder extraer componentes temporales.
    *   **`sale_year`:** Se extrae el año de la venta.
    *   **`age_at_sale`:** Se calcula la edad de la casa en el momento de la venta (`sale_year - yr_built`). Intuitivamente, las casas más antiguas podrían tener precios diferentes.
    *   **`was_renovated`:** Una variable binaria (0 o 1) que indica si la casa ha sido renovada (`yr_renovated != 0`).
    *   **`age_since_renovation_or_build`:** Calcula la edad de la casa desde su última renovación o, si no fue renovada, desde su construcción. Esto podría ser más relevante que la simple edad de construcción.
    *   Se crea un nuevo DataFrame `df` eliminando las columnas originales de fecha/año que ya no se usarán directamente, para evitar redundancia y posible confusión para el modelo.
    *   Se muestran las primeras filas de estas nuevas características junto con el precio.
    *   Se generan diagramas de dispersión interactivos para visualizar la relación entre estas nuevas características de "edad" y el precio.

**Beneficios:**
*   La **matriz de correlación** nos guía en la selección de características y en la comprensión de las interrelaciones en los datos.
*   La **ingeniería de características** puede capturar información más matizada. Por ejemplo, una casa antigua pero recientemente renovada podría tener un valor similar o superior a una casa más nueva pero no renovada. `age_since_renovation_or_build` intenta capturar esta idea.

Estos pasos enriquecen nuestro conjunto de datos y nos preparan mejor para la fase de modelado. Las nuevas características generadas se incluirán en los modelos posteriores.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import numpy as np
import plotly.graph_objects as go

# Definimos X y Y con columnas existentes
X_simple = df[['total_rooms']]
Y_simple = df['median_house_value']

# Crear el modelo de regresión lineal
lm_simple = LinearRegression()

# Ajustar el modelo a los datos
lm_simple.fit(X_simple, Y_simple)

# Realizar predicciones
Y_pred_simple = lm_simple.predict(X_simple)

# Calcular métricas de evaluación
r2_simple = r2_score(Y_simple, Y_pred_simple)
mse_simple = mean_squared_error(Y_simple, Y_pred_simple)
mae_simple = mean_absolute_error(Y_simple, Y_pred_simple)
rmse_simple = np.sqrt(mse_simple)

# Imprimir coeficientes y métricas
print(f"Regresión Lineal Simple: 'total_rooms' vs 'median_house_value'")
print(f"Intercepto (b0): {lm_simple.intercept_:.2f}")
print(f"Coeficiente para 'total_rooms' (b1): {lm_simple.coef_[0]:.2f}")
print(f"R² (Coeficiente de Determinación): {r2_simple:.4f}")
print(f"Mean Squared Error (MSE): {mse_simple:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse_simple:.2f}")
print(f"Mean Absolute Error (MAE): {mae_simple:.2f}")

# Visualización con matplotlib
plt.figure(figsize=(10, 6))
plt.scatter(X_simple, Y_simple, color='blue', alpha=0.3, label='Datos Reales')
plt.plot(X_simple, Y_pred_simple, color='red', linewidth=2, label='Línea de Regresión')
plt.title('Regresión Lineal Simple: total_rooms vs median_house_value')
plt.xlabel('Total Rooms')
plt.ylabel('Valor Medio de la Vivienda')
plt.legend()
plt.show()

# Visualización con Plotly (interactivo)
fig_simple_plotly = px.scatter(x=X_simple['total_rooms'], y=Y_simple, opacity=0.3,
                               labels={'x': 'Total Rooms', 'y': 'Valor Medio de la Vivienda'},
                               title='Regresión Lineal Simple Interactiva (Plotly)')
fig_simple_plotly.add_traces(go.Scatter(x=X_simple['total_rooms'], y=Y_pred_simple, name='Línea de Regresión', line=dict(color='red')))
fig_simple_plotly.show()


### Regresión Lineal Simple (`sqft_living` vs `price`) - Explicación

Esta celda construye y evalúa un modelo de regresión lineal simple. Este tipo de modelo busca establecer una relación lineal entre una única variable independiente (predictora) y una variable dependiente (objetivo).

**Modelo:** `price = b0 + b1 * sqft_living`

1.  **Selección de Variables:**
    *   Variable Independiente (X): `sqft_living` (los pies cuadrados de la vivienda).
    *   Variable Dependiente (Y): `price` (el precio de la vivienda).
    *   Se utiliza `df` que ya incluye las características de edad generadas previamente, aunque para este modelo particular solo nos centramos en `sqft_living`.

2.  **Creación y Ajuste del Modelo:**
    *   `lm_simple = LinearRegression()`: Se instancia un objeto del modelo de Regresión Lineal de `scikit-learn`.
    *   `lm_simple.fit(X_simple, Y_simple)`: Se ajusta el modelo a los datos. El modelo "aprende" los valores óptimos para el intercepto (`b0`) y el coeficiente (`b1`) que mejor describen la relación lineal.

3.  **Predicciones:**
    *   `Y_pred_simple = lm_simple.predict(X_simple)`: Se utilizan los datos de `sqft_living` para predecir los precios.

4.  **Evaluación del Modelo:**
    *   **Intercepto (`lm_simple.intercept_`):** El valor de `price` cuando `sqft_living` es 0. En este contexto, puede no tener una interpretación práctica directa, pero es parte de la ecuación lineal.
    *   **Coeficiente (`lm_simple.coef_`):** Indica cuánto cambia `price` (en promedio) por cada unidad de aumento en `sqft_living`. Un coeficiente positivo significa que a mayor `sqft_living`, mayor `price`.
    *   **R² (Coeficiente de Determinación):** `r2_score(Y_simple, Y_pred_simple)`. Mide la proporción de la varianza en la variable dependiente (`price`) que es predecible a partir de la variable independiente (`sqft_living`). Varía entre 0 y 1 (o 0% y 100%). Un valor más alto indica un mejor ajuste del modelo. El R² original era ~0.49.
    *   **Mean Squared Error (MSE):** `mean_squared_error(Y_simple, Y_pred_simple)`. Es el promedio de los errores al cuadrado. Penaliza más los errores grandes.
    *   **Root Mean Squared Error (RMSE):** `np.sqrt(mse_simple)`. Es la raíz cuadrada del MSE. Tiene las mismas unidades que la variable objetivo (`price`), lo que facilita su interpretación como una medida típica del error de predicción.
    *   **Mean Absolute Error (MAE):** `mean_absolute_error(Y_simple, Y_pred_simple)`. Es el promedio de los valores absolutos de los errores. También está en las unidades de la variable objetivo.

5.  **Visualización:**
    *   Se genera un diagrama de dispersión de los datos reales (`sqft_living` vs `price`).
    *   Sobre este diagrama, se superpone la línea de regresión (`sqft_living` vs `Y_pred_simple`) aprendida por el modelo.
    *   Se incluye una versión interactiva con Plotly, que permite explorar los datos y la línea de regresión más de cerca.

**Interpretación:**
*   El R² nos dirá qué porcentaje de la variación en los precios de las casas se explica por los pies cuadrados de la vivienda.
*   El coeficiente de `sqft_living` nos indicará el impacto monetario estimado de cada pie cuadrado adicional.
*   El RMSE y MAE nos darán una idea de cuán lejos, en promedio, están las predicciones del modelo de los precios reales.
*   La visualización nos mostrará si la relación lineal es una buena aproximación para estos datos.

Este modelo simple sirve como una línea base para comparar con modelos más complejos que incluyan múltiples características.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Selección de variables (basado en el dataset California Housing)
features_multiple = [
    "housing_median_age", "total_rooms", "total_bedrooms",
    "population", "households", "median_income"
]

X_multiple = df[features_multiple]
Y_multiple = df["median_house_value"]

# Crear y entrenar modelo
lm_multiple = LinearRegression()
lm_multiple.fit(X_multiple, Y_multiple)

# Predicciones
Y_pred_multiple = lm_multiple.predict(X_multiple)

# Métricas
r2_multiple = r2_score(Y_multiple, Y_pred_multiple)
mse_multiple = mean_squared_error(Y_multiple, Y_pred_multiple)
mae_multiple = mean_absolute_error(Y_multiple, Y_pred_multiple)
rmse_multiple = np.sqrt(mse_multiple)

print(f"Regresión Lineal Múltiple con {len(features_multiple)} características")
print(f"Intercepto (b0): {lm_multiple.intercept_:.2f}")
print(f"R² (Coeficiente de Determinación): {r2_multiple:.4f}")
print(f"MSE: {mse_multiple:.2f}")
print(f"RMSE: {rmse_multiple:.2f}")
print(f"MAE: {mae_multiple:.2f}")

# Coeficientes
coeffs = pd.DataFrame(lm_multiple.coef_, features_multiple, columns=['Coeficiente'])
display(coeffs.sort_values(by='Coeficiente', ascending=False))

# Visualización: Predicho vs Real
plt.figure(figsize=(10, 6))
plt.scatter(Y_multiple, Y_pred_multiple, alpha=0.3, color='purple')
plt.plot([Y_multiple.min(), Y_multiple.max()], [Y_multiple.min(), Y_multiple.max()], 'k--', lw=2)
plt.xlabel('Valor Real de la Vivienda')
plt.ylabel('Valor Predicho')
plt.title('Regresión Múltiple: Valor Real vs. Valor Predicho')
plt.show()

### Regresión Lineal Múltiple - Explicación

Ampliamos nuestro modelo para incluir múltiples variables independientes (características) con el objetivo de mejorar la predicción del precio (`price`). Este enfoque se conoce como Regresión Lineal Múltiple.

**Modelo:** `price = b0 + b1*feature1 + b2*feature2 + ... + bn*featureN`

1.  **Selección de Características:**
    *   Se define una lista `features_multiple` que incluye las características originales relevantes y las nuevas que hemos creado mediante ingeniería de características (`age_at_sale`, `was_renovated`, `age_since_renovation_or_build`).
    *   Variable Independientes (X): El subconjunto del DataFrame `df` con estas características.
    *   Variable Dependiente (Y): `price`.

2.  **Creación y Ajuste del Modelo:**
    *   `lm_multiple = LinearRegression()`: Se instancia el modelo.
    *   `lm_multiple.fit(X_multiple, Y_multiple)`: Se ajusta el modelo, aprendiendo el intercepto `b0` y un coeficiente `bi` para cada característica.

3.  **Predicciones y Evaluación:**
    *   Se realizan predicciones (`Y_pred_multiple`).
    *   Se calculan las mismas métricas que en la regresión simple: R², MSE, RMSE, MAE.
    *   **Intercepto (`lm_multiple.intercept_`):** El valor predicho de `price` cuando todas las características son 0.
    *   **Coeficientes (`lm_multiple.coef_`):** Se muestra un DataFrame con los coeficientes para cada característica. Cada coeficiente `bi` representa el cambio esperado en `price` por un aumento de una unidad en `feature_i`, *manteniendo todas las demás características constantes*.
        *   **Importante:** La magnitud de los coeficientes no indica directamente la importancia de la característica si las variables no están en la misma escala. Para una mejor interpretación de la importancia, las características deberían ser escaladas (normalizadas/estandarizadas) antes de ajustar el modelo. Sin embargo, el signo (positivo/negativo) sigue siendo informativo.

4.  **Visualización (Predicciones vs. Reales):**
    *   Se crea un diagrama de dispersión que compara los precios reales (`Y_multiple`) con los precios predecichos por el modelo (`Y_pred_multiple`).
    *   Se añade una línea diagonal (`y=x`). Si el modelo fuera perfecto, todos los puntos caerían sobre esta línea. La dispersión alrededor de esta línea da una idea visual de la precisión del modelo.

**Interpretación Esperada:**
*   **R²:** Se espera que el R² sea significativamente mayor que en el modelo de regresión simple, ya que más información (características) se está utilizando para predecir el precio. El R² original con las features dadas era ~0.65. Con las nuevas features de edad, podría mejorar ligeramente.
*   **RMSE/MAE:** Se espera que estos errores sean menores que en el modelo simple.
*   **Coeficientes:**
    *   `sqft_living`, `grade`, `bathrooms`, `waterfront` (si es 1) probablemente tendrán coeficientes positivos.
    *   `age_at_sale` o `age_since_renovation_or_build` podrían tener coeficientes negativos (casas más viejas tienden a ser más baratas, si todo lo demás es igual).
    *   `lat` (latitud) podría tener un coeficiente positivo o negativo grande dependiendo de la geografía y cómo se correlaciona con áreas de alto/bajo valor.
*   **Gráfico Predicciones vs. Reales:** Los puntos deberían agruparse más cerca de la línea diagonal que en un modelo menos preciso.

Este modelo múltiple proporciona una comprensión más rica de los factores que influyen en el precio de la vivienda. Sin embargo, es importante recordar que estas predicciones y métricas se calculan sobre los mismos datos utilizados para entrenar el modelo, lo que puede llevar a una sobreestimación del rendimiento en datos no vistos. Más adelante, utilizaremos técnicas como la división en conjuntos de entrenamiento/prueba y la validación cruzada.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import numpy as np

# Seleccionar variables relevantes
features_poly = [
    "housing_median_age", "total_rooms", "total_bedrooms",
    "population", "households", "median_income"
]

X_poly = df[features_poly]
Y_poly = df["median_house_value"]

# Crear el pipeline de regresión polinómica
Input_pipeline = [
    ('scale', StandardScaler()),  # Estandarizar
    ('polynomial', PolynomialFeatures(degree=2, include_bias=False)),  # Términos polinómicos
    ('model', LinearRegression())  # Regresión lineal
]

pipe = Pipeline(Input_pipeline)

# Entrenar
pipe.fit(X_poly, Y_poly)

# Predecir
Y_pred_pipe = pipe.predict(X_poly)

# Evaluación
r2_pipe = pipe.score(X_poly, Y_poly)
mse_pipe = mean_squared_error(Y_poly, Y_pred_pipe)
mae_pipe = mean_absolute_error(Y_poly, Y_pred_pipe)
rmse_pipe = np.sqrt(mse_pipe)

print(f"Regresión Polinómica (Grado 2) con Pipeline")
print(f"R²: {r2_pipe:.4f}")
print(f"MSE: {mse_pipe:.2f}")
print(f"RMSE: {rmse_pipe:.2f}")
print(f"MAE: {mae_pipe:.2f}")


### Regresión Polinómica con Pipeline - Explicación

Esta celda introduce la Regresión Polinómica y el uso de `Pipeline` de `scikit-learn`. La regresión polinómica permite capturar relaciones no lineales entre las características y la variable objetivo al añadir términos polinómicos (ej. x², x³, x*y) al modelo. Un `Pipeline` ayuda a organizar y automatizar una secuencia de pasos de preprocesamiento y modelado.

1.  **Selección de Características:**
    *   Se utilizan las mismas `features_multiple` que en la celda anterior, provenientes de `df`.

2.  **Creación del Pipeline (`Input_pipeline`):**
    Un `Pipeline` encadena múltiples transformadores y un estimador final. Los datos pasan por cada paso secuencialmente.
    *   **`('scale', StandardScaler())`**:
        *   Este es el primer paso. `StandardScaler` estandariza las características eliminando la media y escalando a la varianza unitaria. Esto es importante para la regresión polinómica y para muchos otros algoritmas, ya que asegura que todas las características contribuyan de manera equitativa y puede mejorar la convergencia y el rendimiento.
    *   **`('polynomial', PolynomialFeatures(degree=2, include_bias=False))`**:
        *   Este es el segundo paso. `PolynomialFeatures` genera nuevas características que son combinaciones polinómicas de las características originales.
            *   `degree=2`: Crea términos hasta el segundo grado (ej., si tenemos `a` y `b`, genera `a`, `b`, `a²`, `b²`, `a*b`).
            *   `include_bias=False`: No añade una columna de unos para el intercepto, ya que `LinearRegression` lo maneja.
        *   El número de características puede aumentar significativamente. Si teníamos N características, ahora tendremos N (originales) + N (cuadradas) + N*(N-1)/2 (interacciones).
    *   **`('model', LinearRegression())`**:
        *   Este es el estimador final. Es un modelo de regresión lineal, pero ahora se ajustará a las características originales *más* los términos polinómicos generados.

3.  **Ajuste y Evaluación del Pipeline:**
    *   `pipe = Pipeline(Input_pipeline)`: Se crea el objeto `Pipeline`.
    *   `pipe.fit(X_poly, Y_poly)`: Se ajusta el pipeline completo. Los datos `X_poly` se pasan primero por `StandardScaler`, luego el resultado por `PolynomialFeatures`, y finalmente el modelo `LinearRegression` se ajusta a estas características transformadas.
    *   `pipe.predict(X_poly)` y `pipe.score(X_poly, Y_poly)`: Para predicciones y R². `score` automáticamente aplica todas las transformaciones a `X_poly` antes de usar el modelo para calcular R².
    *   Se calculan también MSE, RMSE y MAE.

**Interpretación Esperada:**
*   **R²:** Se espera que el R² sea mayor que el de la regresión lineal múltiple simple (el original era ~0.75). Los términos polinómicos permiten al modelo capturar relaciones más complejas.
*   **Métricas de Error (MSE, RMSE, MAE):** Deberían disminuir en comparación con el modelo lineal múltiple.
*   **Sobreajuste (Overfitting):** Con la regresión polinómica, especialmente con grados altos o muchas características, existe un riesgo de sobreajuste. El modelo podría ajustarse muy bien a los datos de entrenamiento pero generalizar mal a datos nuevos. El R² aquí se calcula sobre los datos de entrenamiento, por lo que podría estar inflado. El uso de conjuntos de entrenamiento/prueba y validación cruzada (que veremos a continuación) es crucial para detectar y mitigar el sobreajuste.
*   **Interpretabilidad de Coeficientes:** Se vuelve mucho más difícil interpretar los coeficientes individuales debido a la gran cantidad de términos polinómicos y de interacción. El enfoque se desplaza más hacia la capacidad predictiva general del modelo.

El uso de `Pipeline` es una práctica excelente en machine learning, ya que simplifica el flujo de trabajo, evita fugas de datos (data leakage) al aplicar transformaciones correctamente en diferentes conjuntos de datos (ej. entrenamiento vs. prueba), y facilita la reproducibilidad.

In [None]:
# Regresión Ridge (Regularización L2)

from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler # Importante escalar para Ridge

# Usar las mismas características que en la regresión múltiple (incluyendo las de edad)
# features_multiple ya está definida y verificada
X_ridge = df[features_multiple]
Y_ridge = df["median_house_value"]

# 1. Dividir los datos en entrenamiento (80%) y prueba (20%)
# Usamos un test_size más estándar de 0.2 o 0.25. Random_state para reproducibilidad.
x_train, x_test, y_train, y_test = train_test_split(X_ridge, Y_ridge, test_size=0.20, random_state=42)

# 2. Escalar las características
# Es importante escalar los datos ANTES de aplicar Ridge, ya que es sensible a la escala de las features.
# Ajustar el escalador SOLO con los datos de entrenamiento para evitar data leakage.
scaler_ridge = StandardScaler()
x_train_scaled = scaler_ridge.fit_transform(x_train)
x_test_scaled = scaler_ridge.transform(x_test) # Aplicar la misma transformación al conjunto de prueba

# 3. Crear y ajustar el modelo Ridge
# alpha es el parámetro de regularización. Valores más altos implican mayor regularización.
ridge_model = Ridge(alpha=0.1) 
ridge_model.fit(x_train_scaled, y_train)

# 4. Realizar predicciones en el conjunto de prueba
y_pred_test_ridge = ridge_model.predict(x_test_scaled)

# 5. Calcular métricas de evaluación EN EL CONJUNTO DE PRUEBA
r2_test_ridge = ridge_model.score(x_test_scaled, y_test) # R² en datos de prueba
mse_test_ridge = mean_squared_error(y_test, y_pred_test_ridge)
mae_test_ridge = mean_absolute_error(y_test, y_pred_test_ridge)
rmse_test_ridge = np.sqrt(mse_test_ridge)

# Imprimir resultados
print(f"Regresión Ridge (alpha=0.1) con división entrenamiento/prueba")
print(f"Número de muestras de entrenamiento: {x_train.shape[0]}")
print(f"Número de muestras de prueba: {x_test.shape[0]}")
print(f"\nR² en datos de prueba: {r2_test_ridge:.4f}")
print(f"MSE en datos de prueba: {mse_test_ridge:.2f}")
print(f"RMSE en datos de prueba: {rmse_test_ridge:.2f}")
print(f"MAE en datos de prueba: {mae_test_ridge:.2f}")

# Coeficientes del modelo Ridge
print("\nCoeficientes del modelo Ridge (después de escalar):")
coeffs_ridge = pd.DataFrame(ridge_model.coef_, X_ridge.columns, columns=['Coefficient'])
display(coeffs_ridge.sort_values(by='Coefficient', ascending=False))

### Regresión Ridge (Regularización L2) - Explicación

Esta celda introduce dos conceptos cruciales: la división de datos en conjuntos de entrenamiento y prueba, y la Regresión Ridge, un tipo de regresión lineal regularizada.

1.  **División en Conjuntos de Entrenamiento y Prueba (`train_test_split`):**
    *   `x_train, x_test, y_train, y_test = train_test_split(X_ridge, Y_ridge, test_size=0.20, random_state=42)`
        *   `test_size=0.20`: Reserva el 20% de los datos para el conjunto de prueba y el 80% restante para el entrenamiento. El notebook original usaba 15%, pero 20% o 25% es más común.
        *   `random_state=42`: Asegura que la división sea la misma cada vez que se ejecuta el código, lo que garantiza la reproducibilidad de los resultados.
    *   **Propósito:** Entrenamos el modelo con el conjunto de entrenamiento y luego evaluamos su rendimiento en el conjunto de prueba (datos que el modelo no ha visto antes). Esto nos da una estimación más realista de cómo el modelo generalizará a nuevos datos y ayuda a detectar el sobreajuste.

2.  **Escalado de Características (`StandardScaler`):**
    *   `scaler_ridge = StandardScaler()`
    *   `x_train_scaled = scaler_ridge.fit_transform(x_train)`: Se ajusta el escalador *solo* con los datos de entrenamiento (para aprender la media y desviación estándar de cada característica en el entrenamiento) y luego se transforman esos datos.
    *   `x_test_scaled = scaler_ridge.transform(x_test)`: Se aplica la *misma* transformación aprendida en el conjunto de entrenamiento al conjunto de prueba. Es crucial no volver a ajustar (`fit`) el escalador con los datos de prueba para evitar la fuga de información (data leakage) del conjunto de prueba al de entrenamiento.
    *   **Propósito:** La Regresión Ridge (y muchas otras) es sensible a la escala de las características. El escalado asegura que todas las características tengan una escala similar (media 0, desviación estándar 1), lo que permite que el término de regularización penalice los coeficientes de manera justa.

3.  **Regresión Ridge (`Ridge`):**
    *   `ridge_model = Ridge(alpha=0.1)`: La Regresión Ridge añade una penalización L2 (suma de los cuadrados de los coeficientes) a la función de coste de la regresión lineal.
        *   `alpha`: Es el parámetro de regularización. Controla la fuerza de la penalización. Un `alpha` más alto resulta en coeficientes más pequeños (más regularización). `alpha=0` sería una regresión lineal ordinaria. El valor de 0.1 es un punto de partida común; en la práctica, se ajustaría mediante validación cruzada.
    *   `ridge_model.fit(x_train_scaled, y_train)`: Se ajusta el modelo Ridge a los datos de entrenamiento *escalados*.
    *   **Propósito:** La regularización ayuda a prevenir el sobreajuste, especialmente cuando hay multicolinealidad (características altamente correlacionadas) o cuando el número de características es grande. Tiende a encoger los coeficientes de las características menos importantes hacia cero.

4.  **Evaluación en el Conjunto de Prueba:**
    *   `y_pred_test_ridge = ridge_model.predict(x_test_scaled)`: Se realizan predicciones sobre el conjunto de prueba *escalado*.
    *   Las métricas (R², MSE, RMSE, MAE) se calculan comparando `y_test` (valores reales del conjunto de prueba) con `y_pred_test_ridge` (predicciones para el conjunto de prueba). El R² original en el test era ~0.64.

**Interpretación:**
*   El **R² en el conjunto de prueba** es la métrica clave aquí. Nos dice qué tan bien el modelo generaliza a datos no vistos. Si es significativamente menor que el R² en el conjunto de entrenamiento (que obtendríamos si evaluáramos `ridge_model.score(x_train_scaled, y_train)`), podría indicar sobreajuste.
*   Los **coeficientes** del modelo Ridge, al estar las características escaladas, pueden dar una idea más comparable de la importancia relativa de las características.
*   La Regresión Ridge es un buen compromiso entre la simplicidad de la regresión lineal y la robustez contra el sobreajuste.

Este es un flujo de trabajo mucho más robusto para la construcción y evaluación de modelos.

In [None]:
# Regresión Ridge Polinómica con Pipeline y train_test_split

from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# Usar las mismas características que antes
# features_multiple ya está definida y verificada
X_poly_ridge = df[features_multiple]
Y_poly_ridge = df['median_house_value']

# Dividir los datos en entrenamiento (80%) y prueba (20%)
x_train_pr, x_test_pr, y_train_pr, y_test_pr = train_test_split(X_poly_ridge, Y_poly_ridge, test_size=0.20, random_state=42)

# Crear el pipeline para Regresión Ridge Polinómica
# El orden es importante: escalar -> generar features polinómicas -> modelo Ridge
poly_ridge_pipeline = Pipeline([
    ('scale', StandardScaler()),
    ('polynomial', PolynomialFeatures(degree=2, include_bias=False)),
    ('ridge_model', Ridge(alpha=0.1)) # Puedes experimentar con alpha
])

# Ajustar el pipeline completo con los datos de entrenamiento
poly_ridge_pipeline.fit(x_train_pr, y_train_pr)

# Realizar predicciones en el conjunto de prueba
y_pred_test_poly_ridge = poly_ridge_pipeline.predict(x_test_pr)

# Calcular métricas de evaluación EN EL CONJUNTO DE PRUEBA
r2_test_poly_ridge = poly_ridge_pipeline.score(x_test_pr, y_test_pr) # R² en datos de prueba
mse_test_poly_ridge = mean_squared_error(y_test_pr, y_pred_test_poly_ridge)
mae_test_poly_ridge = mean_absolute_error(y_test_pr, y_pred_test_poly_ridge)
rmse_test_poly_ridge = np.sqrt(mse_test_poly_ridge)

# Imprimir resultados
print(f"Regresión Ridge Polinómica (Grado 2, alpha=0.1) con Pipeline y división entrenamiento/prueba")
print(f"Número de muestras de entrenamiento: {x_train_pr.shape[0]}")
print(f"Número de muestras de prueba: {x_test_pr.shape[0]}")
print(f"\nR² en datos de prueba: {r2_test_poly_ridge:.4f}")
print(f"MSE en datos de prueba: {mse_test_poly_ridge:.2f}")
print(f"RMSE en datos de prueba: {rmse_test_poly_ridge:.2f}")
print(f"MAE en datos de prueba: {mae_test_poly_ridge:.2f}")

# El R² original en el test era ~0.70.

### Regresión Ridge Polinómica con Pipeline y `train_test_split` - Explicación

Esta celda combina la potencia de la regresión polinómica para capturar relaciones no lineales con la robustez de la Regresión Ridge para prevenir el sobreajuste, todo dentro de un `Pipeline` para un manejo adecuado de los datos de entrenamiento y prueba.

1.  **Preparación de Datos:**
    *   Se utilizan las mismas características (`features_multiple` de `df`) que en los modelos anteriores.
    *   Se dividen los datos en conjuntos de entrenamiento (80%) y prueba (20%) usando `train_test_split` con `random_state=42` para reproducibilidad.

2.  **Creación del Pipeline (`poly_ridge_pipeline`):**
    El pipeline define la secuencia de operaciones:
    *   **`('scale', StandardScaler())`**: Primero, las características del conjunto de entrenamiento se escalan (se aprende la media y desviación estándar) y luego se transforman. Esta misma transformación (usando los parámetros aprendidos del entrenamiento) se aplicará al conjunto de prueba.
    *   **`('polynomial', PolynomialFeatures(degree=2, include_bias=False))`**: Luego, a las características escaladas se les aplica la transformación polinómica de grado 2. De nuevo, `PolynomialFeatures` se ajusta (`fit`) solo con los datos de entrenamiento escalados y luego transforma (`transform`) tanto el entrenamiento como la prueba.
    *   **`('ridge_model', Ridge(alpha=0.1))`**: Finalmente, el modelo de Regresión Ridge se ajusta utilizando las características escaladas y polinómicamente transformadas del conjunto de entrenamiento. `alpha=0.1` es el parámetro de regularización.

3.  **Ajuste y Evaluación:**
    *   `poly_ridge_pipeline.fit(x_train_pr, y_train_pr)`: Se ajusta el pipeline completo. Los datos de entrenamiento pasan por todos los pasos.
    *   `poly_ridge_pipeline.predict(x_test_pr)` y `poly_ridge_pipeline.score(x_test_pr, y_test_pr)`: Para realizar predicciones y calcular el R² en el conjunto de prueba. El pipeline automáticamente aplica los pasos de `scale` y `polynomial` (usando los parámetros aprendidos del entrenamiento) a `x_test_pr` antes de alimentar los datos al modelo `Ridge`.
    *   Se calculan las métricas MSE, RMSE y MAE en el conjunto de prueba.

**Ventajas de Usar un Pipeline Aquí:**
*   **Previene la Fuga de Datos (Data Leakage):** Asegura que el escalador y `PolynomialFeatures` se ajusten *solo* con los datos de entrenamiento y que la misma transformación se aplique consistentemente a los datos de prueba. Hacer esto manualmente es propenso a errores.
*   **Simplifica el Código:** Encapsula todo el flujo de trabajo de preprocesamiento y modelado.
*   **Facilita la Experimentación:** Es fácil cambiar parámetros o reemplazar pasos en el pipeline.

**Interpretación Esperada:**
*   **R² en el conjunto de prueba:** Esta es la métrica clave (originalmente ~0.70). Debería ser una buena indicación del rendimiento del modelo en datos no vistos. Compararlo con el R² de la Regresión Polinómica simple (Celda 18, que se evaluó en todo el dataset) y con el Ridge simple (Celda 19, evaluado en prueba) nos dirá si la combinación de polinomial y Ridge ofrece beneficios.
*   Generalmente, la regresión polinómica puede mejorar el R² respecto a la lineal, pero la regularización Ridge es importante para controlar el sobreajuste que `PolynomialFeatures` puede inducir, especialmente con muchas características o un grado alto.

Este enfoque es una práctica estándar y robusta en machine learning para construir modelos más complejos.

In [None]:
# Celda 21: Validación Cruzada para el Modelo Ridge Polinómico

from sklearn.model_selection import cross_val_score

# Usaremos el mismo pipeline que antes para consistencia
# poly_ridge_pipeline ya está definido y ajustado, pero para CV se reajusta en cada fold

# Definimos X e Y completos de nuevo, ya que cross_val_score hace su propia división
X_cv = df[features_multiple]
Y_cv = df['median_house_value']

# Realizar validación cruzada (ej. 5 folds)
# 'neg_mean_squared_error' es una métrica común, su negativo porque CV busca maximizar.
# Tomaremos el R² directamente.
cv_scores_r2 = cross_val_score(poly_ridge_pipeline, X_cv, Y_cv, cv=5, scoring='r2')
cv_scores_neg_mse = cross_val_score(poly_ridge_pipeline, X_cv, Y_cv, cv=5, scoring='neg_mean_squared_error')

print(f"Validación Cruzada (5-folds) para Regresión Ridge Polinómica")
print(f"\nPuntuaciones R² por fold: {cv_scores_r2}")
print(f"R² Promedio: {cv_scores_r2.mean():.4f}")
print(f"Desviación Estándar de R²: {cv_scores_r2.std():.4f}")

cv_scores_rmse = np.sqrt(-cv_scores_neg_mse) # Convertir MSE negativo a RMSE positivo
print(f"\nPuntuaciones RMSE por fold: {cv_scores_rmse}")
print(f"RMSE Promedio: {cv_scores_rmse.mean():.2f}")
print(f"Desviación Estándar de RMSE: {cv_scores_rmse.std():.2f}")

### Validación Cruzada para el Modelo Ridge Polinómico - Explicación

La validación cruzada (Cross-Validation, CV) es una técnica más robusta para evaluar el rendimiento de un modelo que una simple división entrenamiento/prueba. Ayuda a obtener una estimación menos sesgada de cómo el modelo generalizará a datos independientes.

1.  **Concepto de Validación Cruzada (k-Fold):**
    *   El conjunto de datos se divide en `k` subconjuntos (o "folds") de aproximadamente el mismo tamaño.
    *   El modelo se entrena `k` veces. En cada iteración, un fold diferente se usa como conjunto de validación (prueba) y los `k-1` folds restantes se usan como conjunto de entrenamiento.
    *   Se calcula una métrica de rendimiento (ej. R², RMSE) para cada uno de los `k` folds.
    *   El rendimiento final del modelo se promedia sobre los `k` folds.

2.  **Implementación con `cross_val_score`:**
    *   `cross_val_score(poly_ridge_pipeline, X_cv, Y_cv, cv=5, scoring='r2')`:
        *   `poly_ridge_pipeline`: El estimador (nuestro pipeline completo) que se va a evaluar.
        *   `X_cv`, `Y_cv`: Las características y la variable objetivo completas. `cross_val_score` se encarga internamente de las divisiones.
        *   `cv=5`: Especifica que se use validación cruzada de 5 folds.
        *   `scoring='r2'`: La métrica que se usará para evaluar el rendimiento en cada fold. También se calcula con `neg_mean_squared_error` para obtener el RMSE.

3.  **Resultados:**
    *   **Puntuaciones por Fold:** Se muestra el R² y el RMSE obtenidos en cada uno de los 5 folds.
    *   **Promedio:** El R² promedio y el RMSE promedio dan una estimación más estable del rendimiento del modelo.
    *   **Desviación Estándar:** La desviación estándar de las puntuaciones indica la variabilidad del rendimiento del modelo a través de diferentes subconjuntos de datos. Una desviación estándar baja sugiere que el modelo es estable.

**Beneficios de la Validación Cruzada:**
*   **Estimación de Rendimiento Más Fiable:** Reduce la varianza asociada con una única división entrenamiento/prueba.
*   **Mejor Uso de los Datos:** Cada punto de dato se usa tanto para entrenamiento como para validación exactamente una vez.
*   **Detección de Sobreajuste:** Si el rendimiento en los folds de CV es consistentemente peor que el rendimiento en el conjunto de entrenamiento completo, puede indicar sobreajuste.

El R² promedio y el RMSE promedio de la validación cruzada (~0.72 y ~200k respectivamente, pueden variar ligeramente) deberían ser similares al R² y RMSE obtenidos en el conjunto de prueba de la celda anterior si el modelo es estable. Esta es una buena práctica para reportar el rendimiento de un modelo.

In [None]:
# Búsqueda de Hiperparámetros para Ridge (alpha) usando GridSearchCV

from sklearn.model_selection import GridSearchCV

# Usaremos un pipeline similar, pero sin el modelo Ridge final para GridSearchCV
# ya que GridSearchCV lo añadirá con diferentes alphas.
# O podemos pasar el pipeline completo y ajustar 'ridge_model__alpha'.



# Usaremos el pipeline completo (más limpio y recomendado)
# Definir el espacio de parámetros para 'alpha' en el paso 'ridge_model' del pipeline
param_grid_ridge = {
    'ridge_model__alpha': [0.01, 0.1, 0.5, 1, 5, 10, 50, 100] # Valores de alpha a probar
}

# Crear el objeto GridSearchCV
# poly_ridge_pipeline ya está definido
# Usaremos los datos de entrenamiento/prueba ya divididos (x_train_pr, y_train_pr)
# GridSearchCV realizará validación cruzada internamente sobre x_train_pr
grid_search_ridge = GridSearchCV(estimator=poly_ridge_pipeline, 
                                 param_grid=param_grid_ridge, 
                                 cv=3, # 3-fold CV para la búsqueda (más rápido que 5 para este ejemplo)
                                 scoring='r2',
                                 verbose=1) # Muestra progreso

# Ajustar GridSearchCV a los datos de entrenamiento
print("Iniciando GridSearchCV para Ridge alpha...")
grid_search_ridge.fit(x_train_pr, y_train_pr)

# Mostrar los mejores parámetros y la mejor puntuación
print(f"\nMejor valor de alpha encontrado: {grid_search_ridge.best_params_['ridge_model__alpha']}")
print(f"Mejor puntuación R² (CV en entrenamiento): {grid_search_ridge.best_score_:.4f}")

# Evaluar el mejor modelo encontrado por GridSearchCV en el conjunto de prueba
best_ridge_model = grid_search_ridge.best_estimator_
y_pred_test_best_ridge = best_ridge_model.predict(x_test_pr)

r2_test_best_ridge = best_ridge_model.score(x_test_pr, y_test_pr)
mse_test_best_ridge = mean_squared_error(y_test_pr, y_pred_test_best_ridge)
rmse_test_best_ridge = np.sqrt(mse_test_best_ridge)
mae_test_best_ridge = mean_absolute_error(y_test_pr, y_pred_test_best_ridge)

print(f"\nEvaluación del mejor modelo Ridge en el CONJUNTO DE PRUEBA:")
print(f"R² en datos de prueba: {r2_test_best_ridge:.4f}")
print(f"MSE en datos de prueba: {mse_test_best_ridge:.2f}")
print(f"RMSE en datos de prueba: {rmse_test_best_ridge:.2f}")
print(f"MAE en datos de prueba: {mae_test_best_ridge:.2f}")

### Búsqueda de Hiperparámetros para Ridge (`alpha`) usando `GridSearchCV` - Explicación

Los modelos de machine learning a menudo tienen "hiperparámetros" que no se aprenden directamente de los datos, sino que se deben configurar antes del entrenamiento (ej. el `alpha` en Ridge Regression, el `degree` en `PolynomialFeatures`). Encontrar los mejores hiperparámetros puede mejorar significativamente el rendimiento del modelo. `GridSearchCV` es una técnica para automatizar esta búsqueda.

1.  **Concepto de `GridSearchCV`:**
    *   Se define una "rejilla" (grid) de valores de hiperparámetros que se quieren probar.
    *   `GridSearchCV` entrena y evalúa el modelo (usando validación cruzada) para cada combinación de hiperparámetros en la rejilla.
    *   Finalmente, selecciona la combinación de hiperparámetros que dio el mejor rendimiento según la métrica especificada.

2.  **Implementación:**
    *   **`param_grid_ridge`**: Se define un diccionario donde las claves son los nombres de los hiperparámetros a ajustar (en formato `nombrepasopipeline__parametro`) y los valores son listas de los valores a probar. Aquí, probamos varios valores para `alpha` del modelo `Ridge` dentro de nuestro `poly_ridge_pipeline`.
    *   **`GridSearchCV(...)`**:
        *   `estimator=poly_ridge_pipeline`: El modelo (o pipeline) base cuyos hiperparámetros queremos optimizar.
        *   `param_grid=param_grid_ridge`: La rejilla de hiperparámetros.
        *   `cv=3`: Especifica validación cruzada de 3 folds para cada combinación de parámetros. Se usa 3 en lugar de 5 para acelerar la demostración; en un proyecto real, 5 o 10 es común.
        *   `scoring='r2'`: La métrica para seleccionar el mejor modelo.
        *   `verbose=1`: Muestra mensajes sobre el progreso de la búsqueda.
    *   **`grid_search_ridge.fit(x_train_pr, y_train_pr)`**: Se ajusta `GridSearchCV` al conjunto de entrenamiento. Esto implica entrenar y validar múltiples modelos.

3.  **Resultados de la Búsqueda:**
    *   **`grid_search_ridge.best_params_`**: Muestra el valor de `alpha` (y otros parámetros del pipeline si se hubieran incluido en la búsqueda) que resultó en el mejor rendimiento.
    *   **`grid_search_ridge.best_score_`**: La puntuación R² promedio (de la validación cruzada interna en el conjunto de entrenamiento) obtenida con los mejores parámetros.

4.  **Evaluación del Mejor Modelo en el Conjunto de Prueba:**
    *   **`best_ridge_model = grid_search_ridge.best_estimator_`**: `GridSearchCV` automáticamente re-entrena un modelo final con los mejores parámetros encontrados, utilizando *todo* el conjunto de entrenamiento `x_train_pr`. Este es el `best_estimator_`.
    *   Este `best_ridge_model` (que es un pipeline) se evalúa luego en el conjunto de prueba `x_test_pr` para obtener una estimación final de su rendimiento en datos no vistos.

**Beneficios:**
*   **Optimización del Modelo:** Ayuda a encontrar una configuración de hiperparámetros que puede llevar a un mejor rendimiento predictivo.
*   **Proceso Sistemático:** Evita la prueba manual y error de diferentes valores de hiperparámetros.

El R² en el conjunto de prueba con el `alpha` optimizado podría ser ligeramente diferente (ojalá mejor o más estable) que el obtenido con un `alpha` elegido arbitrariamente. Este proceso demuestra una práctica más avanzada y rigurosa en la construcción de modelos. El valor de `alpha` óptimo puede variar; un `alpha` muy grande podría llevar a un "underfitting" si penaliza demasiado los coeficientes, mientras que un `alpha` muy pequeño se parecería a una regresión polinómica sin regularización.