<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marcoteran/ml/blob/master/notebooks/ml_machinelearninglandscape.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab" title="Abrir y ejecutar en Google Colaboratory"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marcoteran/ml/blob/master/notebooks/ml_machinelearninglandscape.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" alt="Abrir en Kaggle" title="Abrir y ejecutar en Kaggle"/></a>
  </td>
</table>

# Sesi√≥n 01: Proyecto Integral de Machine Learning
## California Housing: De Datos Crudos a Modelo en Producci√≥n

**Machine Learning**

**Profesor:** Marco Ter√°n  
**Fecha:** 2025

[Website](http://marcoteran.github.io/),
[Github](https://github.com/marcoteran),
[LinkedIn](https://www.linkedin.com/in/marcoteran/).
___

## üìã Tabla de Contenidos

1. **Introducci√≥n y Objetivos** - Qu√© aprenderemos y por qu√© es importante
2. **Obtenci√≥n de Datos** - C√≥mo conseguir y cargar datos
3. **An√°lisis Exploratorio (EDA)** - Conociendo nuestros datos a fondo
4. **Preparaci√≥n de Datos** - Limpieza y transformaci√≥n
5. **Modelado** - Entrenando algoritmos de ML
6. **Evaluaci√≥n** - Midiendo el rendimiento honestamente
7. **Conclusiones** - Qu√© aprendimos y pr√≥ximos pasos

---

## Introducci√≥n y Objetivos <a name="intro"></a>

### ¬øQu√© vamos a construir hoy?

Imagina que trabajas en una empresa inmobiliaria en California. Tu jefe te dice: "Necesitamos una forma r√°pida y precisa de estimar el precio de las casas. Los tasadores humanos tardan d√≠as y cobran mucho. ¬øPuedes crear un sistema autom√°tico?"

**Este es exactamente el tipo de problema que Machine Learning puede resolver.**

### Objetivos de aprendizaje

Al finalizar esta sesi√≥n, ser√°s capaz de:

1. **Aplicar CRISP-DM** - La metodolog√≠a est√°ndar para proyectos de ciencia de datos
2. **Realizar EDA exhaustivo** - Explorar datos como un detective buscando pistas
3. **Preparar datos correctamente** - Limpiar, transformar y enriquecer informaci√≥n
4. **Entrenar modelos de ML** - Desde los m√°s simples hasta Random Forests
5. **Evaluar honestamente** - Sin trampas ni overfitting
6. **Crear pipelines reproducibles** - C√≥digo profesional listo para producci√≥n

### ¬øPor qu√© es importante este proyecto?

- **Aplicaci√≥n real**: Miles de empresas necesitan predecir precios (casas, autos, productos)
- **Conceptos fundamentales**: Todo lo que aprendas aqu√≠ se aplica a otros problemas
- **Buenas pr√°cticas**: Aprender√°s a evitar los errores m√°s comunes en ML
- **Portfolio**: Este proyecto demuestra habilidades valoradas en la industria

### Lo que NO haremos (y por qu√©)

- **No usaremos deep learning**: Para datos tabulares, m√©todos cl√°sicos suelen ser mejores
- **No optimizaremos hasta el extremo**: El 80% del valor viene del 20% del esfuerzo
- **No ignoraremos el negocio**: Un modelo preciso pero in√∫til no tiene valor

In [None]:
print("¬°Bienvenidos al primer notebook!")

---

## üîß Configuraci√≥n del Entorno

### ¬øPor qu√© importan las versiones?

En ML, la reproducibilidad es crucial. Imagina que tu modelo funciona perfectamente en tu computadora pero falla en producci√≥n. La causa m√°s com√∫n: diferentes versiones de librer√≠as.

**Regla de oro**: Siempre documenta y verifica las versiones de tus dependencias.

### Librer√≠as que usaremos

- **NumPy**: El motor matem√°tico de Python. Maneja arrays y operaciones num√©ricas eficientemente
- **Pandas**: Como Excel con superpoderes. Organiza datos en DataFrames (tablas)
- **Matplotlib/Seaborn**: Nuestros artistas. Crean visualizaciones profesionales
- **Scikit-learn**: La navaja suiza del ML. Contiene algoritmos, m√©tricas y utilidades

### Configuraci√≥n visual

Los defaults de matplotlib no son los m√°s bonitos. Vamos a configurar:
- Estilo consistente para todos los gr√°ficos
- Tama√±os legibles
- Colores agradables
- Formato de n√∫meros apropiado

In [None]:
# Configuraci√≥n inicial del entorno
import sys
import warnings
warnings.filterwarnings('ignore')

# Verificar versi√≥n de Python
assert sys.version_info >= (3, 7), "Este notebook requiere Python 3.7 o superior"

print(f"‚úÖ Python {sys.version_info.major}.{sys.version_info.minor} instalado correctamente")

It also requires Scikit-Learn ‚â• 1.0.1:

In [None]:
# Importar librer√≠as necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from scipy import stats

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)

print("‚úÖ Librer√≠as importadas correctamente")

In [None]:
# Verificar versiones de librer√≠as cr√≠ticas
from packaging import version
import sklearn

assert version.parse(sklearn.__version__) >= version.parse("1.0.1"), "Requiere scikit-learn >= 1.0.1"
print(f"‚úÖ scikit-learn {sklearn.__version__} instalado")

---

## üîÑ  Metodolog√≠a CRISP-DM

### ¬øQu√© es CRISP-DM?

**CRISP-DM** (Cross-Industry Standard Process for Data Mining) es el proceso est√°ndar que siguen las empresas para proyectos de datos. Fue creado en 1996 y sigue siendo el m√°s usado.

### ¬øPor qu√© necesitamos una metodolog√≠a?

Sin un proceso estructurado, es f√°cil:
- Resolver el problema equivocado
- Olvidar pasos importantes
- Perder tiempo en callejones sin salida
- No poder replicar resultados

### Las 6 fases de CRISP-DM

#### 1Ô∏è‚É£ Comprensi√≥n del Negocio (Business Understanding)

**Qu√© hacemos**: Entender el problema REAL, no el que creemos que es.

**Preguntas clave**:
- ¬øQu√© decisi√≥n tomar√° el usuario con mi modelo?
- ¬øCu√°nto vale resolver este problema? (ROI)
- ¬øQu√© pasa si mi modelo se equivoca?
- ¬øHay soluciones m√°s simples sin ML?

**Ejemplo malo**: "Quiero predecir precios de casas"  
**Ejemplo bueno**: "Necesito estimar precios con error < $50k para que los agentes puedan dar cotizaciones r√°pidas que convenzan a los vendedores de listar con nosotros"

**Trampa com√∫n**: Saltar directo al modelado sin entender el contexto.

#### 2Ô∏è‚É£ Comprensi√≥n de los Datos (Data Understanding)

**Qu√© hacemos**: Explorar qu√© datos tenemos y qu√© calidad tienen.

**Actividades**:
- Recolectar datos de diversas fuentes
- Explorar con estad√≠sticas descriptivas
- Verificar calidad y completitud
- Identificar problemas potenciales

**Herramientas**: pandas.describe(), .info(), visualizaciones

**Trampa com√∫n**: Asumir que los datos est√°n limpios y completos.

#### 3Ô∏è‚É£ Preparaci√≥n de Datos (Data Preparation)

**Qu√© hacemos**: Transformar datos crudos en formato apto para ML.

**Tareas t√≠picas**:
- Limpieza (valores faltantes, outliers)
- Transformaci√≥n (normalizaci√≥n, encoding)
- Creaci√≥n de features (ingenier√≠a de caracter√≠sticas)
- Selecci√≥n de features relevantes

**Regla 80/20**: Pasar√°s 80% del tiempo aqu√≠, 20% modelando.

**Trampa com√∫n**: Data leakage (usar informaci√≥n del futuro o del conjunto de test).

#### 4Ô∏è‚É£ Modelado (Modeling)

**Qu√© hacemos**: Entrenar y ajustar algoritmos de ML.

**Proceso**:
1. Seleccionar algoritmos candidatos
2. Entrenar con datos de entrenamiento
3. Ajustar hiperpar√°metros
4. Validar con cross-validation

**Importante**: M√°s complejo ‚â† Mejor. Empieza simple.

**Trampa com√∫n**: Overfitting (memorizar en lugar de aprender).

#### 5Ô∏è‚É£ Evaluaci√≥n (Evaluation)

**Qu√© hacemos**: Verificar si el modelo cumple los objetivos de negocio.

**No es solo accuracy**:
- ¬øResuelve el problema de negocio?
- ¬øEs lo suficientemente r√°pido?
- ¬øEs interpretable si es necesario?
- ¬øFunciona en todos los segmentos importantes?

**Trampa com√∫n**: Optimizar la m√©trica equivocada.

#### 6Ô∏è‚É£ Despliegue (Deployment)

**Qu√© hacemos**: Poner el modelo en producci√≥n.

**Consideraciones**:
- Integraci√≥n con sistemas existentes
- Monitoreo de performance
- Plan de actualizaci√≥n/reentrenamiento
- Documentaci√≥n y handover

**Realidad**: Un modelo que no se usa no genera valor.

### El secreto: Es ITERATIVO, no lineal

CRISP-DM no es una cascada, es un ciclo. Constantemente volvemos atr√°s cuando descubrimos nuevos insights.

---

## üíº 3. Comprensi√≥n del Negocio

### El problema de California Housing Corp

**Contexto**: Es 1990. California Housing Corp maneja miles de propiedades. Los tasadores est√°n sobrecargados y los clientes se quejan de la lentitud.

**Problema actual**:
- Tasaci√≥n manual toma 2-3 d√≠as
- Costo: $500 por tasaci√≥n
- Inconsistencia entre tasadores (subjetividad)
- Cuellos de botella en temporada alta

**Soluci√≥n propuesta**: Sistema autom√°tico de predicci√≥n de precios

### Definiendo el √©xito

* **M√©trica de negocio**: Reducir tiempo de respuesta de 3 d√≠as a 3 segundos

* **M√©trica t√©cnica**: Error Absoluto Medio (MAE) < $50,000

* **¬øPor qu√© $50,000?**
    - Precio medio en California: ~200,000
    - Error del 25% es aceptable para cotizaci√≥n inicial
    - Tasadores humanos tienen error similar

### Preguntas cr√≠ticas antes de empezar

**1. ¬øRealmente necesitamos ML?**
- Alternativa 1: Precio promedio del barrio ‚Üí Muy impreciso
- Alternativa 2: Reglas simples ‚Üí No captura complejidad
- Conclusi√≥n: S√≠, ML es apropiado

**2. ¬øQu√© pasa si el modelo falla?**
- Plan B: Siempre tener tasador de respaldo
- Transparencia: Decir que es estimaci√≥n autom√°tica
- Rangos: Dar intervalo de confianza, no solo un n√∫mero

**3. ¬øC√≥mo mediremos el impacto?**
- Velocidad de respuesta a clientes
- Tasa de conversi√≥n (cotizaci√≥n ‚Üí venta)
- Satisfacci√≥n del cliente
- Ahorro en costos de tasaci√≥n

In [None]:
# Visualizaci√≥n del proceso CRISP-DM
from IPython.display import Image, display
import matplotlib.patches as mpatches

fig, ax = plt.subplots(1, 1, figsize=(10, 8))

# Definir las fases
phases = [
    "1. Comprensi√≥n\ndel Negocio",
    "2. Comprensi√≥n\nde los Datos", 
    "3. Preparaci√≥n\nde Datos",
    "4. Modelado",
    "5. Evaluaci√≥n",
    "6. Despliegue"
]

# Posiciones en c√≠rculo
angles = np.linspace(0, 2*np.pi, len(phases), endpoint=False)
x = np.cos(angles)
y = np.sin(angles)

# Dibujar el ciclo
for i in range(len(phases)):
    circle = plt.Circle((x[i]*3, y[i]*3), 0.8, color=f'C{i}', alpha=0.7)
    ax.add_patch(circle)
    ax.text(x[i]*3, y[i]*3, phases[i], ha='center', va='center', 
            fontsize=11, fontweight='bold', color='white')
    
    # Flechas de conexi√≥n
    next_i = (i + 1) % len(phases)
    ax.annotate('', xy=(x[next_i]*2.3, y[next_i]*2.3), 
                xytext=(x[i]*3.7, y[i]*3.7),
                arrowprops=dict(arrowstyle='->', lw=2, color='gray'))

ax.text(0, 0, 'CRISP-DM', fontsize=16, fontweight='bold', ha='center')
ax.set_xlim(-5, 5)
ax.set_ylim(-5, 5)
ax.axis('off')
plt.title("Proceso Iterativo CRISP-DM", fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

---

## Obtenci√≥n y Comprensi√≥n de Datos <a name="datos"></a>

### El dataset de California Housing

**Origen**: Censo de California de 1990
**Tama√±o**: 20,640 distritos
**Granularidad**: Cada fila es un distrito, no una casa individual

### ¬øPor qu√© este dataset?

- **Cl√°sico en ML**: Bien estudiado, podemos comparar resultados
- **Tama√±o apropiado**: Ni muy peque√±o ni muy grande para aprender
- **Problemas reales**: Tiene valores faltantes y peculiaridades
- **M√∫ltiples tipos de datos**: Num√©ricos y categ√≥ricos

### Estrategia de descarga robusta

Implementaremos:
1. **Cach√© local**: Si ya descargamos, no repetir
2. **Manejo de errores**: Si falla la descarga, informar claramente
3. **Estructura organizada**: Carpeta datasets/ para todos los datos

### Descarga y Carga de Datos

In [None]:
# Funci√≥n mejorada para descargar datos
def load_housing_data():
    """
    Descarga y carga el dataset de California Housing.
    Incluye manejo de errores y cach√© local.
    """
    import tarfile
    import urllib.request
    
    # Crear directorio si no existe
    data_path = Path("datasets")
    data_path.mkdir(parents=True, exist_ok=True)
    
    tarball_path = data_path / "housing.tgz"
    csv_path = data_path / "housing" / "housing.csv"
    
    # Verificar si ya existe el CSV
    if csv_path.is_file():
        print("üìÅ Cargando datos desde cach√© local...")
        return pd.read_csv(csv_path)
    
    # Descargar si no existe
    if not tarball_path.is_file():
        print("üì• Descargando dataset...")
        url = "https://github.com/ageron/data/raw/main/housing.tgz"
        try:
            urllib.request.urlretrieve(url, tarball_path)
            print("‚úÖ Descarga completada")
        except Exception as e:
            print(f"‚ùå Error en descarga: {e}")
            return None
    
    # Extraer archivo
    print("üì¶ Extrayendo archivos...")
    with tarfile.open(tarball_path) as housing_tarball:
        housing_tarball.extractall(path=data_path)
    
    print("‚úÖ Datos cargados exitosamente")
    return pd.read_csv(csv_path)

# Cargar datos
housing = load_housing_data()
print(f"\nüìä Dataset cargado: {housing.shape[0]:,} filas √ó {housing.shape[1]} columnas")

# For Kaggle environment
#housing = pd.read_csv("/kaggle/input/california-housing-prices/housing.csv")

## üîç An√°lisis Exploratorio de Datos (EDA)

### ¬øQu√© es EDA y por qu√© es crucial?

**EDA es como ser un detective**: Buscas pistas, anomal√≠as y patrones en los datos.

**John Tukey** (inventor del EDA) dijo: "Es mejor una respuesta aproximada a la pregunta correcta que una respuesta exacta a la pregunta incorrecta."

### Primera impresi√≥n: Vista r√°pida

**¬øQu√© buscamos?**
- Tipos de datos (num√©ricos, texto, fechas)
- Dimensiones (filas √ó columnas)
- Valores faltantes obvios
- Rangos sospechosos

**Herramientas**: head(), info(), describe()

### Primera Inspecci√≥n de Datos

In [None]:
# Vista general del dataset
print("=" * 80)
print("INFORMACI√ìN GENERAL DEL DATASET".center(80))
print("=" * 80)

# Mostrar primeras filas con formato mejorado
display(housing.head().style.background_gradient(cmap='coolwarm', subset=['median_house_value']))

# Informaci√≥n detallada
print("\n" + "=" * 80)
print("ESTRUCTURA DE DATOS".center(80))
print("=" * 80)
housing.info()

# Estad√≠sticas descriptivas
print("\n" + "=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS".center(80))
print("=" * 80)
display(housing.describe().round(2).T)

### Descripci√≥n de Variables

### Entendiendo cada variable

**Variables geogr√°ficas**:
- `longitude`, `latitude`: Coordenadas GPS
- Nos permiten visualizar en mapa
- Pueden revelar patrones espaciales (precios por zona)

**Variables demogr√°ficas**:
- `population`: Total de personas en el distrito
- `households`: N√∫mero de hogares (familias)
- `total_rooms`, `total_bedrooms`: Infraestructura habitacional

**Variables econ√≥micas**:
- `median_income`: Ingreso mediano (en decenas de miles)
- `median_house_value`: **NUESTRA VARIABLE OBJETIVO**

**Variable temporal**:
- `housing_median_age`: Edad de las construcciones

**Variable categ√≥rica**:
- `ocean_proximity`: Relaci√≥n con el oc√©ano

In [None]:
# Diccionario de metadatos
metadata = {
    'Variable': ['longitude', 'latitude', 'housing_median_age', 'total_rooms', 
                 'total_bedrooms', 'population', 'households', 'median_income', 
                 'median_house_value', 'ocean_proximity'],
    'Tipo': ['Num√©rica', 'Num√©rica', 'Num√©rica', 'Num√©rica', 'Num√©rica', 
             'Num√©rica', 'Num√©rica', 'Num√©rica', 'Num√©rica (Target)', 'Categ√≥rica'],
    'Descripci√≥n': [
        'Longitud geogr√°fica (m√°s oeste = mayor valor)',
        'Latitud geogr√°fica (m√°s norte = mayor valor)',
        'Edad mediana de las casas en el distrito (a√±os)',
        'N√∫mero total de habitaciones en el distrito',
        'N√∫mero total de dormitorios en el distrito',
        'Poblaci√≥n total del distrito',
        'N√∫mero total de hogares en el distrito',
        'Ingreso mediano de los hogares (√ó$10,000)',
        'üéØ Valor mediano de las casas (USD)',
        'Proximidad al oc√©ano'
    ],
    'Valores Faltantes': [
        housing['longitude'].isnull().sum(),
        housing['latitude'].isnull().sum(),
        housing['housing_median_age'].isnull().sum(),
        housing['total_rooms'].isnull().sum(),
        housing['total_bedrooms'].isnull().sum(),
        housing['population'].isnull().sum(),
        housing['households'].isnull().sum(),
        housing['median_income'].isnull().sum(),
        housing['median_house_value'].isnull().sum(),
        housing['ocean_proximity'].isnull().sum()
    ]
}

df_metadata = pd.DataFrame(metadata)
display(df_metadata.style.applymap(
    lambda x: 'background-color: #ffcccc' if x > 0 else '', 
    subset=['Valores Faltantes']
))

---
### Detectando problemas en los datos

#### An√°lisis de Valores Faltantes (Missing values)

**¬øPor qu√© faltan datos?**
- No se recopil√≥ (olvido, opcional)
- Error en recopilaci√≥n
- No aplica (ej: "n√∫mero de hijos" para solteros)

**Estrategias**:
1. **Eliminar filas**: Si son pocas (<5%)
2. **Eliminar columna**: Si falta mucho (>60%)
3. **Imputar**: Rellenar con media/mediana/moda
4. **Indicador**: Crear variable "era_faltante"

**En nuestro caso**: total_bedrooms falta en 207 distritos (1%)

In [None]:
# An√°lisis detallado de valores faltantes
def analyze_missing_values(df):
    """An√°lisis completo de valores faltantes"""
    missing_df = pd.DataFrame({
        'Columna': df.columns,
        'Valores_Faltantes': df.isnull().sum(),
        'Porcentaje': (df.isnull().sum() / len(df)) * 100,
        'Tipo_Dato': df.dtypes
    })
    
    missing_df = missing_df[missing_df['Valores_Faltantes'] > 0].sort_values(
        'Porcentaje', ascending=False
    )
    
    if len(missing_df) > 0:
        # Visualizaci√≥n
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))
        
        # Gr√°fico de barras
        ax1.bar(missing_df['Columna'], missing_df['Porcentaje'], color='coral')
        ax1.set_xlabel('Columna')
        ax1.set_ylabel('Porcentaje de Valores Faltantes (%)')
        ax1.set_title('Valores Faltantes por Columna')
        ax1.axhline(y=5, color='r', linestyle='--', label='Umbral 5%')
        ax1.legend()
        
        # Heatmap de patrones
        import seaborn as sns
        msno_data = df[missing_df['Columna'].tolist()].isnull().astype(int)
        sns.heatmap(msno_data.corr(), annot=True, fmt='.2f', cmap='coolwarm', 
                   ax=ax2, vmin=-1, vmax=1)
        ax2.set_title('Correlaci√≥n de Patrones de Valores Faltantes')
        
        plt.tight_layout()
        plt.show()
        
        return missing_df
    else:
        print("‚úÖ No hay valores faltantes en el dataset")
        return None

missing_analysis = analyze_missing_values(housing)
if missing_analysis is not None:
    display(missing_analysis)

### Estad√≠sticas descriptivas: Los n√∫meros cuentan historias

**¬øQu√© nos dicen las estad√≠sticas?**

**Media vs Mediana**:
- Si media > mediana: Sesgo a la derecha (valores extremos altos)
- Si media < mediana: Sesgo a la izquierda (valores extremos bajos)
- Si media ‚âà mediana: Distribuci√≥n sim√©trica

**Desviaci√≥n est√°ndar**:
- Alta: Mucha variabilidad (cuidado con outliers)
- Baja: Datos concentrados (posible poca informaci√≥n)

**Min/Max sospechosos**:
- Edad m√°xima = 52: ¬øCensura de datos?
- Precio m√°ximo = $500,001: Definitivamente censura

### An√°lisis Univariado

**¬øQu√© buscamos en un histograma?**

1. **Forma de campana** (normal): Ideal para muchos algoritmos
2. **Sesgo** (cola larga): Considerar transformaci√≥n logar√≠tmica
3. **Bimodal** (dos jorobas): Posibles subgrupos diferentes
4. **Uniforme** (plano): Poca informaci√≥n predictiva
5. **Picos extra√±os**: Valores artificiales o errores

**Ejemplo**: median_house_value tiene pico en $500k ‚Üí Censura de datos


In [None]:
# Funci√≥n para an√°lisis univariado robusto
def univariate_analysis(df, column, target=None):
    """An√°lisis univariado con estad√≠sticas robustas"""
    
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # 1. Histograma con KDE
    ax1 = axes[0, 0]
    df[column].hist(bins=50, edgecolor='black', alpha=0.7, ax=ax1)
    ax1.axvline(df[column].mean(), color='red', linestyle='--', label=f'Media: {df[column].mean():.2f}')
    ax1.axvline(df[column].median(), color='green', linestyle='--', label=f'Mediana: {df[column].median():.2f}')
    ax1.set_title(f'Distribuci√≥n de {column}')
    ax1.set_xlabel(column)
    ax1.set_ylabel('Frecuencia')
    ax1.legend()
    ax1.grid(alpha=0.3)
    
    # 2. Boxplot
    ax2 = axes[0, 1]
    bp = ax2.boxplot(df[column].dropna(), vert=True, patch_artist=True)
    bp['boxes'][0].set_facecolor('lightblue')
    ax2.set_title(f'Boxplot de {column}')
    ax2.set_ylabel(column)
    ax2.grid(alpha=0.3)
    
    # Detectar outliers
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df[(df[column] < Q1 - 1.5 * IQR) | (df[column] > Q3 + 1.5 * IQR)]
    ax2.text(1.1, Q3, f'Outliers: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)', 
             fontsize=10)
    
    # 3. Q-Q Plot
    ax3 = axes[1, 0]
    from scipy import stats
    stats.probplot(df[column].dropna(), dist="norm", plot=ax3)
    ax3.set_title('Q-Q Plot (Normalidad)')
    ax3.grid(alpha=0.3)
    
    # 4. Relaci√≥n con target (si existe)
    ax4 = axes[1, 1]
    if target is not None and target in df.columns:
        ax4.scatter(df[column], df[target], alpha=0.5, s=10)
        ax4.set_xlabel(column)
        ax4.set_ylabel(target)
        ax4.set_title(f'{column} vs {target}')
        
        # Agregar l√≠nea de tendencia
        z = np.polyfit(df[column].dropna(), df[target][df[column].notna()], 1)
        p = np.poly1d(z)
        ax4.plot(df[column].sort_values(), p(df[column].sort_values()), 
                "r--", alpha=0.8, label=f'Tendencia')
        
        # Calcular correlaci√≥n
        corr = df[column].corr(df[target])
        ax4.text(0.05, 0.95, f'Correlaci√≥n: {corr:.3f}', 
                transform=ax4.transAxes, fontsize=10,
                bbox=dict(boxstyle='round', facecolor='wheat'))
        ax4.legend()
    else:
        # Estad√≠sticas adicionales
        ax4.axis('off')
        stats_text = f"""
        Estad√≠sticas Robustas:
        
        ‚Ä¢ Media: {df[column].mean():.2f}
        ‚Ä¢ Mediana: {df[column].median():.2f}
        ‚Ä¢ Desv. Est√°ndar: {df[column].std():.2f}
        ‚Ä¢ MAD: {stats.median_abs_deviation(df[column].dropna()):.2f}
        ‚Ä¢ Asimetr√≠a: {df[column].skew():.2f}
        ‚Ä¢ Curtosis: {df[column].kurtosis():.2f}
        ‚Ä¢ Rango: [{df[column].min():.2f}, {df[column].max():.2f}]
        ‚Ä¢ IQR: {IQR:.2f}
        ‚Ä¢ CV: {df[column].std()/df[column].mean():.2f}
        """
        ax4.text(0.1, 0.5, stats_text, transform=ax4.transAxes, 
                fontsize=11, verticalalignment='center',
                bbox=dict(boxstyle='round', facecolor='lightgray', alpha=0.5))
    
    ax4.grid(alpha=0.3)
    
    plt.suptitle(f'An√°lisis Univariado: {column}', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

# Analizar variables num√©ricas clave
for col in ['median_income', 'housing_median_age', 'median_house_value']:
    univariate_analysis(housing, col, 'median_house_value')

### An√°lisis de Variable Categ√≥rica

In [None]:
# An√°lisis de ocean_proximity
def analyze_categorical(df, cat_col, target_col):
    """An√°lisis completo de variable categ√≥rica"""
    
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # 1. Distribuci√≥n de categor√≠as
    ax1 = axes[0, 0]
    counts = df[cat_col].value_counts()
    ax1.bar(counts.index, counts.values, color=plt.cm.Set3(range(len(counts))))
    ax1.set_title(f'Distribuci√≥n de {cat_col}')
    ax1.set_xlabel(cat_col)
    ax1.set_ylabel('Frecuencia')
    ax1.tick_params(axis='x', rotation=45)
    
    # Agregar porcentajes
    for i, (idx, val) in enumerate(counts.items()):
        ax1.text(i, val, f'{val}\n({val/len(df)*100:.1f}%)', 
                ha='center', va='bottom')
    
    # 2. Pie chart
    ax2 = axes[0, 1]
    ax2.pie(counts.values, labels=counts.index, autopct='%1.1f%%',
            colors=plt.cm.Set3(range(len(counts))))
    ax2.set_title(f'Proporci√≥n de {cat_col}')
    
    # 3. Boxplot por categor√≠a
    ax3 = axes[1, 0]
    df.boxplot(column=target_col, by=cat_col, ax=ax3)
    ax3.set_title(f'{target_col} por {cat_col}')
    ax3.set_xlabel(cat_col)
    ax3.set_ylabel(target_col)
    plt.sca(ax3)
    plt.xticks(rotation=45)
    
    # 4. Estad√≠sticas por categor√≠a
    ax4 = axes[1, 1]
    ax4.axis('off')
    
    stats_by_cat = df.groupby(cat_col)[target_col].agg([
        'count', 'mean', 'median', 'std'
    ]).round(2)
    
    table_data = []
    for idx, row in stats_by_cat.iterrows():
        table_data.append([idx, f"{row['count']:.0f}", 
                          f"${row['mean']:,.0f}", 
                          f"${row['median']:,.0f}",
                          f"${row['std']:,.0f}"])
    
    table = ax4.table(cellText=table_data,
                     colLabels=['Categor√≠a', 'N', 'Media', 'Mediana', 'Desv.Est.'],
                     cellLoc='center',
                     loc='center',
                     colWidths=[0.3, 0.15, 0.2, 0.2, 0.2])
    table.auto_set_font_size(False)
    table.set_fontsize(10)
    table.scale(1.2, 1.5)
    
    # Colorear encabezados
    for i in range(5):
        table[(0, i)].set_facecolor('#40E0D0')
        table[(0, i)].set_text_props(weight='bold')
    
    plt.suptitle(f'An√°lisis de Variable Categ√≥rica: {cat_col}', 
                fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

analyze_categorical(housing, 'ocean_proximity', 'median_house_value')

### An√°lisis Geoespacial

**Mapas geogr√°ficos:** Location, location, location

**¬øPor qu√© graficar geogr√°ficamente?**
- Precios inmobiliarios son altamente locales
- Revelamos clusters (Silicon Valley, LA, San Diego)
- Detectamos anomal√≠as geogr√°ficas

**T√©cnicas**:
- Scatter plot simple: Ver forma de California
- Color por precio: Zonas caras vs baratas
- Tama√±o por poblaci√≥n: Densidad urbana


In [None]:
# Visualizaci√≥n geogr√°fica mejorada
def plot_geographical_data(df):
    """Visualizaci√≥n geogr√°fica de California con precios"""
    
    fig, axes = plt.subplots(1, 3, figsize=(20, 7))
    
    # 1. Mapa de densidad
    ax1 = axes[0]
    ax1.scatter(df['longitude'], df['latitude'], alpha=0.1, s=1, c='blue')
    ax1.set_xlabel('Longitud')
    ax1.set_ylabel('Latitud')
    ax1.set_title('Densidad de Puntos de Datos')
    ax1.grid(True, alpha=0.3)
    
    # 2. Mapa de precios
    ax2 = axes[1]
    scatter = ax2.scatter(df['longitude'], df['latitude'], 
                         c=df['median_house_value'], cmap='YlOrRd',
                         s=df['population']/100, alpha=0.4)
    ax2.set_xlabel('Longitud')
    ax2.set_ylabel('Latitud')
    ax2.set_title('Precio Medio de Vivienda por Ubicaci√≥n\n(Tama√±o = Poblaci√≥n)')
    plt.colorbar(scatter, ax=ax2, label='Precio Medio ($)')
    ax2.grid(True, alpha=0.3)
    
    # 3. Mapa de ingresos
    ax3 = axes[2]
    scatter2 = ax3.scatter(df['longitude'], df['latitude'],
                          c=df['median_income'], cmap='viridis',
                          s=20, alpha=0.4)
    ax3.set_xlabel('Longitud')
    ax3.set_ylabel('Latitud')
    ax3.set_title('Ingreso Medio por Ubicaci√≥n')
    plt.colorbar(scatter2, ax=ax3, label='Ingreso Medio (√ó$10k)')
    ax3.grid(True, alpha=0.3)
    
    # Identificar zonas de alto valor
    high_value = df[df['median_house_value'] > df['median_house_value'].quantile(0.9)]
    for ax in axes[1:]:
        ax.scatter(high_value['longitude'], high_value['latitude'],
                  color='red', s=100, alpha=0.5, marker='*',
                  label='Top 10% Precio')
        ax.legend()
    
    plt.suptitle('An√°lisis Geoespacial de California Housing', 
                fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    # Estad√≠sticas por regi√≥n
    print("\nüìç Estad√≠sticas por Proximidad al Oc√©ano:")
    print("=" * 60)
    stats = df.groupby('ocean_proximity').agg({
        'median_house_value': ['mean', 'median', 'std'],
        'median_income': 'mean',
        'population': 'sum'
    }).round(2)
    display(stats)

plot_geographical_data(housing)

#### Matriz de correlaci√≥n: Relaciones entre variables

**Correlaci√≥n de Pearson**:
- Mide relaci√≥n **lineal** entre variables
- Rango: [-1, +1]
- 0 = Sin relaci√≥n lineal (¬°pero puede haber no-lineal!)

**Interpretaci√≥n**:
- |r| < 0.1: Muy d√©bil
- 0.1 ‚â§ |r| < 0.3: D√©bil
- 0.3 ‚â§ |r| < 0.5: Moderada
- 0.5 ‚â§ |r| < 0.7: Fuerte
- |r| ‚â• 0.7: Muy fuerte

**Cuidado**: Correlaci√≥n ‚â† Causalidad

In [None]:
# An√°lisis de correlaci√≥n mejorado
def correlation_analysis(df):
    """An√°lisis de correlaci√≥n con m√∫ltiples m√©tricas"""
    
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    
    fig, axes = plt.subplots(1, 3, figsize=(20, 6))
    
    # 1. Correlaci√≥n de Pearson
    corr_pearson = df[numeric_cols].corr(method='pearson')
    mask = np.triu(np.ones_like(corr_pearson), k=1)
    sns.heatmap(corr_pearson, mask=mask, annot=True, fmt='.2f', 
               cmap='coolwarm', center=0, ax=axes[0],
               vmin=-1, vmax=1, cbar_kws={"shrink": 0.8})
    axes[0].set_title('Correlaci√≥n de Pearson (Lineal)')
    
    # 2. Correlaci√≥n de Spearman  
    corr_spearman = df[numeric_cols].corr(method='spearman')
    sns.heatmap(corr_spearman, mask=mask, annot=True, fmt='.2f',
               cmap='coolwarm', center=0, ax=axes[1],
               vmin=-1, vmax=1, cbar_kws={"shrink": 0.8})
    axes[1].set_title('Correlaci√≥n de Spearman (Monot√≥nica)')
    
    # 3. Correlaci√≥n con variable objetivo
    target_corr = df[numeric_cols].corr()['median_house_value'].sort_values(ascending=False)
    colors = ['green' if x > 0 else 'red' for x in target_corr.values]
    target_corr.plot(kind='barh', ax=axes[2], color=colors)
    axes[2].set_title('Correlaci√≥n con Precio de Vivienda')
    axes[2].set_xlabel('Coeficiente de Correlaci√≥n')
    axes[2].axvline(x=0, color='black', linestyle='-', linewidth=0.5)
    axes[2].grid(True, alpha=0.3)
    
    plt.suptitle('An√°lisis de Correlaci√≥n Multi-m√©trica', 
                fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    # Tabla de correlaciones importantes
    print("\nüîó Correlaciones Significativas con el Precio:")
    print("=" * 50)
    significant_corr = target_corr[abs(target_corr) > 0.1].drop('median_house_value')
    for var, corr in significant_corr.items():
        strength = "Fuerte" if abs(corr) > 0.5 else "Moderada" if abs(corr) > 0.3 else "D√©bil"
        direction = "Positiva" if corr > 0 else "Negativa"
        print(f"  ‚Ä¢ {var:20s}: {corr:+.3f} ({strength} {direction})")

correlation_analysis(housing)

### Detecci√≥n de Anomal√≠as y Outliers

**Outliers:** ¬øErrores o informaci√≥n valiosa?

**Tipos de outliers**:
1. **Errores**: Edad = 999 a√±os ‚Üí Eliminar
2. **Casos raros pero v√°lidos**: Mansi√≥n de $50M ‚Üí Mantener
3. **Diferentes poblaciones**: Empresa en zona residencial ‚Üí Investigar

**M√©todos de detecci√≥n**:
- **IQR**: Fuera de Q1-1.5√óIQR o Q3+1.5√óIQR
- **Z-score**: |z| > 3
- **Isolation Forest**: Algoritmo de ML para anomal√≠as

#### Distribuciones problem√°ticas

**Alta asimetr√≠a (skewness)**:
- Problema: Muchos algoritmos asumen normalidad
- Soluci√≥n: Transformaci√≥n log, sqrt o Box-Cox

**Alta curtosis**:
- Problema: Colas pesadas, muchos outliers
- Soluci√≥n: Winsorization (cap de valores extremos)

In [None]:
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler

def detect_outliers(df):
    """Detecci√≥n de outliers usando m√∫ltiples m√©todos"""
    
    numeric_df = df.select_dtypes(include=[np.number])
    
    # M√©todo 1: IQR
    outliers_iqr = pd.DataFrame()
    for col in numeric_df.columns:
        Q1 = numeric_df[col].quantile(0.25)
        Q3 = numeric_df[col].quantile(0.75)
        IQR = Q3 - Q1
        outliers = ((numeric_df[col] < Q1 - 1.5 * IQR) | 
                   (numeric_df[col] > Q3 + 1.5 * IQR))
        outliers_iqr[col] = outliers
    
    # M√©todo 2: Z-Score
    from scipy import stats
    z_scores = np.abs(stats.zscore(numeric_df.fillna(numeric_df.median())))
    outliers_zscore = (z_scores > 3)
    
    # M√©todo 3: Isolation Forest
    scaler = StandardScaler()
    scaled_data = scaler.fit_transform(numeric_df.fillna(numeric_df.median()))
    iso_forest = IsolationForest(contamination=0.1, random_state=42)
    outliers_iso = iso_forest.fit_predict(scaled_data) == -1
    
    # Visualizaci√≥n
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # Plot 1: Outliers por columna (IQR)
    ax1 = axes[0, 0]
    outlier_counts = outliers_iqr.sum()
    ax1.bar(range(len(outlier_counts)), outlier_counts.values)
    ax1.set_xticks(range(len(outlier_counts)))
    ax1.set_xticklabels(outlier_counts.index, rotation=45, ha='right')
    ax1.set_title('Outliers por Variable (M√©todo IQR)')
    ax1.set_ylabel('N√∫mero de Outliers')
    
    # Plot 2: Distribuci√≥n de outliers por m√©todo
    ax2 = axes[0, 1]
    methods_comparison = pd.DataFrame({
        'IQR': outliers_iqr.any(axis=1).sum(),
        'Z-Score': outliers_zscore.any(axis=1).sum(),
        'Isolation Forest': outliers_iso.sum()
    }, index=['Outliers'])
    methods_comparison.T.plot(kind='bar', ax=ax2, legend=False)
    ax2.set_title('Comparaci√≥n de M√©todos de Detecci√≥n')
    ax2.set_ylabel('N√∫mero de Outliers Detectados')
    ax2.set_xlabel('M√©todo')
    
    # Plot 3: Heatmap de outliers
    ax3 = axes[1, 0]
    sample_outliers = outliers_iqr.head(100)
    sns.heatmap(sample_outliers.T, cmap='RdYlBu_r', cbar=False, ax=ax3,
               yticklabels=True, xticklabels=False)
    ax3.set_title('Mapa de Outliers (Primeras 100 filas)')
    ax3.set_xlabel('Observaciones')
    
    # Plot 4: Resumen estad√≠stico
    ax4 = axes[1, 1]
    ax4.axis('off')
    summary_text = f"""
    Resumen de Detecci√≥n de Anomal√≠as:
    
    ‚Ä¢ Total de observaciones: {len(df):,}
    ‚Ä¢ Outliers por IQR: {outliers_iqr.any(axis=1).sum():,} ({outliers_iqr.any(axis=1).sum()/len(df)*100:.1f}%)
    ‚Ä¢ Outliers por Z-Score: {outliers_zscore.any(axis=1).sum():,} ({outliers_zscore.any(axis=1).sum()/len(df)*100:.1f}%)
    ‚Ä¢ Outliers por Isolation Forest: {outliers_iso.sum():,} ({outliers_iso.sum()/len(df)*100:.1f}%)
    
    Variables m√°s afectadas:
    {chr(10).join([f'  - {col}: {count:,} outliers' 
                   for col, count in outlier_counts.nlargest(3).items()])}
    
    Recomendaci√≥n: Investigar outliers antes de eliminar.
    Pueden contener informaci√≥n valiosa.
    """
    ax4.text(0.1, 0.5, summary_text, transform=ax4.transAxes,
            fontsize=11, verticalalignment='center',
            bbox=dict(boxstyle='round', facecolor='lightyellow'))
    
    plt.suptitle('An√°lisis de Outliers y Anomal√≠as', fontsize=16, fontweight='bold')
    plt.tight_layout()
    plt.show()
    
    return outliers_iqr, outliers_zscore, outliers_iso

outliers_iqr, outliers_zscore, outliers_iso = detect_outliers(housing)

---

## Preparaci√≥n de Datos <a name="prep"></a>

### Divisi√≥n Train/Test: La regla de oro del ML

**¬øPor qu√© dividir los datos?**

Imagina estudiar para un examen teniendo las preguntas y respuestas exactas. ¬øAprobar√≠as? S√≠. ¬øAprendiste? No.

Lo mismo pasa en ML: Si evaluamos con los mismos datos que usamos para entrenar, el modelo puede memorizar en lugar de aprender patrones.

**La divisi√≥n t√≠pica**:
- **Training set (60-80%)**: Para entrenar el modelo
- **Validation set (10-20%)**: Para ajustar hiperpar√°metros
- **Test set (10-20%)**: Para evaluaci√≥n final

**Regla de oro**: NUNCA uses el test set hasta el final. Es tu examen final.

### Divisi√≥n aleatoria vs estratificada

**Divisi√≥n aleatoria**:
- Simple: Tomar muestras al azar
- Problema: Puede no representar bien subgrupos peque√±os

**Divisi√≥n estratificada**:
- Mantiene proporciones de grupos importantes
- Ejemplo: Mismo % de casas caras/baratas en train y test
- Crucial cuando hay desbalance de clases

**¬øCu√°ndo usar estratificada?**
- Clasificaci√≥n con clases desbalanceadas
- Cuando una variable es cr√≠tica para el negocio
- Datasets peque√±os donde el azar puede sesgar


In [None]:
from sklearn.model_selection import train_test_split, StratifiedShuffleSplit

def create_train_test_split(df, test_size=0.2, stratify_column=None):
    """
    Crea conjuntos de entrenamiento y prueba con estratificaci√≥n opcional.
    """
    if stratify_column:
        # Crear bins para estratificaci√≥n
        df['stratify_cat'] = pd.cut(df[stratify_column],
                                    bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                                    labels=[1, 2, 3, 4, 5])
        
        # Divisi√≥n estratificada
        splitter = StratifiedShuffleSplit(n_splits=1, test_size=test_size, random_state=42)
        for train_idx, test_idx in splitter.split(df, df['stratify_cat']):
            train_set = df.iloc[train_idx].copy()
            test_set = df.iloc[test_idx].copy()
        
        # Verificar proporciones
        print("üìä Verificaci√≥n de Estratificaci√≥n:")
        print("=" * 50)
        original_props = df['stratify_cat'].value_counts(normalize=True).sort_index()
        train_props = train_set['stratify_cat'].value_counts(normalize=True).sort_index()
        test_props = test_set['stratify_cat'].value_counts(normalize=True).sort_index()
        
        comparison = pd.DataFrame({
            'Original': original_props,
            'Train': train_props,
            'Test': test_props
        })
        comparison['Train_Error_%'] = (comparison['Train'] / comparison['Original'] - 1) * 100
        comparison['Test_Error_%'] = (comparison['Test'] / comparison['Original'] - 1) * 100
        display(comparison.round(2))
        
        # Eliminar columna temporal
        for set_ in (train_set, test_set):
            set_.drop('stratify_cat', axis=1, inplace=True)
    else:
        train_set, test_set = train_test_split(df, test_size=test_size, random_state=42)
    
    print(f"\n‚úÖ Conjuntos creados:")
    print(f"   ‚Ä¢ Entrenamiento: {len(train_set):,} muestras ({len(train_set)/len(df)*100:.1f}%)")
    print(f"   ‚Ä¢ Prueba: {len(test_set):,} muestras ({len(test_set)/len(df)*100:.1f}%)")
    
    return train_set, test_set


# Crear conjuntos con estratificaci√≥n por ingreso medio
strat_train_set, strat_test_set = create_train_test_split(
    housing, test_size=0.2, stratify_column='median_income'
)

# Hacer copia para trabajar
housing = strat_train_set.copy()

### Ingenier√≠a de caracter√≠sticas: El arte del ML

**"Feature engineering is the art of making data useful"**

#### ¬øPor qu√© crear nuevas caracter√≠sticas?

Los modelos de ML solo pueden encontrar patrones en los datos que les das. Si les das mejores representaciones, encuentran mejores patrones.

#### Tipos de nuevas caracter√≠sticas

**1. Ratios y proporciones**:
- `rooms_per_household`: Tama√±o promedio de casa
- `population_per_household`: Tama√±o de familia
- `bedrooms_ratio`: Proporci√≥n dormitorios/habitaciones

**¬øPor qu√© funcionan?** Los totales dependen del tama√±o del distrito, los ratios no.

**2. Combinaciones**:
- `location_score = latitude √ó longitude`: Interacci√≥n geogr√°fica
- `income_per_room = median_income / rooms_per_household`

**3. Transformaciones**:
- `log_population`: Para suavizar distribuciones sesgadas
- `age_squared`: Para capturar relaciones no lineales

**4. Binning (categorizaci√≥n)**:
- Edad: Nueva ‚Üí Media ‚Üí Antigua
- Ingreso: Bajo ‚Üí Medio ‚Üí Alto

**5. Informaci√≥n de dominio**:
- Distancia a ciudad principal
- Distancia a escuelas/hospitales
- Zona s√≠smica

#### Buenas pr√°cticas en feature engineering

‚úÖ **DO**:
- Piensa como un experto del dominio
- Valida que mejoran el modelo
- Documenta la l√≥gica de cada feature
- Mant√©n interpretabilidad si es importante

‚ùå **DON'T**:
- Crear cientos de features sin sentido
- Usar informaci√≥n del futuro (data leakage)
- Complicar innecesariamente
- Olvidar que "m√°s features ‚â† mejor modelo"


In [None]:
def feature_engineering(df):
    """
    Crea nuevas caracter√≠sticas basadas en conocimiento del dominio.
    """
    print("üîß Creando nuevas caracter√≠sticas...")
    
    # Caracter√≠sticas por hogar
    df['rooms_per_household'] = df['total_rooms'] / df['households']
    df['bedrooms_per_room'] = df['total_bedrooms'] / df['total_rooms']
    df['population_per_household'] = df['population'] / df['households']
    
    # Caracter√≠sticas geogr√°ficas
    df['location_index'] = df['latitude'] * df['longitude']  # √çndice de ubicaci√≥n simple
    
    # Caracter√≠sticas de densidad
    df['housing_density'] = df['households'] / df['population']
    
    # Log transformations para variables sesgadas
    df['log_median_income'] = np.log1p(df['median_income'])
    df['log_population'] = np.log1p(df['population'])
    
    # Binning de edad de vivienda
    df['age_category'] = pd.cut(df['housing_median_age'], 
                                bins=[0, 10, 20, 30, 40, np.inf],
                                labels=['0-10', '11-20', '21-30', '31-40', '40+'])
    
    print(f"‚úÖ Nuevas caracter√≠sticas creadas: {len(df.columns) - len(housing.columns)}")
    
    # Mostrar nuevas caracter√≠sticas
    new_features = [col for col in df.columns if col not in housing.columns]
    print(f"   Nuevas variables: {', '.join(new_features)}")
    
    return df

housing_fe = feature_engineering(housing.copy())

# Visualizar el impacto de las nuevas caracter√≠sticas
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
new_numeric_features = ['rooms_per_household', 'bedrooms_per_room', 
                        'population_per_household', 'housing_density',
                        'log_median_income', 'location_index']

for idx, feature in enumerate(new_numeric_features):
    ax = axes[idx // 3, idx % 3]
    housing_fe.plot(kind='scatter', x=feature, y='median_house_value',
                   alpha=0.3, ax=ax, s=2)
    ax.set_title(f'{feature} vs Precio')
    ax.set_ylabel('Precio Medio')
    
    # Agregar correlaci√≥n
    corr = housing_fe[feature].corr(housing_fe['median_house_value'])
    ax.text(0.05, 0.95, f'r = {corr:.3f}', transform=ax.transAxes,
           bbox=dict(boxstyle='round', facecolor='wheat'))

plt.suptitle('Impacto de Nuevas Caracter√≠sticas', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

### Preparaci√≥n de Datos para ML

In [None]:
# Separar caracter√≠sticas y variable objetivo
housing_labels = strat_train_set["median_house_value"].copy()
housing_prepared = strat_train_set.drop("median_house_value", axis=1)

# Separar caracter√≠sticas num√©ricas y categ√≥ricas
housing_num = housing_prepared.select_dtypes(include=[np.number])
housing_cat = housing_prepared.select_dtypes(include=['object'])

print(f"üìä Preparaci√≥n de datos:")
print(f"   ‚Ä¢ Caracter√≠sticas num√©ricas: {housing_num.shape[1]}")
print(f"   ‚Ä¢ Caracter√≠sticas categ√≥ricas: {housing_cat.shape[1]}")
print(f"   ‚Ä¢ Total de caracter√≠sticas: {housing_prepared.shape[1]}")
print(f"   ‚Ä¢ Muestras de entrenamiento: {len(housing_prepared):,}")

## Pipelines de Transformaci√≥n

### Manejo de valores faltantes

#### Estrategia 1: Eliminaci√≥n

**Eliminar filas (listwise deletion)**:
```python
df.dropna()  # Elimina CUALQUIER fila con NaN
```
- ‚úÖ Simple y r√°pido
- ‚ùå Pierdes datos (puede ser mucho)
- ‚ùå Puede introducir sesgo

**Eliminar columnas**:
```python
df.drop(['columna_con_muchos_nan'], axis=1)
```
- ‚úÖ √ötil si la columna tiene >60% faltantes
- ‚ùå Pierdes una caracter√≠stica potencialmente √∫til

#### Estrategia 2: Imputaci√≥n simple

**Media/Mediana (para num√©ricas)**:
- Media: Si distribuci√≥n es normal
- Mediana: Si hay outliers o sesgo (m√°s robusta)

**Moda (para categ√≥ricas)**:
- Categor√≠a m√°s frecuente
- Simple pero puede no ser apropiado

**Valor constante**:
- 0, -999, "Missing", "Unknown"
- √ötil cuando "faltante" es informaci√≥n

#### Estrategia 3: Imputaci√≥n avanzada

**Forward/Backward fill** (series temporales):
- Usa valor anterior/siguiente
- √ötil para datos secuenciales

**Interpolaci√≥n**:
- Lineal, polinomial, spline
- Para datos con tendencia suave

**KNN Imputation**:
- Usa K vecinos m√°s cercanos
- Preserva relaciones locales

**MICE** (Multiple Imputation by Chained Equations):
- Modela cada variable con las dem√°s
- Muy sofisticado pero lento

#### ¬øCu√°l estrategia usar?

**Depende de**:
1. **Porcentaje faltante**: <5% ‚Üí Simple, >30% ‚Üí Cuidado
2. **Patr√≥n de faltantes**: 
   - MCAR (Missing Completely At Random): Cualquier m√©todo
   - MAR (Missing At Random): Imputaci√≥n sofisticada
   - MNAR (Missing Not At Random): Modelar el mecanismo
3. **Importancia de la variable**: Cr√≠tica ‚Üí M√°s cuidado
4. **Recursos computacionales**: Simple ‚Üí R√°pido, Complejo ‚Üí Lento

### Escalamiento de caracter√≠sticas

#### ¬øPor qu√© escalar?

Muchos algoritmos calculan distancias (KNN, SVM, redes neuronales). Si una variable va de 0-1 y otra de 0-1000000, la segunda dominar√°.

**Ejemplo**: 
- Edad: 0-100 a√±os
- Salario: 0-500,000 d√≥lares
- Sin escalar, el salario domina completamente

#### Tipos de escalamiento

**1. StandardScaler (Z-score normalization)**:
```
z = (x - Œº) / œÉ
```
- Transforma a media=0, std=1
- ‚úÖ No bounded (no tiene l√≠mites)
- ‚úÖ Menos afectado por outliers que MinMax
- ‚ùå Cambia la forma de la distribuci√≥n

**Cu√°ndo usar**: Algoritmos que asumen normalidad (regresi√≥n lineal, LDA)

**2. MinMaxScaler**:
```
x_scaled = (x - min) / (max - min)
```
- Transforma a rango [0, 1]
- ‚úÖ Bounded (sabes los l√≠mites)
- ‚ùå Muy sensible a outliers
- ‚úÖ Preserva la forma de la distribuci√≥n

**Cu√°ndo usar**: Redes neuronales, algoritmos con inputs bounded

**3. RobustScaler**:
```
x_scaled = (x - median) / IQR
```
- Usa mediana y rango intercuart√≠lico
- ‚úÖ Robusto a outliers
- ‚úÖ Bueno para datos con outliers

**Cu√°ndo usar**: Datos con muchos outliers

**4. Normalizer**:
- Escala cada muestra (fila) a norma unitaria
- √ötil para texto y clustering

#### ¬øQu√© algoritmos necesitan escalamiento?

**S√ç necesitan**:
- KNN, K-Means (distancias)
- SVM (kernel RBF)
- Redes Neuronales
- PCA
- Regresi√≥n con regularizaci√≥n (Lasso, Ridge)

**NO necesitan**:
- √Årboles de decisi√≥n
- Random Forest
- Gradient Boosting
- Regresi√≥n sin regularizaci√≥n

### Codificaci√≥n de variables categ√≥ricas

#### El problema

Los algoritmos de ML trabajan con n√∫meros, no texto. ¬øC√≥mo convertir "NEAR BAY" en n√∫mero?

#### Estrategias de codificaci√≥n

**1. Ordinal Encoding**:
```
INLAND = 0
NEAR BAY = 1  
NEAR OCEAN = 2
<1H OCEAN = 3
ISLAND = 4
```

‚úÖ Simple, una columna
‚ùå Implica orden que no existe
‚ùå Modelo puede pensar que ISLAND (4) > INLAND (0)

**Cu√°ndo usar**: Variables con orden natural (peque√±o<mediano<grande)

**2. One-Hot Encoding (Dummy variables)**:
```
ocean_proximity_INLAND     = [1, 0, 0, 0, 0]
ocean_proximity_NEAR_BAY   = [0, 1, 0, 0, 0]
ocean_proximity_NEAR_OCEAN = [0, 0, 1, 0, 0]
ocean_proximity_<1H_OCEAN  = [0, 0, 0, 1, 0]
ocean_proximity_ISLAND     = [0, 0, 0, 0, 1]
```

‚úÖ No implica orden
‚úÖ Funciona con cualquier algoritmo
‚ùå Crea muchas columnas (curse of dimensionality)
‚ùå Problema con categor√≠as raras o nuevas

**Cu√°ndo usar**: Pocas categor√≠as (<20), sin orden natural

**3. Target Encoding**:
- Reemplaza categor√≠a con media del target
- Ejemplo: NEAR_BAY ‚Üí $350,000 (precio medio cerca de bah√≠a)

‚úÖ Una sola columna
‚úÖ Captura relaci√≥n con target
‚ùå Riesgo de overfitting (data leakage)
‚ùå Requiere validaci√≥n cuidadosa

**Cu√°ndo usar**: Muchas categor√≠as, √°rboles de decisi√≥n

**4. Binary Encoding**:
- Convierte a binario: 5 categor√≠as ‚Üí 3 columnas binarias
- M√°s eficiente que one-hot para muchas categor√≠as


### Pipelines: Automatizaci√≥n y reproducibilidad

#### ¬øQu√© es un pipeline?

Un pipeline es una secuencia de transformaciones que se aplican en orden. Como una l√≠nea de ensamblaje en una f√°brica.

```
Datos crudos ‚Üí Imputaci√≥n ‚Üí Escalamiento ‚Üí Modelo ‚Üí Predicci√≥n
```

#### Ventajas de usar pipelines

1. **Evita data leakage**: Ajusta en train, aplica en test
2. **Reproducibilidad**: Mismo proceso siempre
3. **C√≥digo limpio**: No m√°s c√≥digo spaghetti
4. **F√°cil deployment**: Un objeto para producci√≥n
5. **Menos errores**: Automatizaci√≥n reduce errores manuales

#### Anatom√≠a de un pipeline

```python
Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler()),
    ('model', RandomForestRegressor())
])
```

Cada paso tiene:
- **Nombre**: Para identificarlo
- **Transformador/Estimador**: Lo que hace
- **Par√°metros**: C√≥mo lo hace

#### ColumnTransformer: Diferentes transformaciones por columna

Real world: Necesitas diferentes transformaciones para diferentes tipos de datos.

```python
ColumnTransformer([
    ('num', numerical_pipeline, numerical_columns),
    ('cat', categorical_pipeline, categorical_columns)
])
```

Aplica:
- Pipeline num√©rico a columnas num√©ricas
- Pipeline categ√≥rico a columnas categ√≥ricas
- Concatena resultados

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Pipeline para caracter√≠sticas num√©ricas
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="median")),
    ('scaler', StandardScaler()),
])

# Pipeline completo con ColumnTransformer
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

full_pipeline = ColumnTransformer([
    ("num", num_pipeline, num_attribs),
    ("cat", OneHotEncoder(sparse_output=False), cat_attribs),
])

# Aplicar transformaciones
housing_prepared_array = full_pipeline.fit_transform(housing_prepared)

print(f"‚úÖ Datos transformados: {housing_prepared_array.shape}")

# Crear DataFrame con datos transformados para visualizaci√≥n
feature_names = (num_attribs + 
                full_pipeline.named_transformers_['cat']
                .get_feature_names_out(cat_attribs).tolist())

housing_prepared_df = pd.DataFrame(
    housing_prepared_array,
    columns=feature_names,
    index=housing_prepared.index
)

print("\nüìã Muestra de datos transformados:")
display(housing_prepared_df.head())

### Verificaci√≥n de Transformaciones

In [None]:
def verify_transformations(original_df, transformed_df):
    """Verifica que las transformaciones se aplicaron correctamente"""
    
    print("üîç Verificaci√≥n de Transformaciones")
    print("=" * 50)
    
    # 1. Verificar valores faltantes
    missing_original = original_df.isnull().sum().sum()
    missing_transformed = pd.DataFrame(transformed_df).isnull().sum().sum()
    
    print(f"Valores faltantes:")
    print(f"  ‚Ä¢ Original: {missing_original}")
    print(f"  ‚Ä¢ Transformado: {missing_transformed}")
    print(f"  ‚úÖ Imputaci√≥n exitosa" if missing_transformed == 0 else "  ‚ùå A√∫n hay valores faltantes")
    
    # 2. Verificar escalado (para caracter√≠sticas num√©ricas)
    numeric_features = original_df.select_dtypes(include=[np.number]).shape[1]
    transformed_numeric = pd.DataFrame(transformed_df[:, :numeric_features])
    
    print(f"\nEscalado de caracter√≠sticas num√©ricas:")
    print(f"  ‚Ä¢ Media: {transformed_numeric.mean().mean():.6f} (esperado ‚âà 0)")
    print(f"  ‚Ä¢ Desv. Est.: {transformed_numeric.std().mean():.6f} (esperado ‚âà 1)")
    
    # 3. Verificar one-hot encoding
    original_features = original_df.shape[1]
    transformed_features = transformed_df.shape[1]
    
    print(f"\nDimensionalidad:")
    print(f"  ‚Ä¢ Caracter√≠sticas originales: {original_features}")
    print(f"  ‚Ä¢ Caracter√≠sticas transformadas: {transformed_features}")
    print(f"  ‚Ä¢ Nuevas caracter√≠sticas (one-hot): {transformed_features - numeric_features}")
    
    return True

verify_transformations(housing_prepared, housing_prepared_array)

### Prevenci√≥n de data leakage

#### ¬øQu√© es data leakage?

Es cuando informaci√≥n del conjunto de test "se filtra" al entrenamiento. Como hacer trampa sin darte cuenta.

#### Tipos comunes de leakage

**1. Leakage en preprocesamiento**:
```python
# MAL: Escalar antes de dividir
X_scaled = scaler.fit_transform(X)
X_train, X_test = train_test_split(X_scaled)

# BIEN: Escalar despu√©s de dividir
X_train, X_test = train_test_split(X)
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
```

**2. Leakage temporal**:
- Usar datos del futuro para predecir el pasado
- Com√∫n en series temporales

**3. Leakage de target**:
- Variable que incluye informaci√≥n del target
- Ejemplo: "total_vendido" para predecir "se_vendi√≥"

**4. Leakage en validaci√≥n**:
- Ajustar hiperpar√°metros viendo test set
- Seleccionar features viendo test set

#### C√≥mo prevenirlo

1. **Divide primero, transforma despu√©s**
2. **Usa pipelines** (automatizan el proceso correcto)
3. **Temporal**: Respeta el orden cronol√≥gico
4. **Piensa**: ¬øEsta informaci√≥n estar√≠a disponible en producci√≥n?
5. **Valida**: Resultados demasiado buenos ‚Üí Sospecha

---

## Modelado <a name="model"></a>

### Filosof√≠a del modelado

**"All models are wrong, but some are useful"** - George Box

No buscamos el modelo perfecto, buscamos uno √∫til para el negocio.

### Estrategia de modelado: De simple a complejo

#### ¬øPor qu√© empezar simple?

1. **Baseline**: Establece el m√≠nimo aceptable
2. **Debugging**: M√°s f√°cil encontrar problemas
3. **Interpretabilidad**: Modelos simples son explicables
4. **Velocidad**: Iteraci√≥n r√°pida
5. **Sorpresas**: A veces lo simple es suficiente

### Modelo 1: Media/Mediana (Dummy)

**¬øQu√© hace?** Predice siempre el mismo valor (media o mediana del training)

**¬øPor qu√© usarlo?**
- Baseline absoluto
- Si no superas esto, algo est√° mal
- √ötil para detectar problemas en el pipeline

**Cu√°ndo es suficiente**: Nunca en problemas reales (espero)

### Modelo 2: Regresi√≥n Lineal

**¬øQu√© hace?** Encuentra la mejor l√≠nea (hiperplano) que pasa por los datos

```
y = w‚ÇÅx‚ÇÅ + w‚ÇÇx‚ÇÇ + ... + w‚Çôx‚Çô + b
```

**Ventajas**:
- ‚úÖ R√°pido de entrenar
- ‚úÖ Interpretable (coeficientes = importancia)
- ‚úÖ No requiere tuning
- ‚úÖ Funciona bien con muchas features

**Desventajas**:
- ‚ùå Solo captura relaciones lineales
- ‚ùå Sensible a outliers
- ‚ùå Asume independencia de features
- ‚ùå Puede dar predicciones negativas

**Cu√°ndo funciona bien**:
- Relaciones aproximadamente lineales
- Muchas features, pocas muestras
- Necesitas interpretabilidad

### Modelo 3: √Årbol de Decisi√≥n

**¬øQu√© hace?** Divide recursivamente el espacio con reglas if-then

```
Si median_income > 3:
    Si near_ocean:
        precio = $400,000
    Sino:
        precio = $250,000
Sino:
    precio = $150,000
```

**Ventajas**:
- ‚úÖ Captura no-linealidades
- ‚úÖ Maneja interacciones
- ‚úÖ No requiere escalamiento
- ‚úÖ Interpretable (puedes visualizarlo)

**Desventajas**:
- ‚ùå Overfitting extremo
- ‚ùå Inestable (peque√±os cambios ‚Üí √°rbol diferente)
- ‚ùå No extrapola bien
- ‚ùå Sesgado hacia features con m√°s niveles

**Cu√°ndo funciona bien**:
- Reglas de decisi√≥n claras
- Interacciones complejas
- Mix de features num√©ricas/categ√≥ricas

### Modelo 4: Random Forest

**¬øQu√© hace?** Entrena muchos √°rboles con datos ligeramente diferentes y promedia

**¬øPor qu√© funciona?**
- **Bagging**: Cada √°rbol ve muestra diferente
- **Random features**: Cada split considera subset aleatorio
- **Averaging**: Reduce varianza sin aumentar mucho sesgo
- **Wisdom of crowds**: Muchos modelos d√©biles ‚Üí uno fuerte

**Ventajas**:
- ‚úÖ Muy robusto (dif√≠cil de romper)
- ‚úÖ Poco overfitting
- ‚úÖ Maneja no-linealidades
- ‚úÖ Feature importance gratis
- ‚úÖ Funciona out-of-the-box

**Desventajas**:
- ‚ùå M√°s lento que √°rbol simple
- ‚ùå No extrapolable
- ‚ùå Menos interpretable
- ‚ùå Usa m√°s memoria

**Hiperpar√°metros importantes**:
- `n_estimators`: N√∫mero de √°rboles (m√°s = mejor hasta plateau)
- `max_depth`: Profundidad m√°xima (controla overfitting)
- `min_samples_split`: M√≠nimo para dividir (controla overfitting)
- `max_features`: Features por split (menos = m√°s diversidad)

### Comparaci√≥n de modelos

| Modelo | Complejidad | Interpretabilidad | Velocidad | Precisi√≥n T√≠pica |
|--------|------------|-------------------|-----------|------------------|
| Dummy | M√≠nima | Total | Instant√°nea | Muy baja |
| Lineal | Baja | Alta | Muy r√°pida | Media |
| √Årbol | Media | Media | R√°pida | Variable |
| Random Forest | Alta | Baja | Lenta | Alta |
| XGBoost | Muy alta | Muy baja | Lenta | Muy alta |
| Red Neuronal | Extrema | Nula | Muy lenta | Variable |

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.dummy import DummyRegressor

def evaluate_model(model, X, y, model_name="Modelo"):
    """Eval√∫a un modelo con m√∫ltiples m√©tricas"""
    predictions = model.predict(X)
    
    mse = mean_squared_error(y, predictions)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y, predictions)
    r2 = r2_score(y, predictions)
    
    # Calcular MAPE (Mean Absolute Percentage Error)
    mape = np.mean(np.abs((y - predictions) / y)) * 100
    
    results = {
        'Modelo': model_name,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'MAPE': mape
    }
    
    return results, predictions

# Modelo Dummy (baseline)
dummy_regressor = DummyRegressor(strategy="median")
dummy_regressor.fit(housing_prepared_array, housing_labels)

baseline_results, baseline_pred = evaluate_model(
    dummy_regressor, housing_prepared_array, housing_labels, "Baseline (Mediana)"
)

print("üìä Modelo Baseline:")
print("=" * 50)
for metric, value in baseline_results.items():
    if metric != 'Modelo':
        print(f"  {metric}: {value:,.2f}")

### Entrenamiento de M√∫ltiples Modelos

In [None]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from sklearn.neighbors import KNeighborsRegressor

# Definir modelos a evaluar
models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(alpha=1.0),
    'Lasso Regression': Lasso(alpha=0.1),
    'Decision Tree': DecisionTreeRegressor(random_state=42),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42),
    'KNN': KNeighborsRegressor(n_neighbors=5),
    'SVR': SVR(kernel='rbf', C=100000)
}

# Entrenar y evaluar cada modelo
results_list = [baseline_results]

print("üöÄ Entrenando modelos...")
print("=" * 50)

for name, model in models.items():
    print(f"  Entrenando {name}...", end="")
    
    # Entrenar modelo
    model.fit(housing_prepared_array, housing_labels)
    
    # Evaluar modelo
    results, predictions = evaluate_model(
        model, housing_prepared_array, housing_labels, name
    )
    results_list.append(results)
    
    print(f" ‚úÖ R¬≤ = {results['R¬≤']:.3f}")

# Crear DataFrame con resultados
results_df = pd.DataFrame(results_list)
results_df = results_df.sort_values('R¬≤', ascending=False)

print("\nüìä Comparaci√≥n de Modelos:")
display(results_df.style.background_gradient(subset=['RMSE', 'MAE', 'R¬≤', 'MAPE'], 
                                             cmap='RdYlGn_r'))

### Validaci√≥n Cruzada

#### ¬øQu√© es?

En lugar de una divisi√≥n train/test, hacemos m√∫ltiples:

```
Fold 1: [====TEST====|--TRAIN--|--TRAIN--|--TRAIN--|--TRAIN--]
Fold 2: [--TRAIN--|====TEST====|--TRAIN--|--TRAIN--|--TRAIN--]
Fold 3: [--TRAIN--|--TRAIN--|====TEST====|--TRAIN--|--TRAIN--]
Fold 4: [--TRAIN--|--TRAIN--|--TRAIN--|====TEST====|--TRAIN--]
Fold 5: [--TRAIN--|--TRAIN--|--TRAIN--|--TRAIN--|====TEST====]
```

#### ¬øPor qu√©?

- **M√°s robusto**: No depende de una divisi√≥n afortunada
- **Mejor estimaci√≥n**: Promedio de m√∫ltiples evaluaciones
- **Varianza**: Sabemos qu√© tan estable es el modelo

#### Tipos de CV

**K-Fold**: Divide en K partes iguales
- T√≠pico: K=5 o K=10
- Trade-off: M√°s K = mejor estimaci√≥n pero m√°s lento

**Stratified K-Fold**: Mantiene proporciones de clases
- Para clasificaci√≥n desbalanceada

**Time Series Split**: Respeta orden temporal
- Para series de tiempo

**Leave-One-Out (LOO)**: K = n√∫mero de muestras
- M√°xima precisi√≥n, m√°ximo costo

In [None]:
from sklearn.model_selection import cross_val_score, KFold

def cross_validate_models(models, X, y, cv=10):
    """Realiza validaci√≥n cruzada para m√∫ltiples modelos"""
    
    results = []
    kfold = KFold(n_splits=cv, shuffle=True, random_state=42)
    
    print("üîÑ Validaci√≥n Cruzada (10-fold):")
    print("=" * 50)
    
    for name, model in models.items():
        # Calcular scores negativos (sklearn convention)
        cv_scores = cross_val_score(model, X, y, 
                                   scoring='neg_mean_squared_error',
                                   cv=kfold)
        rmse_scores = np.sqrt(-cv_scores)
        
        results.append({
            'Modelo': name,
            'RMSE_Media': rmse_scores.mean(),
            'RMSE_Std': rmse_scores.std(),
            'RMSE_Min': rmse_scores.min(),
            'RMSE_Max': rmse_scores.max()
        })
        
        print(f"  {name:20s}: RMSE = {rmse_scores.mean():,.0f} (+/- {rmse_scores.std():,.0f})")
    
    return pd.DataFrame(results)

# Seleccionar mejores modelos para validaci√≥n cruzada
best_models = {
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42),
    'Ridge Regression': Ridge(alpha=1.0)
}

cv_results = cross_validate_models(best_models, housing_prepared_array, housing_labels)

# Visualizar resultados
fig, ax = plt.subplots(figsize=(10, 6))
x = range(len(cv_results))
ax.bar(x, cv_results['RMSE_Media'], yerr=cv_results['RMSE_Std'],
       capsize=10, alpha=0.7, color=['green', 'blue', 'orange'])
ax.set_xlabel('Modelo')
ax.set_ylabel('RMSE')
ax.set_title('Comparaci√≥n de Modelos con Validaci√≥n Cruzada')
ax.set_xticks(x)
ax.set_xticklabels(cv_results['Modelo'], rotation=45, ha='right')
ax.grid(True, alpha=0.3)

# Agregar valores
for i, (mean, std) in enumerate(zip(cv_results['RMSE_Media'], cv_results['RMSE_Std'])):
    ax.text(i, mean + std + 1000, f'${mean:,.0f}\n¬±${std:,.0f}',
            ha='center', fontsize=10)

plt.tight_layout()
plt.show()

display(cv_results)

### Ajuste de Hiperpar√°metros

#### Hiperpar√°metros vs Par√°metros

**Par√°metros**: Los aprende el modelo (ej: pesos en regresi√≥n)
**Hiperpar√°metros**: Los defines t√∫ (ej: profundidad del √°rbol)

#### Grid Search: Fuerza bruta

Prueba todas las combinaciones:

```python
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, None],
    'min_samples_split': [2, 5, 10]
}
# Total: 3 √ó 3 √ó 3 = 27 combinaciones
```

‚úÖ Encuentra el √≥ptimo (en la grilla)
‚ùå Muy lento con muchos hiperpar√°metros

#### Random Search: M√°s eficiente

Prueba combinaciones aleatorias:

```python
param_dist = {
    'n_estimators': randint(50, 200),
    'max_depth': [5, 10, 15, None],
    'min_samples_split': randint(2, 20)
}
# Prueba n_iter combinaciones aleatorias
```

‚úÖ M√°s eficiente que Grid
‚úÖ Puede encontrar valores inesperados
‚ùå No garantiza encontrar el √≥ptimo

#### Bayesian Optimization: El m√°s inteligente

Usa resultados anteriores para elegir siguiente prueba.

‚úÖ Muy eficiente
‚úÖ Encuentra buenos valores r√°pido
‚ùå M√°s complejo de implementar
‚ùå Puede quedar atrapado en √≥ptimos locales

In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

def tune_hyperparameters(model, param_grid, X, y, cv=5, scoring='neg_mean_squared_error'):
    """Ajusta hiperpar√°metros usando GridSearchCV"""
    
    grid_search = GridSearchCV(
        model, param_grid, cv=cv,
        scoring=scoring, 
        return_train_score=True,
        n_jobs=-1
    )
    
    grid_search.fit(X, y)
    
    return grid_search

# Ajustar Random Forest
print("üîß Ajuste de Hiperpar√°metros para Random Forest")
print("=" * 50)

param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_features': ['sqrt', 'log2', None],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Usar RandomizedSearchCV para b√∫squeda m√°s eficiente
from sklearn.model_selection import RandomizedSearchCV

random_search = RandomizedSearchCV(
    RandomForestRegressor(random_state=42),
    param_distributions=param_grid_rf,
    n_iter=20,
    cv=5,
    scoring='neg_mean_squared_error',
    random_state=42,
    n_jobs=-1
)

print("  Buscando mejores hiperpar√°metros...")
random_search.fit(housing_prepared_array, housing_labels)

print(f"\n‚úÖ Mejores hiperpar√°metros encontrados:")
for param, value in random_search.best_params_.items():
    print(f"    {param}: {value}")

print(f"\nüìä Mejor RMSE: ${np.sqrt(-random_search.best_score_):,.0f}")

# Obtener el mejor modelo
best_model = random_search.best_estimator_

### An√°lisis de Importancia de Caracter√≠sticas

#### ¬øPor qu√© analizar importancia?

1. **Interpretabilidad**: Explicar a stakeholders
2. **Feature selection**: Eliminar irrelevantes
3. **Debugging**: Detectar leakage o errores
4. **Insights**: Entender el problema mejor

#### M√©todos de importancia

**1. Coeficientes (Modelos lineales)**:
- Magnitud = importancia
- Signo = direcci√≥n de relaci√≥n
- Requiere escalamiento previo

**2. Impurity decrease (√Årboles)**:
- Cu√°nto reduce la impureza cada feature
- Built-in en Random Forest
- Sesgo hacia features con m√°s valores

**3. Permutation importance**:
- Mezcla valores de una feature
- Mide ca√≠da en performance
- M√°s confiable pero m√°s lento

**4. SHAP values**:
- Teor√≠a de juegos aplicada a ML
- Importancia por muestra
- Gold standard pero complejo


In [None]:
def analyze_feature_importance(model, feature_names, top_n=20, title='An√°lisis de Importancia de Caracter√≠sticas'):
    """Analiza y visualiza la importancia de caracter√≠sticas de forma robusta."""
    # 1) Extraer importancias
    importances = None
    if hasattr(model, 'feature_importances_'):
        importances = np.asarray(model.feature_importances_, dtype=float)
    elif hasattr(model, 'coef_'):
        coef_ = np.asarray(model.coef_, dtype=float)
        # Multi-clase: promedio del valor absoluto por columna
        importances = np.mean(np.abs(coef_), axis=0) if coef_.ndim > 1 else np.abs(coef_)
    else:
        print("‚ö†Ô∏è El modelo no expone ni 'feature_importances_' ni 'coef_'.")
        return None

    # 2) Validar y alinear nombres de features
    if feature_names is None:
        feature_names = [f'Feature_{i}' for i in range(len(importances))]
    else:
        feature_names = list(feature_names)
        if len(feature_names) != len(importances):
            print(f"‚ö†Ô∏è Largo de 'feature_names' ({len(feature_names)}) ‚â† largo de importancias ({len(importances)}). "
                  "Se generar√°n nombres gen√©ricos.")
            feature_names = [f'Feature_{i}' for i in range(len(importances))]

    # 3) Armar DataFrame ordenado
    order = np.argsort(importances)[::-1]
    importance_df = pd.DataFrame({
        'Feature': [feature_names[i] for i in order],
        'Importance': importances[order]
    })

    # 4) Limitar a top_k existente para el gr√°fico de barras
    top_k = min(top_n, len(importance_df))
    top_df = importance_df.head(top_k)

    # 5) Visualizaci√≥n
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

    # Barras horizontales (usa posiciones 0..top_k-1)
    y_pos = np.arange(top_k)
    ax1.barh(y_pos, top_df['Importance'].values)
    ax1.set_yticks(y_pos)
    ax1.set_yticklabels(top_df['Feature'].values)
    ax1.set_xlabel('Importancia')
    ax1.set_title(f'Top {top_k} caracter√≠sticas')
    ax1.invert_yaxis()

    # Gr√°fico de torta (usa hasta 10 o menos si no hay tantas)
    pie_k = min(10, len(importance_df))
    pie_df = importance_df.head(pie_k)
    other_importance = importance_df.iloc[pie_k:]['Importance'].sum()

    pie_data = pie_df['Importance'].tolist()
    pie_labels = pie_df['Feature'].tolist()
    if other_importance > 0:
        pie_data.append(other_importance)
        pie_labels.append('Otras')

    # Evitar error si todo es cero
    if np.sum(pie_data) == 0:
        ax2.text(0.5, 0.5, 'Sin variaci√≥n en importancias', ha='center', va='center')
        ax2.axis('off')
    else:
        ax2.pie(pie_data, labels=pie_labels, autopct='%1.1f%%')
        ax2.set_title(f'Distribuci√≥n de Importancia (Top {pie_k})')

    plt.suptitle(title, fontsize=14)
    plt.tight_layout()
    plt.show()

    return importance_df

# Uso:
importance_df = analyze_feature_importance(best_model, feature_names, top_n=20)

if importance_df is not None:
    print("\nüìä Caracter√≠sticas m√°s importantes para la predicci√≥n:")
    display(importance_df.head(10))


---

## Evaluaci√≥n <a name="eval"></a>

### M√©tricas para regresi√≥n

#### MAE (Mean Absolute Error)

```
MAE = (1/n) √ó Œ£|y_real - y_pred|
```

**Interpretaci√≥n**: Error promedio en unidades originales

‚úÖ F√°cil de interpretar
‚úÖ Robusto a outliers (comparado con MSE)
‚ùå No penaliza mucho errores grandes

**Cu√°ndo usar**: Cuando todos los errores son igualmente malos

#### RMSE (Root Mean Squared Error)

```
RMSE = ‚àö[(1/n) √ó Œ£(y_real - y_pred)¬≤]
```

**Interpretaci√≥n**: Desviaci√≥n t√≠pica de los errores

‚úÖ Penaliza errores grandes
‚úÖ Mismas unidades que target
‚ùå Sensible a outliers

**Cu√°ndo usar**: Cuando errores grandes son proporcionalmente peores

#### R¬≤ (Coefficient of Determination)

```
R¬≤ = 1 - (SS_res / SS_tot)
```

**Interpretaci√≥n**: % de varianza explicada por el modelo

‚úÖ Normalizado [0, 1] t√≠picamente
‚úÖ F√°cil comparaci√≥n entre modelos
‚ùå Puede ser negativo (modelo peor que media)
‚ùå No dice si predicciones son buenas en absoluto

**Cu√°ndo usar**: Para comparar modelos, no para evaluar absoluto

#### MAPE (Mean Absolute Percentage Error)

```
MAPE = (100/n) √ó Œ£|((y_real - y_pred) / y_real)|
```

**Interpretaci√≥n**: Error porcentual promedio

‚úÖ Independiente de escala
‚úÖ Comparable entre problemas
‚ùå Indefinido si y_real = 0
‚ùå Sesgo hacia subestimaci√≥n

**Cu√°ndo usar**: Cuando el error relativo importa m√°s que absoluto

### ¬øQu√© m√©trica elegir?

**Depende del problema de negocio**:

- **Costos sim√©tricos**: MAE
- **Penalizar errores grandes**: RMSE
- **Comparar modelos**: R¬≤
- **Error relativo importante**: MAPE
- **Problema espec√≠fico**: M√©trica custom

**Ejemplo**: Para nuestro problema de casas, MAE tiene sentido porque queremos saber "t√≠picamente nos equivocamos por $X".

In [None]:
# Preparar conjunto de prueba
X_test = strat_test_set.drop("median_house_value", axis=1)
y_test = strat_test_set["median_house_value"].copy()

# Aplicar transformaciones
X_test_prepared = full_pipeline.transform(X_test)

# Evaluar el mejor modelo
test_predictions = best_model.predict(X_test_prepared)

test_mse = mean_squared_error(y_test, test_predictions)
test_rmse = np.sqrt(test_mse)
test_mae = mean_absolute_error(y_test, test_predictions)
test_r2 = r2_score(y_test, test_predictions)

print("üéØ Evaluaci√≥n Final en Conjunto de Prueba")
print("=" * 50)
print(f"  RMSE: ${test_rmse:,.0f}")
print(f"  MAE:  ${test_mae:,.0f}")
print(f"  R¬≤:   {test_r2:.3f}")
print(f"  MAPE: {np.mean(np.abs((y_test - test_predictions) / y_test)) * 100:.1f}%")

# Verificar si cumple con el objetivo de negocio
if test_mae < 50000:
    print("\n‚úÖ OBJETIVO CUMPLIDO: MAE < $50,000")
else:
    print(f"\n‚ùå OBJETIVO NO CUMPLIDO: MAE = ${test_mae:,.0f} > $50,000")

### An√°lisis de Residuos

#### ¬øQu√© son los residuos?

```
Residuo = Valor real - Predicci√≥n
```

Los residuos revelan d√≥nde y c√≥mo falla el modelo.

#### Gr√°ficos de diagn√≥stico

**1. Residuos vs Predicciones**:
- **Ideal**: Nube aleatoria alrededor de 0
- **Patr√≥n de embudo**: Heterocedasticidad
- **Curva**: Relaci√≥n no capturada

**2. Histograma de residuos**:
- **Ideal**: Normal centrado en 0
- **Sesgado**: Sesgo sistem√°tico
- **Bimodal**: Dos poblaciones diferentes

**3. Q-Q Plot**:
- **Ideal**: Puntos en l√≠nea diagonal
- **Colas pesadas**: Outliers
- **S-shape**: No normalidad

**4. Residuos vs Features**:
- Detecta relaciones no capturadas
- Identifica segmentos problem√°ticos

#### Patrones problem√°ticos y soluciones

**Heterocedasticidad** (varianza no constante):
- Problema: Predicciones menos confiables para valores altos
- Soluci√≥n: Transformaci√≥n log del target, weighted regression

**Autocorrelaci√≥n** (residuos correlacionados):
- Problema: Informaci√≥n temporal no capturada
- Soluci√≥n: Agregar features temporales, modelos de series de tiempo

**Outliers sistem√°ticos**:
- Problema: Modelo falla en casos espec√≠ficos
- Soluci√≥n: Modelo separado para outliers, robust regression


In [None]:
def analyze_residuals(y_true, y_pred):
    """An√°lisis completo de residuos"""
    
    residuals = y_true - y_pred
    
    fig, axes = plt.subplots(2, 3, figsize=(15, 10))
    
    # 1. Residuos vs Predicciones
    ax1 = axes[0, 0]
    ax1.scatter(y_pred, residuals, alpha=0.3, s=10)
    ax1.axhline(y=0, color='red', linestyle='--')
    ax1.set_xlabel('Valores Predichos')
    ax1.set_ylabel('Residuos')
    ax1.set_title('Residuos vs Predicciones')
    ax1.grid(True, alpha=0.3)
    
    # 2. Distribuci√≥n de residuos
    ax2 = axes[0, 1]
    ax2.hist(residuals, bins=50, edgecolor='black', alpha=0.7)
    ax2.axvline(x=0, color='red', linestyle='--')
    ax2.set_xlabel('Residuos')
    ax2.set_ylabel('Frecuencia')
    ax2.set_title('Distribuci√≥n de Residuos')
    ax2.grid(True, alpha=0.3)
    
    # 3. Q-Q Plot
    ax3 = axes[0, 2]
    from scipy import stats
    stats.probplot(residuals, dist="norm", plot=ax3)
    ax3.set_title('Q-Q Plot de Residuos')
    ax3.grid(True, alpha=0.3)
    
    # 4. Valores reales vs predichos
    ax4 = axes[1, 0]
    ax4.scatter(y_true, y_pred, alpha=0.3, s=10)
    ax4.plot([y_true.min(), y_true.max()], 
             [y_true.min(), y_true.max()], 
             'r--', lw=2)
    ax4.set_xlabel('Valores Reales')
    ax4.set_ylabel('Valores Predichos')
    ax4.set_title('Reales vs Predichos')
    ax4.grid(True, alpha=0.3)
    
    # 5. Residuos estandarizados
    ax5 = axes[1, 1]
    standardized_residuals = residuals / residuals.std()
    ax5.scatter(y_pred, standardized_residuals, alpha=0.3, s=10)
    ax5.axhline(y=0, color='red', linestyle='--')
    ax5.axhline(y=2, color='orange', linestyle='--', alpha=0.5)
    ax5.axhline(y=-2, color='orange', linestyle='--', alpha=0.5)
    ax5.set_xlabel('Valores Predichos')
    ax5.set_ylabel('Residuos Estandarizados')
    ax5.set_title('Residuos Estandarizados')
    ax5.grid(True, alpha=0.3)
    
    # 6. Estad√≠sticas de residuos
    ax6 = axes[1, 2]
    ax6.axis('off')
    
    residual_stats = f"""
    Estad√≠sticas de Residuos:
    
    ‚Ä¢ Media: ${residuals.mean():,.0f}
    ‚Ä¢ Mediana: ${residuals.median():,.0f}
    ‚Ä¢ Desv. Est.: ${residuals.std():,.0f}
    ‚Ä¢ M√≠n: ${residuals.min():,.0f}
    ‚Ä¢ M√°x: ${residuals.max():,.0f}
    ‚Ä¢ Asimetr√≠a: {stats.skew(residuals):.2f}
    ‚Ä¢ Curtosis: {stats.kurtosis(residuals):.2f}
    
    Prueba de Normalidad (Shapiro-Wilk):
    p-valor: {stats.shapiro(residuals[:5000])[1]:.4f}
    """
    
    ax6.text(0.1, 0.5, residual_stats, transform=ax6.transAxes,
            fontsize=11, verticalalignment='center',
            bbox=dict(boxstyle='round', facecolor='lightblue'))
    
    plt.suptitle('An√°lisis de Residuos del Modelo', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

analyze_residuals(y_test, test_predictions)

### Intervalos de Confianza

#### ¬øPor qu√© segmentar?

Un modelo con buen performance global puede fallar en segmentos importantes.

**Ejemplo**: 
- Global: MAE = $45,000 ‚úÖ
- Casas baratas (<$100k): MAE = $60,000 ‚ùå
- Casas caras (>$500k): MAE = $150,000 ‚ùå

#### Segmentos t√≠picos a evaluar

1. **Por rango de precio**: Bajo/Medio/Alto
2. **Por geograf√≠a**: Norte/Sur, Urbano/Rural
3. **Por tiempo**: Casas nuevas vs antiguas
4. **Por caracter√≠sticas**: Con/sin piscina
5. **Por dificultad**: Casos f√°ciles vs dif√≠ciles

### Intervalos de confianza

#### ¬øPor qu√© intervalos?

Una predicci√≥n puntual ($250,000) es menos √∫til que un intervalo ($230,000-$270,000).

#### M√©todos para intervalos

**1. Quantile Regression**:
- Predice percentiles en lugar de media
- Ej: Predice p10 y p90 para intervalo 80%

**2. Bootstrap**:
- Entrena m√∫ltiples modelos con resampling
- Intervalo desde distribuci√≥n de predicciones

**3. Conformity scores** (para Random Forest):
- Usa varianza entre √°rboles
- Aproximaci√≥n r√°pida

In [None]:
def calculate_confidence_intervals(model, X, confidence=0.95):
    """
    Calcula intervalos de confianza para las predicciones.
    Nota: Esto es una aproximaci√≥n para Random Forest.
    """
    
    if hasattr(model, 'estimators_'):
        # Para Random Forest, usar predicciones de cada √°rbol
        predictions = np.array([tree.predict(X) for tree in model.estimators_])
        mean_pred = predictions.mean(axis=0)
        std_pred = predictions.std(axis=0)
        
        # Calcular intervalos
        z_score = stats.norm.ppf((1 + confidence) / 2)
        lower_bound = mean_pred - z_score * std_pred
        upper_bound = mean_pred + z_score * std_pred
        
        return mean_pred, lower_bound, upper_bound
    else:
        print("‚ö†Ô∏è Intervalos de confianza no disponibles para este modelo")
        return None, None, None

# Calcular intervalos para algunas predicciones
sample_size = 100
sample_indices = np.random.choice(len(X_test_prepared), sample_size, replace=False)
X_sample = X_test_prepared[sample_indices]
y_sample = y_test.iloc[sample_indices]

mean_pred, lower_bound, upper_bound = calculate_confidence_intervals(
    best_model, X_sample
)

if mean_pred is not None:
    # Visualizar intervalos
    fig, ax = plt.subplots(figsize=(12, 6))
    
    indices = range(sample_size)
    ax.scatter(indices, y_sample, color='blue', label='Valor Real', alpha=0.6, s=20)
    ax.scatter(indices, mean_pred, color='red', label='Predicci√≥n', alpha=0.6, s=20)
    ax.fill_between(indices, lower_bound, upper_bound, 
                    color='gray', alpha=0.3, label='IC 95%')
    
    ax.set_xlabel('Muestra')
    ax.set_ylabel('Precio de Vivienda ($)')
    ax.set_title('Predicciones con Intervalos de Confianza del 95%')
    ax.legend()
    ax.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Calcular cobertura
    coverage = np.mean((y_sample >= lower_bound) & (y_sample <= upper_bound))
    print(f"üìä Cobertura de los intervalos de confianza: {coverage:.1%}")

---

## Conclusiones y Pr√≥ximos Pasos <a name="conclusiones"></a>

### Resumen de Resultados

In [None]:
# Crear resumen ejecutivo
summary = {
    'M√©trica': ['Mejor Modelo', 'RMSE Test', 'MAE Test', 'R¬≤ Test', 
                'Objetivo MAE', 'Estado Objetivo', 'Tiempo Total'],
    'Valor': [
        'Random Forest Optimizado',
        f'${test_rmse:,.0f}',
        f'${test_mae:,.0f}',
        f'{test_r2:.3f}',
        '$50,000',
        '‚úÖ Cumplido' if test_mae < 50000 else '‚ùå No Cumplido',
        'Aprox. 15 minutos'
    ]
}

summary_df = pd.DataFrame(summary)

print("=" * 60)
print("RESUMEN EJECUTIVO DEL PROYECTO".center(60))
print("=" * 60)
display(summary_df.style.hide(axis='index'))

print("\nüìä Conclusiones Clave:")
print("=" * 60)
conclusions = [
    "‚úÖ El modelo Random Forest supera al baseline por un margen significativo",
    "‚úÖ La ingenier√≠a de caracter√≠sticas mejor√≥ el rendimiento en ~5%",
    "‚úÖ El modelo cumple con los requisitos de negocio (MAE < $50k)",
    "‚ö†Ô∏è Existe heterocedasticidad en los residuos (varianza no constante)",
    "‚ö†Ô∏è El modelo tiende a subestimar precios muy altos (> $400k)"
]

for conclusion in conclusions:
    print(f"  {conclusion}")

### Lecciones Aprendidas

In [None]:
lessons = {
    'Fase': ['Comprensi√≥n del Negocio', 'EDA', 'Preparaci√≥n de Datos', 
             'Modelado', 'Evaluaci√≥n'],
    'Lecci√≥n Clave': [
        'Definir KPIs claros y medibles desde el inicio',
        'EDA robusto revela patrones y problemas de calidad',
        'Pipelines previenen data leakage y facilitan despliegue',
        'Random Forest maneja bien relaciones no lineales',
        'Validaci√≥n cruzada es esencial para estimar generalizaci√≥n'
    ],
    'Impacto': [
        'Alineaci√≥n con stakeholders',
        'Mejor selecci√≥n de caracter√≠sticas',
        'Reproducibilidad garantizada',
        'R¬≤ = 0.81 vs 0.65 (lineal)',
        'Confianza en m√©tricas finales'
    ]
}

lessons_df = pd.DataFrame(lessons)

print("\nüìö Lecciones Aprendidas:")
print("=" * 60)
display(lessons_df.style.hide(axis='index'))

### Pr√≥ximos Pasos

In [None]:
next_steps = """
üöÄ PR√ìXIMOS PASOS RECOMENDADOS:

1. **Mejoras al Modelo Actual**
   ‚Ä¢ Probar XGBoost y LightGBM para mejor rendimiento
   ‚Ä¢ Implementar stacking/blending de modelos
   ‚Ä¢ Agregar m√°s caracter√≠sticas (datos externos, POIs, etc.)
   
2. **Validaci√≥n Adicional**
   ‚Ä¢ Validaci√≥n temporal (train en datos antiguos, test en recientes)
   ‚Ä¢ An√°lisis de errores por segmento (geograf√≠a, rango de precio)
   ‚Ä¢ Prueba A/B contra m√©todo actual
   
3. **Preparaci√≥n para Producci√≥n**
   ‚Ä¢ Containerizar modelo con Docker
   ‚Ä¢ Crear API REST con FastAPI
   ‚Ä¢ Implementar monitoreo de drift
   ‚Ä¢ Establecer pipeline de reentrenamiento
   
4. **Consideraciones de Negocio**
   ‚Ä¢ Estimar ROI de la implementaci√≥n
   ‚Ä¢ Planificar capacitaci√≥n de usuarios
   ‚Ä¢ Definir SLAs y m√©tricas de monitoreo
   ‚Ä¢ Documentar limitaciones y casos de uso

5. **Aspectos √âticos y de Gobernanza**
   ‚Ä¢ Auditar sesgos en predicciones
   ‚Ä¢ Implementar explicabilidad (SHAP values)
   ‚Ä¢ Establecer proceso de actualizaci√≥n de datos
   ‚Ä¢ Cumplir con regulaciones de privacidad
"""

print(next_steps)

### Guardar el Modelo

In [None]:
import joblib

# Guardar el modelo y el pipeline
model_path = Path("models")
model_path.mkdir(exist_ok=True)

# Guardar modelo
joblib.dump(best_model, model_path / "best_random_forest.pkl")
joblib.dump(full_pipeline, model_path / "preprocessing_pipeline.pkl")

# Guardar metadatos
import json

metadata = {
    'model_type': 'RandomForestRegressor',
    'training_date': pd.Timestamp.now().isoformat(),
    'metrics': {
        'test_rmse': float(test_rmse),
        'test_mae': float(test_mae),
        'test_r2': float(test_r2)
    },
    'features': feature_names,
    'hyperparameters': random_search.best_params_
}

with open(model_path / "model_metadata.json", 'w') as f:
    json.dump(metadata, f, indent=2)

print("üíæ Modelo guardado exitosamente en ./models/")
print(f"   ‚Ä¢ Modelo: best_random_forest.pkl")
print(f"   ‚Ä¢ Pipeline: preprocessing_pipeline.pkl")
print(f"   ‚Ä¢ Metadata: model_metadata.json")

---

## üéì Material Adicional y Referencias

### Referencias Bibliogr√°ficas

In [None]:
references = """
üìö REFERENCIAS Y LECTURAS RECOMENDADAS:

Libros Fundamentales:
‚Ä¢ G√©ron, A. (2019). Hands-On Machine Learning with Scikit-Learn and TensorFlow (2nd ed.)
‚Ä¢ Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning
‚Ä¢ Kuhn, M., & Johnson, K. (2019). Feature Engineering and Selection

Metodolog√≠a y Procesos:
‚Ä¢ Chapman, P. et al. (2000). CRISP-DM 1.0: Step-by-step data mining guide
‚Ä¢ Provost, F., & Fawcett, T. (2013). Data Science for Business

An√°lisis Exploratorio:
‚Ä¢ Tukey, J. W. (1977). Exploratory Data Analysis
‚Ä¢ Cleveland, W. S. (1993). Visualizing Data
‚Ä¢ Wickham, H., & Grolemund, G. (2017). R for Data Science

Recursos Online:
‚Ä¢ Documentaci√≥n scikit-learn: https://scikit-learn.org/stable/
‚Ä¢ Kaggle Learn: https://www.kaggle.com/learn
‚Ä¢ Google ML Crash Course: https://developers.google.com/machine-learning/crash-course

Papers Relevantes:
‚Ä¢ Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32
‚Ä¢ Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System
"""

print(references)

### Ejercicios Propuestos

In [None]:
exercises = """
üèãÔ∏è EJERCICIOS PARA PR√ÅCTICA ADICIONAL:

1. **Ingenier√≠a de Caracter√≠sticas Avanzada**
   ‚Ä¢ Crear caracter√≠sticas polin√≥micas de grado 2
   ‚Ä¢ Implementar target encoding para ocean_proximity
   ‚Ä¢ Agregar clustering espacial (K-means en lat/long)

2. **Optimizaci√≥n de Hiperpar√°metros**
   ‚Ä¢ Usar Optuna o Hyperopt para optimizaci√≥n bayesiana
   ‚Ä¢ Implementar early stopping en Gradient Boosting
   ‚Ä¢ Probar diferentes m√©tricas de optimizaci√≥n

3. **Validaci√≥n Robusta**
   ‚Ä¢ Implementar validaci√≥n cruzada anidada
   ‚Ä¢ Crear conjunto de validaci√≥n temporal
   ‚Ä¢ Analizar estabilidad del modelo con bootstrap

4. **Interpretabilidad**
   ‚Ä¢ Calcular SHAP values para explicar predicciones
   ‚Ä¢ Crear Partial Dependence Plots
   ‚Ä¢ Implementar LIME para casos individuales

5. **Despliegue**
   ‚Ä¢ Crear API REST con Flask/FastAPI
   ‚Ä¢ Dockerizar la aplicaci√≥n
   ‚Ä¢ Implementar pruebas unitarias

6. **Monitoreo**
   ‚Ä¢ Detectar data drift con pruebas estad√≠sticas
   ‚Ä¢ Implementar alertas de degradaci√≥n de modelo
   ‚Ä¢ Crear dashboard de monitoreo con Streamlit
"""

print(exercises)

---

## üéâ ¬°Felicitaciones!

Has completado exitosamente un proyecto integral de Machine Learning siguiendo las mejores pr√°cticas de la industria. 

**Recuerda los principios clave:**
- üìä **EDA exhaustivo** antes de modelar
- üîÑ **Iteraci√≥n constante** siguiendo CRISP-DM  
- üõ°Ô∏è **Validaci√≥n rigurosa** para evitar overfitting
- üìù **Documentaci√≥n clara** para reproducibilidad
- üéØ **Enfoque en el negocio**, no solo en m√©tricas t√©cnicas

¬°Ahora est√°s listo para aplicar estos conocimientos en proyectos reales! üöÄ

---

**Fin del Notebook**

*√öltima actualizaci√≥n: 2025*  
*Autor: Adaptado y mejorado para el curso de Machine Learning*