# Regresi√≥n Lineal con M√∫ltiples Variables

## Objetivos de Aprendizaje
En este notebook aprender√°s:
- Extender regresi√≥n lineal a m√∫ltiples features
- Implementar vectorizaci√≥n con NumPy para eficiencia
- Desarrollar gradient descent para m√∫ltiples variables
- Aplicar el modelo a predicci√≥n de precios de casas

## Problema de Negocio
**Escenario**: Eres un agente inmobiliario que necesita estimar precios de casas bas√°ndose en m√∫ltiples caracter√≠sticas:
- **Tama√±o** de la casa (pies cuadrados)
- **N√∫mero de habitaciones**
- **N√∫mero de pisos**
- **Edad** de la casa (a√±os)

**Objetivo**: Crear un modelo que prediga el precio usando todas estas caracter√≠sticas simult√°neamente.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import copy
import math

# Configuraci√≥n
plt.style.use('default')
np.set_printoptions(precision=2)

print("Librer√≠as importadas correctamente")
print("Listo para regresi√≥n multivariable")

## 1. Dataset: Precios de Casas

### 1.1 Cargar y Explorar los Datos

In [None]:
# Funci√≥n para cargar datos de casas
def cargar_datos_casas():
    """
    Carga dataset de precios de casas con m√∫ltiples features
    
    Returns:
        X_train: Matriz de features (m, n)
        y_train: Vector de precios (m,)
        feature_names: Nombres de las caracter√≠sticas
    """
    # Dataset real de casas
    # Cada fila: [tama√±o_sqft, habitaciones, pisos, edad]
    X_train = np.array([
        [2104, 5, 1, 45],    # Casa 1
        [1416, 3, 2, 40],    # Casa 2  
        [852,  2, 1, 35],    # Casa 3
        [1940, 4, 1, 10],    # Casa 4
        [1539, 3, 2, 25],    # Casa 5
        [3000, 4, 2, 8],     # Casa 6
        [1230, 3, 1, 15],    # Casa 7
        [2145, 4, 1, 12],    # Casa 8
        [1736, 3, 2, 30],    # Casa 9
        [1000, 2, 1, 50]     # Casa 10
    ])
    
    # Precios correspondientes (en miles de d√≥lares)
    y_train = np.array([460, 232, 178, 500, 315, 740, 285, 510, 390, 180])
    
    # Nombres de features
    feature_names = ['Tama√±o (sqft)', 'Habitaciones', 'Pisos', 'Edad (a√±os)']
    
    return X_train, y_train, feature_names

# Cargar datos
X_train, y_train, feature_names = cargar_datos_casas()

print(f"Dataset de casas cargado:")
print(f"  ‚Ä¢ N√∫mero de casas (m): {X_train.shape[0]}")
print(f"  ‚Ä¢ N√∫mero de features (n): {X_train.shape[1]}")
print(f"  ‚Ä¢ Shape de X_train: {X_train.shape}")
print(f"  ‚Ä¢ Shape de y_train: {y_train.shape}")

print(f"\nPrimeras 5 casas:")
print(f"{'':>5} {'Tama√±o':>8} {'Habitaciones':>12} {'Pisos':>6} {'Edad':>5} {'Precio':>8}")
print("-" * 50)
for i in range(5):
    print(f"Casa {i+1:1d}: {X_train[i,0]:>6.0f} {X_train[i,1]:>10.0f} {X_train[i,2]:>8.0f} {X_train[i,3]:>6.0f} ${y_train[i]:>6.0f}k")

### 1.2 Visualizaci√≥n del Dataset

In [None]:
# Visualizar cada feature vs precio
plt.figure(figsize=(16, 4))

for i in range(len(feature_names)):
    plt.subplot(1, 4, i+1)
    plt.scatter(X_train[:, i], y_train, alpha=0.7, s=50)
    plt.xlabel(feature_names[i])
    plt.ylabel('Precio (miles $)' if i == 0 else '')
    plt.title(f'{feature_names[i]} vs Precio')
    plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("Observaciones:")
print("  ‚Ä¢ Tama√±o: Relaci√≥n positiva clara - casas m√°s grandes cuestan m√°s")
print("  ‚Ä¢ Habitaciones: Tendencia positiva - m√°s habitaciones, mayor precio")
print("  ‚Ä¢ Pisos: Relaci√≥n menos clara, pero casas de 2 pisos tienden a costar m√°s")
print("  ‚Ä¢ Edad: Relaci√≥n negativa - casas m√°s nuevas cuestan m√°s")

## 2. Modelo de Regresi√≥n Multivariable

### 2.1 Extensi√≥n del Modelo Lineal

**Modelo con una variable**: $f_{w,b}(x) = wx + b$

**Modelo con m√∫ltiples variables**: 
$$f_{\mathbf{w},b}(\mathbf{x}) = w_0x_0 + w_1x_1 + w_2x_2 + w_3x_3 + b$$

**En notaci√≥n vectorial**:
$$f_{\mathbf{w},b}(\mathbf{x}) = \mathbf{w} \cdot \mathbf{x} + b$$

Donde:
- **x**: Vector de features [tama√±o, habitaciones, pisos, edad]
- **w**: Vector de pesos [w‚ÇÄ, w‚ÇÅ, w‚ÇÇ, w‚ÇÉ]
- **b**: T√©rmino de sesgo (bias)
- **¬∑**: Producto punto

In [None]:
# Implementaci√≥n de predicci√≥n multivariable

def predecir_una_casa_loop(x, w, b):
    """
    Predicci√≥n para una casa usando loop (versi√≥n educativa)
    
    Args:
        x (ndarray): Vector de features para una casa (n,)
        w (ndarray): Vector de pesos (n,)
        b (scalar): Bias
    
    Returns:
        prediction (scalar): Precio predicho
    """
    n = x.shape[0]
    prediccion = 0
    
    # Sumar cada w_i * x_i
    for i in range(n):
        prediccion += w[i] * x[i]
    
    # A√±adir bias
    prediccion += b
    
    return prediccion

def predecir_una_casa_vectorizada(x, w, b):
    """
    Predicci√≥n vectorizada (versi√≥n eficiente)
    
    Args:
        x (ndarray): Vector de features (n,)
        w (ndarray): Vector de pesos (n,)
        b (scalar): Bias
        
    Returns:
        prediction (scalar): Precio predicho
    """
    return np.dot(x, w) + b

# Probar ambas implementaciones
# Par√°metros ejemplo (valores cercanos a √≥ptimos)
w_inicial = np.array([0.39, 18.75, -53.36, -26.42])
b_inicial = 785.18

# Tomar primera casa como ejemplo
x_ejemplo = X_train[0]  # [2104, 5, 1, 45]
precio_real = y_train[0]  # 460

print(f"Casa ejemplo: {x_ejemplo}")
print(f"Precio real: ${precio_real}k")
print(f"\nPredicciones:")

# Predicci√≥n con loop
pred_loop = predecir_una_casa_loop(x_ejemplo, w_inicial, b_inicial)
print(f"  Con loop: ${pred_loop:.1f}k")

# Predicci√≥n vectorizada
pred_vectorizada = predecir_una_casa_vectorizada(x_ejemplo, w_inicial, b_inicial)
print(f"  Vectorizada: ${pred_vectorizada:.1f}k")
print(f"  ¬øSon iguales? {np.isclose(pred_loop, pred_vectorizada)}")

print(f"\nDesglose de la predicci√≥n vectorizada:")
for i, (feature, peso, valor) in enumerate(zip(feature_names, w_inicial, x_ejemplo)):
    contribucion = peso * valor
    print(f"  {feature}: {peso:.2f} √ó {valor} = {contribucion:.1f}")
print(f"  Bias: {b_inicial:.1f}")
print(f"  Total: {pred_vectorizada:.1f}")

### 2.2 Comparaci√≥n de Velocidad: Loop vs Vectorizaci√≥n

In [None]:
import time

# Crear dataset grande para comparar velocidad
np.random.seed(42)
n_casas_grandes = 100000
X_grande = np.random.rand(n_casas_grandes, 4) * 1000  # Features aleatorias
w_test = np.array([0.5, 10, -20, -15])
b_test = 100

print(f"Comparaci√≥n de velocidad con {n_casas_grandes:,} casas:")
print("-" * 50)

# M√©todo con loop
start_time = time.time()
predicciones_loop = []
for i in range(n_casas_grandes):
    pred = predecir_una_casa_loop(X_grande[i], w_test, b_test)
    predicciones_loop.append(pred)
tiempo_loop = time.time() - start_time

# M√©todo vectorizado
start_time = time.time()
predicciones_vectorizadas = X_grande @ w_test + b_test  # @ es equivalente a np.dot
tiempo_vectorizado = time.time() - start_time

# Verificar que son iguales
predicciones_loop = np.array(predicciones_loop)
son_iguales = np.allclose(predicciones_loop, predicciones_vectorizadas)

print(f"Tiempo con loop:      {tiempo_loop:.4f} segundos")
print(f"Tiempo vectorizado:   {tiempo_vectorizado:.4f} segundos")
print(f"Speedup:              {tiempo_loop/tiempo_vectorizado:.1f}x m√°s r√°pido")
print(f"Resultados iguales:   {son_iguales}")

print(f"\nConclusi√≥n: La vectorizaci√≥n es {tiempo_loop/tiempo_vectorizado:.0f}x m√°s r√°pida")
print("Por eso siempre usaremos NumPy en machine learning")

# Limpiar memoria
del X_grande, predicciones_loop, predicciones_vectorizadas

## 3. Funci√≥n de Costo para M√∫ltiples Variables

La funci√≥n de costo se extiende naturalmente:

$$J(\mathbf{w},b) = \frac{1}{2m} \sum_{i=0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})^2$$

Donde $f_{\mathbf{w},b}(\mathbf{x}^{(i)}) = \mathbf{w} \cdot \mathbf{x}^{(i)} + b$

In [None]:
# Implementaci√≥n de funci√≥n de costo multivariable

def calcular_costo_multivariable(X, y, w, b):
    """
    Calcula la funci√≥n de costo para regresi√≥n lineal multivariable
    
    Args:
        X (ndarray): Matriz de features (m, n)
        y (ndarray): Vector de targets (m,)
        w (ndarray): Vector de pesos (n,)
        b (scalar): Bias
        
    Returns:
        costo (scalar): Valor de la funci√≥n de costo
    """
    m = X.shape[0]
    costo = 0.0
    
    for i in range(m):
        # Predicci√≥n para la casa i usando producto punto
        f_wb_i = np.dot(X[i], w) + b
        
        # Error cuadr√°tico
        costo += (f_wb_i - y[i]) ** 2
    
    costo = costo / (2 * m)
    return costo

# Probar funci√≥n de costo
costo_inicial = calcular_costo_multivariable(X_train, y_train, w_inicial, b_inicial)
print(f"Costo con par√°metros iniciales: {costo_inicial:.3f}")

# Probar con diferentes par√°metros
parametros_prueba = [
    (np.zeros(4), 0, "Ceros"),
    (np.ones(4), 0, "Unos"),
    (w_inicial, b_inicial, "Inicial (cerca del √≥ptimo)"),
    (np.array([1, 0, 0, 0]), 100, "Solo tama√±o")
]

print(f"\nComparaci√≥n de diferentes par√°metros:")
print(f"{'Descripci√≥n':<25} {'Costo':<10}")
print("-" * 35)

for w_test, b_test, desc in parametros_prueba:
    costo = calcular_costo_multivariable(X_train, y_train, w_test, b_test)
    print(f"{desc:<25} {costo:<10.3f}")

print(f"\nMenor costo indica mejor ajuste a los datos")

## 4. Gradient Descent para M√∫ltiples Variables

### 4.1 Gradientes (Derivadas Parciales)

Para m√∫ltiples variables, necesitamos calcular gradientes para cada par√°metro:

$$\frac{\partial J(\mathbf{w},b)}{\partial w_j} = \frac{1}{m} \sum_{i=0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_j^{(i)}$$

$$\frac{\partial J(\mathbf{w},b)}{\partial b} = \frac{1}{m} \sum_{i=0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})$$

**Algoritmo de actualizaci√≥n**:
$$w_j = w_j - \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j}$$
$$b = b - \alpha \frac{\partial J(\mathbf{w},b)}{\partial b}$$

In [None]:
# Implementaci√≥n de gradientes multivariables

def calcular_gradientes_multivariable(X, y, w, b):
    """
    Calcula gradientes para regresi√≥n lineal multivariable
    
    Args:
        X (ndarray): Matriz de features (m, n)
        y (ndarray): Vector de targets (m,)
        w (ndarray): Vector de pesos (n,)
        b (scalar): Bias
        
    Returns:
        dj_dw (ndarray): Gradientes respecto a w (n,)
        dj_db (scalar): Gradiente respecto a b
    """
    m, n = X.shape  # m ejemplos, n features
    
    # Inicializar gradientes
    dj_dw = np.zeros((n,))
    dj_db = 0.
    
    for i in range(m):
        # Error para el ejemplo i
        error = (np.dot(X[i], w) + b) - y[i]
        
        # Gradientes para cada w_j
        for j in range(n):
            dj_dw[j] += error * X[i, j]
        
        # Gradiente para b
        dj_db += error
    
    # Promediar gradientes
    dj_dw = dj_dw / m
    dj_db = dj_db / m
    
    return dj_dw, dj_db

# Probar c√°lculo de gradientes
dj_dw_test, dj_db_test = calcular_gradientes_multivariable(X_train, y_train, w_inicial, b_inicial)

print(f"Gradientes con par√°metros iniciales:")
print(f"dJ/db: {dj_db_test:.6f}")
print(f"dJ/dw: {dj_dw_test}")

print(f"\nInterpretaci√≥n de gradientes:")
for i, (feature, grad) in enumerate(zip(feature_names, dj_dw_test)):
    direccion = "aumentar" if grad < 0 else "disminuir"
    print(f"  {feature}: {grad:.6f} ‚Üí {direccion} w[{i}]")

direccion_b = "aumentar" if dj_db_test < 0 else "disminuir"
print(f"  Bias: {dj_db_test:.6f} ‚Üí {direccion_b} b")

### 4.2 Implementaci√≥n Completa de Gradient Descent

In [None]:
# Gradient descent completo para m√∫ltiples variables

def gradient_descent_multivariable(X, y, w_inicial, b_inicial, 
                                  calcular_costo_func, calcular_gradientes_func,
                                  alpha, num_iteraciones):
    """
    Implementa gradient descent para regresi√≥n lineal multivariable
    
    Args:
        X (ndarray): Matriz de features (m, n)
        y (ndarray): Vector de targets (m,)
        w_inicial (ndarray): Valores iniciales de w (n,)
        b_inicial (scalar): Valor inicial de b
        calcular_costo_func: Funci√≥n para calcular costo
        calcular_gradientes_func: Funci√≥n para calcular gradientes
        alpha (float): Learning rate
        num_iteraciones (int): N√∫mero de iteraciones
        
    Returns:
        w (ndarray): Par√°metros w optimizados
        b (scalar): Par√°metro b optimizado
        historial_costos (list): Historia del costo
    """
    # Inicializar par√°metros (evitar modificar originales)
    w = copy.deepcopy(w_inicial)
    b = b_inicial
    
    # Historia para tracking
    historial_costos = []
    
    for i in range(num_iteraciones):
        # Calcular gradientes
        dj_dw, dj_db = calcular_gradientes_func(X, y, w, b)
        
        # Actualizar par√°metros
        w = w - alpha * dj_dw
        b = b - alpha * dj_db
        
        # Guardar costo
        if i < 100000:  # Evitar usar mucha memoria
            costo = calcular_costo_func(X, y, w, b)
            historial_costos.append(costo)
        
        # Imprimir progreso
        if i % math.ceil(num_iteraciones / 10) == 0:
            costo_actual = calcular_costo_func(X, y, w, b)
            print(f"Iteraci√≥n {i:4d}: Costo = {costo_actual:8.2f}")
    
    return w, b, historial_costos

# Ejecutar gradient descent
print("Entrenando modelo de regresi√≥n multivariable...")
print("=" * 50)

# Par√°metros de entrenamiento
w_inicial = np.zeros(4)  # Empezar desde cero
b_inicial = 0.
learning_rate = 5.0e-7  # Learning rate peque√±o para datos no normalizados
iteraciones = 1000

# Entrenar modelo
w_final, b_final, hist_costos = gradient_descent_multivariable(
    X_train, y_train, w_inicial, b_inicial,
    calcular_costo_multivariable, calcular_gradientes_multivariable,
    learning_rate, iteraciones
)

print(f"\nEntrenamiento completado!")
print(f"Par√°metros finales:")
for i, (feature, peso) in enumerate(zip(feature_names, w_final)):
    print(f"  w[{i}] ({feature}): {peso:.4f}")
print(f"  b (bias): {b_final:.4f}")
print(f"Costo final: {hist_costos[-1]:.2f}")

### 4.3 Visualizaci√≥n del Entrenamiento

In [None]:
# Visualizar proceso de entrenamiento
plt.figure(figsize=(12, 5))

# Subplot 1: Evoluci√≥n del costo
plt.subplot(1, 2, 1)
plt.plot(hist_costos, 'b-', linewidth=2)
plt.title('Evoluci√≥n del Costo Durante el Entrenamiento')
plt.xlabel('Iteraciones')
plt.ylabel('Costo J(w,b)')
plt.grid(True, alpha=0.3)

# Marcar costo final
plt.plot(len(hist_costos)-1, hist_costos[-1], 'ro', markersize=8)
plt.annotate(f'Final: {hist_costos[-1]:.1f}', 
             xy=(len(hist_costos)-1, hist_costos[-1]),
             xytext=(len(hist_costos)*0.6, hist_costos[-1]*1.2),
             arrowprops=dict(arrowstyle='->', color='red'))

# Subplot 2: Par√°metros finales
plt.subplot(1, 2, 2)
colores = ['skyblue', 'lightgreen', 'lightcoral', 'lightsalmon']
barras = plt.bar(range(len(feature_names)), w_final, color=colores, alpha=0.7, edgecolor='black')
plt.title('Pesos Finales por Feature')
plt.xlabel('Features')
plt.ylabel('Peso w_j')
plt.xticks(range(len(feature_names)), [f.replace(' ', '\n').replace('(', '\n(') for f in feature_names])
plt.grid(True, alpha=0.3, axis='y')

# A√±adir valores en las barras
for bar, peso in zip(barras, w_final):
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + (0.01 if height >= 0 else -0.03),
             f'{peso:.3f}', ha='center', va='bottom' if height >= 0 else 'top')

plt.tight_layout()
plt.show()

print(f"An√°lisis del entrenamiento:")
print(f"  ‚Ä¢ El costo disminuy√≥ de {hist_costos[0]:.1f} a {hist_costos[-1]:.1f}")
print(f"  ‚Ä¢ Reducci√≥n: {((hist_costos[0] - hist_costos[-1])/hist_costos[0]*100):.1f}%")

print(f"\nInterpretaci√≥n de pesos:")
interpretaciones = [
    "Cada pie cuadrado adicional aumenta el precio",
    "Cada habitaci√≥n adicional aumenta el precio", 
    "Pisos adicionales tienen impacto negativo (¬øsorprendente?)",
    "Cada a√±o de edad reduce el precio (casas nuevas valen m√°s)"
]

for feature, peso, interp in zip(feature_names, w_final, interpretaciones):
    signo = "‚ÜóÔ∏è" if peso > 0 else "‚ÜòÔ∏è"
    print(f"  {signo} {feature}: {interp}")

## 5. Evaluaci√≥n y Predicciones del Modelo

### 5.1 Predicciones en el Conjunto de Entrenamiento

In [None]:
# Hacer predicciones para todas las casas del entrenamiento
print(f"Predicciones vs Valores Reales:")
print(f"=" * 50)
print(f"{'Casa':<6} {'Tama√±o':<8} {'Habitac.':<9} {'Pisos':<6} {'Edad':<5} {'Pred.':<8} {'Real':<8} {'Error':<8}")
print("-" * 65)

errores_absolutos = []
for i in range(len(X_train)):
    # Predicci√≥n
    prediccion = np.dot(X_train[i], w_final) + b_final
    error = prediccion - y_train[i]
    error_abs = abs(error)
    errores_absolutos.append(error_abs)
    
    print(f"Casa {i+1:<2d} {X_train[i,0]:<8.0f} {X_train[i,1]:<9.0f} {X_train[i,2]:<6.0f} "
          f"{X_train[i,3]:<5.0f} ${prediccion:<7.0f} ${y_train[i]:<7.0f} ${error:<+7.0f}")

# Estad√≠sticas de error
mae = np.mean(errores_absolutos)  # Error Absoluto Medio
rmse = np.sqrt(np.mean([e**2 for e in [pred - real for pred, real in 
                       zip([np.dot(X_train[i], w_final) + b_final for i in range(len(X_train))], y_train)]]))

print(f"\nEstad√≠sticas de error:")
print(f"  Error Absoluto Medio (MAE): ${mae:.1f}k")
print(f"  Ra√≠z Error Cuadr√°tico Medio (RMSE): ${rmse:.1f}k")
print(f"  Error m√°ximo: ${max(errores_absolutos):.1f}k")

# Calcular R¬≤
predicciones_todas = [np.dot(X_train[i], w_final) + b_final for i in range(len(X_train))]
ss_res = sum([(pred - real)**2 for pred, real in zip(predicciones_todas, y_train)])
ss_tot = sum([(real - np.mean(y_train))**2 for real in y_train])
r2 = 1 - (ss_res / ss_tot)

print(f"  Coeficiente R¬≤: {r2:.3f} ({r2*100:.1f}% de varianza explicada)")

### 5.2 Predicciones para Casas Nuevas

In [None]:
# Predicciones para casas hipot√©ticas
casas_nuevas = [
    ([1200, 3, 1, 15], "Casa familiar t√≠pica"),
    ([2500, 4, 2, 5], "Casa grande y nueva"),
    ([800, 2, 1, 30], "Casa peque√±a, algo vieja"),
    ([3500, 5, 2, 2], "Mansi√≥n nueva"),
    ([1800, 3, 2, 20], "Casa mediana"),
]

print(f"Predicciones para Casas Nuevas:")
print(f"=" * 50)
print(f"{'Descripci√≥n':<20} {'Features':<20} {'Precio Predicho':<15}")
print("-" * 60)

for features, descripcion in casas_nuevas:
    x_nueva = np.array(features)
    precio_predicho = np.dot(x_nueva, w_final) + b_final
    
    features_str = f"{features[0]}sqft,{features[1]}bed,{features[2]}fl,{features[3]}yrs"
    print(f"{descripcion:<20} {features_str:<20} ${precio_predicho:<14,.0f}")

print(f"\nAn√°lisis detallado de una predicci√≥n:")
x_ejemplo = np.array([1200, 3, 1, 15])
precio = np.dot(x_ejemplo, w_final) + b_final

print(f"Casa: 1200 sqft, 3 habitaciones, 1 piso, 15 a√±os")
print(f"Desglose del c√°lculo:")
total_features = 0
for i, (feature, peso, valor) in enumerate(zip(feature_names, w_final, x_ejemplo)):
    contribucion = peso * valor
    total_features += contribucion
    print(f"  {feature}: {peso:.4f} √ó {valor} = ${contribucion:+.0f}")
    
print(f"  Bias: {b_final:+.0f}")
print(f"  Total: ${precio:.0f}")

# An√°lisis de sensibilidad
print(f"\nAn√°lisis de sensibilidad (cambio en precio por unidad):")
cambios_unidad = [1, 1, 1, 1]  # 1 sqft, 1 habitaci√≥n, 1 piso, 1 a√±o
for feature, peso, cambio in zip(feature_names, w_final, cambios_unidad):
    impacto = peso * cambio
    print(f"  +{cambio} {feature}: ${impacto:+.0f}")

### 5.3 Visualizaci√≥n de Predicciones vs Realidad

In [None]:
# Crear visualizaciones de evaluaci√≥n
predicciones_entrenamiento = [np.dot(X_train[i], w_final) + b_final for i in range(len(X_train))]
residuos = [pred - real for pred, real in zip(predicciones_entrenamiento, y_train)]

plt.figure(figsize=(15, 5))

# Subplot 1: Predicciones vs Valores Reales
plt.subplot(1, 3, 1)
plt.scatter(predicciones_entrenamiento, y_train, alpha=0.7, s=50)

# L√≠nea diagonal perfecta
min_val = min(min(predicciones_entrenamiento), min(y_train))
max_val = max(max(predicciones_entrenamiento), max(y_train))
plt.plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, 
         label='Predicci√≥n perfecta')

plt.title('Predicciones vs Valores Reales')
plt.xlabel('Predicciones ($k)')
plt.ylabel('Valores Reales ($k)')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Residuos
plt.subplot(1, 3, 2)
plt.scatter(predicciones_entrenamiento, residuos, alpha=0.7, s=50)
plt.axhline(y=0, color='red', linestyle='--', linewidth=2)
plt.title('Residuos vs Predicciones')
plt.xlabel('Predicciones ($k)')
plt.ylabel('Residuos ($k)')
plt.grid(True, alpha=0.3)

# Subplot 3: Histograma de residuos
plt.subplot(1, 3, 3)
plt.hist(residuos, bins=8, alpha=0.7, edgecolor='black')
plt.axvline(x=0, color='red', linestyle='--', linewidth=2)
plt.title('Distribuci√≥n de Residuos')
plt.xlabel('Residuos ($k)')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"An√°lisis de residuos:")
print(f"  Media de residuos: ${np.mean(residuos):.1f}k (deber√≠a ser ~0)")
print(f"  Desviaci√≥n est√°ndar: ${np.std(residuos):.1f}k")
print(f"  Residuo m√°ximo (absoluto): ${max([abs(r) for r in residuos]):.1f}k")

# An√°lisis de features m√°s importantes
importancia_relativa = [abs(w) for w in w_final]
feature_mas_importante = feature_names[np.argmax(importancia_relativa)]
print(f"\nFeature m√°s importante: {feature_mas_importante}")
print(f"Ranking de importancia (por magnitud de peso):")
indices_ordenados = np.argsort(importancia_relativa)[::-1]
for i, idx in enumerate(indices_ordenados):
    print(f"  {i+1}. {feature_names[idx]}: |{w_final[idx]:.4f}|")

## 6. Ejercicios Pr√°cticos

### Ejercicio 1: Analizar el Impacto de Features

In [None]:
# Ejercicio 1: Analizar qu√© pasar√≠a si modificamos una feature

def analizar_impacto_feature(casa_base, indice_feature, cambios, w, b):
    """
    Analiza c√≥mo cambia el precio al modificar una feature espec√≠fica
    
    Args:
        casa_base: Features de la casa base
        indice_feature: √çndice de la feature a modificar
        cambios: Lista de cambios a aplicar
        w, b: Par√°metros del modelo
    """
    casa_base = np.array(casa_base)
    precio_base = np.dot(casa_base, w) + b
    
    print(f"An√°lisis de impacto: {feature_names[indice_feature]}")
    print(f"Casa base: {casa_base} ‚Üí ${precio_base:.0f}k")
    print(f"\n{'Cambio':<10} {'Nueva Feature':<15} {'Nuevo Precio':<12} {'Diferencia':<12}")
    print("-" * 50)
    
    for cambio in cambios:
        casa_modificada = casa_base.copy()
        casa_modificada[indice_feature] += cambio
        precio_nuevo = np.dot(casa_modificada, w) + b
        diferencia = precio_nuevo - precio_base
        
        print(f"{cambio:+<10} {casa_modificada[indice_feature]:<15.0f} "
              f"${precio_nuevo:<11.0f} ${diferencia:+<11.0f}")

# Casa ejemplo: casa mediana
casa_ejemplo = [1500, 3, 1, 20]  # 1500 sqft, 3 habitaciones, 1 piso, 20 a√±os

print("Ejercicio 1: An√°lisis de Impacto de Features")
print("=" * 50)

# Analizar impacto del tama√±o
cambios_tama√±o = [-500, -200, 200, 500, 1000]
analizar_impacto_feature(casa_ejemplo, 0, cambios_tama√±o, w_final, b_final)

print(f"\n" + "="*50)

# Analizar impacto de habitaciones
cambios_habitaciones = [-1, 1, 2]
analizar_impacto_feature(casa_ejemplo, 1, cambios_habitaciones, w_final, b_final)

print(f"\nConclusi√≥n: El tama√±o tiene el mayor impacto en el precio")
print(f"Cada 100 sqft adicionales ‚Üí ${w_final[0]*100:+.0f}k en precio")

### Ejercicio 2: Comparar Modelos con Diferentes Features

In [None]:
# Ejercicio 2: Entrenar modelos usando solo subconjuntos de features

def entrenar_modelo_subset(X, y, indices_features, nombre_modelo):
    """
    Entrena modelo usando solo un subconjunto de features
    """
    X_subset = X[:, indices_features]
    n_features = X_subset.shape[1]
    
    # Par√°metros iniciales
    w_init = np.zeros(n_features)
    b_init = 0.
    
    # Entrenar (versi√≥n simplificada, menos iteraciones)
    w, b, _ = gradient_descent_multivariable(
        X_subset, y, w_init, b_init,
        calcular_costo_multivariable, calcular_gradientes_multivariable,
        5.0e-7, 300  # Menos iteraciones para el ejercicio
    )
    
    # Calcular m√©tricas
    predicciones = [np.dot(X_subset[i], w) + b for i in range(len(X_subset))]
    mse = np.mean([(pred - real)**2 for pred, real in zip(predicciones, y)])
    mae = np.mean([abs(pred - real) for pred, real in zip(predicciones, y)])
    
    return {
        'nombre': nombre_modelo,
        'features_usadas': [feature_names[i] for i in indices_features],
        'w': w,
        'b': b,
        'mse': mse,
        'mae': mae,
        'predicciones': predicciones
    }

print("Ejercicio 2: Comparaci√≥n de Modelos con Diferentes Features")
print("=" * 65)

# Definir diferentes combinaciones de features
modelos_a_probar = [
    ([0], "Solo Tama√±o"),
    ([0, 1], "Tama√±o + Habitaciones"),
    ([0, 3], "Tama√±o + Edad"),
    ([0, 1, 3], "Tama√±o + Habitaciones + Edad"),
    ([0, 1, 2, 3], "Todas las Features")
]

resultados = []

for indices, nombre in modelos_a_probar:
    print(f"\nEntrenando: {nombre}")
    resultado = entrenar_modelo_subset(X_train, y_train, indices, nombre)
    resultados.append(resultado)

# Comparar resultados
print(f"\n\nComparaci√≥n de Modelos:")
print(f"{'Modelo':<25} {'MSE':<8} {'MAE':<8} {'Features':<30}")
print("-" * 75)

for resultado in resultados:
    features_str = ", ".join([f.split()[0] for f in resultado['features_usadas']])
    print(f"{resultado['nombre']:<25} {resultado['mse']:<8.1f} {resultado['mae']:<8.1f} {features_str:<30}")

# Encontrar el mejor modelo
mejor_modelo = min(resultados, key=lambda x: x['mse'])
print(f"\nMejor modelo por MSE: {mejor_modelo['nombre']}")
print(f"Features: {', '.join(mejor_modelo['features_usadas'])}")

# An√°lisis de complejidad vs rendimiento
print(f"\nAn√°lisis:")
print(f"  ‚Ä¢ Usar solo tama√±o da resultados razonables")
print(f"  ‚Ä¢ A√±adir m√°s features mejora el modelo hasta cierto punto")
print(f"  ‚Ä¢ El modelo completo tiene el mejor rendimiento")
print(f"  ‚Ä¢ Cada feature adicional aporta informaci√≥n valiosa")

## Resumen y Conceptos Clave

### ‚úÖ Lo que has aprendido:

#### 1. **Extensi√≥n a M√∫ltiples Variables**:
   - **Modelo**: $f_{\mathbf{w},b}(\mathbf{x}) = \mathbf{w} \cdot \mathbf{x} + b$
   - **Vectorizaci√≥n**: Uso eficiente de NumPy para operaciones matriciales
   - **M√∫ltiples features**: Tama√±o, habitaciones, pisos, edad

#### 2. **Implementaci√≥n Vectorizada**:
   - **Predicci√≥n**: `np.dot(x, w) + b`
   - **Speedup**: 100x-1000x m√°s r√°pido que loops
   - **Escalabilidad**: Maneja datasets grandes eficientemente

#### 3. **Funci√≥n de Costo Multivariable**:
   - **F√≥rmula**: Misma estructura, pero con vectores
   - **Implementaci√≥n**: Loop sobre ejemplos, producto punto por predicci√≥n
   - **Interpretaci√≥n**: Mide ajuste global del modelo

#### 4. **Gradient Descent Multivariable**:
   - **Gradientes**: Un gradiente por cada par√°metro w_j
   - **Actualizaci√≥n simult√°nea**: Todos los par√°metros se actualizan juntos
   - **Convergencia**: Encuentra m√≠nimo global en funci√≥n convexa

#### 5. **An√°lisis de Features**:
   - **Importancia relativa**: Magnitud de pesos indica importancia
   - **Interpretaci√≥n**: Cada peso representa impacto marginal
   - **Sensibilidad**: An√°lisis de cambios en features individuales

### üè† Aplicaci√≥n Pr√°ctica - Precios de Casas:
- **Modelo final**: 4 features ‚Üí predicci√≥n de precio
- **Rendimiento**: R¬≤ = {r2:.3f} (explicaci√≥n de varianza)
- **Feature m√°s importante**: Tama√±o de la casa
- **Aplicaci√≥n**: Valoraci√≥n autom√°tica de propiedades

### üöÄ Pr√≥ximos pasos:
- **Feature Scaling**: Normalizaci√≥n para mejor convergencia
- **Learning Rate**: Optimizaci√≥n de hiperpar√°metros
- **Regularizaci√≥n**: Control de overfitting
- **Feature Engineering**: Creaci√≥n de features m√°s informativas

### üí° Puntos clave para recordar:
1. **Vectorizaci√≥n es esencial** para eficiencia en ML
2. **M√°s features ‚â† siempre mejor modelo** (curse of dimensionality)
3. **Interpretabilidad**: Los pesos tienen significado business
4. **Evaluaci√≥n m√∫ltiple**: Usar varias m√©tricas (MSE, MAE, R¬≤)
5. **An√°lisis de residuos**: Validar supuestos del modelo

### ‚ö†Ô∏è Limitaciones observadas:
- **Learning rate peque√±o**: Datos no normalizados requieren Œ± muy bajo
- **Convergencia lenta**: Diferentes escalas de features afectan velocidad
- **Interpretaci√≥n cuidadosa**: Peso negativo de "pisos" requiere an√°lisis

**Siguiente paso**: Aprenderemos t√©cnicas de feature scaling para resolver estos problemas y mejorar significativamente el entrenamiento.