# 📈 Regresión Lineal con Una Variable

## 📚 Objetivos de Aprendizaje
En este notebook aprenderás:
- Conceptos fundamentales de regresión lineal
- Implementar y comprender la función de costo
- Desarrollar el algoritmo de gradient descent desde cero
- Aplicar regresión lineal a un problema real de negocios

## 🎯 Problema de Negocio
**Escenario**: Eres el CEO de una cadena de restaurantes y necesitas decidir en qué ciudades abrir nuevos locales. Tienes datos de:
- 📊 **Población** de ciudades donde ya tienes restaurantes
- 💰 **Ganancias** mensuales de esos restaurantes

**Objetivo**: Crear un modelo que prediga las ganancias potenciales basándose en la población de la ciudad.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import copy
import math

# Configuración para mejores gráficos
plt.style.use('default')
np.set_printoptions(precision=2)

print("✅ Librerías importadas correctamente")
print("📊 Listo para comenzar con regresión lineal")

## 1. 📊 Cargar y Explorar el Dataset

Comenzaremos cargando nuestros datos de restaurantes:

In [None]:
# 📍 FUNCIÓN PARA CARGAR DATOS
def cargar_datos_restaurantes():
    """
    Simula datos reales de restaurantes
    
    Returns:
        x_train: Población de ciudades (en decenas de miles)
        y_train: Ganancias mensuales (en miles de dólares)
    """
    # Datos sintéticos pero realistas
    np.random.seed(42)
    
    # Población de ciudades (en decenas de miles)
    x_train = np.array([6.1101, 5.5277, 8.5186, 7.0032, 5.8598, 8.3829, 7.4764,
                       8.5781, 6.4862, 5.0546, 5.7107, 14.164, 5.734, 8.4084,
                       5.6407, 5.3794, 6.3654, 5.1301, 6.4296, 7.0708, 6.1891,
                       20.27, 5.4901, 6.3261, 5.5649, 18.945, 12.828, 10.957,
                       13.176, 22.203, 5.2524, 6.5894, 9.2482, 5.8918, 8.2111,
                       7.9334, 8.0959, 5.6063, 12.836, 6.3534, 5.4069, 6.8825,
                       11.708, 5.7737, 7.8247, 7.0931, 5.0702, 5.8014, 11.7,
                       5.5416, 7.5402, 5.3077, 7.4239, 7.6031, 6.3328, 6.3589,
                       6.2742, 5.6397, 9.3102, 9.4536, 8.8254, 5.1793, 21.279,
                       14.908, 18.959, 7.2182, 8.2951, 10.236, 5.4994, 20.341,
                       10.136, 7.3345, 6.0062, 7.2259, 5.0269, 6.5479, 7.5386,
                       5.0365, 10.274, 5.1077, 5.7292, 5.1884, 6.3557, 9.7687,
                       6.5159, 8.5172, 9.1802, 6.002, 5.5204, 5.0594, 5.7077,
                       7.6366, 5.8707, 5.3054, 8.2934, 13.394, 5.4369])
    
    # Ganancias correspondientes (en miles de dólares)
    y_train = np.array([17.592, 9.1302, 13.662, 11.854, 6.8233, 11.886, 4.3483,
                       12.8, 6.5987, 4.8916, 3.5317, 14.754, 3.1626, 15.045,
                       3.9899, 2.4445, 8.8368, 5.7652, 7.7956, 6.4125, 9.0936,
                       22.638, 1.4421, 9.5582, 3.8235, 18.608, 19.833, 17.063,
                       19.147, 25.927, 5.8707, 7.8247, 21.279, 17.929, 12.054,
                       8.2951, 5.8014, 1.5757, 12.700, 8.4084, 12.394, 10.957,
                       13.176, 3.1313, 7.3467, 1.8692, 1.8692, 18.945, 19.147,
                       4.8234, 13.921, 4.9651, 5.4994, 1.8692, 6.2878, 18.758,
                       8.2951, 1.8692, 12.700, 10.236, 12.700, 6.0815, 9.5447,
                       9.1966, 20.175, 22.203, 18.046, 16.235, 18.758, 19.147,
                       19.833, 19.147, 8.0959, 13.921, 4.9651, 1.8692, 14.046,
                       6.1101, 17.929, 2.4445, 7.2259, 2.507, 5.4613, 21.013,
                       16.235, 17.054, 10.136, 17.054, 13.921, 15.232, 1.8692,
                       7.3467, 1.8692, 8.0959, 5.1099, 11.854, 2.4445])
    
    return x_train, y_train

# Cargar los datos
x_train, y_train = cargar_datos_restaurantes()

print(f"📊 Dataset cargado:")
print(f"   • Número de ciudades: {len(x_train)}")
print(f"   • Población (primeras 5): {x_train[:5]}")
print(f"   • Ganancias (primeras 5): {y_train[:5]}")
print(f"\n📏 Dimensiones:")
print(f"   • x_train shape: {x_train.shape}")
print(f"   • y_train shape: {y_train.shape}")

### 1.1 📈 Visualización de los Datos

In [None]:
# 📍 VISUALIZACIÓN DEL DATASET

plt.figure(figsize=(10, 6))

# Scatter plot de los datos
plt.scatter(x_train, y_train, marker='x', c='red', s=50, alpha=0.8, linewidth=2)

# Personalización
plt.title('🍽️ Ganancias vs Población por Ciudad', fontsize=16, fontweight='bold')
plt.xlabel('Población de la Ciudad (en decenas de miles)', fontsize=12)
plt.ylabel('Ganancia Mensual (miles de $)', fontsize=12)
plt.grid(True, alpha=0.3)

# Añadir algunas estadísticas
plt.text(0.02, 0.98, f'Ciudades: {len(x_train)}\nPoblación promedio: {np.mean(x_train):.1f}\nGanancia promedio: ${np.mean(y_train):.1f}k', 
         transform=plt.gca().transAxes, verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='lightblue', alpha=0.5))

plt.tight_layout()
plt.show()

print("📊 Observaciones del gráfico:")
print("   • Parece haber una relación positiva entre población y ganancias")
print("   • Los datos sugieren que una línea recta podría ajustar bien")
print("   • Hay algunos outliers pero el patrón general es claro")

## 2. 🧮 Fundamentos de Regresión Lineal

### 2.1 El Modelo Matemático

La regresión lineal busca encontrar la **mejor línea recta** que represente la relación entre:
- **Variable independiente** (x): Población
- **Variable dependiente** (y): Ganancias

**Ecuación del modelo**:
$$f_{w,b}(x) = wx + b$$

Donde:
- **w**: Pendiente (weight/peso) - cuánto aumentan las ganancias por cada unidad de población
- **b**: Intercepto (bias) - ganancia base cuando la población es cero
- **f_{w,b}(x)**: Predicción del modelo para entrada x

In [None]:
# 📍 FUNCIÓN DE PREDICCIÓN

def predecir(x, w, b):
    """
    Hace predicciones usando regresión lineal
    
    Args:
        x (ndarray): Datos de entrada (población)
        w (scalar): Parámetro peso/pendiente
        b (scalar): Parámetro bias/intercepto
    
    Returns:
        y_pred (ndarray): Predicciones
    """
    return w * x + b

# Ejemplo con parámetros iniciales
w_inicial = 1.0
b_inicial = 0.0

# Hacer algunas predicciones
ciudades_ejemplo = [5.0, 10.0, 15.0, 20.0]
print(f"🔮 Predicciones con w={w_inicial}, b={b_inicial}:")
print(f"{'Población':>10} {'Predicción':>12}")
print("-" * 25)

for ciudad in ciudades_ejemplo:
    pred = predecir(ciudad, w_inicial, b_inicial)
    print(f"{ciudad:>10.1f} ${pred:>10.1f}k")

print(f"\n💡 Con estos parámetros, el modelo predice que por cada 10,000 habitantes")
print(f"   adicionales, las ganancias aumentan en ${w_inicial * 1:.1f}k")

### 2.2 📊 Visualización del Modelo Lineal

In [None]:
# 📍 VISUALIZAR DIFERENTES MODELOS LINEALES

# Diferentes combinaciones de parámetros para explorar
parametros = [
    (0.5, 2, 'Pendiente baja'),
    (1.0, 0, 'Pendiente media, sin intercepto'),
    (1.5, -5, 'Pendiente alta, intercepto negativo'),
    (0.8, 3, 'Modelo balanceado')
]

plt.figure(figsize=(15, 10))

for i, (w, b, titulo) in enumerate(parametros, 1):
    plt.subplot(2, 2, i)
    
    # Datos originales
    plt.scatter(x_train, y_train, marker='x', c='red', s=30, alpha=0.6, label='Datos reales')
    
    # Línea del modelo
    x_line = np.linspace(0, 25, 100)
    y_line = predecir(x_line, w, b)
    plt.plot(x_line, y_line, 'b-', linewidth=2, label=f'f(x) = {w}x + {b}')
    
    plt.title(f'{titulo}\nw={w}, b={b}', fontweight='bold')
    plt.xlabel('Población (decenas de miles)')
    plt.ylabel('Ganancias (miles $)')
    plt.legend()
    plt.grid(True, alpha=0.3)
    plt.xlim(4, 24)
    plt.ylim(-5, 30)

plt.tight_layout()
plt.show()

print("📊 Observaciones:")
print("   • Diferentes parámetros (w,b) producen líneas muy diferentes")
print("   • Necesitamos un método sistemático para encontrar los mejores parámetros")
print("   • El 'mejor' modelo minimiza la distancia entre predicciones y datos reales")

## 3. 💰 Función de Costo (Cost Function)

### 3.1 ¿Qué es la Función de Costo?

La función de costo mide **qué tan bien** nuestro modelo se ajusta a los datos:
- **Costo bajo** = Predicciones cercanas a valores reales = Buen modelo
- **Costo alto** = Predicciones lejanas a valores reales = Mal modelo

**Fórmula de la función de costo (Mean Squared Error)**:

$$J(w,b) = \frac{1}{2m} \sum_{i=0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2$$

Donde:
- **m**: Número de ejemplos de entrenamiento
- **f_{w,b}(x^{(i)})**: Predicción para el ejemplo i
- **y^{(i)}**: Valor real para el ejemplo i
- **1/2**: Factor de conveniencia (simplifica las derivadas)

In [None]:
# 📍 IMPLEMENTACIÓN DE LA FUNCIÓN DE COSTO

def calcular_costo(x, y, w, b):
    """
    Calcula la función de costo para regresión lineal
    
    Args:
        x (ndarray): Datos de entrada (población)
        y (ndarray): Valores objetivo (ganancias reales)
        w (scalar): Parámetro peso
        b (scalar): Parámetro bias
    
    Returns:
        costo_total (float): El costo del modelo con parámetros w,b
    """
    # Número de ejemplos
    m = x.shape[0]
    
    # Inicializar costo
    costo_total = 0
    
    # Calcular el costo para cada ejemplo
    for i in range(m):
        # Predicción para el ejemplo i
        f_wb = w * x[i] + b
        
        # Error cuadrático
        error_cuadratico = (f_wb - y[i]) ** 2
        
        # Acumular costo
        costo_total += error_cuadratico
    
    # Calcular costo promedio
    costo_total = costo_total / (2 * m)
    
    return costo_total

# Probar la función con diferentes parámetros
parametros_prueba = [(0, 0), (1, 0), (1.5, -2), (0.8, 3)]

print(f"🧪 Pruebas de la función de costo:")
print(f"{'w':>6} {'b':>6} {'Costo':>12}")
print("-" * 26)

for w, b in parametros_prueba:
    costo = calcular_costo(x_train, y_train, w, b)
    print(f"{w:>6.1f} {b:>6.1f} {costo:>12.2f}")

print(f"\n💡 Interpretación:")
print(f"   • Menores valores de costo indican mejor ajuste")
print(f"   • El objetivo es encontrar w,b que minimicen J(w,b)")

### 3.2 🎯 Visualización de la Función de Costo

In [None]:
# 📍 VISUALIZAR CÓMO CAMBIA EL COSTO

# Fijamos b=0 y variamos w para ver cómo cambia el costo
w_valores = np.linspace(-2, 4, 100)
costos = []

b_fijo = 0
for w in w_valores:
    costo = calcular_costo(x_train, y_train, w, b_fijo)
    costos.append(costo)

plt.figure(figsize=(12, 5))

# Subplot 1: Función de costo vs w
plt.subplot(1, 2, 1)
plt.plot(w_valores, costos, 'b-', linewidth=2)
plt.title(f'Función de Costo vs w (b={b_fijo})', fontweight='bold')
plt.xlabel('Parámetro w')
plt.ylabel('Costo J(w,b)')
plt.grid(True, alpha=0.3)

# Marcar el mínimo
min_idx = np.argmin(costos)
w_optimo = w_valores[min_idx]
costo_minimo = costos[min_idx]
plt.plot(w_optimo, costo_minimo, 'ro', markersize=10, label=f'Mínimo: w={w_optimo:.2f}')
plt.legend()

# Subplot 2: Modelo con w óptimo
plt.subplot(1, 2, 2)
plt.scatter(x_train, y_train, marker='x', c='red', s=30, alpha=0.6, label='Datos reales')

# Línea con w óptimo
x_line = np.linspace(0, 25, 100)
y_line = predecir(x_line, w_optimo, b_fijo)
plt.plot(x_line, y_line, 'g-', linewidth=2, label=f'Mejor ajuste: w={w_optimo:.2f}, b={b_fijo}')

plt.title('Modelo con w Óptimo', fontweight='bold')
plt.xlabel('Población (decenas de miles)')
plt.ylabel('Ganancias (miles $)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"🎯 Resultado del análisis:")
print(f"   • w óptimo (con b=0): {w_optimo:.3f}")
print(f"   • Costo mínimo: {costo_minimo:.3f}")
print(f"   • La función de costo tiene forma de parábola (convexa)")
print(f"   • Existe un único mínimo global")

## 4. 🎯 Gradient Descent

### 4.1 ¿Qué es Gradient Descent?

**Gradient Descent** es un algoritmo de optimización que encuentra automáticamente los mejores parámetros w y b:

1. **Inicia** con valores aleatorios de w y b
2. **Calcula** qué tan "empinada" está la función de costo (gradiente)
3. **Da un paso** en la dirección que reduce el costo
4. **Repite** hasta encontrar el mínimo

**Algoritmo**:
$$\begin{align}
\text{repetir hasta convergencia: } \{ \\
w &= w - \alpha \frac{\partial J(w,b)}{\partial w} \\
b &= b - \alpha \frac{\partial J(w,b)}{\partial b} \\
\}
\end{align}$$

**Gradientes (derivadas parciales)**:
$$\frac{\partial J(w,b)}{\partial w} = \frac{1}{m} \sum_{i=0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})x^{(i)}$$
$$\frac{\partial J(w,b)}{\partial b} = \frac{1}{m} \sum_{i=0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})$$

Donde **α** es el **learning rate** (tasa de aprendizaje)

In [None]:
# 📍 IMPLEMENTACIÓN DE GRADIENTES

def calcular_gradientes(x, y, w, b):
    """
    Calcula los gradientes (derivadas parciales) de la función de costo
    
    Args:
        x (ndarray): Datos de entrada
        y (ndarray): Valores objetivo
        w (scalar): Parámetro peso actual
        b (scalar): Parámetro bias actual
    
    Returns:
        dj_dw (scalar): Gradiente respecto a w
        dj_db (scalar): Gradiente respecto a b
    """
    # Número de ejemplos
    m = x.shape[0]
    
    # Inicializar gradientes
    dj_dw = 0
    dj_db = 0
    
    # Calcular gradientes para cada ejemplo
    for i in range(m):
        # Predicción para el ejemplo i
        f_wb = w * x[i] + b
        
        # Error para el ejemplo i
        error = f_wb - y[i]
        
        # Acumular gradientes
        dj_dw += error * x[i]  # Gradiente respecto a w
        dj_db += error         # Gradiente respecto a b
    
    # Promediar gradientes
    dj_dw = dj_dw / m
    dj_db = dj_db / m
    
    return dj_dw, dj_db

# Probar cálculo de gradientes
w_test = 0.5
b_test = 1.0

dj_dw, dj_db = calcular_gradientes(x_train, y_train, w_test, b_test)
costo_actual = calcular_costo(x_train, y_train, w_test, b_test)

print(f"🧮 Cálculo de gradientes:")
print(f"   Parámetros actuales: w={w_test}, b={b_test}")
print(f"   Costo actual: {costo_actual:.3f}")
print(f"   Gradiente dJ/dw: {dj_dw:.4f}")
print(f"   Gradiente dJ/db: {dj_db:.4f}")
print(f"\n💡 Interpretación:")
print(f"   • dJ/dw > 0: El costo aumenta cuando w aumenta → reducir w")
print(f"   • dJ/db > 0: El costo aumenta cuando b aumenta → reducir b")

### 4.2 🚀 Implementación Completa de Gradient Descent

In [None]:
# 📍 ALGORITMO COMPLETO DE GRADIENT DESCENT

def gradient_descent(x, y, w_inicial, b_inicial, learning_rate, num_iteraciones):
    """
    Implementa el algoritmo de gradient descent para regresión lineal
    
    Args:
        x (ndarray): Datos de entrada
        y (ndarray): Valores objetivo
        w_inicial (scalar): Valor inicial de w
        b_inicial (scalar): Valor inicial de b
        learning_rate (float): Tasa de aprendizaje α
        num_iteraciones (int): Número de iteraciones
    
    Returns:
        w (scalar): Parámetro w optimizado
        b (scalar): Parámetro b optimizado
        historial_costos (list): Historia del costo en cada iteración
        historial_w (list): Historia de w en cada iteración
    """
    # Inicializar parámetros
    w = copy.deepcopy(w_inicial)
    b = b_inicial
    
    # Listas para almacenar historia
    historial_costos = []
    historial_w = []
    
    # Gradient descent loop
    for i in range(num_iteraciones):
        # Calcular gradientes
        dj_dw, dj_db = calcular_gradientes(x, y, w, b)
        
        # Actualizar parámetros
        w = w - learning_rate * dj_dw
        b = b - learning_rate * dj_db
        
        # Calcular costo actual
        if i < 100000:  # Evitar usar mucha memoria
            costo = calcular_costo(x, y, w, b)
            historial_costos.append(costo)
        
        # Guardar parámetros
        historial_w.append(w)
        
        # Imprimir progreso
        if i % math.ceil(num_iteraciones / 10) == 0:
            costo_actual = calcular_costo(x, y, w, b)
            print(f"Iteración {i:4d}: Costo = {costo_actual:8.4f}, w = {w:8.4f}, b = {b:8.4f}")
    
    return w, b, historial_costos, historial_w

# Ejecutar gradient descent
print("🚀 Ejecutando Gradient Descent...")
print("=" * 50)

# Parámetros del algoritmo
w_inicial = 0.0
b_inicial = 0.0
learning_rate = 0.01
iteraciones = 1500

# Entrenar el modelo
w_final, b_final, hist_costos, hist_w = gradient_descent(
    x_train, y_train, w_inicial, b_inicial, learning_rate, iteraciones
)

print(f"\n🎉 Entrenamiento completado!")
print(f"   Parámetros finales: w = {w_final:.4f}, b = {b_final:.4f}")
print(f"   Costo final: {hist_costos[-1]:.4f}")

### 4.3 📊 Visualización del Entrenamiento

In [None]:
# 📍 VISUALIZAR EL PROCESO DE ENTRENAMIENTO

plt.figure(figsize=(15, 5))

# Subplot 1: Evolución del costo
plt.subplot(1, 3, 1)
plt.plot(hist_costos, 'b-', linewidth=2)
plt.title('🔻 Evolución del Costo', fontweight='bold')
plt.xlabel('Iteraciones')
plt.ylabel('Costo J(w,b)')
plt.grid(True, alpha=0.3)

# Añadir punto final
plt.plot(len(hist_costos)-1, hist_costos[-1], 'ro', markersize=8)
plt.annotate(f'Final: {hist_costos[-1]:.3f}', 
             xy=(len(hist_costos)-1, hist_costos[-1]),
             xytext=(len(hist_costos)*0.7, hist_costos[-1]*1.2),
             arrowprops=dict(arrowstyle='->', color='red'))

# Subplot 2: Evolución de w
plt.subplot(1, 3, 2)
plt.plot(hist_w, 'g-', linewidth=2)
plt.title('📈 Evolución de w', fontweight='bold')
plt.xlabel('Iteraciones')
plt.ylabel('Parámetro w')
plt.grid(True, alpha=0.3)

# Línea horizontal en valor final
plt.axhline(y=w_final, color='red', linestyle='--', alpha=0.7, 
            label=f'w final = {w_final:.3f}')
plt.legend()

# Subplot 3: Modelo final vs datos
plt.subplot(1, 3, 3)
plt.scatter(x_train, y_train, marker='x', c='red', s=30, alpha=0.6, label='Datos reales')

# Línea del modelo entrenado
x_line = np.linspace(0, 25, 100)
y_line = predecir(x_line, w_final, b_final)
plt.plot(x_line, y_line, 'b-', linewidth=3, 
         label=f'Modelo: f(x) = {w_final:.2f}x + {b_final:.2f}')

plt.title('🎯 Modelo Final', fontweight='bold')
plt.xlabel('Población (decenas de miles)')
plt.ylabel('Ganancias (miles $)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.xlim(4, 24)
plt.ylim(-5, 30)

plt.tight_layout()
plt.show()

print(f"📊 Análisis del entrenamiento:")
print(f"   • El costo disminuyó de {hist_costos[0]:.3f} a {hist_costos[-1]:.3f}")
print(f"   • Reducción del costo: {((hist_costos[0] - hist_costos[-1])/hist_costos[0]*100):.1f}%")
print(f"   • El parámetro w convergió a {w_final:.3f}")
print(f"   • El modelo final tiene un buen ajuste visual a los datos")

## 5. 🔮 Hacer Predicciones con el Modelo Entrenado

In [None]:
# 📍 HACER PREDICCIONES PARA NUEVAS CIUDADES

# Ciudades candidatas para nuevos restaurantes
nuevas_ciudades = [
    (3.5, "Ciudad Pequeña (35,000 hab)"),
    (7.0, "Ciudad Mediana (70,000 hab)"),
    (12.0, "Ciudad Grande (120,000 hab)"),
    (18.0, "Metrópoli (180,000 hab)")
]

print(f"🔮 Predicciones para Nuevas Ciudades")
print(f"=" * 50)
print(f"Modelo: f(x) = {w_final:.3f}x + {b_final:.3f}")
print(f"")
print(f"{'Población':>15} {'Predicción':>15} {'Ganancia Anual':>18}")
print("-" * 50)

predicciones = []
for poblacion, descripcion in nuevas_ciudades:
    # Hacer predicción
    ganancia_mensual = predecir(poblacion, w_final, b_final)
    ganancia_anual = ganancia_mensual * 12
    predicciones.append((poblacion, ganancia_mensual))
    
    print(f"{descripcion:>15} ${ganancia_mensual:>10.1f}k ${ganancia_anual:>13.0f}k")

# Recomendaciones de negocio
print(f"\n💼 Recomendaciones de Negocio:")
mejor_ciudad = max(predicciones, key=lambda x: x[1])
print(f"   • Mejor oportunidad: Ciudad con {mejor_ciudad[0]*10:.0f}k habitantes")
print(f"   • Ganancia esperada: ${mejor_ciudad[1]:.1f}k mensuales")
print(f"   • ROI anual estimado: ${mejor_ciudad[1]*12:.0f}k")

# Análisis de riesgo
umbral_rentabilidad = 5.0  # $5k mensuales mínimo
ciudades_rentables = [p for p in predicciones if p[1] >= umbral_rentabilidad]
print(f"\n⚠️  Análisis de Riesgo:")
print(f"   • Ciudades rentables (>{umbral_rentabilidad}k/mes): {len(ciudades_rentables)}/{len(predicciones)}")
print(f"   • Umbral de población mínima: ~{(umbral_rentabilidad - b_final) / w_final * 10:.0f}k habitantes")

### 5.1 📈 Visualización de Predicciones

In [None]:
# 📍 VISUALIZAR PREDICCIONES

plt.figure(figsize=(12, 8))

# Datos de entrenamiento
plt.scatter(x_train, y_train, marker='x', c='blue', s=50, alpha=0.7, 
           label='Datos históricos', linewidth=2)

# Modelo entrenado
x_line = np.linspace(0, 20, 100)
y_line = predecir(x_line, w_final, b_final)
plt.plot(x_line, y_line, 'b-', linewidth=3, alpha=0.8,
         label=f'Modelo: f(x) = {w_final:.2f}x + {b_final:.2f}')

# Nuevas predicciones
for poblacion, ganancia in predicciones:
    plt.scatter(poblacion, ganancia, s=150, c='red', marker='o', 
               edgecolor='darkred', linewidth=2, zorder=5)
    plt.annotate(f'${ganancia:.1f}k', 
                xy=(poblacion, ganancia), 
                xytext=(poblacion+0.5, ganancia+2),
                fontweight='bold',
                bbox=dict(boxstyle='round,pad=0.3', facecolor='yellow', alpha=0.7),
                arrowprops=dict(arrowstyle='->', color='red'))

# Línea de rentabilidad
plt.axhline(y=umbral_rentabilidad, color='green', linestyle='--', linewidth=2, 
           alpha=0.7, label=f'Umbral rentabilidad (${umbral_rentabilidad}k/mes)')

# Personalización
plt.title('🎯 Modelo de Predicción: Ganancias vs Población', fontsize=16, fontweight='bold')
plt.xlabel('Población de la Ciudad (en decenas de miles)', fontsize=12)
plt.ylabel('Ganancia Mensual (miles de $)', fontsize=12)
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.xlim(0, 20)
plt.ylim(-2, 25)

# Añadir texto explicativo
plt.text(0.5, 22, 
         '🔴 Puntos rojos: Nuevas predicciones\n'+ 
         '✕ Puntos azules: Datos históricos\n'+
         f'📈 Modelo R²: {1 - (hist_costos[-1] / np.var(y_train)):.3f}',
         fontsize=10,
         bbox=dict(boxstyle='round', facecolor='lightgray', alpha=0.8))

plt.tight_layout()
plt.show()

print(f"📊 El gráfico muestra cómo el modelo entrenado predice ganancias para nuevas ciudades")
print(f"🎯 Las predicciones siguen la tendencia aprendida de los datos históricos")

## 6. 📊 Evaluación del Modelo

### 6.1 Métricas de Rendimiento

In [None]:
# 📍 EVALUACIÓN COMPLETA DEL MODELO

def evaluar_modelo(x, y, w, b):
    """
    Evalúa el rendimiento del modelo con múltiples métricas
    """
    # Hacer predicciones
    predicciones = predecir(x, w, b)
    
    # Calcular métricas
    n = len(y)
    
    # Error Cuadrático Medio (MSE)
    mse = np.sum((predicciones - y)**2) / n
    
    # Raíz del Error Cuadrático Medio (RMSE)
    rmse = np.sqrt(mse)
    
    # Error Absoluto Medio (MAE)
    mae = np.sum(np.abs(predicciones - y)) / n
    
    # Coeficiente de Determinación (R²)
    ss_res = np.sum((y - predicciones)**2)
    ss_tot = np.sum((y - np.mean(y))**2)
    r2 = 1 - (ss_res / ss_tot)
    
    return {
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R²': r2,
        'predicciones': predicciones
    }

# Evaluar modelo
metricas = evaluar_modelo(x_train, y_train, w_final, b_final)

print(f"📊 Evaluación del Modelo")
print(f"=" * 30)
print(f"MSE (Error Cuadrático Medio):     {metricas['MSE']:.3f}")
print(f"RMSE (Raíz Error Cuadrático):     {metricas['RMSE']:.3f}")
print(f"MAE (Error Absoluto Medio):       {metricas['MAE']:.3f}")
print(f"R² (Coeficiente Determinación):   {metricas['R²']:.3f}")

print(f"\n💡 Interpretación:")
print(f"   • RMSE = {metricas['RMSE']:.1f}k: Error típico de ±{metricas['RMSE']:.1f}k en predicciones")
print(f"   • MAE = {metricas['MAE']:.1f}k: Error promedio absoluto")
print(f"   • R² = {metricas['R²']:.3f}: El modelo explica {metricas['R²']*100:.1f}% de la varianza")

if metricas['R²'] > 0.8:
    print(f"   ✅ Excelente ajuste (R² > 0.8)")
elif metricas['R²'] > 0.6:
    print(f"   ✅ Buen ajuste (R² > 0.6)")
else:
    print(f"   ⚠️  Ajuste mejorable (R² < 0.6)")

# Análisis de residuos
residuos = y_train - metricas['predicciones']
print(f"\n📈 Análisis de Residuos:")
print(f"   • Media de residuos: {np.mean(residuos):.3f} (debería ser ~0)")
print(f"   • Desviación estándar: {np.std(residuos):.3f}")
print(f"   • Residuo máximo: {np.max(np.abs(residuos)):.3f}")

### 6.2 📊 Visualización de Residuos

In [None]:
# 📍 ANÁLISIS VISUAL DE RESIDUOS

plt.figure(figsize=(15, 5))

# Subplot 1: Predicciones vs Valores Reales
plt.subplot(1, 3, 1)
plt.scatter(metricas['predicciones'], y_train, alpha=0.7, s=50)

# Línea diagonal perfecta
min_val = min(np.min(metricas['predicciones']), np.min(y_train))
max_val = max(np.max(metricas['predicciones']), np.max(y_train))
plt.plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, 
         label='Predicción perfecta')

plt.title('Predicciones vs Valores Reales', fontweight='bold')
plt.xlabel('Predicciones')
plt.ylabel('Valores Reales')
plt.legend()
plt.grid(True, alpha=0.3)

# Subplot 2: Residuos vs Predicciones
plt.subplot(1, 3, 2)
plt.scatter(metricas['predicciones'], residuos, alpha=0.7, s=50)
plt.axhline(y=0, color='red', linestyle='--', linewidth=2)
plt.title('Residuos vs Predicciones', fontweight='bold')
plt.xlabel('Predicciones')
plt.ylabel('Residuos (Real - Predicción)')
plt.grid(True, alpha=0.3)

# Subplot 3: Histograma de Residuos
plt.subplot(1, 3, 3)
plt.hist(residuos, bins=15, alpha=0.7, edgecolor='black')
plt.axvline(x=0, color='red', linestyle='--', linewidth=2)
plt.title('Distribución de Residuos', fontweight='bold')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"📊 Análisis visual:")
print(f"   • Gráfico 1: Puntos cerca de la línea roja = buenas predicciones")
print(f"   • Gráfico 2: Residuos distribuidos alrededor de 0 = modelo no sesgado")
print(f"   • Gráfico 3: Distribución aproximadamente normal = buen modelo")

## 7. 🧪 Ejercicios Prácticos

### Ejercicio 1: Experimentar con Learning Rate

In [None]:
# 🧪 EJERCICIO 1: Efecto del Learning Rate

print("🧪 Ejercicio 1: Experimentar con diferentes Learning Rates")
print("=" * 60)

learning_rates = [0.001, 0.01, 0.1, 0.5]
iteraciones_exp = 500

plt.figure(figsize=(15, 10))

for i, lr in enumerate(learning_rates, 1):
    # Entrenar con diferente learning rate
    w_lr, b_lr, hist_costos_lr, _ = gradient_descent(
        x_train, y_train, 0.0, 0.0, lr, iteraciones_exp
    )
    
    # Subplot para cada learning rate
    plt.subplot(2, 2, i)
    plt.plot(hist_costos_lr, linewidth=2)
    plt.title(f'Learning Rate = {lr}\nFinal: w={w_lr:.3f}, b={b_lr:.3f}', 
              fontweight='bold')
    plt.xlabel('Iteraciones')
    plt.ylabel('Costo')
    plt.grid(True, alpha=0.3)
    
    # Anotar costo final
    if hist_costos_lr:  # Si hay historia de costos
        plt.annotate(f'Final: {hist_costos_lr[-1]:.3f}',
                    xy=(len(hist_costos_lr)-1, hist_costos_lr[-1]),
                    xytext=(len(hist_costos_lr)*0.6, hist_costos_lr[-1]*1.1),
                    arrowprops=dict(arrowstyle='->', alpha=0.7))

plt.tight_layout()
plt.show()

print(f"\n📊 Observaciones:")
print(f"   • Learning rate muy pequeño (0.001): Converge lentamente")
print(f"   • Learning rate moderado (0.01): Convergencia estable")
print(f"   • Learning rate alto (0.1): Convergencia más rápida")
print(f"   • Learning rate muy alto (0.5): Puede oscilar o diverger")
print(f"\n💡 La elección del learning rate es crucial para un entrenamiento eficiente")

### Ejercicio 2: Predicciones Personalizadas

In [None]:
# 🧪 EJERCICIO 2: Crear tus propias predicciones

print("🧪 Ejercicio 2: Predicciones Personalizadas")
print("=" * 45)

def analizar_inversion(poblacion_miles, inversion_inicial, costos_mensuales):
    """
    Analiza la viabilidad de invertir en una ciudad específica
    
    Args:
        poblacion_miles: Población en miles
        inversion_inicial: Costo inicial del restaurante
        costos_mensuales: Costos operativos mensuales
    """
    # Convertir población a decenas de miles para el modelo
    poblacion_modelo = poblacion_miles / 10
    
    # Predicción de ingresos
    ingresos_mensuales = predecir(poblacion_modelo, w_final, b_final) * 1000  # Convertir a dólares
    ganancia_neta_mensual = ingresos_mensuales - costos_mensuales
    ganancia_anual = ganancia_neta_mensual * 12
    
    # Cálculo del tiempo de retorno de inversión
    if ganancia_neta_mensual > 0:
        tiempo_retorno_meses = inversion_inicial / ganancia_neta_mensual
        tiempo_retorno_años = tiempo_retorno_meses / 12
    else:
        tiempo_retorno_años = float('inf')
    
    return {
        'ingresos_mensuales': ingresos_mensuales,
        'ganancia_neta_mensual': ganancia_neta_mensual,
        'ganancia_anual': ganancia_anual,
        'tiempo_retorno_años': tiempo_retorno_años,
        'roi_anual': (ganancia_anual / inversion_inicial * 100) if inversion_inicial > 0 else 0
    }

# Casos de estudio
casos = [
    {"ciudad": "Villa Pequeña", "poblacion": 45000, "inversion": 150000, "costos": 8000},
    {"ciudad": "Ciudad Media", "poblacion": 85000, "inversion": 200000, "costos": 12000},
    {"ciudad": "Gran Ciudad", "poblacion": 150000, "inversion": 300000, "costos": 18000}
]

print(f"{'Ciudad':<15} {'Población':<10} {'Ingresos/mes':<12} {'Ganancia/mes':<13} {'ROI Anual':<10} {'Retorno':<10}")
print("-" * 80)

for caso in casos:
    resultado = analizar_inversion(caso['poblacion'], caso['inversion'], caso['costos'])
    
    print(f"{caso['ciudad']:<15} {caso['poblacion']:<10,} "
          f"${resultado['ingresos_mensuales']:<11,.0f} "
          f"${resultado['ganancia_neta_mensual']:<12,.0f} "
          f"{resultado['roi_anual']:<9.1f}% "
          f"{resultado['tiempo_retorno_años']:<9.1f} años")

print(f"\n🎯 Recomendación basada en el análisis:")
mejor_caso = max(casos, key=lambda x: analizar_inversion(x['poblacion'], x['inversion'], x['costos'])['roi_anual'])
mejor_resultado = analizar_inversion(mejor_caso['poblacion'], mejor_caso['inversion'], mejor_caso['costos'])

print(f"   • Mejor opción: {mejor_caso['ciudad']}")
print(f"   • ROI anual: {mejor_resultado['roi_anual']:.1f}%")
print(f"   • Tiempo de retorno: {mejor_resultado['tiempo_retorno_años']:.1f} años")

if mejor_resultado['roi_anual'] > 15:
    print(f"   ✅ Inversión altamente recomendada")
elif mejor_resultado['roi_anual'] > 8:
    print(f"   ✅ Inversión viable")
else:
    print(f"   ⚠️ Inversión de alto riesgo")

## 📚 Resumen y Conceptos Clave

### ✅ Lo que has aprendido:

#### 1. **Regresión Lineal Fundamentals**:
   - **Modelo**: $f_{w,b}(x) = wx + b$
   - **Objetivo**: Encontrar la mejor línea que ajuste los datos
   - **Parámetros**: w (pendiente) y b (intercepto)

#### 2. **Función de Costo**:
   - **Propósito**: Medir qué tan bien el modelo predice los datos
   - **Fórmula**: $J(w,b) = \frac{1}{2m} \sum_{i=0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2$
   - **Interpretación**: Menor costo = mejor modelo

#### 3. **Gradient Descent**:
   - **Algoritmo**: Optimización iterativa para minimizar el costo
   - **Actualización**: $w = w - \alpha \frac{\partial J}{\partial w}$, $b = b - \alpha \frac{\partial J}{\partial b}$
   - **Learning Rate (α)**: Controla el tamaño de los pasos

#### 4. **Implementación Práctica**:
   - Cálculo de gradientes usando derivadas parciales
   - Entrenamiento iterativo hasta convergencia
   - Evaluación usando métricas (MSE, RMSE, R²)

### 🎯 Aplicación en el Mundo Real:
- **Problema de negocio**: Predicción de ganancias para ubicaciones de restaurantes
- **Variables**: Población (entrada) → Ganancias (salida)
- **Resultado**: Modelo que predice ganancias con {metricas['R²']*100:.1f}% de precisión

### 🚀 Próximos pasos:
- **Regresión múltiple**: Modelos con varias variables de entrada
- **Feature scaling**: Normalización para mejorar convergencia
- **Regularización**: Técnicas para evitar overfitting

### 💡 Puntos clave para recordar:
1. **La regresión lineal asume relación lineal** entre entrada y salida
2. **Gradient descent siempre converge** para funciones convexas como MSE
3. **Learning rate es crítico**: muy alto = oscilación, muy bajo = lentitud
4. **Evaluación es esencial**: usa múltiples métricas para validar el modelo
5. **Visualización ayuda**: siempre grafica datos y resultados