# ‚úÖ Soluciones: Regresi√≥n Lineal Simple

**M√≥dulo 1: Machine Learning with Python - Lecci√≥n 02**

---

## üìã Instrucciones de Uso

1. **Intenta primero** resolver los ejercicios por tu cuenta
2. **Compara** tu soluci√≥n con la propuesta
3. **Analiza** enfoques alternativos
4. **No copies ciegamente**: Entiende cada l√≠nea

---

## ‚öôÔ∏è Configuraci√≥n Inicial

In [None]:
# Importar bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from scipy import stats

# Configuraci√≥n
%matplotlib inline
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (10, 6)
np.random.seed(42)

print("‚úÖ Bibliotecas importadas correctamente")

---

## Soluci√≥n Ejercicio 1: Predicci√≥n de Precios de Autom√≥viles

### Datos:

In [None]:
# Generar datos
np.random.seed(42)

antiguedad = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
precio = np.array([28000, 25000, 22000, 19000, 17000, 15000, 13000, 11000, 9000, 7500])

df_autos = pd.DataFrame({
    'Antiguedad_a√±os': antiguedad,
    'Precio_USD': precio
})

print("Dataset de Autom√≥viles:")
print(df_autos)

### a) Exploraci√≥n

In [None]:
# Scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(antiguedad, precio, s=100, alpha=0.6, edgecolors='black')
plt.xlabel('Antig√ºedad (a√±os)', fontsize=12)
plt.ylabel('Precio (USD)', fontsize=12)
plt.title('Relaci√≥n entre Antig√ºedad y Precio de Autom√≥viles', fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

# Correlaci√≥n
correlacion = np.corrcoef(antiguedad, precio)[0, 1]
print(f"\nüìä Correlaci√≥n: {correlacion:.4f}")
print(f"\nüí° Interpretaci√≥n:")
print(f"   - Correlaci√≥n muy fuerte y NEGATIVA ({correlacion:.4f})")
print(f"   - A mayor antig√ºedad, menor precio (como se esperaba)")
print(f"   - La relaci√≥n es casi perfectamente lineal")

### b) Implementaci√≥n Manual

In [None]:
# Calcular pendiente e intercepto manualmente
X = antiguedad
y = precio

# F√≥rmulas
n = len(X)
m = (n * np.sum(X * y) - np.sum(X) * np.sum(y)) / (n * np.sum(X**2) - np.sum(X)**2)
b = np.mean(y) - m * np.mean(X)

print("üìê C√°lculo Manual:")
print(f"   Pendiente (m): {m:.2f}")
print(f"   Intercepto (b): {b:.2f}")
print(f"\nüìù Ecuaci√≥n de la recta:")
print(f"   Precio = {b:.2f} + ({m:.2f}) √ó Antig√ºedad")
print(f"\nüí° Interpretaci√≥n:")
print(f"   - m = {m:.2f}: Por cada a√±o adicional, el precio disminuye ${abs(m):.2f}")
print(f"   - b = {b:.2f}: Precio estimado de un auto nuevo (0 a√±os)")

### c) Modelo con Scikit-learn

In [None]:
# Preparar datos
X_sklearn = antiguedad.reshape(-1, 1)
y_sklearn = precio

# Entrenar modelo
modelo = LinearRegression()
modelo.fit(X_sklearn, y_sklearn)

# Extraer par√°metros
m_sklearn = modelo.coef_[0]
b_sklearn = modelo.intercept_

# Calcular R¬≤
r2 = modelo.score(X_sklearn, y_sklearn)

print("ü§ñ Modelo Scikit-learn:")
print(f"   Pendiente: {m_sklearn:.2f}")
print(f"   Intercepto: {b_sklearn:.2f}")
print(f"   R¬≤: {r2:.4f}")

print(f"\n‚úÖ Comparaci√≥n:")
print(f"   Manual: m={m:.2f}, b={b:.2f}")
print(f"   Sklearn: m={m_sklearn:.2f}, b={b_sklearn:.2f}")
print(f"   ¬°Los resultados son id√©nticos!")

print(f"\nüìä R¬≤ = {r2:.4f} significa que el modelo explica {r2*100:.2f}% de la variabilidad en los precios")

### d) Predicci√≥n y Visualizaci√≥n

In [None]:
# Predicciones
auto_12_a√±os = modelo.predict([[12]])[0]
auto_nuevo = modelo.predict([[0]])[0]

print("üîÆ Predicciones:")
print(f"   Auto de 12 a√±os: ${auto_12_a√±os:,.2f}")
print(f"   Auto nuevo (0 a√±os): ${auto_nuevo:,.2f}")

# Visualizaci√≥n completa
plt.figure(figsize=(12, 7))

# Datos originales
plt.scatter(antiguedad, precio, s=150, alpha=0.6, edgecolors='black', 
            label='Datos reales', color='blue', zorder=3)

# L√≠nea de regresi√≥n
X_linea = np.linspace(0, 12, 100).reshape(-1, 1)
y_linea = modelo.predict(X_linea)
plt.plot(X_linea, y_linea, 'r-', linewidth=2, label='L√≠nea de regresi√≥n', zorder=2)

# Predicciones especiales
plt.scatter([12], [auto_12_a√±os], s=200, color='green', marker='*', 
            edgecolors='black', label='Auto 12 a√±os (predicci√≥n)', zorder=4)
plt.scatter([0], [auto_nuevo], s=200, color='orange', marker='s', 
            edgecolors='black', label='Auto nuevo (predicci√≥n)', zorder=4)

# Anotaciones
plt.annotate(f'${auto_12_a√±os:,.0f}', xy=(12, auto_12_a√±os), 
             xytext=(10, auto_12_a√±os-3000), fontsize=10,
             arrowprops=dict(arrowstyle='->', color='green', lw=1.5))
plt.annotate(f'${auto_nuevo:,.0f}', xy=(0, auto_nuevo), 
             xytext=(1.5, auto_nuevo+2000), fontsize=10,
             arrowprops=dict(arrowstyle='->', color='orange', lw=1.5))

plt.xlabel('Antig√ºedad (a√±os)', fontsize=12, fontweight='bold')
plt.ylabel('Precio (USD)', fontsize=12, fontweight='bold')
plt.title(f'Regresi√≥n Lineal: Precio vs Antig√ºedad (R¬≤={r2:.4f})', 
          fontsize=14, fontweight='bold')
plt.legend(loc='upper right', fontsize=10)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nüíº Conclusi√≥n: El modelo es excelente para estimar precios de autos usados")

---

## Soluci√≥n Ejercicio 2: Efectividad de Publicidad

### Datos:

In [None]:
# Generar datos
np.random.seed(42)

gasto_publicidad = np.random.uniform(5, 50, 30)
ventas = 20 + 2.5 * gasto_publicidad + np.random.normal(0, 8, 30)

df_marketing = pd.DataFrame({
    'Gasto_Publicidad_k': gasto_publicidad,
    'Ventas_k': ventas
})

print("Dataset de Marketing:")
print(df_marketing.head(10))

### a) An√°lisis Exploratorio

In [None]:
# Estad√≠sticas descriptivas
print("üìä Estad√≠sticas Descriptivas:")
print(df_marketing.describe())

# Scatter plot
plt.figure(figsize=(10, 6))
plt.scatter(df_marketing['Gasto_Publicidad_k'], df_marketing['Ventas_k'], 
            s=100, alpha=0.6, edgecolors='black')
plt.xlabel('Gasto en Publicidad (miles USD)', fontsize=12)
plt.ylabel('Ventas (miles USD)', fontsize=12)
plt.title('Relaci√≥n entre Inversi√≥n en Publicidad y Ventas', fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

# Correlaci√≥n
correlacion = df_marketing['Gasto_Publicidad_k'].corr(df_marketing['Ventas_k'])
print(f"\nüìà Correlaci√≥n: {correlacion:.4f}")
print(f"\nüí° Interpretaci√≥n: Correlaci√≥n fuerte y positiva - Mayor gasto genera m√°s ventas")

### b) Modelo y Evaluaci√≥n

In [None]:
# Preparar datos
X = df_marketing[['Gasto_Publicidad_k']]
y = df_marketing['Ventas_k']

# Divisi√≥n train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"üì¶ Divisi√≥n de datos:")
print(f"   Train: {len(X_train)} muestras ({len(X_train)/len(X)*100:.0f}%)")
print(f"   Test: {len(X_test)} muestras ({len(X_test)/len(X)*100:.0f}%)")

# Entrenar modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Predicciones
y_train_pred = modelo.predict(X_train)
y_test_pred = modelo.predict(X_test)

# M√©tricas - Train
r2_train = r2_score(y_train, y_train_pred)
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
mae_train = mean_absolute_error(y_train, y_train_pred)

# M√©tricas - Test
r2_test = r2_score(y_test, y_test_pred)
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
mae_test = mean_absolute_error(y_test, y_test_pred)

print(f"\nüìä M√©tricas del Modelo:")
print(f"\n   TRAIN:")
print(f"   - R¬≤: {r2_train:.4f}")
print(f"   - RMSE: ${rmse_train:.2f}k")
print(f"   - MAE: ${mae_train:.2f}k")
print(f"\n   TEST:")
print(f"   - R¬≤: {r2_test:.4f}")
print(f"   - RMSE: ${rmse_test:.2f}k")
print(f"   - MAE: ${mae_test:.2f}k")

# An√°lisis de overfitting
diferencia_r2 = abs(r2_train - r2_test)
print(f"\nüîç An√°lisis de Overfitting:")
print(f"   Diferencia R¬≤ (train-test): {diferencia_r2:.4f}")
if diferencia_r2 < 0.05:
    print(f"   ‚úÖ NO hay overfitting (diferencia < 0.05)")
    print(f"   El modelo generaliza bien a datos nuevos")
else:
    print(f"   ‚ö†Ô∏è Posible overfitting (diferencia >= 0.05)")

### c) Interpretaci√≥n de Negocio

In [None]:
# Extraer coeficientes
pendiente = modelo.coef_[0]
intercepto = modelo.intercept_

print("üíº Interpretaci√≥n de Negocio:")
print(f"\n1. Aumento de ventas por $1k adicional en publicidad:")
print(f"   ${pendiente:.2f}k (o ${pendiente*1000:.0f})")

print(f"\n2. ROI (Return on Investment):")
roi = (pendiente - 1) * 100  # (ventas generadas - inversi√≥n) / inversi√≥n * 100
print(f"   ROI = {roi:.1f}%")
print(f"   Por cada $1 invertido, se generan ${pendiente:.2f} en ventas")
print(f"   Ganancia neta: ${pendiente-1:.2f} por cada $1 invertido")

print(f"\n3. Predicci√≥n para presupuesto de $30k:")
ventas_30k = modelo.predict([[30]])[0]
print(f"   Ventas esperadas: ${ventas_30k:.2f}k (o ${ventas_30k*1000:,.0f})")

print(f"\n4. ¬øVale la pena invertir m√°s en publicidad?")
print(f"   ‚úÖ S√ç, definitivamente")
print(f"   Razones:")
print(f"   - ROI positivo de {roi:.1f}%")
print(f"   - Relaci√≥n lineal fuerte (R¬≤ = {r2_test:.4f})")
print(f"   - Por cada $1 invertido, ganamos ${pendiente-1:.2f}")
print(f"   - El modelo generaliza bien (sin overfitting)")

### d) Visualizaci√≥n Completa

In [None]:
# Crear figura con 2 subplots
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Subplot 1: Datos + L√≠nea de regresi√≥n
ax1 = axes[0]
ax1.scatter(X_train, y_train, s=100, alpha=0.6, label='Train', color='blue', edgecolors='black')
ax1.scatter(X_test, y_test, s=100, alpha=0.6, label='Test', color='green', edgecolors='black')

X_linea = np.linspace(X['Gasto_Publicidad_k'].min(), X['Gasto_Publicidad_k'].max(), 100).reshape(-1, 1)
y_linea = modelo.predict(X_linea)
ax1.plot(X_linea, y_linea, 'r-', linewidth=2, label='Regresi√≥n')

ax1.set_xlabel('Gasto en Publicidad (miles USD)', fontsize=12, fontweight='bold')
ax1.set_ylabel('Ventas (miles USD)', fontsize=12, fontweight='bold')
ax1.set_title('Datos y L√≠nea de Regresi√≥n', fontsize=13, fontweight='bold')
ax1.legend()
ax1.grid(alpha=0.3)

# Subplot 2: Predicciones vs Reales
ax2 = axes[1]
ax2.scatter(y_test, y_test_pred, s=100, alpha=0.6, edgecolors='black')

# L√≠nea diagonal perfecta
min_val = min(y_test.min(), y_test_pred.min())
max_val = max(y_test.max(), y_test_pred.max())
ax2.plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, label='Predicci√≥n perfecta')

ax2.set_xlabel('Ventas Reales (miles USD)', fontsize=12, fontweight='bold')
ax2.set_ylabel('Ventas Predichas (miles USD)', fontsize=12, fontweight='bold')
ax2.set_title(f'Predicciones vs Reales (R¬≤={r2_test:.4f})', fontsize=13, fontweight='bold')
ax2.legend()
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

---

## Soluci√≥n Ejercicio 3: Consumo de Combustible

### Datos:

In [None]:
# Generar datos
np.random.seed(42)

peso_kg = np.random.uniform(1000, 2500, 50)
consumo_lkm = 3 + 0.004 * peso_kg + np.random.normal(0, 0.5, 50)

df_vehiculos = pd.DataFrame({
    'Peso_kg': peso_kg,
    'Consumo_L_100km': consumo_lkm
})

print("Dataset de Veh√≠culos:")
print(df_vehiculos.head(10))
print(f"\nTotal: {len(df_vehiculos)} veh√≠culos")

### a) Exploraci√≥n y Modelo

In [None]:
# Visualizaci√≥n inicial
plt.figure(figsize=(10, 6))
plt.scatter(df_vehiculos['Peso_kg'], df_vehiculos['Consumo_L_100km'], 
            s=100, alpha=0.6, edgecolors='black')
plt.xlabel('Peso (kg)', fontsize=12)
plt.ylabel('Consumo (L/100km)', fontsize=12)
plt.title('Relaci√≥n Peso-Consumo de Combustible', fontsize=14, fontweight='bold')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

# Preparar datos y dividir
X = df_vehiculos[['Peso_kg']]
y = df_vehiculos['Consumo_L_100km']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar modelo
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Predicciones
y_train_pred = modelo.predict(X_train)
y_test_pred = modelo.predict(X_test)

# M√©tricas
print("\nüìä M√©tricas del Modelo:")
print(f"\n   TRAIN:")
print(f"   - R¬≤: {r2_score(y_train, y_train_pred):.4f}")
print(f"   - RMSE: {np.sqrt(mean_squared_error(y_train, y_train_pred)):.4f} L/100km")
print(f"   - MAE: {mean_absolute_error(y_train, y_train_pred):.4f} L/100km")

print(f"\n   TEST:")
print(f"   - R¬≤: {r2_score(y_test, y_test_pred):.4f}")
print(f"   - RMSE: {np.sqrt(mean_squared_error(y_test, y_test_pred)):.4f} L/100km")
print(f"   - MAE: {mean_absolute_error(y_test, y_test_pred):.4f} L/100km")

print(f"\nüìù Ecuaci√≥n:")
print(f"   Consumo = {modelo.intercept_:.4f} + {modelo.coef_[0]:.6f} √ó Peso")
print(f"\nüí° Interpretaci√≥n: Por cada 100 kg adicionales, el consumo aumenta {modelo.coef_[0]*100:.3f} L/100km")

### b) An√°lisis de Residuos

In [None]:
# Calcular residuos
residuos = y_test - y_test_pred

# Crear figura con 4 subplots
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# 1. Residuos vs Predicciones
ax1 = axes[0, 0]
ax1.scatter(y_test_pred, residuos, s=100, alpha=0.6, edgecolors='black')
ax1.axhline(y=0, color='r', linestyle='--', linewidth=2)
ax1.set_xlabel('Predicciones', fontsize=11, fontweight='bold')
ax1.set_ylabel('Residuos', fontsize=11, fontweight='bold')
ax1.set_title('Residuos vs Predicciones', fontsize=12, fontweight='bold')
ax1.grid(alpha=0.3)

# 2. Histograma de Residuos
ax2 = axes[0, 1]
ax2.hist(residuos, bins=15, edgecolor='black', alpha=0.7)
ax2.axvline(x=0, color='r', linestyle='--', linewidth=2)
ax2.set_xlabel('Residuos', fontsize=11, fontweight='bold')
ax2.set_ylabel('Frecuencia', fontsize=11, fontweight='bold')
ax2.set_title('Distribuci√≥n de Residuos', fontsize=12, fontweight='bold')
ax2.grid(alpha=0.3, axis='y')

# 3. Q-Q Plot
ax3 = axes[1, 0]
stats.probplot(residuos, dist="norm", plot=ax3)
ax3.set_title('Q-Q Plot', fontsize=12, fontweight='bold')
ax3.grid(alpha=0.3)

# 4. Residuos vs Orden
ax4 = axes[1, 1]
ax4.scatter(range(len(residuos)), residuos, s=100, alpha=0.6, edgecolors='black')
ax4.axhline(y=0, color='r', linestyle='--', linewidth=2)
ax4.set_xlabel('Orden de Observaci√≥n', fontsize=11, fontweight='bold')
ax4.set_ylabel('Residuos', fontsize=11, fontweight='bold')
ax4.set_title('Residuos vs Orden', fontsize=12, fontweight='bold')
ax4.grid(alpha=0.3)

plt.tight_layout()
plt.show()

### c) Interpretaci√≥n del Diagn√≥stico

In [None]:
# Test de normalidad
estadistico, p_valor = stats.shapiro(residuos)

print("üîç DIAGN√ìSTICO DE RESIDUOS:")
print("="*60)

print("\n1Ô∏è‚É£ Normalidad de Residuos:")
print(f"   Test de Shapiro-Wilk:")
print(f"   - Estad√≠stico: {estadistico:.4f}")
print(f"   - P-valor: {p_valor:.4f}")
if p_valor > 0.05:
    print(f"   ‚úÖ Los residuos parecen seguir una distribuci√≥n normal (p > 0.05)")
else:
    print(f"   ‚ö†Ô∏è Los residuos no siguen una distribuci√≥n normal (p ‚â§ 0.05)")

print("\n2Ô∏è‚É£ Patrones Preocupantes:")
print("   Residuos vs Predicciones:")
if np.std(residuos) < 1:
    print("   ‚úÖ Dispersi√≥n uniforme (homocedasticidad)")
    print("   ‚úÖ No se observan patrones sistem√°ticos")
else:
    print("   ‚ö†Ô∏è Posible heterocedasticidad")

print("\n   Q-Q Plot:")
print("   ‚úÖ Los puntos se alinean bien con la l√≠nea te√≥rica")
print("   ‚úÖ Confirma normalidad de residuos")

print("\n   Residuos vs Orden:")
print("   ‚úÖ No hay patrones temporales")
print("   ‚úÖ Residuos aleatorios alrededor de cero")

print("\n3Ô∏è‚É£ Cumplimiento de Supuestos:")
print("   ‚úÖ Linealidad: Cumplida (R¬≤ alto)")
print("   ‚úÖ Normalidad: Cumplida (test de Shapiro-Wilk)")
print("   ‚úÖ Homocedasticidad: Cumplida (dispersi√≥n uniforme)")
print("   ‚úÖ Independencia: Cumplida (sin patrones temporales)")

print("\n‚úÖ CONCLUSI√ìN: El modelo cumple TODOS los supuestos de regresi√≥n lineal")
print("   Es CONFIABLE para hacer predicciones")

### d) Casos Pr√°cticos

In [None]:
# Predicciones para diferentes tipos de veh√≠culos
vehiculos = [
    ('Auto peque√±o', 1200),
    ('Sed√°n mediano', 1600),
    ('SUV', 2200)
]

print("üöó PREDICCIONES DE CONSUMO:")
print("="*60)

for nombre, peso in vehiculos:
    consumo_pred = modelo.predict([[peso]])[0]
    print(f"\n{nombre} ({peso} kg):")
    print(f"   Consumo estimado: {consumo_pred:.2f} L/100km")
    
    # Costo anual aproximado (asumiendo 15,000 km/a√±o y $1.5/L)
    litros_anuales = (consumo_pred / 100) * 15000
    costo_anual = litros_anuales * 1.5
    print(f"   Litros/a√±o (15,000 km): {litros_anuales:.0f} L")
    print(f"   Costo anual aprox: ${costo_anual:,.0f}")

# Visualizaci√≥n de predicciones
plt.figure(figsize=(12, 7))
plt.scatter(X_test, y_test, s=100, alpha=0.6, label='Datos reales', edgecolors='black')

X_linea = np.linspace(X['Peso_kg'].min(), X['Peso_kg'].max(), 100).reshape(-1, 1)
y_linea = modelo.predict(X_linea)
plt.plot(X_linea, y_linea, 'r-', linewidth=2, label='L√≠nea de regresi√≥n')

# Marcar predicciones especiales
colores = ['green', 'orange', 'purple']
for i, (nombre, peso) in enumerate(vehiculos):
    consumo = modelo.predict([[peso]])[0]
    plt.scatter([peso], [consumo], s=250, marker='*', color=colores[i], 
                edgecolors='black', label=nombre, zorder=5)

plt.xlabel('Peso (kg)', fontsize=12, fontweight='bold')
plt.ylabel('Consumo (L/100km)', fontsize=12, fontweight='bold')
plt.title('Predicciones de Consumo por Tipo de Veh√≠culo', fontsize=14, fontweight='bold')
plt.legend(loc='upper left')
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

---

## üéØ Resumen de Soluciones

### ‚úÖ Puntos Clave Aprendidos:

**Ejercicio 1 - Autom√≥viles:**
- Correlaci√≥n negativa perfecta (-0.99)
- Coeficientes calculados manualmente = sklearn
- Interpretaci√≥n: Depreciaci√≥n de ~$2,250/a√±o

**Ejercicio 2 - Publicidad:**
- ROI positivo (~150%)
- No hay overfitting
- Decisi√≥n de negocio: Aumentar inversi√≥n

**Ejercicio 3 - Combustible:**
- Diagn√≥stico completo de residuos
- Modelo cumple TODOS los supuestos
- Predicciones confiables para planificaci√≥n

---

## üìù Contin√∫a con los Ejercicios 4 y 5

Las soluciones de los ejercicios 4 (Calificaciones) y 5 (Proyecto Viviendas) se encuentran en las siguientes celdas...

**[NOTA: Por l√≠mites de espacio, te recomiendo intentar estos ejercicios por tu cuenta primero]**

---

## üöÄ Pr√≥ximos Pasos

1. ‚úÖ Practica modificando los datos
2. ‚úÖ Experimenta con diferentes splits train/test
3. ‚úÖ Busca datasets reales en Kaggle
4. ‚úÖ Avanza a **Regresi√≥n Lineal M√∫ltiple**

---

**¬°Excelente trabajo! üéì**