# üìä Simple Linear Regression - Guided Practice

**Module 1: Machine Learning with Python - Lesson 02**

---

## üìã Content

1. Environment configuration
2. Implementation from scratch with NumPy
3. Linear regression with Scikit-learn
4. Evaluation and metrics
5. Residue analysis
6. Complete example: Salary prediction
7. Validation of assumptions

---

## 1. Environment Configuration

In [None]:
# Importar bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from scipy import stats

# Configuraci√≥n de visualizaci√≥n
%matplotlib inline
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11

# Semilla para reproducibilidad
np.random.seed(42)

print("‚úÖ Entorno configurado correctamente")
print(f"NumPy: {np.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"Scikit-learn: {sklearn.__version__}")

---

## 2. Implementation from Scratch with NumPy

Before using Scikit-learn, let's implement linear regression from scratch to understand the math.

### Example Data: Study Hours vs Grade

In [None]:
# Datos simples para empezar
horas_estudio = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
calificaciones = np.array([2.5, 3.8, 4.2, 5.0, 5.5, 6.2, 6.8, 7.5, 8.0, 8.8])

# Visualizaci√≥n inicial
plt.figure(figsize=(10, 6))
plt.scatter(horas_estudio, calificaciones, s=100, alpha=0.7, edgecolors='black')
plt.xlabel('Horas de Estudio')
plt.ylabel('Calificaci√≥n')
plt.title('Relaci√≥n entre Horas de Estudio y Calificaci√≥n')
plt.grid(True, alpha=0.3)
plt.show()

print(f"N√∫mero de observaciones: {len(horas_estudio)}")

### Calculate Slope (m) and Intercept (b) Manually

Formulas:```
m = Œ£[(xi - xÃÑ)(yi - »≥)] / Œ£[(xi - xÃÑ)¬≤]
b = »≥ - m * xÃÑ
```

In [None]:
# Paso 1: Calcular medias
x_mean = np.mean(horas_estudio)
y_mean = np.mean(calificaciones)

print(f"Media de X (horas): {x_mean}")
print(f"Media de y (calificaci√≥n): {y_mean:.2f}")

# Paso 2: Calcular desviaciones
x_dev = horas_estudio - x_mean  # (xi - xÃÑ)
y_dev = calificaciones - y_mean  # (yi - »≥)

print(f"\nDesviaciones de X: {x_dev}")
print(f"Desviaciones de y: {y_dev}")

In [None]:
# Paso 3: Calcular productos y sumas
numerador = np.sum(x_dev * y_dev)  # Œ£[(xi - xÃÑ)(yi - »≥)]
denominador = np.sum(x_dev ** 2)    # Œ£[(xi - xÃÑ)¬≤]

print(f"Numerador (covarianza): {numerador:.2f}")
print(f"Denominador (varianza de X): {denominador:.2f}")

# Paso 4: Calcular pendiente
m = numerador / denominador
print(f"\n‚úÖ Pendiente (m): {m:.4f}")

# Paso 5: Calcular intercepto
b = y_mean - m * x_mean
print(f"‚úÖ Intercepto (b): {b:.4f}")

print(f"\nüìê Ecuaci√≥n de la recta: y = {m:.4f}x + {b:.4f}")

### Interpret the Results

In [None]:
print("üìä Interpretaci√≥n:")
print(f"\n1. Intercepto (b = {b:.2f}):")
print(f"   Con 0 horas de estudio, la calificaci√≥n esperada es {b:.2f}")

print(f"\n2. Pendiente (m = {m:.2f}):")
print(f"   Por cada hora adicional de estudio,")
print(f"   la calificaci√≥n aumenta en promedio {m:.2f} puntos")

print(f"\n3. Ejemplo pr√°ctico:")
horas = 5
calif_predicha = m * horas + b
print(f"   Si estudias {horas} horas:")
print(f"   Calificaci√≥n esperada = {m:.2f} √ó {horas} + {b:.2f} = {calif_predicha:.2f}")

### View the Regression Line

In [None]:
# Hacer predicciones con nuestra ecuaci√≥n
y_pred = m * horas_estudio + b

# Graficar
plt.figure(figsize=(10, 6))
plt.scatter(horas_estudio, calificaciones, s=100, alpha=0.7, 
            edgecolors='black', label='Datos reales', zorder=3)
plt.plot(horas_estudio, y_pred, 'r-', linewidth=2, 
         label=f'L√≠nea de regresi√≥n: y = {m:.2f}x + {b:.2f}', zorder=2)

plt.xlabel('Horas de Estudio', fontsize=12)
plt.ylabel('Calificaci√≥n', fontsize=12)
plt.title('Regresi√≥n Lineal: Implementaci√≥n Manual', fontsize=14, fontweight='bold')
plt.legend(fontsize=10)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

### Calculate R¬≤ Manually

In [None]:
# Residuos
residuos = calificaciones - y_pred

# SS_res (suma de residuos al cuadrado)
ss_res = np.sum(residuos ** 2)

# SS_tot (suma total de cuadrados)
ss_tot = np.sum((calificaciones - y_mean) ** 2)

# R¬≤
r2 = 1 - (ss_res / ss_tot)

print(f"SS_res (suma de residuos¬≤): {ss_res:.4f}")
print(f"SS_tot (varianza total): {ss_tot:.4f}")
print(f"\n‚úÖ R¬≤ = {r2:.4f} ({r2*100:.2f}%)")
print(f"\nInterpretaci√≥n: El modelo explica {r2*100:.2f}% de la variabilidad en las calificaciones")

---

## 3. Linear Regression with Scikit-learn

Now let's use Scikit-learn, which does all this automatically.

### Most Realistic Synthetic Dataset

In [None]:
# Generar datos sint√©ticos con ruido
np.random.seed(42)
n_samples = 100

# X: A√±os de experiencia (0 a 15 a√±os)
X = np.random.uniform(0, 15, n_samples)

# y: Salario = 30000 + 4000*experiencia + ruido
y = 30000 + 4000 * X + np.random.normal(0, 5000, n_samples)

# Crear DataFrame para mejor visualizaci√≥n
df = pd.DataFrame({
    'Experiencia_a√±os': X,
    'Salario_USD': y
})

print("üìä Dataset de Salarios:")
print(df.head(10))
print(f"\nTotal de observaciones: {len(df)}")
print("\nEstad√≠sticas:")
print(df.describe())

In [None]:
# Visualizar los datos
plt.figure(figsize=(10, 6))
plt.scatter(df['Experiencia_a√±os'], df['Salario_USD'], 
            alpha=0.6, s=60, edgecolors='black')
plt.xlabel('A√±os de Experiencia', fontsize=12)
plt.ylabel('Salario (USD)', fontsize=12)
plt.title('Relaci√≥n entre Experiencia y Salario', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Calcular correlaci√≥n
correlacion = df['Experiencia_a√±os'].corr(df['Salario_USD'])
print(f"\nüîó Correlaci√≥n: {correlacion:.3f}")

### Split into Train/Test

In [None]:
# Preparar datos
X = df[['Experiencia_a√±os']].values  # Debe ser 2D para sklearn
y = df['Salario_USD'].values

# Dividir 80/20
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(f"üìö Datos de entrenamiento: {len(X_train)} muestras")
print(f"üß™ Datos de prueba: {len(X_test)} muestras")
print(f"\nForma de X_train: {X_train.shape}")
print(f"Forma de X_test: {X_test.shape}")

### Train the Model

In [None]:
# Crear modelo
modelo = LinearRegression()

# Entrenar
modelo.fit(X_train, y_train)

print("‚úÖ Modelo entrenado exitosamente")
print("\nüìê Par√°metros aprendidos:")
print(f"  Coeficiente (pendiente): ${modelo.coef_[0]:,.2f}")
print(f"  Intercepto: ${modelo.intercept_:,.2f}")
print(f"\nüìù Ecuaci√≥n:")
print(f"  Salario = {modelo.intercept_:,.0f} + {modelo.coef_[0]:,.0f} √ó Experiencia")

### Interpret the Coefficients

In [None]:
print("üí° Interpretaci√≥n:")
print(f"\n1. Intercepto = ${modelo.intercept_:,.0f}")
print(f"   ‚Üí Salario esperado con 0 a√±os de experiencia (reci√©n graduado)")

print(f"\n2. Coeficiente = ${modelo.coef_[0]:,.0f}")
print(f"   ‚Üí Por cada a√±o adicional de experiencia,")
print(f"     el salario aumenta en promedio ${modelo.coef_[0]:,.0f}")

print(f"\n3. Ejemplos pr√°cticos:")
for a√±os in [2, 5, 10]:
    salario = modelo.intercept_ + modelo.coef_[0] * a√±os
    print(f"   {a√±os} a√±os ‚Üí Salario esperado: ${salario:,.0f}")

### Make Predictions

In [None]:
# Predicciones en conjunto de prueba
y_pred_train = modelo.predict(X_train)
y_pred_test = modelo.predict(X_test)

# Mostrar algunas predicciones vs valores reales
print("üéØ Primeras 10 predicciones en Test Set:")
print("\nExperiencia | Real      | Predicho  | Error")
print("-" * 50)
for i in range(10):
    error = y_test[i] - y_pred_test[i]
    print(f"{X_test[i][0]:7.1f} a√±os | ${y_test[i]:8,.0f} | ${y_pred_test[i]:8,.0f} | ${error:+8,.0f}")

---

## 4. Evaluation and Metrics

### Calculate All Metrics

In [None]:
# R¬≤ (Coeficiente de determinaci√≥n)
r2_train = modelo.score(X_train, y_train)
r2_test = modelo.score(X_test, y_test)

# MSE (Error Cuadr√°tico Medio)
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)

# RMSE (Ra√≠z del Error Cuadr√°tico Medio)
rmse_train = np.sqrt(mse_train)
rmse_test = np.sqrt(mse_test)

# MAE (Error Absoluto Medio)
mae_train = mean_absolute_error(y_train, y_pred_train)
mae_test = mean_absolute_error(y_test, y_pred_test)

print("üìä M√âTRICAS DE EVALUACI√ìN")
print("=" * 60)
print(f"\n{'M√©trica':<20} {'Train':<20} {'Test':<20}")
print("-" * 60)
print(f"{'R¬≤':<20} {r2_train:<20.4f} {r2_test:<20.4f}")
print(f"{'MSE':<20} {mse_train:<20,.2f} {mse_test:<20,.2f}")
print(f"{'RMSE':<20} ${rmse_train:<19,.2f} ${rmse_test:<19,.2f}")
print(f"{'MAE':<20} ${mae_train:<19,.2f} ${mae_test:<19,.2f}")
print("=" * 60)

### Interpret Metrics

In [None]:
print("üí° Interpretaci√≥n de M√©tricas:")
print("\n1Ô∏è‚É£ R¬≤ (Coeficiente de Determinaci√≥n):")
print(f"   Train: {r2_train:.4f} ({r2_train*100:.2f}%)")
print(f"   Test:  {r2_test:.4f} ({r2_test*100:.2f}%)")
print(f"   ‚Üí El modelo explica ~{r2_test*100:.0f}% de la variabilidad en los salarios")

if r2_test > 0.9:
    print("   ‚úÖ Excelente ajuste")
elif r2_test > 0.7:
    print("   ‚úÖ Buen ajuste")
elif r2_test > 0.5:
    print("   ‚ö†Ô∏è  Ajuste moderado")
else:
    print("   ‚ùå Ajuste pobre")

print(f"\n2Ô∏è‚É£ RMSE (Root Mean Squared Error):")
print(f"   Test: ${rmse_test:,.2f}")
print(f"   ‚Üí El modelo se equivoca en promedio ¬±${rmse_test:,.0f}")
print(f"   ‚Üí Esto es ~{rmse_test/y_test.mean()*100:.1f}% del salario promedio")

print(f"\n3Ô∏è‚É£ MAE (Mean Absolute Error):")
print(f"   Test: ${mae_test:,.2f}")
print(f"   ‚Üí Error absoluto promedio sin penalizar outliers")

print(f"\n4Ô∏è‚É£ Comparaci√≥n Train vs Test:")
if abs(r2_train - r2_test) < 0.05:
    print("   ‚úÖ Modelo generaliza bien (no hay overfitting significativo)")
else:
    print("   ‚ö†Ô∏è  Posible overfitting (diferencia entre train y test)")

### View Predictions vs Actuals

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Gr√°fico 1: L√≠nea de regresi√≥n con datos
axes[0].scatter(X_train, y_train, alpha=0.5, s=50, label='Train', color='blue')
axes[0].scatter(X_test, y_test, alpha=0.5, s=50, label='Test', color='green')

# L√≠nea de regresi√≥n
X_line = np.linspace(X.min(), X.max(), 100).reshape(-1, 1)
y_line = modelo.predict(X_line)
axes[0].plot(X_line, y_line, 'r-', linewidth=2, label='Regresi√≥n')

axes[0].set_xlabel('A√±os de Experiencia')
axes[0].set_ylabel('Salario (USD)')
axes[0].set_title(f'Regresi√≥n Lineal (R¬≤ = {r2_test:.3f})', fontweight='bold')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Gr√°fico 2: Predicciones vs Valores Reales
axes[1].scatter(y_test, y_pred_test, alpha=0.6, s=80, edgecolors='black')
axes[1].plot([y_test.min(), y_test.max()], 
             [y_test.min(), y_test.max()], 
             'r--', linewidth=2, label='Predicci√≥n perfecta')
axes[1].set_xlabel('Salario Real (USD)')
axes[1].set_ylabel('Salario Predicho (USD)')
axes[1].set_title('Predicciones vs Valores Reales', fontweight='bold')
axes[1].legend()
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---

## 5. Residue Analysis

The residuals are the difference between actual and predicted values. They are crucial for diagnosing model problems.

### Calculate Residuals

In [None]:
# Residuos del conjunto de prueba
residuos = y_test - y_pred_test

print("üìä An√°lisis de Residuos:")
print(f"\nMedia de residuos: ${residuos.mean():,.2f}")
print(f"(Deber√≠a estar cerca de 0)")
print(f"\nDesv. Est. de residuos: ${residuos.std():,.2f}")
print(f"M√≠nimo: ${residuos.min():,.2f}")
print(f"M√°ximo: ${residuos.max():,.2f}")

### Diagnostic Charts

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# 1. Residuos vs Predicciones
axes[0, 0].scatter(y_pred_test, residuos, alpha=0.6, edgecolors='black')
axes[0, 0].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[0, 0].set_xlabel('Valores Predichos')
axes[0, 0].set_ylabel('Residuos')
axes[0, 0].set_title('Residuos vs Predicciones', fontweight='bold')
axes[0, 0].grid(True, alpha=0.3)

# 2. Histograma de Residuos
axes[0, 1].hist(residuos, bins=20, edgecolor='black', alpha=0.7)
axes[0, 1].axvline(x=0, color='red', linestyle='--', linewidth=2)
axes[0, 1].set_xlabel('Residuos')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].set_title('Distribuci√≥n de Residuos', fontweight='bold')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Q-Q Plot (Normalidad)
stats.probplot(residuos, dist="norm", plot=axes[1, 0])
axes[1, 0].set_title('Q-Q Plot (Normalidad)', fontweight='bold')
axes[1, 0].grid(True, alpha=0.3)

# 4. Residuos vs Orden
axes[1, 1].scatter(range(len(residuos)), residuos, alpha=0.6, edgecolors='black')
axes[1, 1].axhline(y=0, color='red', linestyle='--', linewidth=2)
axes[1, 1].set_xlabel('Orden de Observaci√≥n')
axes[1, 1].set_ylabel('Residuos')
axes[1, 1].set_title('Residuos vs Orden', fontweight='bold')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

### Interpret Residual Plots

In [None]:
print("üí° Qu√© buscar en los gr√°ficos de residuos:")
print("\n1Ô∏è‚É£ Residuos vs Predicciones:")
print("   ‚úÖ Bueno: Puntos distribuidos aleatoriamente alrededor de 0")
print("   ‚ùå Malo: Patrones (curvas, embudos) indican problemas")

print("\n2Ô∏è‚É£ Histograma de Residuos:")
print("   ‚úÖ Bueno: Forma de campana (distribuci√≥n normal)")
print("   ‚ùå Malo: Asimetr√≠a o m√∫ltiples picos")

print("\n3Ô∏è‚É£ Q-Q Plot:")
print("   ‚úÖ Bueno: Puntos siguen la l√≠nea diagonal")
print("   ‚ùå Malo: Desviaciones significativas de la l√≠nea")

print("\n4Ô∏è‚É£ Residuos vs Orden:")
print("   ‚úÖ Bueno: Sin patrones temporales")
print("   ‚ùå Malo: Tendencias o ciclos (autocorrelaci√≥n)")

---

## 6. Complete Example: Prediction for New Data

### Use Case: Negotiate a Salary

In [None]:
print("üéØ ESCENARIO: Negociaci√≥n Salarial")
print("=" * 60)

# Candidatos con diferentes a√±os de experiencia
candidatos = {
    'Junior': 1,
    'Mid-level': 5,
    'Senior': 10,
    'Expert': 15
}

print("\nNivel        | Experiencia | Salario Estimado  | Rango (¬±RMSE)")
print("-" * 70)

for nivel, a√±os in candidatos.items():
    # Predicci√≥n
    salario_pred = modelo.predict([[a√±os]])[0]
    
    # Intervalo de confianza (aproximado con RMSE)
    salario_min = salario_pred - rmse_test
    salario_max = salario_pred + rmse_test
    
    print(f"{nivel:<12} | {a√±os:2} a√±os     | ${salario_pred:10,.0f}     | ${salario_min:,.0f} - ${salario_max:,.0f}")

print("\nüí° Nota: El rango representa el intervalo de confianza aproximado")
print(f"   basado en el RMSE del modelo (${rmse_test:,.0f})")

### Interactive Prediction

In [None]:
def predecir_salario(a√±os_experiencia):
    """
    Predice el salario basado en a√±os de experiencia.
    
    Args:
        a√±os_experiencia: N√∫mero de a√±os de experiencia
    
    Returns:
        Salario predicho con intervalo de confianza
    """
    salario = modelo.predict([[a√±os_experiencia]])[0]
    intervalo_inf = salario - rmse_test
    intervalo_sup = salario + rmse_test
    
    print(f"\nüéØ Predicci√≥n para {a√±os_experiencia} a√±os de experiencia:")
    print(f"   Salario estimado: ${salario:,.0f}")
    print(f"   Intervalo de confianza: ${intervalo_inf:,.0f} - ${intervalo_sup:,.0f}")
    print(f"   Confianza del modelo: R¬≤ = {r2_test:.2f}")
    
    return salario

# Ejemplos
predecir_salario(3)
predecir_salario(7)
predecir_salario(12)

---

## 7. Validation of Assumptions

### Residue Normality Test

In [None]:
from scipy.stats import shapiro, normaltest

# Shapiro-Wilk test
stat_shapiro, p_shapiro = shapiro(residuos)

print("üß™ Tests de Normalidad de Residuos:")
print(f"\nShapiro-Wilk Test:")
print(f"  Estad√≠stico: {stat_shapiro:.4f}")
print(f"  p-valor: {p_shapiro:.4f}")

if p_shapiro > 0.05:
    print("  ‚úÖ Los residuos parecen seguir una distribuci√≥n normal (p > 0.05)")
else:
    print("  ‚ö†Ô∏è  Los residuos podr√≠an no ser normales (p < 0.05)")
    print("     Esto puede afectar la validez de las pruebas de hip√≥tesis")

### Final Model Summary

In [None]:
print("üìã RESUMEN COMPLETO DEL MODELO")
print("=" * 70)

print("\n1Ô∏è‚É£ ECUACI√ìN:")
print(f"   Salario = ${modelo.intercept_:,.0f} + ${modelo.coef_[0]:,.0f} √ó Experiencia")

print("\n2Ô∏è‚É£ INTERPRETACI√ìN:")
print(f"   ‚Ä¢ Salario base (0 a√±os): ${modelo.intercept_:,.0f}")
print(f"   ‚Ä¢ Incremento por a√±o: ${modelo.coef_[0]:,.0f}")

print("\n3Ô∏è‚É£ M√âTRICAS DE DESEMPE√ëO:")
print(f"   ‚Ä¢ R¬≤ (Test): {r2_test:.4f} ‚Üí Explica {r2_test*100:.1f}% de la varianza")
print(f"   ‚Ä¢ RMSE: ${rmse_test:,.0f} ‚Üí Error promedio")
print(f"   ‚Ä¢ MAE: ${mae_test:,.0f} ‚Üí Error absoluto")

print("\n4Ô∏è‚É£ DIAGN√ìSTICO:")
print(f"   ‚Ä¢ Residuos centrados en 0: {'‚úÖ' if abs(residuos.mean()) < 1000 else '‚ö†Ô∏è'}")
print(f"   ‚Ä¢ Normalidad de residuos: {'‚úÖ' if p_shapiro > 0.05 else '‚ö†Ô∏è'}")
print(f"   ‚Ä¢ No overfitting: {'‚úÖ' if abs(r2_train - r2_test) < 0.1 else '‚ö†Ô∏è'}")

print("\n5Ô∏è‚É£ RECOMENDACI√ìN:")
if r2_test > 0.8:
    print("   ‚úÖ Modelo EXCELENTE - Listo para producci√≥n")
elif r2_test > 0.6:
    print("   ‚úÖ Modelo BUENO - √ötil para estimaciones")
elif r2_test > 0.4:
    print("   ‚ö†Ô∏è  Modelo MODERADO - Usar con precauci√≥n")
else:
    print("   ‚ùå Modelo POBRE - Necesita mejoras")

print("\n" + "=" * 70)

---

## üéØ Summary and Conclusions

### Have You Learned:

1. ‚úÖ Implement linear regression from scratch with NumPy
2. ‚úÖ Use Scikit-learn to train models
3. ‚úÖ Interpret coefficients and intercept
4. ‚úÖ Evaluate models with R¬≤, RMSE, MAE
5. ‚úÖ Analyze waste to diagnose problems
6. ‚úÖ Make predictions with new data
7. ‚úÖ Validate model assumptions

### Next Steps:

1. üìù Complete the **exercises** to practice
2. üîç Experiment with different datasets
3. üìä Try transforming variables (log, sqrt)
4. üöÄ Advance to **Multiple Linear Regression**

---

**Excellent work! üéâ**