# Regresión Lineal con Python

Este notebook demuestra cómo implementar regresión lineal utilizando Python y las bibliotecas más comunes para machine learning.

## Contenido:
1. Regresión Lineal Simple
2. Regresión Lineal Múltiple
3. Evaluación del Modelo
4. Visualización de Resultados

## 1. Importación de Bibliotecas

In [1]:
# Bibliotecas básicas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para machine learning
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler

# Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)

print("Bibliotecas importadas correctamente")

Bibliotecas importadas correctamente


## 2. Generación de Datos de Ejemplo

In [None]:
# Generar datos sintéticos para regresión lineal simple
np.random.seed(42)

# Variable independiente (X) - por ejemplo, años de experiencia
X_simple = np.random.uniform(0, 10, 100).reshape(-1, 1)

# Variable dependiente (y) - por ejemplo, salario
# y = 30000 + 5000 * X + ruido
y_simple = 30000 + 5000 * X_simple.flatten() + np.random.normal(0, 3000, 100)

print(f"Forma de X: {X_simple.shape}")
print(f"Forma de y: {y_simple.shape}")
print(f"Primeros 5 valores de X: {X_simple[:5].flatten()}")
print(f"Primeros 5 valores de y: {y_simple[:5]}")

## 3. Regresión Lineal Simple

In [None]:
# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X_simple, y_simple, test_size=0.2, random_state=42
)

# Crear y entrenar el modelo
modelo_simple = LinearRegression()
modelo_simple.fit(X_train, y_train)

# Obtener parámetros del modelo
pendiente = modelo_simple.coef_[0]
intercepto = modelo_simple.intercept_

print(f"Ecuación de la recta: y = {intercepto:.2f} + {pendiente:.2f}x")
print(f"Intercepto (b₀): {intercepto:.2f}")
print(f"Pendiente (b₁): {pendiente:.2f}")

### 3.1 Predicciones y Evaluación

In [None]:
# Realizar predicciones
y_pred_train = modelo_simple.predict(X_train)
y_pred_test = modelo_simple.predict(X_test)

# Calcular métricas de evaluación
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
rmse_train = np.sqrt(mse_train)
rmse_test = np.sqrt(mse_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)
mae_test = mean_absolute_error(y_test, y_pred_test)

print("Métricas de Evaluación - Conjunto de Entrenamiento:")
print(f"MSE: {mse_train:.2f}")
print(f"RMSE: {rmse_train:.2f}")
print(f"R²: {r2_train:.4f}")
print("\nMétricas de Evaluación - Conjunto de Prueba:")
print(f"MSE: {mse_test:.2f}")
print(f"RMSE: {rmse_test:.2f}")
print(f"R²: {r2_test:.4f}")
print(f"MAE: {mae_test:.2f}")

### 3.2 Visualización de Resultados

In [None]:
# Visualizar los datos y la línea de regresión
plt.figure(figsize=(12, 5))

# Gráfico de entrenamiento
plt.subplot(1, 2, 1)
plt.scatter(X_train, y_train, alpha=0.6, color='blue', label='Datos de entrenamiento')
plt.plot(X_train, y_pred_train, color='red', linewidth=2, label='Línea de regresión')
plt.xlabel('Años de experiencia')
plt.ylabel('Salario')
plt.title('Regresión Lineal - Entrenamiento')
plt.legend()
plt.grid(True, alpha=0.3)

# Gráfico de prueba
plt.subplot(1, 2, 2)
plt.scatter(X_test, y_test, alpha=0.6, color='green', label='Datos de prueba')
plt.plot(X_test, y_pred_test, color='red', linewidth=2, label='Línea de regresión')
plt.xlabel('Años de experiencia')
plt.ylabel('Salario')
plt.title('Regresión Lineal - Prueba')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 4. Regresión Lineal Múltiple

In [None]:
# Generar datos para regresión múltiple
np.random.seed(42)
n_samples = 200

# Variables independientes
X1 = np.random.uniform(0, 10, n_samples)  # Años de experiencia
X2 = np.random.uniform(0, 5, n_samples)   # Nivel de educación (1-5)
X3 = np.random.uniform(20, 60, n_samples) # Edad

# Variable dependiente (salario)
y_multiple = (25000 + 4000 * X1 + 3000 * X2 + 500 * X3 + 
              np.random.normal(0, 4000, n_samples))

# Crear DataFrame
df = pd.DataFrame({
    'experiencia': X1,
    'educacion': X2,
    'edad': X3,
    'salario': y_multiple
})

print("Primeras 5 filas del dataset:")
print(df.head())
print("\nEstadísticas descriptivas:")
print(df.describe())

In [None]:
# Preparar datos para el modelo
X_multiple = df[['experiencia', 'educacion', 'edad']]
y_multiple = df['salario']

# Dividir datos
X_train_multi, X_test_multi, y_train_multi, y_test_multi = train_test_split(
    X_multiple, y_multiple, test_size=0.2, random_state=42
)

# Escalar características (importante para regresión múltiple)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_multi)
X_test_scaled = scaler.transform(X_test_multi)

# Crear y entrenar el modelo
modelo_multiple = LinearRegression()
modelo_multiple.fit(X_train_scaled, y_train_multi)

# Mostrar coeficientes
print("Coeficientes del modelo:")
for i, feature in enumerate(['experiencia', 'educacion', 'edad']):
    print(f"{feature}: {modelo_multiple.coef_[i]:.2f}")
print(f"Intercepto: {modelo_multiple.intercept_:.2f}")

In [None]:
# Evaluar modelo múltiple
y_pred_multi = modelo_multiple.predict(X_test_scaled)

# Calcular métricas
mse_multi = mean_squared_error(y_test_multi, y_pred_multi)
rmse_multi = np.sqrt(mse_multi)
r2_multi = r2_score(y_test_multi, y_pred_multi)
mae_multi = mean_absolute_error(y_test_multi, y_pred_multi)

print("Métricas - Regresión Lineal Múltiple:")
print(f"MSE: {mse_multi:.2f}")
print(f"RMSE: {rmse_multi:.2f}")
print(f"R²: {r2_multi:.4f}")
print(f"MAE: {mae_multi:.2f}")

### 4.1 Visualización de Resultados Múltiples

In [None]:
# Visualizar predicciones vs valores reales
plt.figure(figsize=(10, 6))
plt.scatter(y_test_multi, y_pred_multi, alpha=0.6, color='purple')
plt.plot([y_test_multi.min(), y_test_multi.max()], 
         [y_test_multi.min(), y_test_multi.max()], 
         'r--', lw=2, label='Línea de referencia (y=x)')
plt.xlabel('Valores Reales')
plt.ylabel('Predicciones')
plt.title('Predicciones vs Valores Reales - Regresión Múltiple')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# Gráfico de residuos
residuos = y_test_multi - y_pred_multi
plt.figure(figsize=(10, 4))

plt.subplot(1, 2, 1)
plt.scatter(y_pred_multi, residuos, alpha=0.6)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('Predicciones')
plt.ylabel('Residuos')
plt.title('Gráfico de Residuos')
plt.grid(True, alpha=0.3)

plt.subplot(1, 2, 2)
plt.hist(residuos, bins=20, alpha=0.7, color='skyblue', edgecolor='black')
plt.xlabel('Residuos')
plt.ylabel('Frecuencia')
plt.title('Distribución de Residuos')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 5. Ejemplo con Dataset Real (Boston Housing)

In [None]:
# Cargar dataset de California Housing (disponible en scikit-learn)
from sklearn.datasets import fetch_california_housing

# Cargar datos
california = fetch_california_housing()
X_california = pd.DataFrame(california.data, columns=california.feature_names)
y_california = california.target

print("Información del dataset California Housing:")
print(f"Número de muestras: {X_california.shape[0]}")
print(f"Número de características: {X_california.shape[1]}")
print("\nNombres de las características:")
for i, feature in enumerate(california.feature_names):
    print(f"{i+1}. {feature}")

print("\nPrimeras 5 filas:")
print(X_california.head())
print("\nEstadísticas del target (precio de la casa):")
print(f"Media: {y_california.mean():.2f}")
print(f"Desviación estándar: {y_california.std():.2f}")
print(f"Mínimo: {y_california.min():.2f}")
print(f"Máximo: {y_california.max():.2f}")

In [None]:
# Preparar y entrenar modelo con datos reales
X_train_real, X_test_real, y_train_real, y_test_real = train_test_split(
    X_california, y_california, test_size=0.2, random_state=42
)

# Escalar características
scaler_real = StandardScaler()
X_train_real_scaled = scaler_real.fit_transform(X_train_real)
X_test_real_scaled = scaler_real.transform(X_test_real)

# Entrenar modelo
modelo_real = LinearRegression()
modelo_real.fit(X_train_real_scaled, y_train_real)

# Evaluar modelo
y_pred_real = modelo_real.predict(X_test_real_scaled)

# Métricas
r2_real = r2_score(y_test_real, y_pred_real)
mse_real = mean_squared_error(y_test_real, y_pred_real)
rmse_real = np.sqrt(mse_real)

print("Resultados con Dataset Real (California Housing):")
print(f"R²: {r2_real:.4f}")
print(f"RMSE: {rmse_real:.4f}")

# Importancia de características
print("\nImportancia de las características (coeficientes):")
for i, (feature, coef) in enumerate(zip(california.feature_names, modelo_real.coef_)):
    print(f"{feature}: {coef:.4f}")

## 6. Funciones Útiles para Regresión Lineal

In [None]:
def evaluar_regresion_lineal(X, y, test_size=0.2, random_state=42):
    """
    Función para evaluar un modelo de regresión lineal
    """
    # Dividir datos
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=test_size, random_state=random_state
    )
    
    # Escalar características
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)
    
    # Entrenar modelo
    modelo = LinearRegression()
    modelo.fit(X_train_scaled, y_train)
    
    # Predicciones
    y_pred = modelo.predict(X_test_scaled)
    
    # Métricas
    metricas = {
        'R2': r2_score(y_test, y_pred),
        'MSE': mean_squared_error(y_test, y_pred),
        'RMSE': np.sqrt(mean_squared_error(y_test, y_pred)),
        'MAE': mean_absolute_error(y_test, y_pred)
    }
    
    return modelo, scaler, metricas

def visualizar_resultados(y_true, y_pred, title="Resultados de Regresión"):
    """
    Función para visualizar resultados de regresión
    """
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))
    
    # Gráfico de predicciones vs reales
    axes[0].scatter(y_true, y_pred, alpha=0.6)
    axes[0].plot([y_true.min(), y_true.max()], 
                 [y_true.min(), y_true.max()], 
                 'r--', lw=2)
    axes[0].set_xlabel('Valores Reales')
    axes[0].set_ylabel('Predicciones')
    axes[0].set_title(f'{title} - Predicciones vs Reales')
    axes[0].grid(True, alpha=0.3)
    
    # Gráfico de residuos
    residuos = y_true - y_pred
    axes[1].scatter(y_pred, residuos, alpha=0.6)
    axes[1].axhline(y=0, color='r', linestyle='--')
    axes[1].set_xlabel('Predicciones')
    axes[1].set_ylabel('Residuos')
    axes[1].set_title(f'{title} - Residuos')
    axes[1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

print("Funciones auxiliares definidas correctamente")

## 7. Resumen y Conclusiones

### Conceptos Clave de la Regresión Lineal:

1. **Regresión Lineal Simple**: Una variable independiente para predecir una variable dependiente
   - Ecuación: y = β₀ + β₁x
   - β₀: Intercepto (donde la línea cruza el eje y)
   - β₁: Pendiente (cambio en y por cada unidad de cambio en x)

2. **Regresión Lineal Múltiple**: Múltiples variables independientes
   - Ecuación: y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ

3. **Métricas de Evaluación**:
   - **R² (Coeficiente de Determinación)**: Proporción de varianza explicada (0-1)
   - **MSE (Error Cuadrático Medio)**: Promedio de los errores al cuadrado
   - **RMSE (Raíz del Error Cuadrático Medio)**: Misma unidad que la variable objetivo
   - **MAE (Error Absoluto Medio)**: Promedio de los errores absolutos

4. **Supuestos de la Regresión Lineal**:
   - Linealidad de la relación
   - Independencia de los residuos
   - Homocedasticidad (varianza constante)
   - Normalidad de los residuos

5. **Buenas Prácticas**:
   - Escalar características antes del modelado
   - Dividir datos en entrenamiento y prueba
   - Validar supuestos del modelo
   - Considerar regularización (Ridge, Lasso) para multicolinealidad

In [None]:
# Ejemplo final usando las funciones auxiliares
print("Ejemplo final con el dataset California Housing:")
modelo_final, scaler_final, metricas_finales = evaluar_regresion_lineal(
    X_california, y_california
)

print("\nMétricas finales:")
for metrica, valor in metricas_finales.items():
    print(f"{metrica}: {valor:.4f}")

# Visualizar resultados finales
y_pred_final = modelo_final.predict(scaler_final.transform(X_test_real))
visualizar_resultados(y_test_real, y_pred_final, "Modelo Final")