Módulo 3: Regresión Lineal

Conceptos clave:
Introducción a la regresión lineal.
Suposiciones de la regresión lineal.
Métricas de evaluación: R^2, RMSE, MAE.
Proyecto: Predicción del precio de viviendas.
Implementar un modelo de regresión lineal para predecir el precio de viviendas utilizando el dataset de precios inmobiliarios de Boston.

Explicación del Código:

Importar Librerías: Se importan las librerías necesarias para la regresión lineal, el preprocesamiento de datos y la evaluación del modelo.

Introducción y Suposiciones de Regresión Lineal: Se presenta una breve introducción a la regresión lineal y sus suposiciones.

Métricas de Evaluación: Se explican las métricas utilizadas para evaluar el rendimiento del modelo.

Preprocesamiento de Datos:

Imputación y Escalado: Se manejan valores faltantes y se escalan los datos.

Encoding: Se aplican técnicas de one-hot encoding a las variables categóricas.

Implementar el Modelo de Regresión Lineal:

Entrenamiento: Se entrena el modelo de regresión lineal con los datos de entrenamiento.

Predicciones: Se realizan predicciones en el conjunto de prueba.

Evaluación del Modelo:

Métricas de Evaluación: Se calculan y muestran las métricas de evaluación (R², RMSE, MAE) para el modelo.

Este código ofrece una demostración completa de cómo implementar y evaluar un modelo de regresión lineal para predecir precios de viviendas, siguiendo los conceptos clave de regresión lineal.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

In [2]:
# 1. Introducción a la Regresión Lineal
# La regresión lineal es un modelo estadístico que asume una relación lineal entre la variable dependiente y una o más variables independientes.

# 2. Suposiciones de la Regresión Lineal
# - Linealidad: La relación entre la variable dependiente y las independientes es lineal.
# - Independencia: Las observaciones son independientes entre sí.
# - Homocedasticidad: La varianza de los errores es constante.
# - Normalidad de los errores: Los errores tienen una distribución normal.

# 3. Métricas de Evaluación
# - R^2 (Coeficiente de Determinación): Mide la proporción de la varianza en la variable dependiente que es explicada por las variables independientes.
# - RMSE (Root Mean Squared Error): Mide la magnitud de los errores de predicción.
# - MAE (Mean Absolute Error): Mide la magnitud promedio de los errores de predicción.

In [3]:
# Proyecto: Predicción del precio de viviendas

# Descargar el dataset sobre precios de viviendas
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
data = pd.read_csv(url)

# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(data.head())

Primeras filas del dataset:
      crim    zn  indus  chas    nox     rm   age     dis  rad  tax  ptratio  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        b  lstat  medv  
0  396.90   4.98  24.0  
1  396.90   9.14  21.6  
2  392.83   4.03  34.7  
3  394.63   2.94  33.4  
4  396.90   5.33  36.2  


In [4]:
# 3.1. Preprocesamiento de Datos (Similar al Módulo 2)
# Identificación de variables categóricas y numéricas
categorical_features = [col for col in data.select_dtypes(include=['object']).columns]
numerical_features = [col for col in data.select_dtypes(include=['int64', 'float64']).columns if col != 'MEDV']

# Imputación de valores faltantes y escalado
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='median')),
            ('scaler', StandardScaler())
        ]), numerical_features),
        ('cat', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='most_frequent')),
            ('onehot', OneHotEncoder(handle_unknown='ignore'))
        ]), categorical_features)
    ])

# Separar características y variable objetivo
X = data.drop('MEDV', axis=1)  # Suponiendo que 'MEDV' es la variable objetivo (precios de viviendas)
y = data['MEDV']

# Aplicar preprocesamiento
X_preprocessed = preprocessor.fit_transform(X)

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_preprocessed, y, test_size=0.2, random_state=42)

KeyError: "['MEDV'] not found in axis"

In [5]:
# 3.2. Implementar el Modelo de Regresión Lineal
# Crear el modelo
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# 3.3. Evaluación del Modelo
# Calcular métricas de evaluación
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

print("\nMétricas de Evaluación del Modelo de Regresión Lineal:")
print(f"R^2: {r2:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"MAE: {mae:.4f}")



NameError: name 'X_train' is not defined