# 1. Regresión Lineal

La **Regresión Lineal** es una técnica estadística fundamental para modelar la relación entre una variable dependiente y una o más variables independientes. Este método es ampliamente utilizado en el aprendizaje automático debido a su simplicidad y efectividad en problemas de predicción y análisis.

### 1.1 Modelo de Regresión Lineal

El **Modelo de Regresión Lineal** intenta establecer una relación lineal entre las variables, representada por la siguiente ecuación:

$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon
$

#### Explicación de los términos

- **$Y $**: Variable dependiente o respuesta, que se quiere predecir o explicar.
- **$ \beta_0 $**: Intercepto de la línea con el eje Y. Es el valor esperado de $ Y $ cuando todas las variables independientes $X_1, X_2, \dots, X_n $ son cero.
- **$ \beta_1, \beta_2, \dots, \beta_n $**: Coeficientes de la regresión que representan la magnitud y dirección del efecto de cada variable independiente sobre la variable dependiente $ Y $.
- **$ X_1, X_2, \dots, X_n $**: Variables independientes o características que explican o predicen la variable dependiente $Y$.
- **$ \epsilon $**: Término de error o residuo, que representa la desviación de los datos observados respecto de la línea de regresión, capturando la variabilidad en $Y$ que no puede explicarse por las variables independientes.

### 1.2 Estimación de Coeficientes

Los **Coeficientes de Regresión**   $\beta_1, \beta_2, \dots, \beta_n $ se estiman generalmente mediante el **Método de Mínimos Cuadrados Ordinarios (OLS)**. Este método busca minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo:

$
\min_{\beta} \sum_{i=1}^{m} (Y_i - \hat{Y}_i)^2
$

Donde:
- **$\hat{Y}_i $**: Predicción del modelo para el $i-$ésimo dato.
- **$Y_i$**: Valor real de la variable dependiente para el $i-$ésimo dato.
- **$m$**: Número total de observaciones.

#### Solución Analítica

Para un modelo de regresión lineal simple (con una sola variable independiente), los coeficientes se calculan de la siguiente manera:

$
\beta_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
$

$
\beta_0 = \bar{Y} - \beta_1 \bar{X}
$

Donde:
- **$\bar{X}$**: Media de las variables independientes $X$.
- **$\bar{Y}$**: Media de la variable dependiente $Y$.

Para el cálculo de cualquier coeficiente $ \beta_j$ en un modelo de regresión lineal múltiple, se usa la fórmula general en forma matricial:

$
\boldsymbol{\beta} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y}
$

Donde:
- **$ \mathbf{X}$**: Matriz de las variables independientes (incluyendo una columna de unos para el intercepto).
- **$\mathbf{Y}$**: Vector de la variable dependiente.
- **$\boldsymbol{\beta}$**: Vector de coeficientes a estimar.

**Significado del Numerador y el Denominador en $\beta_1$**

En la fórmula para $\beta_1$:

- **Numerador**: 

$
\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
$

  es la covarianza entre $X$ y $Y$. Mide cómo varían conjuntamente las dos variables.
  
- **Denominador**: 

$
\sum_{i=1}^{n} (X_i - \bar{X})^2
$

  es la varianza de $X$. Mide la variabilidad de $X$ alrededor de su media.

Para calcular cualquier $\beta_j$ en un modelo de regresión lineal múltiple, el procedimiento es similar pero se realiza en un espacio multidimensional.

### 1.3 Función de Costo (Error Cuadrático Medio)

La **Función de Costo** en la regresión lineal se basa en el **Error Cuadrático Medio (MSE)**, que mide la magnitud promedio de los errores al cuadrado entre los valores observados y las predicciones del modelo:
$
MSE = \frac{1}{n} \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2
$

Donde:
- **$ Y_i $**: Valor real de la variable dependiente.
- **$ \hat{Y}_i $**: Predicción del modelo.
- **$n $**: Número total de observaciones.

El MSE proporciona una medida de la calidad del ajuste del modelo: valores más bajos indican un mejor ajuste.

### 1.4 Suposiciones de la Regresión Lineal

Para que los resultados del modelo de regresión lineal sean válidos, se deben cumplir ciertas **suposiciones**:

#### 1.4.1. Linealidad

- **Definición**: La relación entre la variable dependiente y las variables independientes es lineal.
- **Ecuación**: La linealidad se expresa como:

  $
  Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_n X_n + \epsilon
  $

  Esta suposición indica que la relación entre $ Y$ y cada $X_j$ es una función lineal de los $X_j$.

#### 1.4.2. Independencia de los Errores

- **Definición**: Los errores deben ser independientes entre sí.
- **Ecuación**: La covarianza entre los errores $\epsilon_i$ y $\epsilon_j$ se define como:

  $
  Cov(\epsilon_i, \epsilon_j) = E[(\epsilon_i - E[\epsilon_i])(\epsilon_j - E[\epsilon_j])]
  $

  Donde:
  - **$ E[\epsilon_i] $** y **$ E[\epsilon_j] $** son las esperanzas (medias) de los errores $\epsilon_i$ y $\epsilon_j$. En un modelo de regresión lineal correctamente especificado, se asume que:

    $
    E[\epsilon_i] = 0
    $

  - La covarianza $ Cov(\epsilon_i, \epsilon_j) $ debe ser cero para que los errores sean independientes. La fórmula específica para calcular la covarianza es:

    $
    Cov(\epsilon_i, \epsilon_j) = E[\epsilon_i \epsilon_j] - E[\epsilon_i]E[\epsilon_j]
    $

#### 1.4.3. Homocedasticidad

- **Definición**: Los errores deben tener una varianza constante a lo largo de todas las observaciones.
- **Ecuación**: Esto se expresa como:

  $
  Var(\epsilon_i) = \sigma^2 \quad \text{para todos los } i
  $

  Donde $ \sigma^2 $ es la varianza constante de los errores.

#### 1.4.4. Normalidad de los Errores

- **Definición**: Los errores del modelo deben seguir una distribución normal.
- **Ecuación**: Esto se expresa como:

  $
  \epsilon_i \sim N(0, \sigma^2)
  $

  Donde$ N(0, \sigma^2) $ indica que los errores $ \epsilon_i $ siguen una distribución normal con media 0 y varianza $ \sigma^2 $.

### 1.5 Evaluación del Modelo

Después de ajustar el modelo, es esencial evaluar su rendimiento. Algunos **métricos comunes** incluyen:

- **$R^2 $**: Mide la proporción de la varianza total de la variable dependiente que es explicada por las variables independientes. Un $ R^2 $ cercano a 1 indica un buen ajuste.
  
- **$ \text{Error Cuadrático Medio (MSE)} $**: Como se definió anteriormente, mide la magnitud promedio de los errores al cuadrado.

- **$ \text{Raíz del Error Cuadrático Medio (RMSE)} $**: Es la raíz cuadrada del MSE, que tiene las mismas unidades que la variable dependiente y facilita la interpretación.

- **$\text{Error Absoluto Medio (MAE)} $**: Prom

edia los valores absolutos de los errores, proporcionando una medida directa de la magnitud promedio de los errores sin considerar la dirección.

<H1>Proyecto: Regresión Lineal</H1>

**Conceptos clave:**

Introducción a la regresión lineal.

Suposiciones de la regresión lineal.

Métricas de evaluación: R^2, RMSE, MAE.

**Proyecto: Predicción del precio de viviendas.**

Implementar un modelo de regresión lineal para predecir el precio de viviendas utilizando el dataset de precios inmobiliarios de Boston.

**Explicación del Código:**

Importar Librerías: Se importan las librerías necesarias para la regresión lineal, el preprocesamiento de datos y la evaluación del modelo.

Introducción y Suposiciones de Regresión Lineal: Se presenta una breve introducción a la regresión lineal y sus suposiciones.

Métricas de Evaluación: Se explican las métricas utilizadas para evaluar el rendimiento del modelo.

Preprocesamiento de Datos:

Imputación y Escalado: Se manejan valores faltantes y se escalan los datos.

Encoding: Se aplican técnicas de one-hot encoding a las variables categóricas.

Implementar el Modelo de Regresión Lineal:

Entrenamiento: Se entrena el modelo de regresión lineal con los datos de entrenamiento.

Predicciones: Se realizan predicciones en el conjunto de prueba.

Evaluación del Modelo:

Métricas de Evaluación: Se calculan y muestran las métricas de evaluación (R², RMSE, MAE) para el modelo.

Este código ofrece una demostración completa de cómo implementar y evaluar un modelo de regresión lineal para predecir precios de viviendas, siguiendo los conceptos clave de regresión lineal.

In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [2]:
# 1. Introducción a la Regresión Lineal
# La regresión lineal es un modelo estadístico que asume una relación lineal entre la variable dependiente y una o más variables independientes.

# 2. Suposiciones de la Regresión Lineal
# - Linealidad: La relación entre la variable dependiente y las independientes es lineal.
# - Independencia: Las observaciones son independientes entre sí.
# - Homocedasticidad: La varianza de los errores es constante.
# - Normalidad de los errores: Los errores tienen una distribución normal.

# 3. Métricas de Evaluación
# - R^2 (Coeficiente de Determinación): Mide la proporción de la varianza en la variable dependiente que es explicada por las variables independientes.
# - RMSE (Root Mean Squared Error): Mide la magnitud de los errores de predicción.
# - MAE (Mean Absolute Error): Mide la magnitud promedio de los errores de predicción.

In [11]:
# Proyecto: Predicción del precio de viviendas

# Descargar el dataset sobre precios de viviendas
url = 'https://raw.githubusercontent.com/selva86/datasets/master/BostonHousing.csv'
data = pd.read_csv(url)

# Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(data.info())

Primeras filas del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   crim     506 non-null    float64
 1   zn       506 non-null    float64
 2   indus    506 non-null    float64
 3   chas     506 non-null    int64  
 4   nox      506 non-null    float64
 5   rm       506 non-null    float64
 6   age      506 non-null    float64
 7   dis      506 non-null    float64
 8   rad      506 non-null    int64  
 9   tax      506 non-null    int64  
 10  ptratio  506 non-null    float64
 11  b        506 non-null    float64
 12  lstat    506 non-null    float64
 13  medv     506 non-null    float64
dtypes: float64(11), int64(3)
memory usage: 55.5 KB
None


In [12]:
# Identificación de variables categóricas y numéricas
categorical_features = [col for col in data.select_dtypes(include=['object']).columns]
numerical_features = [col for col in data.select_dtypes(include=['int64', 'float64']).columns if col != 'medv']

# Imputación de valores faltantes y escalado
preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='median')),
            ('scaler', StandardScaler())
        ]), numerical_features),
        ('cat', Pipeline(steps=[
            ('imputer', SimpleImputer(strategy='most_frequent')),
            ('onehot', OneHotEncoder(handle_unknown='ignore'))
        ]), categorical_features)
    ])

# Separar características y variable objetivo
X = data.drop('medv', axis=1)  # 'medv' es la variable objetivo
y = data['medv']  # 'medv' es la variable objetivo

# Aplicar preprocesamiento
X_preprocessed = preprocessor.fit_transform(X)

# Dividir el dataset en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_preprocessed, y, test_size=0.2, random_state=42)

In [13]:
# 3.2. Implementar el Modelo de Regresión Lineal
# Crear el modelo
model = LinearRegression()

# Entrenar el modelo
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# 3.3. Evaluación del Modelo
# Calcular métricas de evaluación
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
mae = mean_absolute_error(y_test, y_pred)

In [14]:
print("\nMétricas de Evaluación del Modelo de Regresión Lineal:")
print(f"R^2: {r2:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"MAE: {mae:.4f}")


Métricas de Evaluación del Modelo de Regresión Lineal:
R^2: 0.6688
RMSE: 4.9286
MAE: 3.1891
