# Regresión Lineal con Múltiples Características
En este tutorial, aprenderemos cómo implementar una regresión lineal multivariable para predecir emisiones de CO2 basadas en el tamaño del motor, el número de cilindros y el consumo de combustible. Usaremos el conjunto de datos `FuelConsumptionCo2.csv`.

## Paso 1: Importar las bibliotecas necesarias
Primero, importemos las bibliotecas que utilizaremos para analizar los datos y construir el modelo de regresión lineal.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

## Paso 2: Cargar el conjunto de datos
Ahora, cargaremos los datos de `FuelConsumptionCo2.csv`. Asegúrate de que el archivo esté en el directorio correcto.

In [None]:
df = pd.read_csv('FuelConsumptionCo2.csv')
df.head()

## Paso 3: Información del conjunto de datos
Es útil ver la estructura y tipos de datos para entender el conjunto de datos que estamos usando.

In [None]:
df.info()

## Paso 4: Análisis exploratorio de los datos
Visualicemos la relación entre el tamaño del motor y las emisiones de CO2.

In [None]:
sns.jointplot(x=df.ENGINESIZE, y=df.CO2EMISSIONS, alpha=0.7)

## Paso 5: Selección de características
Para la regresión, seleccionaremos algunas características clave que podrían ser útiles en nuestro modelo.

In [None]:
cdf = df[['ENGINESIZE', 'CYLINDERS', 'FUELCONSUMPTION_COMB', 'CO2EMISSIONS']]
cdf.head()

Visualicemos algunas correlaciones entre estas características.

In [None]:
sns.pairplot(data=cdf, kind='scatter', plot_kws={'alpha': 0.4})

## Paso 6: Preparar los datos para el entrenamiento
Dividamos los datos en un conjunto de entrenamiento y un conjunto de prueba.

In [None]:
from sklearn.model_selection import train_test_split

X = df[['ENGINESIZE', 'CYLINDERS', 'FUELCONSUMPTION_COMB']]
y = df[['CO2EMISSIONS']]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape

## Paso 7: Crear el modelo de regresión lineal
Ahora crearemos una instancia del modelo de regresión lineal y lo entrenaremos usando el conjunto de entrenamiento.

In [None]:
from sklearn.linear_model import LinearRegression

lm = LinearRegression()
lm.fit(X_train, y_train)
lm.coef_, lm.intercept_

## Paso 8: Hacer predicciones
Usaremos nuestro modelo para hacer predicciones en el conjunto de prueba.

In [None]:
predictions = lm.predict(X_test)
predictions

## Paso 9: Visualizar las predicciones
Veamos cómo se comparan las predicciones con los datos reales.

In [None]:
plt.scatter(X_test.ENGINESIZE, predictions, color='red', alpha=0.7, label='Predicciones')
plt.scatter(X_test.ENGINESIZE, y_test, color='blue', alpha=0.7, label='Datos reales')
plt.legend()

## Paso 10: Evaluación del modelo
Evaluaremos el rendimiento de nuestro modelo utilizando métricas de error comúnmente usadas.

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

mse = mean_squared_error(y_test, predictions)
mae = mean_absolute_error(y_test, predictions)
rmse = mse**0.5
r2 = r2_score(y_test, predictions)

print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"R-squared (R2): {r2:.2f}")

## Paso 11: Análisis de residuos
Para asegurar que nuestros residuos están distribuidos normalmente, visualizaremos el histograma de los residuos.

In [None]:
res = y_test - predictions
sns.histplot(res, bins='auto', kde=True)