# Taller 9: Regresión Lineal

# Completa el código o el texto donde haya unicornios 🦄

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Objetivo

Vamos a trabajar con el conjunto de datos **"Auto MPG"**. El objetivo de este proyecto es crear un modelo que pueda predecir la eficiencia de combustible (medida en millas por galón, MPG) de un automóvil, dado sus características técnicas (peso, número de cilindros, caballos de fuerza, año de fabricación, etc.).


Este problema puede resolverse construyendo un modelo de regresión que tome como entrada variables como el número de cilindros, el peso del automóvil, la potencia del motor (caballos de fuerza), la aceleración y el año del modelo, y prediga la eficiencia de combustible (MPG) como salida.

# Cargar los datos


In [None]:
# Cargar el conjunto de datos Auto MPG desde Seaborn
df = sns.load_dataset('mpg').dropna()

In [None]:
df.head()

| Columna         | Nombre en Español         | Explicación                                                         |
|-----------------|---------------------------|---------------------------------------------------------------------|
| mpg             | millas por galón           | Eficiencia de combustible en millas por galón.                      |
| cylinders       | cilindros                  | Número de cilindros del motor.                                      |
| displacement    | desplazamiento             | Desplazamiento del motor en pulgadas cúbicas.                       |
| horsepower      | caballos de fuerza         | Potencia del motor en caballos de fuerza.                           |
| weight          | peso                       | Peso del automóvil en libras.                                       |
| acceleration    | aceleración                | Tiempo en segundos para acelerar de 0 a 60 millas por hora.         |
| model_year      | año del modelo             | Año de fabricación del automóvil.                                   |
| origin          | origen                     | Región de origen del automóvil.        |
| name            | nombre                     | Nombre o modelo del automóvil.                                      |


# Análisis Exploratorio de Datos
### (Opcional por puntos extras) 🦄

# ⚠️ Dividir datos en entrenamiento (train) y prueba (test) ⚠️

Es **crucial** dividir los datos en conjuntos de entrenamiento y prueba **ANTES** de realizar cualquier ingeniería de características o entrenar el modelo.

Si transformas los datos antes de hacer la división, puedes permitir que información del conjunto de prueba se mezcle con los datos de entrenamiento. Esto provoca un sobreajuste, donde el modelo parece funcionar muy bien, pero en realidad no refleja su rendimiento en datos nuevos o desconocidos.

In [None]:
# Definir las características (X) y la variable objetivo (y)
X = df.drop(columns=['mpg', 'name'])  # Aquí estamos eliminando la columna objetivo y la columna "name" ya que tiene muchas categorias únicas
y = df['mpg']  # Esta es nuestra variable objetivo

In [None]:
# Dividir el conjunto de datos en entrenamiento (train) y prueba (test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# Ver el tamaño de los conjuntos
print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}. Tamaño de las etiquetas de entrenamiento: {y_train.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}. Tamaño de las etiquetas de prueba: {y_test.shape}")

# Ingeniería de características

In [None]:
# Define cuáles columnas son categoricas y cuáles son numéricas
categorical_columns = 🦄🦄🦄
numerical_columns = 🦄🦄🦄

In [None]:
# Crea un preprocesador que aplique tanto one-hot encoding para las variables categóricas como escalado para las variables numéricas.
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_columns),  # Estandarizar características numéricas
        ('cat', OneHotEncoder(), categorical_columns)  # Codificación one-hot para las características categóricas
    ])

In [None]:
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

In [None]:
# Los nombres de las columnas numéricas columnas no cambian después de la transformación
nombres_columnas_numericas = numerical_columns

# El método get_feature_names_out genera los nombres de las nuevas columnas creadas por OneHotEncoder para las columnas categóricas
nombres_columnas_categoricas = preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_columns)

# Combinar los nombres de las columnas numéricas y categóricas en una lista
nombres_todas_las_columnas = list(nombres_columnas_numericas) + list(nombres_columnas_categoricas)

nombres_todas_las_columnas

# Modelaje: Regresion Lineal

In [None]:
# Entrenamos la regresión lineal
model = LinearRegression()
model.fit(X_train_processed, y_train)

# Evaluación del modelo

In [None]:
# Predicciones
y_pred = model.predict(X_test_processed)

In [None]:
# Cálculo del RMSE (Root Mean Squared Error)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f'RMSE: {rmse}')

In [None]:
# Cálculo del R² (Coeficiente de Determinación)
r2 = r2_score(y_test, y_pred)
print(f'R²: {r2}')

### RMSE (Raíz del Error Cuadrático Medio): 🦄🦄🦄
- **Interpretación**: El RMSE es una medida de la magnitud promedio del error entre las predicciones del modelo y los valores reales. En este caso, un RMSE de 🦄🦄🦄 significa que, en promedio, el modelo comete un error de alrededor de 🦄🦄🦄 al predecir 🦄🦄🦄.

- **¿Qué tan bueno es?**: 🦄🦄🦄

### R² (Coeficiente de Determinación): 🦄🦄🦄
- **Interpretación**: El R² indica qué proporción de la varianza en los datos está siendo explicada por el modelo. Un R² de 🦄🦄🦄 significa que el 🦄🦄🦄 de la variación en 🦄🦄🦄 puede ser explicada por las variables del modelo.

- **¿Qué tan bueno es?**: 🦄🦄🦄

# Interpretando el modelo

In [None]:
# Coeficientes del modelo
coeficientes = model.coef_

In [None]:
for nombre, coef in zip(nombres_todas_las_columnas, coeficientes):
    print(f"Característica: {nombre:<20} Coeficiente: {coef:.4f}")

In [None]:
# Obtener el valor de la intersección
intercepto = model.intercept_
intercepto

In [None]:
df.select_dtypes(include=['number']).std().to_frame(name='Desviación Estándar').rename_axis('Característica')

### Interpretación de los valores de los coeficientes y la intersección:

1. **Intersección (y-intercept): `🦄🦄🦄`**

Este es el valor esperado de ... 🦄🦄🦄

2. **Coeficientes del modelo:**

Cada coeficiente representa el cambio esperado en ... 🦄🦄🦄 . Vamos a interpretar cada uno de ellos:

  - **Cilindros: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

  - **Desplazamiento: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

  - **Caballos de fuerza: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

   - **Peso: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

  - **Aceleración: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

  - **Año del modelo: 🦄🦄🦄🦄**
  
  Por cada 🦄🦄🦄, se espera que 🦄🦄🦄🦄, asumiendo que las demás variables se mantienen constantes.

  - **Origen: 🦄🦄🦄🦄**
  
    - 🦄🦄🦄🦄
    - 🦄🦄🦄🦄
    - 🦄🦄🦄🦄

  

# Recomendaciones y conclusiones

Es fundamental para los científicos de datos interpretar su modelo y dar recomendaciones de negocio porque el objetivo final del análisis no es solo desarrollar modelos precisos, sino generar valor real para la organización o empresa. Los modelos de machine learning y análisis estadístico por sí mismos no son útiles si las partes interesadas no comprenden cómo pueden aplicarse a la toma de decisiones. Los científicos de datos deben ser capaces de traducir los resultados técnicos (como coeficientes, métricas de rendimiento, etc.) en recomendaciones de negocio accionables.

🦄🦄🦄 🦄🦄🦄 🦄🦄🦄



---

# (Opcional por puntos extras) Ensayar otros modelos de regresión, evaluarlos, y determinar cuál tiene el mejor rendimiento. 🦄