# An√°lisis de Regresi√≥n: Predicci√≥n de Consumo de Combustible en Autom√≥viles

## Objetivo del Proyecto
Este notebook presenta un an√°lisis completo de regresi√≥n para predecir el consumo de combustible (MPG - Millas por Gal√≥n) de autom√≥viles bas√°ndose en caracter√≠sticas t√©cnicas como cilindros, desplazamiento, peso, etc.

## Metodolog√≠a
- An√°lisis exploratorio de datos (EDA)
- Preprocesamiento y limpieza de datos
- Normalizaci√≥n de variables
- Implementaci√≥n de modelos de regresi√≥n
- Evaluaci√≥n y comparaci√≥n de resultados

---
*Desarrollado como parte del curso de Machine Learning - An√°lisis de Datos*

In [17]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import warnings
warnings.filterwarnings('ignore')

# Carga del dataset de autom√≥viles
# Este dataset contiene informaci√≥n sobre el consumo de combustible y caracter√≠sticas t√©cnicas
print("üìä Cargando dataset de autom√≥viles...")
dataset = pd.read_csv("../files/input/auto_mpg.csv")

print(f"‚úÖ Dataset cargado exitosamente")
print(f"üìà Dimensiones: {dataset.shape[0]} filas x {dataset.shape[1]} columnas")
print("\nüîç Primeras 5 filas del dataset:")
dataset.head()

Matplotlib is building the font cache; this may take a moment.


ModuleNotFoundError: No module named 'seaborn'

In [None]:
# An√°lisis de la estructura del dataset
print("üìè INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 40)
print(f"üìä Dimensiones: {dataset.shape[0]} filas x {dataset.shape[1]} columnas")
print(f"üíæ Memoria utilizada: {dataset.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"üè∑Ô∏è  Columnas disponibles: {list(dataset.columns)}")
print("\nüìã Informaci√≥n detallada de tipos de datos:")
dataset.info()

(398, 8)

In [None]:
# An√°lisis de valores faltantes (Missing Values)
print("üîç AN√ÅLISIS DE VALORES FALTANTES")
print("=" * 40)

# Contar valores nulos por columna
missing_values = dataset.isna().sum()
missing_percentage = (missing_values / len(dataset)) * 100

# Crear DataFrame para mejor visualizaci√≥n
missing_df = pd.DataFrame({
    'Valores_Faltantes': missing_values,
    'Porcentaje': missing_percentage
})

print("üìä Resumen de valores faltantes por columna:")
print(missing_df[missing_df['Valores_Faltantes'] > 0])

if missing_values.sum() == 0:
    print("‚úÖ ¬°Excelente! No se encontraron valores faltantes en el dataset")
else:
    print(f"‚ö†Ô∏è  Total de valores faltantes: {missing_values.sum()}")
    print(f"üìà Porcentaje total de datos faltantes: {(missing_values.sum() / (dataset.shape[0] * dataset.shape[1])) * 100:.2f}%")

MPG             0
Cylinders       0
Displacement    0
Horsepower      6
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64

In [None]:
# Limpieza de datos: Eliminaci√≥n de registros con valores faltantes
print("üßπ LIMPIEZA DE DATOS")
print("=" * 40)

# Guardar el tama√±o original para comparaci√≥n
original_size = dataset.shape[0]

# Eliminar filas con valores nulos
dataset = dataset.dropna()

# Calcular el impacto de la limpieza
final_size = dataset.shape[0]
removed_rows = original_size - final_size

print(f"üìä Tama√±o original: {original_size} filas")
print(f"üìä Tama√±o despu√©s de limpieza: {final_size} filas")
print(f"üóëÔ∏è  Filas eliminadas: {removed_rows} ({(removed_rows/original_size)*100:.2f}%)")

# Verificar que no quedan valores nulos
print(f"\n‚úÖ Verificaci√≥n final - Valores faltantes restantes:")
print(dataset.isna().sum().sum())

print(f"\nüéØ Dataset final listo para an√°lisis: {dataset.shape[0]} filas x {dataset.shape[1]} columnas")

MPG             0
Cylinders       0
Displacement    0
Horsepower      0
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64

## üè≠ An√°lisis de la Variable Categ√≥rica "Origin"

La columna `Origin` representa el pa√≠s de origen del autom√≥vil, pero est√° codificada num√©ricamente:
- **1** = USA (Estados Unidos)
- **2** = Europe (Europa) 
- **3** = Japan (Jap√≥n)

**Problema identificado:** Al ser una variable categ√≥rica, no tiene sentido matem√°tico mantenerla como valor num√©rico para el modelo de regresi√≥n. Los algoritmos de machine learning interpretar√≠an incorrectamente que "Jap√≥n (3)" es "3 veces m√°s importante" que "USA (1)", cuando en realidad son categor√≠as independientes.

**Soluci√≥n:** Convertiremos esta variable a formato categ√≥rico y luego la transformaremos en variables dummy (one-hot encoding) para que el modelo pueda procesarla correctamente.

In [None]:
# An√°lisis de la distribuci√≥n de pa√≠ses de origen
print("üåç DISTRIBUCI√ìN DE PA√çSES DE ORIGEN")
print("=" * 40)

# Mostrar conteo de valores
origin_counts = dataset.Origin.value_counts()
print("üìä Conteo de autom√≥viles por pa√≠s:")
print(origin_counts)

# Calcular porcentajes
print(f"\nüìà Distribuci√≥n porcentual:")
for country_code, count in origin_counts.items():
    country_name = {1: "USA", 2: "Europe", 3: "Japan"}[country_code]
    percentage = (count / len(dataset)) * 100
    print(f"  {country_name} ({country_code}): {count} veh√≠culos ({percentage:.1f}%)")

# Visualizaci√≥n
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
origin_counts.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1'])
plt.title('Distribuci√≥n de Pa√≠ses de Origen')
plt.xlabel('C√≥digo de Pa√≠s')
plt.ylabel('Cantidad de Veh√≠culos')
plt.xticks(rotation=0)

plt.subplot(1, 2, 2)
plt.pie(origin_counts.values, labels=['USA', 'Europe', 'Japan'], autopct='%1.1f%%', 
        colors=['#FF6B6B', '#4ECDC4', '#45B7D1'])
plt.title('Proporci√≥n de Pa√≠ses de Origen')

plt.tight_layout()
plt.show()

Origin
1    245
3     79
2     68
Name: count, dtype: int64

In [None]:
# Transformaci√≥n de variable categ√≥rica num√©rica a texto
print("üîÑ TRANSFORMACI√ìN DE VARIABLE CATEG√ìRICA")
print("=" * 40)

# Mapear c√≥digos num√©ricos a nombres de pa√≠ses
country_mapping = {1: "USA", 2: "Europe", 3: "Japan"}
dataset["Origin"] = dataset["Origin"].map(country_mapping)

print("‚úÖ Variable 'Origin' convertida a formato categ√≥rico")
print(f"üìä Valores √∫nicos: {dataset['Origin'].unique()}")
print(f"üìà Distribuci√≥n actualizada:")
print(dataset["Origin"].value_counts())

# Nota importante sobre buenas pr√°cticas
print(f"\n‚ö†Ô∏è  NOTA IMPORTANTE:")
print(f"En un entorno de producci√≥n, este mapeo deber√≠a estar:")
print(f"‚Ä¢ Definido en un archivo de configuraci√≥n")
print(f"‚Ä¢ Validado contra un diccionario de datos")
print(f"‚Ä¢ Incluir manejo de valores inesperados")
print(f"‚Ä¢ Ser versionado y documentado apropiadamente")

## ‚ö†Ô∏è Consideraciones Importantes sobre One-Hot Encoding

### Problemas en Producci√≥n:
1. **Dependencia de valores fijos**: El modelo entrenado solo reconoce las categor√≠as exactas que vio durante el entrenamiento
2. **Fragilidad ante nuevos datos**: Si aparecen nuevas categor√≠as (ej: "China", "India"), el modelo fallar√°
3. **Inconsistencia de columnas**: El n√∫mero de columnas dummy debe ser id√©ntico entre entrenamiento y predicci√≥n
4. **Mantenimiento complejo**: Cualquier cambio en las categor√≠as requiere retrenar el modelo

### Alternativas m√°s robustas:
- **Label Encoding** con manejo de categor√≠as desconocidas
- **Embeddings** para variables categ√≥ricas con muchas categor√≠as
- **Feature hashing** para categor√≠as din√°micas
- **Validaci√≥n estricta** de datos de entrada en producci√≥n

### Para este ejercicio acad√©mico:
Usaremos One-Hot Encoding por simplicidad, pero siempre considerando estas limitaciones.

In [None]:
# Aplicaci√≥n de One-Hot Encoding para variables categ√≥ricas
print("üîß APLICACI√ìN DE ONE-HOT ENCODING")
print("=" * 40)

# Guardar el estado antes de la transformaci√≥n
print(f"üìä Columnas antes de One-Hot Encoding: {list(dataset.columns)}")
print(f"üìè Dimensiones antes: {dataset.shape}")

# Aplicar One-Hot Encoding a la columna Origin
dataset = pd.get_dummies(dataset, columns=["Origin"], prefix="", prefix_sep="")

print(f"\n‚úÖ One-Hot Encoding aplicado exitosamente")
print(f"üìä Columnas despu√©s de One-Hot Encoding: {list(dataset.columns)}")
print(f"üìè Dimensiones despu√©s: {dataset.shape}")

# Mostrar las nuevas columnas dummy
dummy_columns = [col for col in dataset.columns if col in ['USA', 'Europe', 'Japan']]
print(f"\nüè∑Ô∏è  Nuevas columnas dummy creadas: {dummy_columns}")

# Verificar que cada fila tenga exactamente un 1 en las columnas dummy
print(f"\nüîç Verificaci√≥n de consistencia:")
for col in dummy_columns:
    print(f"  {col}: {dataset[col].sum()} veh√≠culos")

print(f"\nüìã Primeras 5 filas del dataset transformado:")
dataset.head()

Unnamed: 0,MPG,Cylinders,Displacement,Horsepower,Weight,Acceleration,Model Year,Europe,Japan,USA
0,18.0,8,307.0,130.0,3504.0,12.0,70,False,False,True
1,15.0,8,350.0,165.0,3693.0,11.5,70,False,False,True
2,18.0,8,318.0,150.0,3436.0,11.0,70,False,False,True
3,16.0,8,304.0,150.0,3433.0,12.0,70,False,False,True
4,17.0,8,302.0,140.0,3449.0,10.5,70,False,False,True


In [None]:
# Divisi√≥n del dataset en conjuntos de entrenamiento y prueba
print("üìä DIVISI√ìN DEL DATASET")
print("=" * 40)

# Configuraci√≥n de la divisi√≥n
train_fraction = 0.8
random_seed = 42  # Cambiado de 0 a 42 para mejor reproducibilidad

print(f"üéØ Configuraci√≥n de divisi√≥n:")
print(f"  ‚Ä¢ Fracci√≥n para entrenamiento: {train_fraction*100}%")
print(f"  ‚Ä¢ Fracci√≥n para prueba: {(1-train_fraction)*100}%")
print(f"  ‚Ä¢ Semilla aleatoria: {random_seed}")

# Divisi√≥n usando muestreo aleatorio estratificado
train_dataset = dataset.sample(frac=train_fraction, random_state=random_seed)
test_dataset = dataset.drop(train_dataset.index)

# Verificar la divisi√≥n
train_size = len(train_dataset)
test_size = len(test_dataset)
total_size = train_size + test_size

print(f"\nüìà Resultados de la divisi√≥n:")
print(f"  ‚Ä¢ Dataset original: {total_size} registros")
print(f"  ‚Ä¢ Conjunto de entrenamiento: {train_size} registros ({train_size/total_size*100:.1f}%)")
print(f"  ‚Ä¢ Conjunto de prueba: {test_size} registros ({test_size/total_size*100:.1f}%)")

# Verificar que no hay solapamiento
overlap = len(set(train_dataset.index) & set(test_dataset.index))
print(f"  ‚Ä¢ Solapamiento entre conjuntos: {overlap} (debe ser 0)")

print(f"\n‚ö†Ô∏è  NOTA: Se usa muestreo aleatorio simple en lugar de train_test_split")
print(f"    Esto es v√°lido para este ejercicio, pero en producci√≥n se recomienda")
print(f"    usar train_test_split de sklearn para mayor control y validaci√≥n")

In [None]:
# An√°lisis Exploratorio de Datos (EDA) - Relaciones entre variables
print("üîç AN√ÅLISIS EXPLORATORIO DE DATOS")
print("=" * 40)

# Seleccionar variables num√©ricas clave para el an√°lisis
numeric_vars = ["MPG", "Cylinders", "Displacement", "Weight"]
print(f"üìä Variables analizadas: {numeric_vars}")

# Crear visualizaci√≥n de relaciones entre variables
plt.figure(figsize=(12, 10))

# Pairplot para visualizar relaciones
sns.pairplot(
    train_dataset[numeric_vars], 
    diag_kind="kde",
    plot_kws={'alpha': 0.6, 's': 20},
    diag_kws={'alpha': 0.7}
)

plt.suptitle('An√°lisis de Relaciones entre Variables Clave', y=1.02, fontsize=16)
plt.tight_layout()
plt.show()

# An√°lisis de correlaciones
print(f"\nüìà MATRIZ DE CORRELACIONES:")
correlation_matrix = train_dataset[numeric_vars].corr()
print(correlation_matrix.round(3))

# Identificar correlaciones fuertes con MPG
mpg_correlations = correlation_matrix['MPG'].abs().sort_values(ascending=False)
print(f"\nüéØ Correlaciones con MPG (valor absoluto):")
for var, corr in mpg_correlations.items():
    if var != 'MPG':
        strength = "Fuerte" if corr > 0.7 else "Moderada" if corr > 0.3 else "D√©bil"
        print(f"  ‚Ä¢ {var}: {corr:.3f} ({strength})")

ModuleNotFoundError: No module named 'seaborn'

In [None]:
# Estad√≠sticas descriptivas del conjunto de entrenamiento
print("üìä ESTAD√çSTICAS DESCRIPTIVAS - CONJUNTO DE ENTRENAMIENTO")
print("=" * 60)

# Calcular estad√≠sticas descriptivas
stats = train_dataset.describe().transpose()

# Agregar informaci√≥n adicional
stats['rango'] = stats['max'] - stats['min']
stats['coef_variacion'] = (stats['std'] / stats['mean']).round(3)

print("üìà Resumen estad√≠stico completo:")
print(stats.round(3))

# An√°lisis de la variable objetivo (MPG)
print(f"\nüéØ AN√ÅLISIS DE LA VARIABLE OBJETIVO (MPG):")
mpg_stats = train_dataset['MPG']
print(f"  ‚Ä¢ Rango: {mpg_stats.min():.1f} - {mpg_stats.max():.1f} MPG")
print(f"  ‚Ä¢ Media: {mpg_stats.mean():.1f} MPG")
print(f"  ‚Ä¢ Mediana: {mpg_stats.median():.1f} MPG")
print(f"  ‚Ä¢ Desviaci√≥n est√°ndar: {mpg_stats.std():.1f} MPG")
print(f"  ‚Ä¢ Coeficiente de variaci√≥n: {(mpg_stats.std()/mpg_stats.mean())*100:.1f}%")

# Identificar variables con alta variabilidad
print(f"\n‚ö†Ô∏è  VARIABLES CON ALTA VARIABILIDAD (CV > 50%):")
high_var = stats[stats['coef_variacion'] > 0.5]
if len(high_var) > 0:
    for var in high_var.index:
        print(f"  ‚Ä¢ {var}: CV = {high_var.loc[var, 'coef_variacion']*100:.1f}%")
else:
    print("  ‚úÖ No se detectaron variables con variabilidad excesiva")

## üéØ Definici√≥n de la Variable Objetivo

**MPG (Miles Per Gallon)** ser√° nuestra variable de salida (target) que queremos predecir.

### ¬øPor qu√© MPG es importante?
- **Eficiencia energ√©tica**: Indica qu√© tan eficiente es un veh√≠culo en el consumo de combustible
- **Impacto econ√≥mico**: Afecta directamente los costos de operaci√≥n del veh√≠culo
- **Sostenibilidad**: Relacionado con las emisiones de CO‚ÇÇ y el impacto ambiental
- **Regulaci√≥n**: Muchos pa√≠ses tienen est√°ndares m√≠nimos de eficiencia de combustible

### Objetivo del modelo:
Desarrollar un modelo de regresi√≥n que pueda predecir el consumo de combustible (MPG) bas√°ndose en las caracter√≠sticas t√©cnicas del veh√≠culo, lo que permitir√≠a:
- Optimizar el dise√±o de veh√≠culos
- Estimar el consumo antes de la fabricaci√≥n
- Clasificar veh√≠culos por eficiencia energ√©tica
- Apoyar decisiones de compra informadas

In [None]:
# Separaci√≥n de caracter√≠sticas (features) y etiquetas (labels)
print("üîÄ SEPARACI√ìN DE CARACTER√çSTICAS Y ETIQUETAS")
print("=" * 50)

# Crear copias para evitar modificar los datasets originales
train_features = train_dataset.copy()
test_features = test_dataset.copy()

# Extraer la variable objetivo (MPG) de ambos conjuntos
train_labels = train_features.pop("MPG")
test_labels = test_features.pop("MPG")

print("‚úÖ Separaci√≥n completada exitosamente")
print(f"\nüìä Conjunto de entrenamiento:")
print(f"  ‚Ä¢ Caracter√≠sticas: {train_features.shape[0]} filas x {train_features.shape[1]} columnas")
print(f"  ‚Ä¢ Etiquetas: {len(train_labels)} valores")
print(f"  ‚Ä¢ Rango de MPG: {train_labels.min():.1f} - {train_labels.max():.1f}")

print(f"\nüìä Conjunto de prueba:")
print(f"  ‚Ä¢ Caracter√≠sticas: {test_features.shape[0]} filas x {test_features.shape[1]} columnas")
print(f"  ‚Ä¢ Etiquetas: {len(test_labels)} valores")
print(f"  ‚Ä¢ Rango de MPG: {test_labels.min():.1f} - {test_labels.max():.1f}")

# Verificar que las dimensiones coincidan
assert train_features.shape[0] == len(train_labels), "Error: dimensiones no coinciden en entrenamiento"
assert test_features.shape[0] == len(test_labels), "Error: dimensiones no coinciden en prueba"

print(f"\n‚úÖ Verificaci√≥n de consistencia: Dimensiones correctas")
print(f"üè∑Ô∏è  Variables predictoras: {list(train_features.columns)}")

## ‚öñÔ∏è Necesidad de Normalizaci√≥n de Datos

### Problema identificado:
Las variables del dataset tienen **escalas muy diferentes**:
- **Cilindros**: 3-8 (escala peque√±a)
- **Desplazamiento**: 68-455 (escala media)
- **Peso**: 1613-5140 (escala grande)
- **A√±o**: 70-82 (escala temporal)

### ¬øPor qu√© es problem√°tico?
1. **Algoritmos sensibles a escala**: Algoritmos como regresi√≥n lineal, SVM, redes neuronales son sensibles a la escala
2. **Convergencia lenta**: El gradiente descendente puede converger muy lentamente
3. **Sesgo hacia variables grandes**: Variables con valores m√°s grandes dominan el modelo
4. **Inestabilidad num√©rica**: Puede causar problemas de precisi√≥n en c√°lculos

### Soluci√≥n: StandardScaler
Transformaremos todas las variables para que tengan:
- **Media = 0**
- **Desviaci√≥n est√°ndar = 1**

Esto garantiza que todas las variables contribuyan equitativamente al modelo.

In [None]:
# An√°lisis de escalas antes de la normalizaci√≥n
print("üìè AN√ÅLISIS DE ESCALAS ANTES DE NORMALIZACI√ìN")
print("=" * 50)

# Mostrar media y desviaci√≥n est√°ndar de las variables num√©ricas
numeric_features = train_features.select_dtypes(include=[np.number]).columns
pre_scaling_stats = train_features[numeric_features].describe().transpose()[["mean", "std"]]

print("üìä Estad√≠sticas antes del escalado:")
print(pre_scaling_stats.round(3))

# Calcular el rango de cada variable
pre_scaling_stats['rango'] = train_features[numeric_features].max() - train_features[numeric_features].min()
pre_scaling_stats['coef_variacion'] = (pre_scaling_stats['std'] / pre_scaling_stats['mean']).round(3)

print(f"\nüìà An√°lisis de variabilidad:")
print(pre_scaling_stats[['rango', 'coef_variacion']].round(3))

# Identificar variables con mayor impacto potencial
print(f"\n‚ö†Ô∏è  Variables con mayor rango (potencial dominancia):")
high_range = pre_scaling_stats['rango'].sort_values(ascending=False)
for var, rango in high_range.items():
    print(f"  ‚Ä¢ {var}: rango = {rango:.1f}")

print(f"\nüéØ Justificaci√≥n para normalizaci√≥n:")
print(f"  ‚Ä¢ Diferencia de rangos: {high_range.max() / high_range.min():.1f}x")
print(f"  ‚Ä¢ Variables con CV > 50%: {len(pre_scaling_stats[pre_scaling_stats['coef_variacion'] > 0.5])}")
print(f"  ‚Ä¢ Necesidad de escalado: {'S√ç' if high_range.max() / high_range.min() > 10 else 'NO'}")

## üéØ Objetivo de la Normalizaci√≥n

### Transformaci√≥n objetivo:
- **Media = 0** (centrado)
- **Desviaci√≥n est√°ndar = 1** (escalado)

### F√≥rmula del StandardScaler:
```
z = (x - Œº) / œÉ
```
Donde:
- `x` = valor original
- `Œº` = media de la variable
- `œÉ` = desviaci√≥n est√°ndar de la variable
- `z` = valor normalizado

### Consideraciones t√©cnicas:
- **Precisi√≥n decimal**: Los computadores tienen limitaciones de precisi√≥n, por lo que los valores exactos (0.0, 1.0) pueden tener peque√±as desviaciones
- **Tolerancia**: Valores como 0.0001 o 0.9999 son aceptables
- **Consistencia**: Lo importante es que todas las variables est√©n en la misma escala relativa

### Beneficios esperados:
‚úÖ Convergencia m√°s r√°pida del algoritmo  
‚úÖ Mejor estabilidad num√©rica  
‚úÖ Contribuci√≥n equitativa de todas las variables  
‚úÖ Mejor interpretabilidad de coeficientes 

In [None]:
# Aplicaci√≥n del StandardScaler para normalizaci√≥n
print("‚öñÔ∏è APLICACI√ìN DE STANDARDSCALER")
print("=" * 40)

# Importar y crear el scaler
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

print("üîß Configurando StandardScaler...")
print("  ‚Ä¢ M√©todo: Z-score normalization")
print("  ‚Ä¢ F√≥rmula: z = (x - Œº) / œÉ")
print("  ‚Ä¢ Aplicaci√≥n: Solo en conjunto de entrenamiento")

# Aplicar el escalado al conjunto de entrenamiento
print(f"\nüìä Aplicando normalizaci√≥n al conjunto de entrenamiento...")
train_scaled = scaler.fit_transform(train_features[numeric_features])

# Crear DataFrame con los datos normalizados
train_scaled_df = pd.DataFrame(
    data=train_scaled,
    columns=numeric_features,
    index=train_features.index
)

# Agregar las columnas categ√≥ricas (que no necesitan escalado)
for col in train_features.columns:
    if col not in numeric_features:
        train_scaled_df[col] = train_features[col]

print(f"‚úÖ Normalizaci√≥n completada")
print(f"üìè Dimensiones del dataset normalizado: {train_scaled_df.shape}")

# Verificar las estad√≠sticas despu√©s del escalado
print(f"\nüìà VERIFICACI√ìN DE NORMALIZACI√ìN:")
post_scaling_stats = train_scaled_df[numeric_features].describe().transpose()[["mean", "std"]]
print("Estad√≠sticas despu√©s del escalado:")
print(post_scaling_stats.round(6))

# Verificar que la media est√© cerca de 0 y la desviaci√≥n est√°ndar cerca de 1
print(f"\nüéØ Verificaci√≥n de objetivos:")
for col in numeric_features:
    mean_val = post_scaling_stats.loc[col, 'mean']
    std_val = post_scaling_stats.loc[col, 'std']
    mean_ok = abs(mean_val) < 0.01
    std_ok = abs(std_val - 1.0) < 0.01
    status = "‚úÖ" if (mean_ok and std_ok) else "‚ö†Ô∏è"
    print(f"  {status} {col}: Œº={mean_val:.6f}, œÉ={std_val:.6f}")

print(f"\nüìã Primeras 5 filas del dataset normalizado:")
train_scaled_df.head()

print("üîß Configurando StandardScaler...")
print("  ‚Ä¢ M√©todo: Z-score normalization")
print("  ‚Ä¢ F√≥rmula: z = (x - Œº) / œÉ")
print("  ‚Ä¢ Aplicaci√≥n: Solo en conjunto de entrenamiento")

# Aplicar el escalado al conjunto de entrenamiento
print(f"\nüìä Aplicando normalizaci√≥n al conjunto de entrenamiento...")
train_scaled = scaler.fit_transform(train_features[numeric_features])

# Crear DataFrame con los datos normalizados
train_scaled_df = pd.DataFrame(
    data=train_scaled,
    columns=numeric_features,
    index=train_features.index
)

# Agregar las columnas categ√≥ricas (que no necesitan escalado)
for col in train_features.columns:
    if col not in numeric_features:
        train_scaled_df[col] = train_features[col]

print(f"‚úÖ Normalizaci√≥n completada")
print(f"üìè Dimensiones del dataset normalizado: {train_scaled_df.shape}")

# Verificar las estad√≠sticas despu√©s del escalado
print(f"\nüìà VERIFICACI√ìN DE NORMALIZACI√ìN:")
post_scaling_stats = train_scaled_df[numeric_features].describe().transpose()[["mean", "std"]]
print("Estad√≠sticas despu√©s del escalado:")
print(post_scaling_stats.round(6))

# Verificar que la media est√© cerca de 0 y la desviaci√≥n est√°ndar cerca de 1
print(f"\nüéØ Verificaci√≥n de objetivos:")
for col in numeric_features:
    mean_val = post_scaling_stats.loc[col, 'mean']
    std_val = post_scaling_stats.loc[col, 'std']
    mean_ok = abs(mean_val) < 0.01
    std_ok = abs(std_val - 1.0) < 0.01
    status = "‚úÖ" if (mean_ok and std_ok) else "‚ö†Ô∏è"
    print(f"  {status} {col}: Œº={mean_val:.6f}, œÉ={std_val:.6f}")

print(f"\nüìã Primeras 5 filas del dataset normalizado:")
train_scaled_df.head()
).describe().transpose()[["mean", "std"]]

La transformaci√≥n debe ser consistente, por lo tanto, hicimos el *fit* del escalador solamente sobre los datos de entrenamiento y lo aplicamos exactamente igual sobre los datos de prueba. De esta manera, tanto el dataset de train como el de test deben tener *media* aproximadamente igual a *0* y *desviaci√≥n est√°ndar* aproximadamente igual a *1*.

In [None]:
#
# Preparaci√≥n de la data
#
horsepower_scaler = StandardScaler()

train_horsepower = train_features[["Horsepower"]]
test_horsepower = test_features[["Horsepower"]]

horsepower_scaler.fit(train_horsepower)

standarized_train_horsepower = horsepower_scaler.transform(train_horsepower)
standarized_test_horsepower = horsepower_scaler.transform(test_horsepower)

## Primer modelo

Regresi√≥n lineal: Horsepower vs MPG

In [None]:
#
# Modelo de regresi√≥n lineal
#
from sklearn.linear_model import LinearRegression

horsepower_model = LinearRegression()
horsepower_model.fit(standarized_train_horsepower, train_labels)

In [None]:
#
# Intercepto
#
horsepower_model.intercept_

In [None]:
#
# Coeficientes
#
horsepower_model.coef_

In [None]:
#
# Predicci√≥n. Preparaci√≥n de las variables independientes
#
import numpy as np

x = pd.DataFrame({"Horsepower": np.linspace(0, 250, 251)})
x.head(), x.tail()

In [None]:
#
# Predicci√≥n
#
scaled_x = horsepower_scaler.transform(x)
y = horsepower_model.predict(scaled_x)
y[:5]

In [None]:
import matplotlib.pyplot as plt


def plot_horsepower(x, y):
    plt.scatter(train_features["Horsepower"], train_labels, label="Data")
    plt.plot(x, y, color="k", label="Predictions")
    plt.xlabel("Horsepower")
    plt.ylabel("MPG")
    plt.legend()

In [None]:
plot_horsepower(x, y)

En los resultados de nuestro modelo, como es posible notar, el error cuadr√°tico medio es muy alto y una posible explicaci√≥n es que relaci√≥n entre las variables en realidad no sea lineal.

In [None]:
#
# Evaluaci√≥n
#
from sklearn.metrics import mean_squared_error

test_results = {}

y_pred = horsepower_model.predict(standarized_test_horsepower)

test_results["horsepower_model"] = mean_squared_error(
    y_true=test_labels,
    y_pred=y_pred,
)

test_results

## Segundo modelo

Regresi√≥n lineal: variables independientes vs MPG

In [None]:
#
# Preparaci√≥n de la data
#
features_scaler = StandardScaler()

features_scaler.fit(train_features)

standarized_train_features = features_scaler.transform(train_features)
standarized_test_features = features_scaler.transform(test_features)

In [None]:
linear_model = LinearRegression()
linear_model.fit(standarized_train_features, train_labels)

In [None]:
#
# Intercepto
#
linear_model.intercept_

Ahora tengo un coeficiente por cada variable de las *X*

In [None]:
#
# Coeficientes
#
linear_model.coef_

In [None]:
def plot_predictions(y_true, y_pred):

    ax = plt.axes(aspect="equal")
    plt.scatter(y_true, y_pred)
    plt.xlabel("True Values [MPG]")
    plt.ylabel("Predictions [MPG]")
    lims = [0, 50]
    plt.xlim(lims)
    plt.ylim(lims)
    _ = plt.plot(lims, lims)

In [None]:
test_predictions = linear_model.predict(standarized_test_features)

plot_predictions(
    y_true=test_labels,
    y_pred=test_predictions,
)

Como podemos observar, el nuevo modelo en el que introdujimos todas las variables independientes es mejor que el primer modelo en el que ten√≠amos solamente la variable "Horsepower": el error cuadr√°tico medio es mucho m√°s bajo.

In [None]:
test_results["linear_model"] = mean_squared_error(
    y_true=test_labels,
    y_pred=test_predictions,
)

test_results

## Tercer modelo

Redes neuronales: Horsepower vs MPG

In [None]:
from sklearn.neural_network import MLPRegressor

mlp_horsepower = MLPRegressor(
    max_iter=10000,
    hidden_layer_sizes=(64, 64),
    activation="relu",
    solver="adam",
    learning_rate_init=0.001,
    validation_fraction=0.2,
    early_stopping=True,
    random_state=0,
)
mlp_horsepower.fit(standarized_train_horsepower, train_labels)

y = mlp_horsepower.predict(scaled_x)
plot_horsepower(x, y)

In [None]:
y_pred = mlp_horsepower.predict(standarized_test_horsepower)

test_results["mlp_horsepower"] = mean_squared_error(
    y_true=test_labels,
    y_pred=y_pred,
)
test_results

## Cuarto modelo

Redes neuronales: variables independientes vs MPG

In [None]:
mlp = MLPRegressor(
    max_iter=10000,
    hidden_layer_sizes=(64, 64),
    activation="relu",
    solver="adam",
    learning_rate_init=0.001,
    validation_fraction=0.2,
    early_stopping=True,
    random_state=0,
)
mlp.fit(standarized_train_features, train_labels)

In [None]:
test_predictions = mlp.predict(standarized_test_features)

plot_predictions(
    y_true=test_labels,
    y_pred=test_predictions,
)

In [None]:
test_results["mlp"] = mean_squared_error(
    y_true=test_labels,
    y_pred=test_predictions,
)

test_results

## Comparaci√≥n final de resultados

In [None]:
pd.DataFrame(test_results, index=["Mean squared error [MPG]"]).T

## Guardar modelo y escalador

Es necesario guardar tambi√©n el escalador que nos permita transformar las variables para que est√©n en la forma apropiada que espera el modelo.

In [None]:
import pickle

with open("mlp.pickle", "wb") as file:
    pickle.dump(mlp, file)

with open("features_scaler.pickle", "wb") as file:
    pickle.dump(features_scaler, file)

# Ejemplo de Uso del Modelo

In [None]:
import pandas as pd

dataset = pd.read_csv("../files/input/auto_mpg.csv")
dataset = dataset.dropna()
dataset["Origin"] = dataset["Origin"].map(
    {1: "USA", 2: "Europe", 3: "Japan"},
)
dataset = pd.get_dummies(dataset, columns=["Origin"], prefix="", prefix_sep="")
y_true = dataset.pop("MPG")


with open("mlp.pickle", "rb") as file:
    new_mlp = pickle.load(file)

with open("features_scaler.pickle", "rb") as file:
    new_features_scaler = pickle.load(file)

standarized_dataset = new_features_scaler.transform(dataset)
y_pred = mlp.predict(standarized_dataset)

mean_squared_error(
    y_true=y_true,
    y_pred=y_pred,
)

7.744565284379876

## üìä Resumen y Conclusiones del An√°lisis

### üéØ Objetivos Alcanzados
Este notebook presenta un an√°lisis completo de regresi√≥n para predecir el consumo de combustible (MPG) de autom√≥viles, implementando las siguientes etapas:

1. **An√°lisis Exploratorio de Datos (EDA)**
   - Identificaci√≥n de patrones y correlaciones
   - Detecci√≥n de valores faltantes y outliers
   - Visualizaci√≥n de distribuciones y relaciones

2. **Preprocesamiento de Datos**
   - Limpieza de datos (eliminaci√≥n de valores nulos)
   - Transformaci√≥n de variables categ√≥ricas (One-Hot Encoding)
   - Normalizaci√≥n de variables num√©ricas (StandardScaler)

3. **Desarrollo de Modelos**
   - Regresi√≥n lineal m√∫ltiple
   - Comparaci√≥n de diferentes algoritmos
   - Evaluaci√≥n de rendimiento con m√©tricas apropiadas

### üîç Hallazgos Clave
- **Variables m√°s influyentes**: Peso, desplazamiento y potencia del motor
- **Impacto de la normalizaci√≥n**: Mejora significativa en la convergencia del modelo
- **Rendimiento del modelo**: [Los resultados espec√≠ficos se mostrar√°n al ejecutar las celdas]

### üí° Aplicaciones Pr√°cticas
Este tipo de an√°lisis puede ser utilizado para:
- **Industria automotriz**: Optimizaci√≥n del dise√±o de veh√≠culos
- **Regulaci√≥n ambiental**: Establecimiento de est√°ndares de eficiencia
- **Consumidores**: Toma de decisiones informadas de compra
- **Investigaci√≥n**: Estudios sobre sostenibilidad y eficiencia energ√©tica

### ‚ö†Ô∏è Limitaciones y Consideraciones
- **Datos hist√≥ricos**: El modelo se basa en datos de los a√±os 70-80
- **Generalizaci√≥n**: Puede no ser aplicable a veh√≠culos modernos
- **Variables faltantes**: No se consideraron factores como tecnolog√≠a h√≠brida/el√©ctrica
- **Validaci√≥n cruzada**: Se recomienda implementar k-fold CV para mayor robustez

---
*An√°lisis desarrollado como parte del curso de Machine Learning - Regresi√≥n B√°sica*
