L'objet de cet exercice consiste à comparer différents modèles de regression capable de prédire la consommation en essence d'une voiture à partir de certaines de ces caractéristiques. La variable cible est le MPG qui correspond au nombre de miles qu'on peut effectuer avec un baril d'essence. Ce notebook utilise le jeu de données classique Auto MPG qui contient des exemples d'automobiles de la fin des années 1970 et du début des années 1980 avec des données tels que : la cylindrée, la puissance, le poids...

# Charger les packages et importer les données

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

import tensorflow as tf

from tensorflow import keras
from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model

from sklearn.model_selection import train_test_split

In [25]:
column_names = ['MPG', 'Cylinders', 'Displacement', 'Horsepower', 
                'Weight', 'Acceleration', 'Model Year', 'Origin', 'Car name']

dataset = pd.read_csv(
    'auto-mpg.csv',
    names=column_names,
    na_values='?',
    comment='\t',
    sep=',',              # ← mets bien le bon séparateur (',' ou ' ' selon ton fichier)
    skipinitialspace=True,
    header=0              # ← dit à Pandas que la 1ère ligne contient déjà les en-têtes
)

dataset= dataset.drop('Car name', axis=1)

print(dataset.head())

    MPG  Cylinders  Displacement  Horsepower  Weight  Acceleration  \
0  18.0          8         307.0       130.0    3504          12.0   
1  15.0          8         350.0       165.0    3693          11.5   
2  18.0          8         318.0       150.0    3436          11.0   
3  16.0          8         304.0       150.0    3433          12.0   
4  17.0          8         302.0       140.0    3449          10.5   

   Model Year  Origin  
0          70       1  
1          70       1  
2          70       1  
3          70       1  
4          70       1  


# Nettoyer les donneés

In [29]:
# Vérifier les valeurs manquantes
print(dataset.isnull().sum())

MPG             0
Cylinders       0
Displacement    0
Horsepower      0
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64


In [32]:
#encoder la colonne origin en format (one-hot encoding)
dataset_encoded = pd.get_dummies(dataset, columns=['Origin'], prefix='Origin', dtype=int)


# Verification
print(dataset_encoded.head())

    MPG  Cylinders  Displacement  Horsepower  Weight  Acceleration  \
0  18.0          8         307.0       130.0    3504          12.0   
1  15.0          8         350.0       165.0    3693          11.5   
2  18.0          8         318.0       150.0    3436          11.0   
3  16.0          8         304.0       150.0    3433          12.0   
4  17.0          8         302.0       140.0    3449          10.5   

   Model Year  Origin_1  Origin_2  Origin_3  
0          70         1         0         0  
1          70         1         0         0  
2          70         1         0         0  
3          70         1         0         0  
4          70         1         0         0  
