In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib
from matplotlib import pyplot as plt
import sklearn
import sklearn.preprocessing as prep
print("tensorflow:", tf.__version__)
print("numpy:", np.__version__)
print("pandas:", pd.__version__)
print("matplotlib:", matplotlib.__version__)
print('scikit-learn:', sklearn.__version__)

tensorflow: 1.14.0
numpy: 1.16.4
pandas: 0.25.1
matplotlib: 3.1.1
scikit-learn: 0.21.2


### Descrizione del dataset
Questo notebook utilizza il classico set di dati 'Auto MPG' e costruisce un modello per prevedere l'efficienza del consumo di carburante dalla fine degli anni '70 all'inizio degli anni '80. Per fare questo, forniremo al modello una descrizione di molte automobili di quel periodo di tempo. La descrizione forinita include attributi come: numero di cilindri, cilindrata, potenza e peso.

In [2]:
dataset_path = './auto-mpg.data'
column_names = ['MPG', 'Cylinders', 'Displacement', 'Horsepower', 'Weight', 'Acceleration', 'Model Year', 'Origin']

# leggiamo i dati specificando le colonne opportune
dataset = pd.read_csv(dataset_path, names=column_names, na_values = "?", comment='\t', sep=" ", skipinitialspace=True)
print('Shape:', dataset.shape)
print(dataset.tail())

Shape: (398, 8)
      MPG  Cylinders  Displacement  Horsepower  Weight  Acceleration  \
393  27.0          4         140.0        86.0  2790.0          15.6   
394  44.0          4          97.0        52.0  2130.0          24.6   
395  32.0          4         135.0        84.0  2295.0          11.6   
396  28.0          4         120.0        79.0  2625.0          18.6   
397  31.0          4         119.0        82.0  2720.0          19.4   

     Model Year  Origin  
393          82       1  
394          82       2  
395          82       1  
396          82       1  
397          82       1  


### Data Preparation

In [6]:
# Ora dividiamo il dataset in training set e test set secondo le proporzioni 80-20
train_dataset = dataset.sample(frac=0.8, random_state=0)
test_dataset = dataset.drop(train_dataset.index)


# separiamo le caratteristiche dalla variabile continua che vogliamo prevedere 'MPG'
train_labels = train_dataset.pop('MPG')
test_labels = test_dataset.pop('MPG')

print("train_dataset shape:", train_dataset.shape, "train_labels shape:", train_labels.shape)
print("test_dataset shape:", test_dataset.shape, "test_labels shape:", test_labels.shape)

train_dataset shape: (318, 7) train_labels shape: (318,)
test_dataset shape: (80, 7) test_labels shape: (80,)


Analizziamo il dataset e individuiamo eventuali valori mancanti

In [7]:
# funzione che conta il numero di valori mancanti per ogni attributo
def get_na_count(dataset):
    # per ogni elemento (i,j) del dataset, isna() restituisce 
    # TRUE/FALSE se il valore corrispondente è mancante/presente
    boolean_mask = dataset.isna()
    # contiamo il numero di TRUE per ogni attributo sul dataset
    return boolean_mask.sum(axis=0)

In [8]:
# calcoliamo il numero di valori mancanti su train e test
summary_train = get_na_count(train_dataset)
print(summary_train)
summary_test = get_na_count(test_dataset)
print(summary_test)

Cylinders       0
Displacement    0
Horsepower      5
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64
Cylinders       0
Displacement    0
Horsepower      1
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64


Sostituiamo i valori mancanti per la feature 'Hosepower' con la media calcolata sul training set

In [9]:
# calcoliamo la media della colonna che ci interessa
horsepower_mean_train = train_dataset['Horsepower'].mean()
print('Mean Horsepower:', horsepower_mean_train)

# sostituiamo i valori mancanti con la media
train_dataset['Horsepower'] = train_dataset['Horsepower'].fillna(horsepower_mean_train)
test_dataset['Horsepower'] = test_dataset['Horsepower'].fillna(horsepower_mean_train)

# controlliamo nuovamente train e test
summary_train = get_na_count(train_dataset)
print(summary_train)
summary_test = get_na_count(test_dataset)
print(summary_test)

Mean Horsepower: 104.06709265175719
Cylinders       0
Displacement    0
Horsepower      0
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64
Cylinders       0
Displacement    0
Horsepower      0
Weight          0
Acceleration    0
Model Year      0
Origin          0
dtype: int64


Osserviamo che 'Origin' è una variabile categorica non ordinale che assume tre possibili valori 1 (USA), 2 (Europe), 3 (Japan). Dobbiamo convertirla in 3 variabili numeriche tramite la codifica one-hot.

In [10]:
# one-hot encoding della feature 'Origin' per train e test
classes = ['USA', 'Europe', 'Japan']
binarizer = prep.LabelBinarizer()
binarizer.fit(train_dataset['Origin'])
train_one_hot = binarizer.transform(train_dataset['Origin'])
train_one_hot = pd.DataFrame(train_one_hot, columns=classes, index=train_dataset.index)
print(train_one_hot.tail())
test_one_hot = binarizer.transform(test_dataset['Origin'])
test_one_hot = pd.DataFrame(test_one_hot, columns=classes, index=test_dataset.index)
print(test_one_hot.tail())

     USA  Europe  Japan
207    0       1      0
279    0       0      1
227    1       0      0
148    0       1      0
143    0       1      0
     USA  Europe  Japan
368    1       0      0
370    1       0      0
382    0       0      1
384    0       0      1
396    1       0      0


In [11]:
# eliminiamo la colonna categorica
train_dataset = train_dataset.drop(['Origin'], axis=1)
test_dataset = test_dataset.drop(['Origin'], axis=1)

# aggiungiamo le feature binarie
train_dataset = pd.concat([train_dataset, train_one_hot], axis=1)
test_dataset = pd.concat([test_dataset, test_one_hot], axis=1)

print(train_dataset.tail())
print(test_dataset.tail())

     Cylinders  Displacement  Horsepower  Weight  Acceleration  Model Year  \
207          4         130.0       102.0  3150.0          15.7          76   
279          4          98.0        68.0  2135.0          16.6          78   
227          6         225.0       100.0  3630.0          17.7          77   
148          4         116.0        75.0  2246.0          14.0          74   
143          4          97.0        78.0  2300.0          14.5          74   

     USA  Europe  Japan  
207    0       1      0  
279    0       0      1  
227    1       0      0  
148    0       1      0  
143    0       1      0  
     Cylinders  Displacement  Horsepower  Weight  Acceleration  Model Year  \
368          4         112.0        88.0  2640.0          18.6          82   
370          4         112.0        85.0  2575.0          16.2          82   
382          4         108.0        70.0  2245.0          16.9          82   
384          4          91.0        67.0  1965.0          15.7 

In [9]:
# convertiamo i DataFrame per l'input e per l'output in vettori 2D (matrici)
train_x = np.float64(train_dataset.values)
train_y = np.float64(train_labels.values)
train_y = train_y.reshape((len(train_y), 1))
test_x = np.float64(test_dataset.values)
test_y = np.float64(test_labels.values)
test_y = test_y.reshape((len(test_y), 1))
print(train_x.shape, train_y.shape)
print(test_x.shape, test_y.shape)

(318, 9) (318, 1)
(80, 9) (80, 1)


È buona norma normalizzare le feature che utilizzano scale e intervalli diversi. Non normalizzare i dati rende l'allenamento più difficile e rende il modello risultante dipendente dalla scelta delle unità nell'input.

In [10]:
# utilizziamo il MinMaxScaler che applica la seguente trasformazione:
# X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
# X_scaled = X_std * (max - min) + min

scaler_x = prep.MinMaxScaler(feature_range=(0, 1))
scaler_y = prep.MinMaxScaler(feature_range=(0, 1))
scaler_x.fit(train_x)
scaler_y.fit(train_y)
scaled_train_x = scaler_x.transform(train_x)
scaled_train_y = scaler_y.transform(train_y)
scaled_test_x = scaler_x.transform(test_x)
scaled_test_y = scaler_y.transform(test_y)