# Import libraries

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importa Dataset

In [2]:
dataset = pd.read_csv("Data.csv")
x = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
dataset

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


In [3]:
print(x, '\n')
print(y)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 nan]
 ['France' 35.0 58000.0]
 ['Spain' nan 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]] 

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']


## Taking care of missing Data

In [4]:
from sklearn.impute import SimpleImputer

# imputer è l'oggetto che sostituirà tutti i valori mancanti nella 'feature matrix' con il valore medio del feature
# Sostituisce tutti i valori nan con la media per colonna (feature)
imputer = SimpleImputer(missing_values=np.nan, strategy="mean")
# Calcola i valori leggendo la feauture matrix secondo i range forniti
imputer.fit(x[:, 1:3])
# Effettua la trasformazione
x[:, 1:3] = imputer.transform(x[:, 1:3])
print(x)

[['France' 44.0 72000.0]
 ['Spain' 27.0 48000.0]
 ['Germany' 30.0 54000.0]
 ['Spain' 38.0 61000.0]
 ['Germany' 40.0 63777.77777777778]
 ['France' 35.0 58000.0]
 ['Spain' 38.77777777777778 52000.0]
 ['France' 48.0 79000.0]
 ['Germany' 50.0 83000.0]
 ['France' 37.0 67000.0]]


## Encoding categorical data

## Encoding the Indipendent Variables

In [5]:
# Oggetto per la trasformazione di colonne
from sklearn.compose import ColumnTransformer

# Enconeder OneHot, per ogni possibile valore discreto della colonna (categorical) viene creato un digit binario
# in questo caso essendo 3 possibili valori (France, Spain, Germany) ci sono numeri binari composti da 3 cifre di cui solo una è pari a 1
# Quindi restituisce una matrice sparsa di n righe x 3 colonne
from sklearn.preprocessing import OneHotEncoder


# L'oggetto transformer viene creato con 2 argomenti (un array di transformers) e la strategia da applicare ai 'remainder' (cioè le colenne del data frame non transfomrate)
# può essere 'passthrough' -> i valori non vengono modificati e vengono inclusi nel dataframe in output
# può essere 'drope' -> i valori delle non vengono inclusi nel dataframe in output
column_transformer = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])],remainder="passthrough")

# Si usa numpy array per trasformare la matrice in un numpy array che è quello che si aspetta in input il modello di machine learning
x = np.array(column_transformer.fit_transform(x))
print(x)

[[1.0 0.0 0.0 44.0 72000.0]
 [0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 30.0 54000.0]
 [0.0 0.0 1.0 38.0 61000.0]
 [0.0 1.0 0.0 40.0 63777.77777777778]
 [1.0 0.0 0.0 35.0 58000.0]
 [0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 0.0 48.0 79000.0]
 [0.0 1.0 0.0 50.0 83000.0]
 [1.0 0.0 0.0 37.0 67000.0]]


## Encoding the Dipendent Variables

In [7]:
from sklearn.preprocessing import LabelEncoder

print(y)
le = LabelEncoder()
y = le.fit_transform(y)
print(y)

['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']
[0 1 0 0 1 1 0 1 0 1]


## Splitting the dataset into the Training set and Test set

## Feature Scaling
La tecnica del Feature Scaling deve essere applicata dopo lo splitting tra Training set e Test set. Questa tecnica serve per assicurarsi che tutti i valori delle feature del training set vengano portati allo stesso valore id scala. Questo per evitare che una particolare feature diventi predominante rispetto alle altre.  
Il motivo per cui il Feature scaling si applica dopo lo split è molto semplice:  
1. Il Test set deve essere considerato un nuovo insieme di valori su cui verrà testata l'accuracy del modello
2. Per fare Feature scaling si usa la **media** e **deviazione standard**
3. Effettuandolo prima dello splitting si portano delle informazioni del Training set nel Test set e vice versa