# **Introduzione a Scikit Learn**
## *Stimatori, Transformer e Preprocessing*
Breve introduzione all'uso della libreria *Scikit Learn* con *Esercizi*.

**Scikit Learn** è una tra le librerie per il machine learning più utilizzate in Python. Ciò avviene principalmente per tre fattori:

- il supporto ad un numero molto elevato di algoritmi di machine learning.
- la semplicità di utilizzo della libreria.
- la perfetta integrazione con NumPy e Pandas.

Partiamo quindi nella nostra discussione sulla libreria da una panoramica ad ampio spettro delle potenzialità della stessa.

## **Stimatori e Transformer**

Scikit Learn si basa su due concetti fondamentali, ovvero quelli di **estimator** (*stimatore*) e di **transformer** (*trasformatore di dati*).

In particolare, un *estimator* è l'implementazione di uno specifico algoritmo di machine learning, mentre un transformer è un algoritmo che effettua delle trasformazioni sui dati.

Ad esempio, le istanze delle classi `RandomForestClassifier` e `DBSCAN` sono degli *estimator*, mentre quelle della classe `StandardScaler` sono dei transformer.

Questa suddivisione permette di implementare un'interfaccia comune, la quale offre nella maggior parte dei casi i metodi `fit()`,  `transform()` e `predict()`: rispettivamente *fit()* è comune, mentre *transform* e *predict* rispettivamente sono usati per l'addestramento e la trasformazione dei dati.

Tuttavia, è importante notare come ogni stimatore e transformer abbiano **parametri specifici** e dipendenti dalla natura dell'algoritmo utilizzato. Ogni algoritmo, inoltre, andrà verificato secondo delle opportune **metriche**, che permettono di definire, in termini percentuali o assoluti, l'**accuratezza** dell'algoritmo utilizzato.

## **Preprocessing**

Abbiamo visto come spesso sia necessario effettuare delle operazioni di **preprocessing** sui dati. In tal senso, gli strumenti che utilizzeremo maggiormente sono:

- **Imputer**

    Per asssegnare *valori mancanti*, come ad esempio gli oggetti di classe `SimpleImputer` o `IterativeImputer` o `KNNImputer`
- **Scaler**

    Per trasformare le *feature numeriche* come ad esempio gli oggetti di classe `MinMaxScaler` e `StandardScaler`.
- **Enconder**

    Per trasformare le *feature categoriche* come ad esempio gli oggetti di classe `OrdinalEncoder` e `OneHotEncoder` e `LabelEncoder`. Quest'ultimo funziona come l'*OrdinalEncoder*, ma agisce sulle label.



Classe | Applicazione
:-----: | :--------:
**SimpleImputer**    | Assegna un valore ad una feature mancante sulla base degli altri valori della stessa, secondo una strategia ben definita (ad esempio, la media). 
**IterativeImputer**   | Assegna un valore ad una feature mancante come funzione dei valori assunti dalle altre feature. Tale valore è assegnato usando un approccio di regressione (anche multivariata) tra le altre feature e la feature target.
**KNNImputer**  | Il k-nearest neighbor utilizzato nel riconoscimento di pattern per la classificazione di oggetti basandosi sulle caratteristiche degli oggetti vicini a quello considerato
**MinMaxScaler** | Normalizza i valori assunti dalle feature nel range che va tra un certo minimo ed un certo massimo
**StandardScaler**   | Standardizza i valori assunti dalle feature in modo da farli distribuire secondo una gaussiana a media nulla e varianza unitaria (*Z-score*).
**OrdinalEncoder**   | Codifica una feature categoriche in un range che va 0 ad 𝑛 − 1, con 𝑛 numero di possibili valori assunti dalla feature.
**OneHotEncoder**    | Codifica una feature categorica mediante la tecnica del one hot encoding


## **Esercizi**

In [2]:
from sklearn.preprocessing import MinMaxScaler, OrdinalEncoder
import pandas as pd
import numpy as np

### **Es 1.0**

Analizziamo i dati del dataset Titanic, e prepariamoli per un'elaborazione successiva.

In particolare, proviamo a:

- *Rimuovere* le feature rumorose o non necessarie.
- *Normalizzare* le feature numeriche nell'intervallo.
- *Convertire* le feature categoriche in valori numerici.

Importo il *DataSet* di interesse:

In [8]:
df = pd.read_csv('DataSet\\titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


*Rimuovo* le features non necessarie, ossia *Name*, *Ticket*, *Cabin*, *SibSp*  

In [7]:
data_to_retain = df.loc[:, ('Survived', 'Pclass', 'Sex', 'Age', 'Fare')]
data_to_retain.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Fare
0,0,3,male,22.0,7.25
1,1,1,female,38.0,71.2833
2,1,3,female,26.0,7.925
3,1,1,female,35.0,53.1
4,0,3,male,35.0,8.05


Passo a *convertire* le features categoriche e *normalizzare* le features numeriche utilizzando il metodo `fit_transform()` che contestualmente mi converte e normalizza la feature. Il valore di ritorno è un *array NumPy*:

In [9]:
survived_encoder =  OrdinalEncoder()                    # Istanza della classe
survived_encoded = survived_encoder.fit_transform(      # Trasforma e normalizza la feature categorica 'Survived'
    data_to_retain['Survived'].values.reshape(-1,1)
)

pclass_encoder =  OrdinalEncoder()                      # Istanza della classe
pclass_encoded = pclass_encoder.fit_transform(          # Trasforma e normalizza la feature categorica 'Pclass'
    data_to_retain['Pclass'].values.reshape(-1,1)
)    

sex_encoder = OrdinalEncoder()                          # Istanza della classe
sex_encoded = sex_encoder.fit_transform(                # Trasforma e normalizza la feature categorica 'Sex'
    data_to_retain['Sex'].values.reshape(-1,1)
)

age_scaler = MinMaxScaler()                             # Istanza della classe
age_scaled = age_scaler.fit_transform(                  # Trasforma e normalizza la feature numerica 'Age'
    data_to_retain['Age'].values.reshape(-1,1)
)

fare_scaler = MinMaxScaler()                             # Istanza della classe
fare_scaled = age_scaler.fit_transform(                  # Trasforma e normalizza la feature numerica 'Fare'
    data_to_retain['Fare'].values.reshape(-1,1)
)


Adesso colleziono gli array trasformati in un singolo *array concatenato* e creo un nuovo *DataFrame*:

In [11]:
new_data = np.concatenate((
    survived_encoded,
    pclass_encoded,
    sex_encoded,
    age_scaled,
    fare_scaled
    ),
    axis=1
)

pd.DataFrame(
    new_data,
    columns = ['Survived', 'Pclass', 'Sex', 'Age', 'Fare']
)

Unnamed: 0,Survived,Pclass,Sex,Age,Fare
0,0.0,2.0,1.0,0.271174,0.014151
1,1.0,0.0,0.0,0.472229,0.139136
2,1.0,2.0,0.0,0.321438,0.015469
3,1.0,0.0,0.0,0.434531,0.103644
4,0.0,2.0,1.0,0.434531,0.015713
...,...,...,...,...,...
886,0.0,1.0,1.0,0.334004,0.025374
887,1.0,0.0,0.0,0.233476,0.058556
888,0.0,2.0,0.0,,0.045771
889,1.0,0.0,1.0,0.321438,0.058556
