# **Introduzione a Scikit Learn**
## *Stimatori, Transformer e Preprocessing*
Breve introduzione all'uso della libreria *Scikit Learn*

**Scikit Learn** è una tra le librerie per il machine learning più utilizzate in Python. Ciò avviene principalmente per tre fattori:

- il supporto ad un numero molto elevato di algoritmi di machine learning.
- la semplicità di utilizzo della libreria.
- la perfetta integrazione con NumPy e Pandas.

Partiamo quindi nella nostra discussione sulla libreria da una panoramica ad ampio spettro delle potenzialità della stessa.

## **Stimatori e Transformer**

Scikit Learn si basa su due concetti fondamentali, ovvero quelli di **estimator** (*stimatore*) e di **transformer** (*trasformatore di dati*).

In particolare, un *estimator* è l'implementazione di uno specifico algoritmo di machine learning, mentre un transformer è un algoritmo che effettua delle trasformazioni sui dati.

Ad esempio, le istanze delle classi `RandomForestClassifier` e `DBSCAN` sono degli *estimator*, mentre quelle della classe `StandardScaler` sono dei transformer.

Questa suddivisione permette di implementare un'interfaccia comune, la quale offre nella maggior parte dei casi i metodi `fit()`,  `transform()` e `predict()`: rispettivamente *fit()* è comune, mentre *transform* e *predict* rispettivamente sono usati per l'addestramento e la trasformazione dei dati.

Tuttavia, è importante notare come ogni stimatore e transformer abbiano **parametri specifici** e dipendenti dalla natura dell'algoritmo utilizzato. Ogni algoritmo, inoltre, andrà verificato secondo delle opportune **metriche**, che permettono di definire, in termini percentuali o assoluti, l'**accuratezza** dell'algoritmo utilizzato.

## **Preprocessing**

Abbiamo visto come spesso sia necessario effettuare delle operazioni di **preprocessing** sui dati. In tal senso, gli strumenti che utilizzeremo maggiormente sono:

- **Imputer**

    Per asssegnare *valori mancanti*, come ad esempio gli oggetti di classe `SimpleImputer` o `IterativeImputer` o `KNNImputer`
- **Scaler**

    Per trasformare le feature numeriche come ad esempio gli oggetti di classe `MinMaxScaler` e `StandardScaler`.
- **Enconder**

    Per trasformare le feature categoriche come ad esempio gli oggetti di classe `OrdinalEncoder` e `OneHotEncoder`.



Classe | Applicazione
:-----: | :--------:
**SimpleImputer**    | Assegna un valore ad una feature mancante sulla base degli altri valori della stessa, secondo una strategia ben definita (ad esempio, la media). 
**IterativeImputer**   | Assegna un valore ad una feature mancante come funzione dei valori assunti dalle altre feature. Tale valore è assegnato usando un approccio di regressione (anche multivariata) tra le altre feature e la feature target.
**KNNImputer**  | Il k-nearest neighbor utilizzato nel riconoscimento di pattern per la classificazione di oggetti basandosi sulle caratteristiche degli oggetti vicini a quello considerato
**MinMaxScaler** | Normalizza i valori assunti dalle feature nel range che va tra un certo minimo ed un certo massimo
**StandardScaler**   | Standardizza i valori assunti dalle feature in modo da farli distribuire secondo una gaussiana a media nulla e varianza unitaria. 
**OrdinalEncoder**   | Codifica una feature categoriche in un range che va 0 ad 𝑛 − 1, con 𝑛 numero di possibili valori assunti dalla feature.
**OneHotEncoder**    | Codifica una feature categorica mediante la tecnica del one hot encoding
