# **Machine Learning**

**Link codici** https://github.com/MaSTERmIKK/AulaMLandAI

Il *machine learning* è un sottocampo dell'*intelligenza artificiale* che permette ai computer di imparare dai dati e migliorare le proprie prestazioni senza essere esplicitamente programmati.

Un modello è un costrutto matematico tra input e output desiderati. La costruzione avviene come segue:

1. **Training**: Il modello viene realizzato tramite un processo di *addestramento*, ottimizzando i suoi parametri interni basandosi su un set di dati (*training set*).
2. **Validation**: Dopo l'addestramento, i modelli vengono valutati su un set di dati di validazione (*validation set*) per regolare i parametri (*tuning*).
3. **Testing**: Al termine testiamo il modello su un insieme di dati di test (*test set*) per valutare la performance finale.

## **Apprendimento Supervisionato**
Il modello viene addestrato su un set di dati che include sia gli input che gli output (dati *etichettati*). L'obiettivo è costruire un modello che possa fare previsioni accurate su nuovi dati basandosi su questa corrispondenza.

Modelli di apprendimento supervisionato sono:
 * *Classificazione*
 * *Regressione*

## **Apprendimento Non Supervisionato**

Il modello lavora con dati che non hanno output (dati *non etichettati*). L'obiettivo è scoprire strutture nascoste dei dati.

Modelli di apprendimento non supervisionato sono:
* *Clustering* : raggruppa i dati simili

## **Apprendimento per Rinforzo**

Tecnica in cui un agente impara a prendere decisione ottimizzando un sistema di ricompense e punizioni attraverso tentativi ed errori.

## **Overfitting e Underfitting**

* **Overfitting**: si verifica quando un modello impara troppo bene i dettagli dei dati di addestramento, inclusi i rumori e le anomalie, a scapito delle prestazioni sui nuovi dati.

* **Underfitting**:  si verifica quando un modello è troppo semplice per catturare la struttura dei dati, risultando in una scarsa performance sia sui dati di addestramento che su quelli di test.

## **Reti Neurali**

Le *reti neurali* sono una classe di modelli nel machine learning ispirati al cervello umano, infatti sono composti da nodi (*neuroni*) organizzanti in strati (*layers*).

### **Struttura Reti Neurali**

* **Layers**: i dati vengono inseriti attraverso l'*input layer*, elaborati attraverso uno o più *hidden layers*, e l'output viene prodotto dal *output layer*.

* **Connessioni**: le connessioni tra neuroni sono rappresenttate dalle freccie; ogni freccia trasporta l'output da un neurone all'altro ed è pesata da parametri che sono ottimizzati durante il processo di apprendimento.

* **Processo di Apprendimento**: durante la fase di training, la rete neurale apprende ottimizzando questi pesi per minimizzare la differeza tra l'output previsto dalla rete e l'output effettivo (*target*); questo processo è guidato da un algoritmo di ottimizzazione e una *loss function* che misura l'errore di previsione.

## **Librerie per Machine Learning**

### **Scikit-learn**
Utilizzata per metodi tradizionali di machine learning.

#### **1. Caricamento e Preparazione dei Dati**
Dopo aver caricato i dati, si preprocessano i dati per pulirli e normalizzarli, rendoli adatti all'analisi.

* `sklearn.datasets` fornisce funzioni per caricare dataset di esempio e per generare dataset sintetici, utili per testare algoritmi e apprendere come utilizzare scikit-learn.

    * `load_iris()`, `load_digits()`, `load_wine()`: funzioni per caricare dataset di esempio.
    
    * `make_classification()`, `make_regression()`, `make_blobs()`: funzioni per generare dataset sintetici utili per test e simulazioni.

In [1]:
from sklearn.datasets import load_iris
data = load_iris()
X = data.data
y = data.target

* `sklearn.preprocessing` contiene strumenti per pre-processare i dati, come la scalatura, la normalizzazione, la codifica delle variabili categoriche e la gestione dei dati mancanti.

    * `StandardScaler()`: effettua la standardizzazione delle caratteristiche, rendendo media = 0 e deviazione standard = 1.
    
    * `MinMaxScaler()`: scala le caratteristiche in un intervallo specificato.

    * `OneHotEncoder()`: codifica variabili categoriche in vettori binari.

    * `LabelEncoder()`: Codifica etichette target trasformandole in numeri.

In [2]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

* `sklearn.feature_selection` offre metodi per selezionare le caratteristiche più rilevanti nei dati, migliorando l'efficienza e le prestazioni dei modelli attraverso tecniche come l'eliminazione univariata e la selezione ricorsiva di caratteristiche.

    * `SelectKBest()`: seleziona le migliori K caratteristiche in base a una funzione statistica.
    
    * `RFE()`: *Recursive Feature Elimination*, rimuove iterativamente le caratteristiche meno rilevanti.

    * `VarianceThreshold()`: rimuove le caratteristiche con bassa varianza (cioè che non apportano valore predittivo).


* **Riduzione della dimensionalità**: processo di ridurre il numero di variabili casuali sotto considerazione, ottenendo un insieme di caratteristiche principali.

    `sklearn.decomposition` contiene algoritmi per la decomposizione e la riduzione della dimensionalità dei dati, come l'*Analisi delle Componenti Principali* (PCA) e l'*Analisi delle Componenti Indipendenti* (ICA).

    * `PCA`: tecnica di riduzione della dimensionalità che cerca di identificare nuove variabili (chiamate *componenti principali*) che sono combinazioni lineari delle variabili originali.
    * `ICA`: tecnica di separazione dei segnali che cerca di trovare componenti che siano statisticamente indipendenti tra loro.

#### **2. Divisione del Dataset**
Suddividere i dati in set di training e test per costruire e valutare il modello.

* `sklearn.model_selection` include funzioni per la suddivisione dei dati in training e test set, la validazione incrociata (*cross-validation*) e la ricerca degli iperparametri ottimali tramite grid search o random search.

    * `train_test_split()`: divide i dati in set di addestramento e test.

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#### **3. Selezione del Modello**

* `sklearn.ensemble` fornisce metodi di ensemble che combinano più modelli di base per migliorare le prestazioni predittive, tra cui Random Forest, Gradient Boosting e AdaBoost.

    * `RandomForestClassifier()`, `RandomForestRegressor()`: algoritmi di foreste casuali per classificazione e regressione.
    
    * `GradientBoostingClassifier()`, `GradientBoostingRegressor()`: algoritmi di boosting per migliorare le prestazioni.

    * `AdaBoostClassifier()`, `AdaBoostRegressor()`: implementazioni di AdaBoost, un metodo di ensemble che aggiunge iterativamente modelli deboli.

* **Modelli di Regressione**: modelli per utilizzati per prevedere una variabile dipendente continua (tranne la *regressione logistica* utilizzata per classificazione) minimizzando l'errore tra le previsioni e i valori reali.

    * **Regressione Lineare** è un modello statistico utilizzato per trovare una relazione *lineare* tra una variabile dipendente continua (*target*) e una o più variabili indipendenti.

    * **Regressione Logistica** è un modello di classificazione utilizzato per prevedere la probabilità che un campione appartenga a una determinata classe. 

    *Funzione associata:*
    
    `sklearn.linear_model` include modelli lineari per la regressione e la classificazione, come regressione lineare, regressione logistica, lasso e ridge regression.

    * `LinearRegression()`: regressione lineare.

    * `LogisticRegression()`: regressione logistica per problemi di classificazione binaria o multi-classe.

    * `Ridge()`, `Lasso()`, `ElasticNet()`: varianti della regressione lineare che aggiungono penalizzazioni per ridurre l'overfitting.

    * `SGDClassifier()`, `SGDRegressor()`: *Stochastic Gradient Descent* per problemi di classificazione e regressione su grandi dataset.

 * **Support Vector Machine (SVM)**: modelli di apprendimento supervisionato
utilizzati per problemi di classificazione e regressione. Trovano l'iperpiano che massimizza il margine tra le classi, cioè la distanza tra i punti più vicini della classi, chiamati *support vector*.

    *Funzione associata:*

    `sklearn.svm` implementa le Macchine a Vettori di Supporto (SVM) per problemi di classificazione e regressione, utili per gestire dati ad alta dimensionalità.

    * `SVC()`, `SVR()`: macchine a vettori di supporto per classificazione e regressione.

    * `LinearSVC()`, `LinearSVR()`: versioni lineari delle SVM, più efficienti per grandi dataset.

* **Alberi Decisionali**: modelli di apprendimento supervisionato non parametrico utilizzati sia per la classificazione che per la regressione. Suddividono i dati in base ai valori delle caratteristiche per fare
previsioni.

    *Funzione associata:*

    `sklearn.tree` contiene algoritmi per la costruzione di alberi di decisione per la classificazione e la regressione, offrendo interpretabilità dei modelli.

    * `DecisionTreeClassifier()`, `DecisionTreeRegressor()`: alberi decisionali per classificazione e regressione.

    * `export_graphviz()`: visualizza graficamente un albero decisionale.

* **Clustering**: tecnica di apprendimento non supervisionato che raggruppa i dati in cluster basandosi sulla similarità delle loro caratteristiche.

    * **K-Means** è un algoritmo di clustering che raggruppa i dati in $k$ cluster basati sulla somiglianza delle caratteristiche.

    *Funzione associata:*

    `sklearn.cluster` offre metodi per il clustering non supervisionato, come K-Means, agglomerative clustering e DBSCAN, utili per scoprire strutture nascoste nei dati.

    * `KMeans()`: algoritmo di clustering K-means.
    
    * `AgglomerativeClustering()`: clustering gerarchico agglomerativo.

    * `DBSCAN()`: Clustering basato sulla densità.


* **K-Nearest Neighbors (KNN)**: algoritmo di
classificazione che assegna una classe a un'osservazione in base alle classi delle osservazioni più vicine in termini di distanza (spazio delle caratteristiche).

    *Algoritmo*:
    1. Calcola la distanza (tipicamente euclidea) tra il nuovo punto e tutti i punti nel dataset di training.
    2. Seleziona i K punti più vicini.
    3. Assegna la classe più frequente tra questi K punti al nuovo punto.

    *Funzione associata*:

    `sklearn.neighbors` implementa algoritmi basati sui vicini più prossimi, come K-Nearest Neighbors (KNN) per classificazione e regressione, e metodi per l'apprendimento basato sulla densità.

    * `KNeighborsClassifier()`, `KNeighborsRegressor()`: classificazione e regressione basate sui vicini più prossimi (K-NN).
    
    * `NearestNeighbors()`: algoritmo per trovare i vicini più prossimi in problemi di clustering o ricerca di similarità.

* `sklearn.gaussian_process` offre metodi basati su processi gaussiani per la regressione e la classificazione probabilistica, fornendo stime con incertezza.

    * `GaussianProcessRegressor()`: modelli di regressione basati su processi gaussiani.
    
    * `GaussianProcessClassifier()`: classificatori basati su processi gaussiani.

#### **4. Addestramento del Modello** 
Una volta scelto il modello si utilizza il metodo `model.fit()` per 

* imparare dai dati di addestramento: le caratteristiche (X) e le etichette/target (y) fornite vengono utilizzate per calcolare i parametri del modello.

* costruire il modello: i parametri appresi permettono al modello di fare previsioni su nuovi dati.

#### **5. Predizione**
Dopo aver addestrato il modello, si può utilizzare `model.predict()` per

* Fare previsioni su un insieme di test o su nuovi dati.

* Restituire le etichette di classe (per problemi di classificazione) o i valori predetti (per problemi di regressione) in base ai dati forniti.


#### **6. Valutazione del Modello**
La valutazione di un modello è il processo di misurazione della sua accuratezza o efficacia nel fare previsioni su dati non visti. Le metriche più diffuse sono

* **Accuracy** (*problemi di classificazione*): misura la frazione di previsioni corrette rispetto al totale;

* **Precision** (*problemi di classificazione binaria*): misura quanto il modello è preciso quando predice una classe positiva;

* **Recall** (*problemi di classificazione binaria*): misura quanto bene il modello riesce a identificare tutte le istanze positive. 

* **F1-score** (*problemi di classificazione binaria*): fornisce un singolo valore che rappresenta un equilibrio tra precisione e recall. 

* **Mean Square Error (MSE)** (*problemi di regressione*): misura quanto le previsioni differiscono dai valori reali.

`sklearn.metrics` fornisce funzioni per valutare le prestazioni dei modelli attraverso metriche per classificazione, regressione e clustering, come accuratezza, precisione, recall e errore quadratico medio.

* `accuracy_score()`: accuratezza del modello per classificazione.

* `precision_score()`, `recall_score()`, `f1_score()`: metriche di precisione, recall e F1 per classificazione.

* `mean_squared_error()`: errore quadratico medio per la regressione.

* `confusion_matrix()`: matrice di confusione per analizzare le predizioni di un modello di classificazione.

* `roc_auc_score()`: AUC-ROC per valutare le prestazioni del classificatore binario.

In [9]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, predictions)

#### **7. Ottimizzazione**
Si affina il modello regolando gli iperparametri o utilizzando tecniche come la validazione incrociata.

* `sklearn.model_selection` include funzioni per la suddivisione dei dati in training e test set, la validazione incrociata (*cross-validation*) e la ricerca degli iperparametri ottimali tramite grid search o random search.

    * `cross_val_score()`: esegue la validazione incrociata e restituisce le prestazioni del modello.

    * `GridSearchCV()`: ricerca esaustiva degli iperparametri tramite grid search.

    * `RandomizedSearchCV()`: ricerca casuale degli iperparametri.

    * `KFold()`, `StratifiedKFold()`: suddivisione dei dati per *cross-validation*, mantenendo la distribuzione delle classi (*StratifiedKFold* per classificazione).

#### **8. Implementazione**
Una volta validato, il modello può essere utilizzato per fare previsioni su dati reali.

### **TensorFlow**
Ottimizzato per il deep learning su larga scala.

### **PyTorch**
Offre grafici computazionali dinamici che lo rendono ideale per la ricerca e lo sviluppo rapido di prototipi.