# **Machine Learning: Concetti e Tecniche Fondamentali**


Il **Machine Learning** è una branca dell'intelligenza artificiale che consente ai computer di apprendere dai dati senza essere esplicitamente programmati.

Esistono tre principali categorie:
- **Apprendimento supervisionato** (es., classificazione, regressione)
- **Apprendimento non supervisionato** (es., clustering)
- **Apprendimento per rinforzo**


## Progettazione di un Esperimento Predittivo

Un esperimento predittivo segue quattro fasi fondamentali:

1. **Suddivisione dei dati** – Dividere i dati in due insiemi: **training set** (70%) e **test set** (30%). I dati di test non devono mai essere usati per costruire il modello.
2. **Costruzione del modello** – Addestrare il modello usando solo il **training set**.
3. **Applicazione del modello** – Predire i valori sul **test set**.
4. **Valutazione del modello** – Usare metriche di performance come la matrice di confusione, accuratezza, precisione, sensibilità e specificità.

La **matrice di confusione** è uno strumento fondamentale per valutare i modelli di classificazione:

|               | Predetto Positivo | Predetto Negativo |
|--------------|----------------|----------------|
| **Reale Positivo** | Vero Positivo (TP) | Falso Negativo (FN) |
| **Reale Negativo** | Falso Positivo (FP) | Vero Negativo (TN) |

Le metriche più comuni per valutare un modello predittivo sono:

- **Accuratezza** = $(TP + TN) / (TP + TN + FP + FN)$
    - **Valori di riferimento**:
        - $ \approx 1   $ → Modello molto accurato
        - $ \approx 0.5 $ → Classificazione casuale
        - $ < 0.5 $       → Modello peggiore di una previsione casuale

- **Precisione** = $TP / (TP + FP)$
    - **Valori di riferimento**:
        - Alta precisione → Pochi falsi positivi
        - Bassa precisione → Molti falsi positivi

- **Sensibilità (Recall)** = $TP / (TP + FN)$
    - **Valori di riferimento**:
        - Alta sensibilità → Il modello rileva bene i veri positivi
        - Bassa sensibilità → Il modello ignora molti veri positivi

- **Specificità** = $TN / (TN + FP)$
    - **Valori di riferimento**:
        - Alta specificità → Pochi falsi positivi
        - Bassa specificità → Il modello classifica erroneamente molti negativi come positivi

Se un modello predittivo ha scarsa sensibilità o specificità, si possono regolare i parametri per ottimizzare le prestazioni.



L’analisi predittiva è un esperimento scientifico che deve essere organizzato con rigore. Un modello predittivo non può essere accettato senza verificarne le prestazioni. 

Il processo di costruzione e validazione di un modello segue quattro fasi:
1. **Suddivisione dei dati** in training set (70%) e test set (30%).
2. **Costruzione del modello** usando solo i dati di addestramento.
3. **Applicazione del modello** ai dati di test.
4. **Valutazione delle prestazioni** tramite metriche come la matrice di confusione.

La **matrice di confusione** aiuta a valutare l'accuratezza di un modello di classificazione binaria. Le metriche più utilizzate sono:
- **Accuratezza**: percentuale di predizioni corrette.
- **Precisione**: rapporto tra veri positivi e tutti i positivi previsti.
- **Sensibilità**: capacità del modello di rilevare i positivi reali.
- **Specificità**: capacità del modello di identificare correttamente i negativi.

Se il modello ha bassa sensibilità o specificità, si possono regolare i parametri per ottimizzare le prestazioni. Altri modelli di Machine Learning, come le **reti neurali** e le **SVM**, offrono alternative per migliorare la predizione.



### **2.5 F1-Score**
Bilancia precisione e recall:

$$
F_1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$


**Valori di riferimento**:
- $ \approx 1 $ → Modello bilanciato tra precisione e recall
- $ \approx 0 $ → Modello con prestazioni scarse


## Implementazione in Python

In [None]:
%pip install numpy matplotlib scikit-learn

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
# Creiamo dati sintetici per il clustering
from sklearn.datasets import make_blobs
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
import seaborn as sns
import pandas as pd

In [None]:
# Supponiamo di avere predizioni e valori reali
y_true = [1, 0, 1, 1, 0, 1, 0, 0, 1, 0]  # Valori reali
y_pred = [1, 0, 1, 0, 0, 1, 1, 0, 1, 0]  # Predizioni del modello

# Matrice di confusione
conf_matrix = confusion_matrix(y_true, y_pred)
print("Matrice di Confusione:")
print(conf_matrix)

# Visualizzazione della matrice di confusione
plt.figure(figsize=(5,4))
sns.heatmap(pd.DataFrame(conf_matrix), annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predetto")
plt.ylabel("Reale")
plt.title("Matrice di Confusione")
plt.show()

### **Calcolo delle Metriche**

In [None]:

# Calcolo delle metriche
accuracy = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)

print(f"Accuratezza: {accuracy:.2f}")
print(f"Precisione: {precision:.2f}")
print(f"Sensibilità (Recall): {recall:.2f}")
print(f"Specificità: {conf_matrix[1,1] / (conf_matrix[1,1] + conf_matrix[1,0]):.2f}")  # Calcolo specificità manuale
print(f"F1-score: {f1:.2f}")



## Confronto tra le Metriche e Quando Utilizzarle
| **Metrica** | **Descrizione** | **Quando Usarla?** |
|------------|----------------|------------------|
| **Accuratezza** | Percentuale di predizioni corrette | Se le classi sono bilanciate |
| **Precisione** | Percentuale di veri positivi tra i positivi previsti | Se il costo di un falso positivo è alto (es. diagnosi medica) |
| **Sensibilità (Recall)** | Percentuale di veri positivi identificati | Se il costo di un falso negativo è alto (es. rilevamento di frodi) |
| **Specificità** | Percentuale di veri negativi identificati | Se vogliamo evitare falsi positivi (es. test antidroga) |
| **F1-score** | Equilibrio tra precisione e recall | Se le classi sono sbilanciate |


## Regressione lineare
La regressione lineare è una forma di modellazione statistica predittiva che punta a spiegare, in toto o in parte, la varianza di una variabile usando un modello lineare. 
E' una tecnica di modellazione con supervisione: occorre addestrare (con la funzione fit) il modello prima di poterlo usare per effettuare una predizione.

Esistono diversi tipi di regressione lineare:
- **Regressione Lineare con OLS**
- **Regressione Ridge**
- **Regressione Logistica**
- **Clustering K-Means**

### **Clustering K-Means**

In [None]:
X, _ = make_blobs(n_samples=300, centers=3, cluster_std=1.0, random_state=42)

# Creiamo il modello K-Means con k=3
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Otteniamo i centroidi e le etichette dei cluster
centroids = kmeans.cluster_centers_
labels = kmeans.labels_

# Visualizziamo i cluster
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap="viridis", alpha=0.6)
plt.scatter(centroids[:, 0], centroids[:, 1], c="red", marker="x", s=200, label="Centroidi")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Clustering K-Means")
plt.legend()
plt.show()
