## 1. sklearn.datasets: Caricamento e Generazione di Dataset

### Esercizio 1.1 (Base): Esplorazione Dataset Integrati
Carica il dataset Wine e analizza le sue caratteristiche principali.

In [14]:
# Esercizio 1.1: Carica il dataset Wine e rispondi alle seguenti domande:
# 1. Quanti campioni e feature contiene?
# 2. Quante classi ci sono?
# 3. Quali sono i nomi delle feature?
# 4. Visualizza le prime 3 righe dei dati


### Esercizio 1.2 (Intermedio): Generazione Dataset Personalizzato
Crea un dataset sintetico per un problema di classificazione con specifiche caratteristiche.

In [15]:
# Esercizio 1.2: Genera un dataset di classificazione con:
# - 500 campioni
# - 8 feature totali (4 informative, 2 ridondanti)
# - 3 classi
# - 2 cluster per classe
# Poi visualizza le statistiche di base del dataset creato

### Esercizio 1.3 (Avanzato): Confronto Dataset Reali vs Sintetici
Confronta le caratteristiche del dataset Diabetes con un dataset sintetico di regressione.

In [16]:
# Esercizio 1.3: 
# 1. Carica il dataset Diabetes
# 2. Crea un dataset sintetico di regressione con le stesse dimensioni
# 3. Confronta le statistiche (media, std, range) delle feature

## 2. sklearn.preprocessing: Preprocessing dei Dati

### Esercizio 2.1 (Base): Scalatura Dati
Applica diverse tecniche di scalatura sui dati del Wine dataset.

In [17]:
# Esercizio 2.1: Applica StandardScaler e MinMaxScaler al dataset Wine
# Confronta i risultati mostrando media e deviazione standard prima e dopo

### Esercizio 2.2 (Intermedio): Gestione Dati Mancanti
Crea e gestisci un dataset con valori mancanti usando diverse strategie di imputazione.

In [18]:
# Esercizio 2.2: 
# 1. Crea un array con valori mancanti (NaN) in posizioni casuali
# 2. Applica SimpleImputer con strategie: 'mean', 'median', 'most_frequent'
# 3. Confronta i risultati

## 3. sklearn.model_selection: Suddivisione Dati e Validazione

### Esercizio 3.1 (Base): Suddivisione Dati
Pratica la suddivisione dei dati con diverse proporzioni e analizza l'impatto.

In [19]:
# Esercizio 3.1: Usa il dataset Iris per sperimentare diverse suddivisioni
# Testa: 80-20, 70-30, 60-40 e osserva come cambia la distribuzione delle classi

In [20]:
# Esercizio 3.1: Usa il dataset Iris per sperimentare diverse suddivisioni
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import pandas as pd


In [21]:
# Caricamento del dataset Iris
iris = load_iris()
X = iris.data
y = iris.target


In [None]:
# Split 80/20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    stratify=y, # Mantiene la stessa distribuzione delle classi
                                                    random_state=42)
print('Split 80/20')
print('Train:', pd.Series(y_train).value_counts().sort_index())
print('Test:', pd.Series(y_test).value_counts().sort_index())


Split 80/20
Train: 0    40
1    40
2    40
Name: count, dtype: int64
Test: 0    10
1    10
2    10
Name: count, dtype: int64


In [23]:
# Split 70/30
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)


print("Split 70/30")
print("Train:", pd.Series(y_train).value_counts().sort_index())
print("Test:", pd.Series(y_test).value_counts().sort_index())


Split 70/30
Train: 0    35
1    35
2    35
Name: count, dtype: int64
Test: 0    15
1    15
2    15
Name: count, dtype: int64


In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, stratify=y, random_state=42)
print("Split 60/40")
print("Train:", pd.Series(y_train).value_counts().sort_index())
print("Test:", pd.Series(y_test).value_counts().sort_index())


Split 60/40
Train: 0    30
1    30
2    30
Name: count, dtype: int64
Test: 0    20
1    20
2    20
Name: count, dtype: int64


### Esercizio 3.2 (Intermedio): Validazione Incrociata
Implementa diverse strategie di cross-validation e confronta i risultati.

In [30]:
# Esercizio 3.2: Applica cross-validation con diversi fold (3, 5, 10) 
# su un classificatore SVM usando il dataset Wine
# Confronta accuracy media e deviazione standard


from sklearn.datasets import load_wine
from sklearn.svm import SVC
from sklearn.model_selection import cross_val_score
import numpy as np


In [31]:
wine = load_wine()
X = wine.data
y = wine.target

In [32]:
model = SVC(kernel='linear')  # SVM con kernel lineare


In [None]:
#Esegire cros val

scores_3 = cross_val_score(model, X, y, cv=3)
print("3-fold CV\n  media:", scores_3.mean())
print(" std:", scores_3.std())


3-fold CV
  media: 0.9274952919020715
 std: 0.06974344326606854


In [34]:

scores_5= cross_val_score(model, X, y, cv=5)
print("5-fold CV\n media:", scores_5.mean())
print(" std:", scores_5.std())


5-fold CV
 media: 0.961111111111111
 std: 0.041573970964154924


In [35]:

scores_10= cross_val_score(model, X, y, cv=10)
print("10-fold CV\n media:", scores_10.mean())
print(" std:", scores_10.std())


10-fold CV
 media: 0.9555555555555555
 std: 0.041573970964154924


### Esercizio 3.3 (Avanzato): Ottimizzazione Iperparametri
Confronta GridSearchCV e RandomizedSearchCV per ottimizzare un Random Forest.

In [None]:
# Esercizio 3.3: Ottimizza un Random Forest usando entrambi i metodi
# Confronta tempi di esecuzione e risultati ottenuti (best_params, best_score)

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV

X, y = load_wine(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [None]:
# Modello base
model = RandomForestClassifier(random_state=42)

param_grid = {
    'n_estimators': [50, 100],# N di alberi
    'max_depth': [None, 5],#profondità massima dell’albero (None = senza limite)
}


In [40]:
# GridSearchCV
grid = GridSearchCV(model, param_grid, cv=3)
grid.fit(X_train, y_train)

print("\n GridSearchCV")
print("Migliori parametri:", grid.best_params_)
print("Miglior score:", round(grid.best_score_, 3))



 GridSearchCV
Migliori parametri: {'max_depth': None, 'n_estimators': 50}
Miglior score: 0.968


In [46]:
# RandomizedSearchCV
random = RandomizedSearchCV(model, param_grid, n_iter=3, cv=3, random_state=42)
random.fit(X_train, y_train)

print("\n RandomizedSearchCV")
print("Migliori parametri:", random.best_params_)
print("Miglior score:", round(random.best_score_, 3))



 RandomizedSearchCV
Migliori parametri: {'n_estimators': 100, 'max_depth': None}
Miglior score: 0.968
