# Lezione 5.1: Fondamenti di Scikit-Learn con Bike Sharing

In questo notebook esploreremo i concetti fondamentali di **Scikit-Learn** applicandoli al nostro caso di studio reale: il dataset **European Bike Sharing**.

## Obiettivi
1.  Caricare e preparare i dati (Preprocessing).
2.  Capire la struttura `X` (Features) e `y` (Target).
3.  Utilizzare l'API Estimator per addestrare un modello di Regressione Lineare.
4.  Valutare il modello con metriche di base (MAE, RMSE).

## Step 1
accedi a Pgadmin ed utilizzano il query editor, posizionati sul dtwh bikesharing già creato e scrivi una query per trovare:
data_completa
mese
giorno_settimana
is_weekend
total_rental
avg_duration

## Step 2
scarica il risultato in un cvs e posizionalo nella stessa directory di questo Notebook

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurazione grafici
sns.set_theme(style="whitegrid")
%matplotlib inline

## 1. Caricamento dei Dati


leggi i dati dal CSV.

In [None]:
# Caricamento dati da CSV (estratti dal DWH)
df = pd.read_csv("your_filename.csv")

# Parsing data
df['data_completa'] = pd.to_datetime(df['data_completa'])

df.head()


## 2. Definizione di X e y

Nel Machine Learning supervisionato, dobbiamo separare:
*   **X (Features)**: Le variabili che usiamo per fare la previsione.
*   **y (Target)**: La variabile che vogliamo prevedere.

**Obiettivo**: Prevedere il numero totale di noleggi (`total_rentals`) basandoci sulle caratteristiche temporali.

In [None]:
# Selezioniamo le feature
features = ['mese', 'giorno_settimana', 'is_weekend']
target = 'total_rentals'

X = df[features]
y = df[target]

# verifichiamo la dimensione di X ed Y
print(f"Shape di X: {X.shape}")
print(f"Shape di y: {y.shape}")

## 3. Train-Test Split

Non dobbiamo mai valutare il modello sugli stessi dati usati per l'addestramento. Usiamo `train_test_split`.

In [None]:
from sklearn.model_selection import train_test_split

# Dividiamo: 80% Training, 20% Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training samples: {len(X_train)}")
print(f"Test samples: {len(X_test)}")

## 4. Addestramento del Modello (Estimator API)

Useremo una **Regressione Lineare**. In Scikit-Learn, il flusso è sempre:
1.  Importare la classe.
2.  Istanziare l'oggetto (configurare iperparametri).
3.  Chiamare `.fit()` sui dati di training.

In [None]:
# 1. Importiamo la classe che utilizzeremo
from sklearn.linear_model import LinearRegression

# 1. Istanziazione
model = LinearRegression()

# 2. Fitting (Apprendimento)
model.fit(X_train, y_train)

# Vediamo cosa ha imparato (i coefficienti)
print("Intercetta:", model.intercept_)
print("Coefficienti:", dict(zip(features, model.coef_)))

## 5. Previsione e Valutazione

Ora usiamo `.predict()` sui dati di test (che il modello non ha mai visto) e confrontiamo le previsioni con la realtà.

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

# Generiamo previsioni
y_pred = model.predict(X_test)

# Calcoliamo l'errore
mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f"MAE (Errore Medio Assoluto): {mae:.2f}")
print(f"RMSE (Radice Errore Quadratico Medio): {rmse:.2f}")

In [None]:
df['total_rentals'].describe()


## 6. Visualizzazione dei Risultati

Un grafico vale più di mille numeri. Vediamo quanto le previsioni si avvicinano alla realtà.

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2) # Linea ideale
plt.xlabel('Reale (y_test)')
plt.ylabel('Previsto (y_pred)')
plt.title('Confronto Reale vs Previsto')
plt.show()