# Lezione 2 — Filtri e Feature Engineering con Pandas

---

## Obiettivi della Lezione

Al termine di questa lezione sarai in grado di:

1. Applicare **boolean indexing** per filtrare righe di un DataFrame
2. Combinare condizioni multiple con operatori logici (`&`, `|`, `~`)
3. Usare **`.loc[]`** per selezionare righe e colonne contemporaneamente
4. Creare **nuove feature** a partire da colonne esistenti (feature engineering)
5. Ordinare i risultati con **`.sort_values()`**
6. Riconoscere pattern ricorrenti nella manipolazione dati

---

## Prerequisiti

- Lezione 1: Fondamenti di NumPy (array, broadcasting, boolean mask)
- Conoscenza base di Python (variabili, liste, dizionari)

---

## Indice

1. **SEZIONE 1** — Teoria Concettuale Approfondita
2. **SEZIONE 2** — Schema Mentale / Mappa Decisionale
3. **SEZIONE 3** — Notebook Dimostrativo (Setup e Operazioni)
4. **SEZIONE 4** — Metodi Spiegati
5. **SEZIONE 5** — Glossario
6. **SEZIONE 6** — Errori Comuni e Debug Rapido
7. **SEZIONE 7** — Conclusione Operativa
8. **SEZIONE 8** — Checklist di Fine Lezione
9. **SEZIONE 9** — Changelog Didattico

---

## Librerie Utilizzate

```python
import pandas as pd
import numpy as np
```

---

# SEZIONE 1 — Teoria Concettuale Approfondita

## 1.1 Cos'e un DataFrame?

Un **DataFrame** e la struttura dati principale di Pandas: una tabella bidimensionale con:
- **Righe** identificate da un indice (numerico o etichetta)
- **Colonne** identificate da nomi (stringhe)
- Ogni colonna e una **Series** (array 1D con indice)

```
          Colonna1    Colonna2    Colonna3
Indice 0     A           10         True
Indice 1     B           20         False
Indice 2     C           30         True
```

## 1.2 Boolean Indexing: Il Cuore del Filtraggio

Il **boolean indexing** e la tecnica per selezionare righe in base a condizioni:

1. **Crei una maschera booleana**: `df["Colonna"] > valore` produce una Series di True/False
2. **Applichi la maschera**: `df[maschera]` restituisce solo le righe dove la maschera e True

**Esempio concettuale:**
```
df["Eta"] > 30  →  [False, True, True, False, True]
df[maschera]   →  righe 1, 2, 4 (dove True)
```

## 1.3 Operatori Logici per Condizioni Multiple

| Operatore | Significato | Esempio |
|-----------|-------------|---------|
| `&` | AND (entrambe vere) | `(cond1) & (cond2)` |
| `|` | OR (almeno una vera) | `(cond1) | (cond2)` |
| `~` | NOT (negazione) | `~cond1` |

**ATTENZIONE**: Le parentesi sono **obbligatorie** attorno a ogni condizione!

Corretto: `(df["A"] > 5) & (df["B"] < 10)`
Errato: `df["A"] > 5 & df["B"] < 10` (errore di precedenza)

## 1.4 `.loc[]` vs Boolean Indexing Semplice

| Sintassi | Cosa Fa | Quando Usarla |
|----------|---------|---------------|
| `df[maschera]` | Filtra righe, tutte le colonne | Solo filtraggio |
| `df.loc[maschera, colonne]` | Filtra righe E seleziona colonne | Filtraggio + selezione colonne |
| `df.loc[maschera, "Colonna"]` | Filtra righe, una colonna (Series) | Estrarre una colonna filtrata |

## 1.5 Feature Engineering: Creare Nuove Variabili

Il **feature engineering** e il processo di creare nuove colonne derivate da quelle esistenti:

- **Combinazioni aritmetiche**: `df["Nuova"] = df["A"] + df["B"]`
- **Trasformazioni**: `df["Log_A"] = np.log(df["A"])`
- **Condizioni booleane**: `df["Flag"] = df["A"] > soglia`
- **Categorizzazioni**: basate su quantili, medie, ecc.

**Formula dell'Indice di Comfort (esempio del notebook):**

$$\text{Indice\_Comfort} = \text{Temperatura} - \frac{\text{Umidita}}{8}$$

Questa formula bilancia temperatura e umidita: alta temperatura e bassa umidita danno comfort maggiore.

## 1.6 Statistiche Descrittive per Soglie Dinamiche

Invece di usare valori fissi, usiamo statistiche per creare soglie adattive:

| Metodo | Significato | Uso Tipico |
|--------|-------------|------------|
| `.mean()` | Media aritmetica | "Sopra/sotto la media" |
| `.median()` | Valore centrale | Robusto agli outlier |
| `.quantile(0.25)` | Primo quartile (Q1) | "Nel 25% piu basso" |
| `.quantile(0.75)` | Terzo quartile (Q3) | "Nel 25% piu alto" |
| `.std()` | Deviazione standard | Per z-score e anomalie |

## 1.7 Ordinamento con `.sort_values()`

L'ordinamento permette di:
- Identificare i valori massimi/minimi
- Creare ranking
- Preparare i dati per visualizzazioni

```python
df.sort_values("Colonna", ascending=False)  # Decrescente (dal piu alto)
df.sort_values("Colonna", ascending=True)   # Crescente (dal piu basso)
df.sort_values(["Col1", "Col2"])            # Multi-colonna
```

In [None]:
# === SETUP: Import librerie e creazione DataFrame ===

import pandas as pd   # Libreria per manipolazione dati tabulari
import numpy as np    # Libreria per operazioni numeriche

# Creiamo un DataFrame con dati meteorologici settimanali
# pd.DataFrame() accetta un dizionario: chiavi = nomi colonne, valori = liste di dati
df = pd.DataFrame({
    "Giorno": ["Lun", "Mar", "Mer", "Gio", "Ven", "Sab", "Dom"],
    "Temperatura": [18, 20, 21, 19, 23, 25, 22],  # Gradi Celsius
    "Umidita": [60, 55, 58, 63, 50, 45, 52],      # Percentuale
    "Pioggia": [0, 1, 0, 1, 0, 0, 1]              # 0=No, 1=Si
})

# Visualizziamo il DataFrame
print("DataFrame creato con successo!")
print(f"Dimensioni: {df.shape[0]} righe x {df.shape[1]} colonne")
print(f"Colonne: {list(df.columns)}")
print()
df

Unnamed: 0,Giorno,Temperatura,Umidita,Pioggia
0,Lun,18,60,0
1,Mar,20,55,1
2,Mer,21,58,0
3,Gio,19,63,1
4,Ven,23,50,0
5,Sab,25,45,0
6,Dom,22,52,1


---

# SEZIONE 2 — Schema Mentale / Mappa Decisionale

## Quando Usare Quale Tecnica di Filtraggio?

```
DEVO SELEZIONARE DATI DA UN DATAFRAME
                |
                v
    Ho bisogno di filtrare RIGHE?
           /            \
         SI              NO
          |               |
          v               v
  Creo maschera      Accedo direttamente
  booleana           df["Colonna"]
          |
          v
    Quante condizioni?
       /        \
     UNA      MULTIPLE
      |           |
      v           v
  df[cond]   Combino con & | ~
      |           |
      v           v
    Devo anche selezionare COLONNE specifiche?
           /            \
         SI              NO
          |               |
          v               v
   df.loc[mask, cols]  df[mask]
```

## Pattern di Feature Engineering

```
DEVO CREARE UNA NUOVA FEATURE?
                |
                v
    Che tipo di feature?
    /      |       \      \
ARITMETICA BOOLEANA CATEGORICA STATISTICA
    |         |         |          |
    v         v         v          v
 df["A"]+   df["A"]>  pd.cut()   df["A"]-
 df["B"]    soglia    pd.qcut()  df["A"].mean()
```

## Checklist Pre-Filtraggio

Prima di applicare un filtro, chiediti:
1. Quale colonna devo confrontare?
2. Con quale valore/soglia? (fisso o calcolato?)
3. Devo combinare piu condizioni?
4. Mi servono tutte le colonne o solo alcune?
5. Devo ordinare i risultati?

---

# SEZIONE 3 — Notebook Dimostrativo

## 3.1 Setup: Import e Creazione DataFrame

**Perche questo passaggio:** Creiamo un dataset di esempio con dati meteorologici settimanali. Questo ci permette di esercitarci con filtri e feature engineering su dati realistici.

---

## 3.2 Filtri Multipli con Boolean Indexing

**Perche questo passaggio:** Vogliamo trovare i giorni con temperatura sopra la media E senza pioggia. Questo richiede combinare due condizioni con l'operatore `&`.

**Concetto chiave:** 
- `df["Temperatura"] > df["Temperatura"].mean()` crea una maschera booleana
- `df["Pioggia"] == 0` crea un'altra maschera
- `&` le combina: True solo dove ENTRAMBE sono True

In [None]:
# === FILTRO 1: Temperatura sopra media E senza pioggia ===

# Calcoliamo prima la media per capire la soglia
media_temp = df["Temperatura"].mean()
print(f"Media temperatura: {media_temp:.2f} gradi")

# Costruiamo le due maschere booleane separatamente (per chiarezza)
mask_temp_alta = df["Temperatura"] > media_temp
mask_no_pioggia = df["Pioggia"] == 0

print(f"\nMaschera temp > media: {list(mask_temp_alta)}")
print(f"Maschera no pioggia:   {list(mask_no_pioggia)}")

# Combiniamo le maschere con AND (&)
# IMPORTANTE: ogni condizione deve essere tra parentesi!
mask_combinata = mask_temp_alta & mask_no_pioggia
print(f"Maschera combinata:    {list(mask_combinata)}")

# Applichiamo il filtro
df_temp_alta_no_pioggia = df[mask_combinata]

# --- MICRO-CHECKPOINT ---
assert len(df_temp_alta_no_pioggia) > 0, "Errore: nessun giorno soddisfa le condizioni!"
print(f"\n--- Micro-checkpoint: trovati {len(df_temp_alta_no_pioggia)} giorni ---")

df_temp_alta_no_pioggia

Unnamed: 0,Giorno,Temperatura,Umidita,Pioggia
4,Ven,23,50,0
5,Sab,25,45,0


In [None]:
# === FILTRO con .loc[]: Selezionare righe E colonne ===

# Stesso filtro di prima, ma vogliamo solo la colonna "Giorno"
# .loc[maschera, lista_colonne] permette di fare entrambe le cose

df_solo_giorni = df.loc[
    (df["Temperatura"] > df["Temperatura"].mean()) & (df["Pioggia"] == 0),
    ["Giorno"]  # Lista delle colonne da mantenere
]

print("Giorni con temp sopra media e senza pioggia:")
print(f"Tipo risultato: {type(df_solo_giorni).__name__}")  # DataFrame

# --- MICRO-CHECKPOINT ---
assert isinstance(df_solo_giorni, pd.DataFrame), "Il risultato deve essere un DataFrame"
print(f"\n--- Micro-checkpoint: OK, DataFrame con {len(df_solo_giorni)} righe ---")

df_solo_giorni

Unnamed: 0,Giorno
4,Ven
5,Sab


---

## 3.3 Filtri con Statistiche Multiple

**Perche questo passaggio:** Usiamo sia media che mediana come soglie. Questo mostra come usare diverse statistiche descrittive per definire criteri di filtraggio.

**Concetto chiave:**
- `.mean()` e sensibile agli outlier
- `.median()` e robusta (valore centrale)
- Scegliere la statistica giusta dipende dai dati

In [None]:
# === FILTRO 2: Umidita sotto media E Temperatura sopra mediana ===

# Calcoliamo le soglie
media_umidita = df["Umidita"].mean()
mediana_temp = df["Temperatura"].median()

print(f"Media umidita: {media_umidita:.2f}%")
print(f"Mediana temperatura: {mediana_temp:.2f} gradi")

# Applichiamo il filtro con .loc per selezionare anche le colonne
df_umid = df.loc[
    (df["Umidita"] < media_umidita) & (df["Temperatura"] >= mediana_temp),
    ["Giorno", "Temperatura", "Umidita"]  # Solo colonne rilevanti
]

# --- MICRO-CHECKPOINT ---
print(f"\n--- Micro-checkpoint: trovate {len(df_umid)} righe ---")
if len(df_umid) > 0:
    print(f"Range temperatura: {df_umid['Temperatura'].min()}-{df_umid['Temperatura'].max()}")
    print(f"Range umidita: {df_umid['Umidita'].min()}-{df_umid['Umidita'].max()}")

df_umid

Unnamed: 0,Giorno,Temperatura
4,Ven,23
5,Sab,25
6,Dom,22


---

## 3.4 Feature Engineering: Creare Nuove Colonne

**Perche questo passaggio:** Il feature engineering e fondamentale nel machine learning. Creiamo due nuove colonne:
1. **Indice_Comfort**: combinazione numerica di temperatura e umidita
2. **Molto_Secco**: flag booleano basato sul primo quartile dell'umidita

**Formula Indice Comfort:**
$$\text{Indice\_Comfort} = \text{Temperatura} - \frac{\text{Umidita}}{8}$$

Interpretazione: piu e alto, piu il giorno e confortevole (caldo e secco).

In [None]:
# === FEATURE ENGINEERING 1: Indice di Comfort ===

# Creiamo una nuova colonna con operazioni vettoriali
# L'operazione si applica riga per riga automaticamente (broadcasting)
df["Indice_Comfort"] = df["Temperatura"] - (df["Umidita"] / 8)

# --- MICRO-CHECKPOINT ---
assert "Indice_Comfort" in df.columns, "Colonna non creata!"
assert len(df["Indice_Comfort"]) == len(df), "Lunghezza inconsistente!"

print("Nuova colonna 'Indice_Comfort' creata!")
print(f"Range valori: {df['Indice_Comfort'].min():.2f} - {df['Indice_Comfort'].max():.2f}")
print(f"Media: {df['Indice_Comfort'].mean():.2f}")

df

Unnamed: 0,Giorno,Temperatura,Umidita,Pioggia,Indice_Comfort
0,Lun,18,60,0,10.5
1,Mar,20,55,1,13.125
2,Mer,21,58,0,13.75
3,Gio,19,63,1,11.125
4,Ven,23,50,0,16.75
5,Sab,25,45,0,19.375
6,Dom,22,52,1,15.5


In [None]:
# === FEATURE ENGINEERING 2: Flag Booleano ===

# Calcoliamo il primo quartile (25° percentile) dell'umidita
q1_umidita = df["Umidita"].quantile(0.25)
print(f"Primo quartile umidita (Q1): {q1_umidita}%")

# Creiamo una colonna booleana: True se l'umidita e sotto Q1
df["Molto_Secco"] = df["Umidita"] < q1_umidita

# --- MICRO-CHECKPOINT ---
assert df["Molto_Secco"].dtype == bool, "La colonna deve essere booleana!"
n_secchi = df["Molto_Secco"].sum()  # True conta come 1
print(f"\n--- Micro-checkpoint: {n_secchi} giorni classificati come 'Molto Secco' ---")

# Verifica: i giorni "molto secchi" devono avere umidita < Q1
if n_secchi > 0:
    max_umid_secchi = df.loc[df["Molto_Secco"], "Umidita"].max()
    assert max_umid_secchi < q1_umidita, "Errore nella classificazione!"
    print(f"Verifica: max umidita tra i 'secchi' = {max_umid_secchi}% < Q1 = {q1_umidita}%")

df

Unnamed: 0,Giorno,Temperatura,Umidita,Pioggia,Indice_Comfort,Molto_Secco
0,Lun,18,60,0,10.5,False
1,Mar,20,55,1,13.125,False
2,Mer,21,58,0,13.75,False
3,Gio,19,63,1,11.125,False
4,Ven,23,50,0,16.75,True
5,Sab,25,45,0,19.375,True
6,Dom,22,52,1,15.5,False


---

## 3.5 Ordinare i Risultati

**Perche questo passaggio:** L'ordinamento permette di identificare rapidamente i giorni migliori/peggiori secondo il nostro indice di comfort.

**Metodo:** `.sort_values(colonna, ascending=False)` ordina dal valore piu alto al piu basso.

In [None]:
# === ORDINAMENTO: Dal giorno piu confortevole al meno ===

df_ordinato = df.sort_values("Indice_Comfort", ascending=False)

# --- MICRO-CHECKPOINT ---
# Verifica che l'ordinamento sia corretto
valori_ordinati = df_ordinato["Indice_Comfort"].values
assert all(valori_ordinati[i] >= valori_ordinati[i+1] for i in range(len(valori_ordinati)-1)), \
    "Errore: l'ordinamento non e decrescente!"

print("DataFrame ordinato per Indice_Comfort (decrescente):")
print(f"Giorno piu confortevole: {df_ordinato.iloc[0]['Giorno']} (indice: {df_ordinato.iloc[0]['Indice_Comfort']:.2f})")
print(f"Giorno meno confortevole: {df_ordinato.iloc[-1]['Giorno']} (indice: {df_ordinato.iloc[-1]['Indice_Comfort']:.2f})")

df_ordinato

Unnamed: 0,Giorno,Temperatura,Umidita,Pioggia,Indice_Comfort,Molto_Secco
5,Sab,25,45,0,19.375,True
4,Ven,23,50,0,16.75,True
6,Dom,22,52,1,15.5,False
2,Mer,21,58,0,13.75,False
1,Mar,20,55,1,13.125,False
3,Gio,19,63,1,11.125,False
0,Lun,18,60,0,10.5,False


---

# SEZIONE 4 — Metodi Spiegati

## Creazione DataFrame

| Metodo | Sintassi | Cosa Fa |
|--------|----------|---------|
| `pd.DataFrame()` | `pd.DataFrame(dict)` | Crea tabella da dizionario (chiavi=colonne) |
| Accesso colonna | `df["Nome"]` | Restituisce una Series |
| Accesso multiplo | `df[["A", "B"]]` | Restituisce un DataFrame |

## Statistiche Descrittive

| Metodo | Sintassi | Output |
|--------|----------|--------|
| `.mean()` | `df["Col"].mean()` | Media aritmetica |
| `.median()` | `df["Col"].median()` | Valore centrale (mediana) |
| `.std()` | `df["Col"].std()` | Deviazione standard |
| `.quantile(q)` | `df["Col"].quantile(0.25)` | Percentile q (es. Q1=0.25) |
| `.min()` / `.max()` | `df["Col"].min()` | Valore minimo/massimo |

## Filtraggio

| Metodo | Sintassi | Quando Usarlo |
|--------|----------|---------------|
| Boolean indexing | `df[maschera]` | Solo filtrare righe |
| `.loc[]` | `df.loc[maschera, cols]` | Filtrare righe E selezionare colonne |
| `.iloc[]` | `df.iloc[0:5, 0:3]` | Selezione per posizione numerica |

## Operatori Logici

| Operatore | Significato | Esempio |
|-----------|-------------|---------|
| `&` | AND | `(cond1) & (cond2)` |
| `|` | OR | `(cond1) | (cond2)` |
| `~` | NOT | `~condizione` |

## Creazione Colonne

| Pattern | Esempio | Risultato |
|---------|---------|-----------|
| Aritmetica | `df["C"] = df["A"] + df["B"]` | Colonna numerica |
| Booleana | `df["Flag"] = df["A"] > 10` | Colonna True/False |
| Trasformazione | `df["Log"] = np.log(df["A"])` | Colonna trasformata |

## Ordinamento

| Metodo | Sintassi | Comportamento |
|--------|----------|---------------|
| `.sort_values()` | `df.sort_values("Col")` | Crescente (default) |
| Decrescente | `df.sort_values("Col", ascending=False)` | Dal piu alto al piu basso |
| Multi-colonna | `df.sort_values(["A", "B"])` | Prima per A, poi per B |

---

# SEZIONE 5 — Glossario

| Termine | Definizione |
|---------|-------------|
| **DataFrame** | Struttura dati tabellare 2D di Pandas (righe x colonne) |
| **Series** | Array 1D con indice, rappresenta una singola colonna |
| **Boolean Indexing** | Tecnica di filtraggio usando una maschera di True/False |
| **Maschera Booleana** | Array/Series di valori True/False usato per filtrare |
| **`.loc[]`** | Accessor per selezione basata su etichette (righe e colonne) |
| **`.iloc[]`** | Accessor per selezione basata su posizione numerica |
| **Feature Engineering** | Processo di creazione di nuove variabili da dati esistenti |
| **Feature** | Variabile/colonna usata come input in un modello |
| **Quartile** | Valore che divide i dati in 4 parti uguali (Q1, Q2, Q3) |
| **Q1 (Primo Quartile)** | 25° percentile, sotto il quale sta il 25% dei dati |
| **Mediana (Q2)** | 50° percentile, valore centrale dei dati |
| **Q3 (Terzo Quartile)** | 75° percentile, sotto il quale sta il 75% dei dati |
| **Broadcasting** | Estensione automatica di operazioni a tutti gli elementi |
| **Ascending** | Ordinamento crescente (dal piu piccolo al piu grande) |
| **Descending** | Ordinamento decrescente (dal piu grande al piu piccolo) |
| **In-place** | Modifica diretta dell'oggetto originale (vs. creare copia) |

---

# SEZIONE 6 — Errori Comuni e Debug Rapido

## Errore 1: Parentesi Mancanti nelle Condizioni Multiple

```python
# SBAGLIATO - errore di precedenza operatori
df[df["A"] > 5 & df["B"] < 10]  # TypeError o risultato errato

# CORRETTO - ogni condizione tra parentesi
df[(df["A"] > 5) & (df["B"] < 10)]
```

## Errore 2: Usare `and`/`or` invece di `&`/`|`

```python
# SBAGLIATO - and/or non funzionano con Series
df[(df["A"] > 5) and (df["B"] < 10)]  # ValueError

# CORRETTO - usare operatori bitwise
df[(df["A"] > 5) & (df["B"] < 10)]
```

## Errore 3: Confondere `.loc[]` e Boolean Indexing

```python
# Boolean indexing semplice - OK per solo righe
df[df["A"] > 5]

# .loc[] necessario per righe E colonne
df.loc[df["A"] > 5, ["B", "C"]]

# SBAGLIATO - boolean indexing non supporta selezione colonne cosi
df[df["A"] > 5, ["B", "C"]]  # TypeError
```

## Errore 4: Dimenticare le Virgolette nei Nomi Colonna

```python
# SBAGLIATO - Python cerca una variabile chiamata Temperatura
df[Temperatura > 20]  # NameError

# CORRETTO - il nome colonna e una stringa
df[df["Temperatura"] > 20]
```

## Errore 5: Creare Colonna con Lunghezza Sbagliata

```python
# SBAGLIATO - lista troppo corta
df["Nuova"] = [1, 2, 3]  # Se df ha 7 righe: ValueError

# CORRETTO - stessa lunghezza o scalare
df["Nuova"] = [1, 2, 3, 4, 5, 6, 7]  # OK
df["Nuova"] = 0  # OK, scalare broadcast a tutte le righe
```

## Errore 6: Modificare Durante l'Iterazione

```python
# SBAGLIATO - SettingWithCopyWarning
df_filtrato = df[df["A"] > 5]
df_filtrato["B"] = 10  # Warning! Potrebbe non modificare df originale

# CORRETTO - usare .loc[] per assegnazione
df.loc[df["A"] > 5, "B"] = 10
```

## Errore 7: Confondere `=` e `==`

```python
# SBAGLIATO - assegnazione invece di confronto
df[df["Stato"] = "Attivo"]  # SyntaxError

# CORRETTO - doppio uguale per confronto
df[df["Stato"] == "Attivo"]
```

## Errore 8: Ordinamento Non Salvato

```python
# ATTENZIONE - sort_values restituisce una COPIA
df.sort_values("A")  # df originale NON cambia!

# Per salvare il risultato:
df_ordinato = df.sort_values("A")  # Nuova variabile
# oppure
df.sort_values("A", inplace=True)  # Modifica in-place
```

---

# SEZIONE 7 — Conclusione Operativa

## Cosa Hai Imparato

In questa lezione hai acquisito competenze fondamentali per la manipolazione dati:

1. **Boolean Indexing**: filtrare righe con condizioni logiche
2. **Operatori `&`, `|`, `~`**: combinare condizioni multiple
3. **`.loc[]`**: selezionare righe e colonne contemporaneamente
4. **Feature Engineering**: creare nuove colonne derivate
5. **Statistiche come soglie**: usare mean, median, quantile per filtri dinamici
6. **Ordinamento**: identificare valori estremi con sort_values

## Pattern Ricorrente: Analisi Esplorativa

```python
# 1. Carica/crea DataFrame
df = pd.DataFrame({...})

# 2. Esplora statistiche base
print(df.describe())

# 3. Crea feature derivate
df["Nuova_Feature"] = df["A"] + df["B"]

# 4. Filtra per condizioni di interesse
df_filtrato = df[(cond1) & (cond2)]

# 5. Ordina per analisi
df_filtrato.sort_values("Colonna", ascending=False)
```

## Collegamento alla Prossima Lezione

Nella Lezione 3 approfondiremo:
- Aggregazioni con `.groupby()`
- Statistiche per gruppo
- Trasformazioni avanzate

---

# SEZIONE 8 — Checklist di Fine Lezione

Prima di procedere alla prossima lezione, verifica di saper fare tutto quanto segue:

- [ ] So creare un DataFrame da un dizionario con `pd.DataFrame()`
- [ ] So accedere a una colonna con `df["NomeColonna"]`
- [ ] So creare una maschera booleana con confronti (`>`, `<`, `==`)
- [ ] So combinare condizioni con `&` (AND) e `|` (OR)
- [ ] Ricordo che ogni condizione deve essere tra parentesi
- [ ] So usare `df[maschera]` per filtrare solo le righe
- [ ] So usare `df.loc[maschera, colonne]` per filtrare righe E colonne
- [ ] So calcolare media, mediana e quantili di una colonna
- [ ] So creare nuove colonne con operazioni aritmetiche
- [ ] So creare colonne booleane (flag) con condizioni
- [ ] So ordinare un DataFrame con `.sort_values()`
- [ ] Capisco la differenza tra `ascending=True` e `ascending=False`
- [ ] So che `.sort_values()` restituisce una copia (non modifica in-place)
- [ ] Capisco cos'e il feature engineering e perche e utile

**Se hai dubbi su qualche punto, rileggi la sezione corrispondente prima di proseguire.**

---

# SEZIONE 9 — Changelog Didattico

| Versione | Data       | Modifiche                                                                 |
|----------|------------|---------------------------------------------------------------------------|
| 1.0      | Originale  | Versione iniziale del notebook                                           |
| 2.0      | 2025-12-30 | Ristrutturazione completa secondo template standard a 9 sezioni          |
|          |            | + Nuovo header con obiettivi, prerequisiti e indice                      |
|          |            | + Aggiunta SEZIONE 1: Teoria concettuale approfondita                    |
|          |            | + Aggiunta SEZIONE 2: Schema mentale / mappa decisionale                 |
|          |            | + Riorganizzata SEZIONE 3: Notebook dimostrativo con spiegazioni         |
|          |            | + Aggiunti "Perche questo passaggio" prima di ogni cella di codice       |
|          |            | + Aggiunti micro-checkpoint con asserzioni e sanity check                |
|          |            | + Rimossa cella con formula non eseguibile (stringa isolata)             |
|          |            | + Migliorati commenti inline in ogni cella di codice                     |
|          |            | + Aggiunta SEZIONE 4: Metodi spiegati con tabelle di riferimento         |
|          |            | + Aggiunta SEZIONE 5: Glossario (16 termini)                             |
|          |            | + Aggiunta SEZIONE 6: Errori comuni e debug rapido (8 errori)            |
|          |            | + Aggiunta SEZIONE 7: Conclusione operativa                              |
|          |            | + Aggiunta SEZIONE 8: Checklist di fine lezione (14 items)               |
|          |            | + Aggiunta SEZIONE 9: Changelog didattico                                |

---

**Fine della Lezione 2**