# 1) Titolo e obiettivi della lezione

Lezione 1 — Introduzione a NumPy e Manipolazioni di Base

## Obiettivi della lezione

Al termine di questa lezione sarai in grado di:

1. Comprendere cosa sia NumPy e perche si usa nell'analisi dati
2. Generare array di numeri casuali con `np.random.randint`
3. Calcolare statistiche descrittive di base: massimo, minimo, media, deviazione standard
4. Applicare il broadcasting per operazioni elemento-per-elemento
5. Utilizzare maschere booleane per filtrare e modificare array
6. Lavorare con vettori e matrici: prodotto, trasposta, aggregazioni per asse
7. Calcolare lo z-score (punteggio standard) di un array

---

## Perche' questi obiettivi contano

Questa struttura obbligatoria rende il notebook autonomo: ogni blocco spiega perche' il passo e' necessario, quali forme/NaN aspettarsi e come reagire se i controlli falliscono.

NumPy e la base fondamentale di tutto l'ecosistema Python per l'analisi dati e il machine learning. Senza una comprensione solida di NumPy, non e possibile usare efficacemente pandas, scikit-learn, TensorFlow, PyTorch o qualsiasi altra libreria di data science. Questa lezione costruisce le fondamenta che userai in ogni singolo progetto futuro.

## Prerequisiti

- Conoscenza base di Python (variabili, liste, funzioni, cicli for, condizioni if)
- Nessuna conoscenza pregressa di NumPy richiesta
- Nessuna conoscenza di statistica richiesta (spiegheremo tutto da zero)

---

## Indice (struttura a 8 sezioni)

1. Titolo e obiettivi della lezione
2. Teoria concettuale profonda (con glossario e formule spiegate)
3. Schema mentale / mappa decisionale
4. Sezione dimostrativa con checkpoint e sanity check
5. Esercizi risolti passo passo + errori comuni / debug rapido
6. Conclusione operativa
7. Checklist di fine lezione e micro-validazioni
8. Changelog didattico

## Librerie utilizzate

```python
numpy, pandas
```

## Convenzioni di nomenclatura

In questo corso seguiamo convenzioni standard per i nomi delle variabili:
- `df` per DataFrame pandas
- `X` per le feature (maiuscolo perche e una matrice)
- `y` per il target (minuscolo perche e un vettore)
- `X_train`, `X_test`, `y_train`, `y_test` per i set di addestramento e test
- `model` per i modelli di machine learning
- `y_pred` per le predizioni

---

# 2) Teoria concettuale profonda

## 1.1 — Cos'e NumPy e perche e fondamentale

**NumPy** (Numerical Python) e la libreria fondamentale per il calcolo scientifico in Python. Fornisce:

- Un oggetto array multidimensionale efficiente (`ndarray`)
- Funzioni matematiche ottimizzate che operano su interi array
- Strumenti per l'algebra lineare, generazione di numeri casuali e molto altro

**Perche usare NumPy invece delle liste Python?**

| Caratteristica | Liste Python | Array NumPy |
|---------------|--------------|-------------|
| Velocita | Lenta (cicli interpretati) | Veloce (operazioni vettorizzate in C) |
| Memoria | Maggiore overhead | Compatta e contigua |
| Operazioni matematiche | Richiede cicli espliciti | Operazioni su tutto l'array in una riga |
| Tipi di dato | Eterogenei | Omogenei (tutti dello stesso tipo) |

**Perche NumPy e cosi veloce?**

NumPy e scritto in C e Fortran sotto il cofano. Quando esegui un'operazione come `array * 2`, Python non esegue un ciclo interpretato elemento per elemento. Invece, passa il controllo al codice C compilato che esegue l'operazione su blocchi di memoria contigua. Questo approccio si chiama "vettorizzazione" ed e tipicamente 10-100 volte piu veloce dei cicli Python puri.

**Esempio pratico di differenza di prestazioni:**
```python
# Con liste Python (LENTO)
risultato = []
for i in range(1000000):
    risultato.append(lista[i] * 2)

# Con NumPy (VELOCE)
risultato = array * 2  # Una sola riga, esecuzione in C
```

## 1.2 — Il concetto di Array

Un **array** e una struttura dati che contiene elementi dello stesso tipo, organizzati in una o piu dimensioni:

- **Vettore (1D)**: una sequenza di numeri, es. `[1, 2, 3, 4, 5]`
- **Matrice (2D)**: una tabella di numeri con righe e colonne
- **Tensore (nD)**: generalizzazione a n dimensioni

Ogni array ha attributi fondamentali:
- **shape**: la forma (es. `(3, 4)` per una matrice 3 righe x 4 colonne)
- **dtype**: il tipo di dato (es. `int64`, `float64`)
- **ndim**: il numero di dimensioni

**Perche la forma (shape) e cosi importante?**

La shape determina come NumPy interpreta i dati in memoria. Un array con 12 elementi puo essere:
- Un vettore: shape `(12,)`
- Una matrice 3x4: shape `(3, 4)`
- Una matrice 4x3: shape `(4, 3)`
- Un tensore 2x2x3: shape `(2, 2, 3)`

Gli stessi 12 numeri in memoria, ma interpretati diversamente. Questo e fondamentale quando combini array con operazioni matematiche.

## 1.3 — Statistiche descrittive: cosa misurano

Le statistiche descrittive riassumono un insieme di dati con pochi numeri:

| Statistica | Formula | Cosa misura | Unita di misura |
|------------|---------|-------------|-----------------|
| **Media** | $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ | Il valore "centrale" tipico | Stessa dei dati |
| **Massimo** | $\max(x_1, x_2, ..., x_n)$ | Il valore piu grande | Stessa dei dati |
| **Minimo** | $\min(x_1, x_2, ..., x_n)$ | Il valore piu piccolo | Stessa dei dati |
| **Deviazione standard** | $\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$ | Quanto i valori si disperdono dalla media | Stessa dei dati |

**Interpretazione della deviazione standard:**
- Deviazione piccola: i valori sono concentrati vicino alla media
- Deviazione grande: i valori sono molto dispersi

**Esempio concreto:**
- Dataset A: [10, 10, 10, 10, 10] -> media = 10, std = 0 (nessuna variazione)
- Dataset B: [0, 5, 10, 15, 20] -> media = 10, std = 7.07 (molta variazione)

Entrambi hanno la stessa media, ma distribuzioni completamente diverse. La deviazione standard cattura questa differenza.

**Formula della deviazione standard spiegata passo passo:**

1. Calcola la media: $\bar{x}$
2. Per ogni valore, calcola la distanza dalla media: $(x_i - \bar{x})$
3. Eleva al quadrato per eliminare i segni negativi: $(x_i - \bar{x})^2$
4. Calcola la media di questi quadrati (varianza): $\frac{1}{n}\sum(x_i - \bar{x})^2$
5. Prendi la radice quadrata per tornare all'unita originale: $\sqrt{\text{varianza}}$

## 1.4 — Il Broadcasting: operazioni senza cicli

Il **broadcasting** e il meccanismo che permette a NumPy di eseguire operazioni tra array di forme diverse. Quando scrivi:

```python
array - media  # dove media e un singolo numero
```

NumPy "espande" automaticamente il valore scalare per applicarlo a ogni elemento dell'array. Questo evita cicli espliciti e rende il codice piu leggibile e veloce.

**Regole del broadcasting (semplificate):**

1. Se gli array hanno numeri diversi di dimensioni, NumPy aggiunge dimensioni di size 1 a sinistra
2. Se le dimensioni corrispondenti sono uguali, l'operazione procede
3. Se una dimensione e 1, NumPy la "estende" per combaciare l'altra
4. Se le dimensioni sono diverse e nessuna e 1, errore

**Esempi visivi:**
```
[1, 2, 3] + 10 = [11, 12, 13]           # scalare + vettore
[1, 2, 3] * [2, 2, 2] = [2, 4, 6]       # vettore * vettore (stesso size)
```

## 1.5 — Z-score: standardizzazione dei dati

Lo **z-score** (o punteggio standard) trasforma i dati in una scala comune:

$$z_i = \frac{x_i - \bar{x}}{\sigma}$$

Dove:
- $x_i$ = valore originale
- $\bar{x}$ = media
- $\sigma$ = deviazione standard

**Proprieta del risultato:**
- La media dei dati standardizzati e sempre 0
- La deviazione standard e sempre 1

**Quando usarlo:** per confrontare variabili con scale diverse (es. eta in anni vs reddito in euro).

**Perche lo z-score e utile?**

Immagina di voler confrontare le performance di uno studente in due materie:
- Matematica: voto 28, media classe 25, std 3
- Inglese: voto 85, media classe 70, std 10

Quale risultato e migliore? Non puoi confrontare 28 con 85 direttamente perche le scale sono diverse.

Con lo z-score:
- Matematica: z = (28 - 25) / 3 = 1.0
- Inglese: z = (85 - 70) / 10 = 1.5

Lo studente e andato meglio in Inglese (1.5 deviazioni standard sopra la media vs 1.0).

**Interpretazione dei valori z:**
| Range z | Percentile approssimativo | Interpretazione |
|---------|---------------------------|-----------------|
| z = 0 | 50% | Esattamente nella media |
| z = 1 | 84% | Sopra l'84% dei valori |
| z = 2 | 97.7% | Molto sopra la media |
| z = -1 | 16% | Sotto la media |
| z = -2 | 2.3% | Molto sotto la media |

## 1.6 — Maschere booleane: filtraggio intelligente

Una **maschera booleana** e un array di `True`/`False` della stessa lunghezza dell'array originale. Si usa per:

1. **Filtrare**: estrarre solo gli elementi che soddisfano una condizione
2. **Contare**: sommare i `True` (ogni `True` vale 1)
3. **Modificare**: cambiare solo gli elementi selezionati

**Attenzione agli operatori:**
- Usa `&` per AND (non `and`)
- Usa `|` per OR (non `or`)
- Racchiudi ogni condizione tra parentesi

**Perche usare & invece di and?**

Gli operatori `and` e `or` di Python funzionano solo con singoli valori booleani. Quando hai un array di booleani, Python non sa come interpretare "e vero l'intero array?". Gli operatori bitwise `&` e `|` invece operano elemento per elemento, che e esattamente quello che vogliamo.

```python
# SBAGLIATO - genera errore
(arr > 5) and (arr < 10)  # ValueError: truth value ambiguous

# CORRETTO
(arr > 5) & (arr < 10)  # Opera elemento per elemento
```

**Perche le parentesi sono obbligatorie?**

Gli operatori bitwise `&` e `|` hanno precedenza piu alta degli operatori di confronto. Senza parentesi:
```python
arr > 5 & arr < 10  # Viene interpretato come: arr > (5 & arr) < 10 -> ERRORE
(arr > 5) & (arr < 10)  # Corretto: prima i confronti, poi l'AND
```

---

# 3) Schema mentale / mappa decisionale

## Quando usare NumPy

```
HAI DATI NUMERICI DA ELABORARE?
    |
    +-- NO --> Usa liste Python standard o altre strutture
    |
    +-- SI --> QUANTI ELEMENTI?
                |
                +-- Pochi (< 100) --> Liste Python vanno bene, ma NumPy e comunque piu elegante
                |
                +-- Molti (> 100) --> USA NUMPY per efficienza
                        |
                        +-- DEVI FARE OPERAZIONI MATEMATICHE SU TUTTI GLI ELEMENTI?
                                |
                                +-- SI --> Usa operazioni vettorizzate (broadcasting)
                                |
                                +-- DEVI FILTRARE/SELEZIONARE ELEMENTI?
                                        |
                                        +-- SI --> Usa maschere booleane
                                        |
                                        +-- DEVI FARE ALGEBRA LINEARE?
                                                |
                                                +-- SI --> Usa np.dot, .T, reshape
```

## Scelta della funzione statistica

| Domanda | Funzione | Quando usarla | Quando NON usarla |
|---------|----------|---------------|-------------------|
| Qual e il valore tipico? | `.mean()` | Dati simmetrici senza outlier | Dati con outlier estremi |
| Qual e il valore centrale ordinato? | `np.median()` | Dati con outlier | Dati categorici |
| Quanto sono dispersi i dati? | `.std()` | Sempre utile | Mai inutile, ma interpretala correttamente |
| Qual e il range? | `.max() - .min()` | Per capire l'ampiezza | Sensibile a outlier |
| Quanti elementi soddisfano una condizione? | `np.sum(maschera)` | Conteggi e proporzioni | Non applicabile |

## Quando usare quale tipo di standardizzazione

| Situazione | Tecnica | Formula |
|------------|---------|---------|
| Confrontare variabili con scale diverse | Z-score | (x - mean) / std |
| Portare valori in [0, 1] | Min-Max scaling | (x - min) / (max - min) |
| Dati con outlier estremi | Robust scaling | (x - mediana) / IQR |

## Pattern operativo della lezione

```
1. CREA array (np.array o np.random)
       |
       v
2. ISPEZIONA (print, .shape, .dtype)
       |
       v
3. CALCOLA statistiche (.mean, .max, .min, .std)
       |
       v
4. TRASFORMA (broadcasting, z-score)
       |
       v
5. FILTRA (maschere booleane)
       |
       v
6. VERIFICA (controlla risultati attesi)
```

## Albero decisionale: quale operazione NumPy usare?

```
COSA DEVI FARE?
    |
    +-- Creare un array
    |       +-- Da lista Python --> np.array(lista)
    |       +-- Numeri casuali interi --> np.random.randint(low, high, size)
    |       +-- Numeri casuali decimali --> np.random.random(size)
    |       +-- Tutti zeri --> np.zeros(shape)
    |       +-- Tutti uno --> np.ones(shape)
    |       +-- Sequenza regolare --> np.arange(start, stop, step)
    |
    +-- Ispezionare un array
    |       +-- Dimensioni --> array.shape
    |       +-- Tipo dati --> array.dtype
    |       +-- Numero dimensioni --> array.ndim
    |       +-- Numero elementi --> len(array) o array.size
    |
    +-- Calcolare statistiche
    |       +-- Media --> array.mean()
    |       +-- Massimo --> array.max()
    |       +-- Minimo --> array.min()
    |       +-- Deviazione standard --> array.std()
    |       +-- Somma --> array.sum()
    |
    +-- Trasformare dati
    |       +-- Scalare ogni elemento --> array * scalare
    |       +-- Standardizzare --> (array - mean) / std
    |       +-- Cambiare forma --> array.reshape(nuova_shape)
    |
    +-- Filtrare elementi
    |       +-- Creare maschera --> array > valore
    |       +-- Estrarre elementi --> array[maschera]
    |       +-- Modificare elementi --> array[maschera] = nuovo_valore
    |
    +-- Algebra lineare
            +-- Prodotto matrice-vettore --> np.dot(A, v) o A @ v
            +-- Trasposta --> A.T
            +-- Media per asse --> A.mean(axis=0) o A.mean(axis=1)
```

## Errori mentali comuni da evitare

| Errore mentale | Realta |
|----------------|--------|
| "Gli indici partono da 1" | Gli indici partono da 0 |
| "shape (3,) e shape (3, 1) sono uguali" | No, sono forme diverse |
| "Posso usare and/or con array" | No, usa & e \| |
| "La modifica di un array crea una copia" | Dipende: slicing crea una vista, non una copia |
| "mean() e sempre il valore tipico" | No, con outlier usa median() |

---

# 4) Sezione dimostrativa

Questa sezione mostra passo per passo come usare NumPy in pratica. Ogni blocco di codice e preceduto da una spiegazione dettagliata del perche quel passaggio e necessario, cosa fa la funzione utilizzata, e come verificare che il risultato sia corretto.

## 4.1 — Setup: importare le librerie

### Perche questo passaggio e necessario

Prima di usare qualsiasi funzione di NumPy o Pandas, dobbiamo importare le librerie nel nostro ambiente Python. Questa operazione e obbligatoria all'inizio di ogni script o notebook che usa queste librerie. Se provi a usare `np.array()` senza aver prima importato NumPy, Python non sapra cosa significa `np` e restituira un errore `NameError: name 'np' is not defined`.

Usiamo la sintassi `import <modulo> as <alias>` per creare un nome breve che useremo nel resto del codice. Questa convenzione e universalmente adottata nella comunita Python e rende il codice piu leggibile e compatto. Quando vedi `np.` sai immediatamente che si tratta di una funzione NumPy. Quando vedi `pd.` sai che si tratta di pandas.

In questo notebook useremo soprattutto NumPy per operazioni su array numerici. Pandas e importato per coerenza con gli altri notebook del corso, ma non e strettamente necessario per questa lezione introduttiva.

**Cosa succederebbe se saltassimo questo passaggio?**
- Ogni tentativo di usare `np.funzione()` fallirebbe con `NameError`
- Il notebook non sarebbe eseguibile
- Non potresti procedere con nessuna delle operazioni successive

### Spiegazione della funzione import

| Sintassi | Significato | Esempio d'uso |
|----------|-------------|---------------|
| `import numpy` | Importa NumPy, devi usare `numpy.funzione()` | `numpy.array([1,2,3])` |
| `import numpy as np` | Importa NumPy con alias `np` | `np.array([1,2,3])` |
| `from numpy import array` | Importa solo la funzione `array` | `array([1,2,3])` |

La forma con alias (`as np`) e preferita perche:
1. E piu compatta di `numpy.funzione()`
2. E piu esplicita di `from numpy import *` (che inquina il namespace)
3. E lo standard de facto che tutti i data scientist riconoscono

In [None]:
# =============================================================================
# IMPORT DELLE LIBRERIE
# =============================================================================
# numpy: libreria per il calcolo numerico, array e operazioni vettorizzate
# pandas: libreria per la manipolazione di dati tabulari (usata poco in questa lezione)

import pandas as pd
import numpy as np

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che le librerie siano importate correttamente
# -----------------------------------------------------------------------------
# Se non ci sono errori, le librerie sono pronte. Stampiamo le versioni:
print("NumPy versione:", np.__version__)
print("Pandas versione:", pd.__version__)
print("Import completato con successo.")

## 4.2 — Generare numeri casuali con `np.random.randint`

### Perche questo passaggio e necessario

In analisi dati spesso lavoriamo con dati reali provenienti da file CSV, database o API. Tuttavia, per imparare le tecniche e estremamente utile generare dati sintetici controllati. Questo ci permette di:

1. **Testare il codice** senza dipendere da file esterni
2. **Capire il comportamento** delle funzioni su dati con proprieta note
3. **Riprodurre esempi** per debugging e didattica
4. **Simulare scenari** per analisi what-if

La funzione `np.random.randint` e uno degli strumenti piu usati per generare dati sintetici. Genera numeri interi casuali all'interno di un intervallo specificato. E importante capire che questi numeri sono "pseudo-casuali": sono generati da un algoritmo deterministico che produce sequenze che sembrano casuali ma sono riproducibili se si imposta un "seed" iniziale.

**Cosa succederebbe se saltassimo questo passaggio?**
- Non avremmo dati su cui lavorare
- Non potremmo dimostrare le operazioni successive
- Il notebook non sarebbe eseguibile in modo autonomo

### Spiegazione dettagliata della funzione np.random.randint

**Firma della funzione:**
```python
np.random.randint(low, high=None, size=None, dtype=int)
```

**Parametri:**

| Parametro | Tipo | Obbligatorio | Descrizione | Valori tipici |
|-----------|------|--------------|-------------|---------------|
| `low` | int | Si | Valore minimo (incluso) | 0, 1, 10 |
| `high` | int | No | Valore massimo (escluso) | 10, 100, 256 |
| `size` | int o tupla | No | Forma dell'output | 10, (3, 4), (2, 3, 4) |
| `dtype` | dtype | No | Tipo di dato | int, np.int64 |

**Output:** Un array NumPy di interi casuali con la forma specificata da `size`.

**Comportamento importante:**
- Se `high` non e specificato, i numeri vanno da 0 a `low` (escluso)
- L'intervallo e [low, high), cioe low incluso e high escluso
- Ogni esecuzione produce numeri diversi (a meno che non si usi `np.random.seed`)

**Quando usare questa funzione:**
- Per generare dati di test
- Per simulare campionamenti casuali
- Per creare indici casuali

**Quando NON usare questa funzione:**
- Quando hai bisogno di numeri decimali (usa `np.random.random` o `np.random.uniform`)
- Quando hai bisogno di una distribuzione specifica (usa `np.random.normal`, `np.random.exponential`, ecc.)
- Per applicazioni crittografiche (usa il modulo `secrets`)

**Errori tipici e come risolverli:**

| Errore | Causa | Soluzione |
|--------|-------|-----------|
| `TypeError: 'float' object cannot be interpreted as an integer` | Hai passato un float invece di un int | Converti a int: `int(valore)` |
| Risultati diversi ad ogni esecuzione | Comportamento normale | Usa `np.random.seed(42)` prima per riproducibilita |
| Array vuoto | `size=0` | Verifica che size sia positivo |

In [None]:
# =============================================================================
# GENERAZIONE DI NUMERI CASUALI
# =============================================================================
# Creiamo un array di 14 interi casuali tra 15 (incluso) e 30 (escluso)
# Questo simula, ad esempio, temperature giornaliere in gradi Celsius
# per due settimane (14 giorni).
#
# Parametri usati:
# - low=15: temperatura minima possibile (inclusa)
# - high=30: temperatura massima possibile (esclusa, quindi max reale = 29)
# - size=14: numero di elementi da generare (uno per giorno)

numeri_random = np.random.randint(low=15, high=30, size=14)

# Stampiamo l'array per vedere i valori generati
# Nota: ogni esecuzione produrra valori diversi
print("Array generato:", numeri_random)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifichiamo forma e tipo
# -----------------------------------------------------------------------------
# Prima di procedere, e fondamentale verificare che l'array abbia le
# caratteristiche attese. Questo previene errori nelle operazioni successive.
#
# Cosa ci aspettiamo:
# - shape: (14,) - un vettore 1D con 14 elementi
# - dtype: int32 o int64 - numeri interi
# - len: 14 - quattordici elementi totali

print("\n=== VERIFICA CARATTERISTICHE ARRAY ===")
print("Forma (shape):", numeri_random.shape)  # Atteso: (14,)
print("Tipo (dtype):", numeri_random.dtype)   # Atteso: int32 o int64
print("Numero elementi:", len(numeri_random)) # Atteso: 14
print("Numero dimensioni:", numeri_random.ndim)  # Atteso: 1

# -----------------------------------------------------------------------------
# SANITY CHECK: verifica che i valori siano nel range atteso
# -----------------------------------------------------------------------------
# I valori devono essere >= 15 e < 30 (cioe <= 29)
# Se questo assert fallisce, c'e un problema con la generazione

assert numeri_random.min() >= 15, f"ERRORE: valore minimo {numeri_random.min()} < 15!"
assert numeri_random.max() < 30, f"ERRORE: valore massimo {numeri_random.max()} >= 30!"
assert len(numeri_random) == 14, f"ERRORE: lunghezza {len(numeri_random)} != 14!"

print("\nSanity check superato: tutti i valori sono in [15, 30)")

[28 21 16 22 26 20 16 19 26 23 23 22 16 22]


## 4.3 — Calcolare statistiche descrittive: max, min, std, mean

### Perche questo passaggio e necessario

Le statistiche descrittive sono il primo passo di qualsiasi analisi dati. Prima di costruire modelli complessi o visualizzazioni elaborate, devi capire cosa contiene il tuo dataset. Le statistiche descrittive rispondono a domande fondamentali:

- **Qual e il range dei dati?** (min e max)
- **Qual e il valore tipico?** (media)
- **Quanto sono dispersi i valori?** (deviazione standard)

Senza questa comprensione iniziale, potresti commettere errori gravi come applicare algoritmi inadatti, non notare outlier problematici, o interpretare male i risultati. Le statistiche descrittive sono il "controllo visivo" numerico dei tuoi dati.

**Cosa succederebbe se saltassimo questo passaggio?**
- Non sapresti se ci sono valori anomali
- Non potresti interpretare correttamente le trasformazioni successive
- Potresti applicare tecniche inappropriate ai tuoi dati
- Non avresti baseline per confrontare risultati

### Spiegazione dettagliata dei metodi statistici

**Metodo .max()**

| Aspetto | Descrizione |
|---------|-------------|
| Cosa fa | Restituisce il valore massimo dell'array |
| Input | Nessun parametro obbligatorio. Opzionale: `axis` per operare lungo un asse |
| Output | Scalare (singolo valore) se nessun asse specificato, array se asse specificato |
| Tipo output | Stesso tipo dei dati nell'array |
| Errori tipici | Nessuno comune. Su array vuoto restituisce errore |
| Quando usarlo | Per trovare il picco massimo, verificare limiti |
| Quando NON usarlo | Se vuoi la posizione del massimo (usa `np.argmax`) |

**Metodo .min()**

| Aspetto | Descrizione |
|---------|-------------|
| Cosa fa | Restituisce il valore minimo dell'array |
| Input | Nessun parametro obbligatorio. Opzionale: `axis` per operare lungo un asse |
| Output | Scalare (singolo valore) se nessun asse specificato |
| Tipo output | Stesso tipo dei dati nell'array |
| Quando usarlo | Per trovare il valore piu basso, verificare limiti |
| Quando NON usarlo | Se vuoi la posizione del minimo (usa `np.argmin`) |

**Metodo .mean()**

| Aspetto | Descrizione |
|---------|-------------|
| Cosa fa | Calcola la media aritmetica (somma / numero elementi) |
| Input | Opzionale: `axis` per media lungo un asse, `dtype` per tipo del calcolo |
| Output | float64 (anche se input e int) |
| Tipo output | Sempre float |
| Errori tipici | Risultato inatteso se ci sono NaN (usa `np.nanmean` per ignorarli) |
| Quando usarlo | Per stimare il valore centrale tipico |
| Quando NON usarlo | Con dati molto asimmetrici o con outlier estremi (usa mediana) |

**Metodo .std()**

| Aspetto | Descrizione |
|---------|-------------|
| Cosa fa | Calcola la deviazione standard |
| Input | `ddof=0` (default): divisore N. `ddof=1`: divisore N-1 (campionaria) |
| Output | float64 |
| Tipo output | Sempre float, stessa unita di misura dei dati |
| Errori tipici | Usare ddof sbagliato. ddof=0 per popolazione, ddof=1 per campione |
| Quando usarlo | Per misurare la dispersione dei dati |
| Quando NON usarlo | Mai inutile, ma interpretala nel contesto |

**Nota sulla nomenclatura delle variabili:**

Nel codice seguente usiamo nomi come `val_max` invece di `max` per evitare di sovrascrivere la funzione built-in di Python `max()`. Questa e una best practice importante: mai usare nomi di funzioni Python come nomi di variabile.

In [None]:
# =============================================================================
# CALCOLO STATISTICHE DESCRITTIVE
# =============================================================================
# Applichiamo i metodi statistici all'array numeri_random.
# Questi metodi sono fondamentali per capire la distribuzione dei dati.

# Valore massimo dell'array
# .max() scandisce tutti gli elementi e restituisce il piu grande
val_max = numeri_random.max()

# Valore minimo dell'array
# .min() scandisce tutti gli elementi e restituisce il piu piccolo
val_min = numeri_random.min()

# Deviazione standard (misura la dispersione dei valori)
# .std() calcola la radice quadrata della varianza
# Default: ddof=0 (deviazione standard della popolazione)
val_std = numeri_random.std()

# Media aritmetica (somma diviso numero elementi)
# .mean() somma tutti gli elementi e divide per il conteggio
val_mean = numeri_random.mean()

# Stampiamo tutti i risultati in modo leggibile
print("=== STATISTICHE DESCRITTIVE ===")
print(f"Array analizzato: {numeri_random}")
print(f"Numero di elementi: {len(numeri_random)}")
print("-" * 40)
print(f"Massimo: {val_max}")
print(f"Minimo:  {val_min}")
print(f"Range:   {val_max - val_min}")
print(f"Media:   {val_mean:.2f}")
print(f"Std Dev: {val_std:.2f}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica di coerenza logica
# -----------------------------------------------------------------------------
# La media DEVE essere compresa tra min e max. Se non lo e, c'e un bug.
# Questo e un invariante matematico che non puo mai essere violato.

print("\n=== VERIFICA COERENZA ===")
print(f"min ({val_min}) <= media ({val_mean:.2f}) <= max ({val_max})?")

assert val_min <= val_mean <= val_max, "ERRORE CRITICO: la media non e tra min e max!"
print("Verifica superata: min <= media <= max")

# Verifica aggiuntiva: la std deve essere non negativa
assert val_std >= 0, "ERRORE: la deviazione standard non puo essere negativa!"
print(f"Verifica superata: std ({val_std:.2f}) >= 0")

# -----------------------------------------------------------------------------
# INTERPRETAZIONE DEI RISULTATI
# -----------------------------------------------------------------------------
print("\n=== INTERPRETAZIONE ===")
print(f"I valori variano da {val_min} a {val_max} (range = {val_max - val_min})")
print(f"Il valore tipico e circa {val_mean:.1f}")
print(f"La maggior parte dei valori dista dalla media di circa {val_std:.1f} unita")

28 16 3.6589281356759136 21.428571428571427


## 4.4 — Scostamento dalla media (Broadcasting)

### Perche questo passaggio e necessario

Calcolare quanto ogni valore si discosta dalla media e un'operazione fondamentale in statistica e analisi dati. Gli scostamenti ci dicono quali valori sono "tipici" (vicini alla media) e quali sono "insoliti" (lontani dalla media). Questa informazione e essenziale per:

1. **Identificare outlier**: valori con scostamenti molto grandi potrebbero essere errori o casi speciali
2. **Capire la distribuzione**: se molti valori hanno scostamenti grandi, i dati sono molto dispersi
3. **Preparare il calcolo dello z-score**: lo z-score e lo scostamento diviso per la deviazione standard
4. **Verificare proprieta matematiche**: la somma degli scostamenti deve essere zero (o quasi, per errori di arrotondamento)

Questo passaggio dimostra anche il concetto fondamentale di **broadcasting**: NumPy applica automaticamente un'operazione scalare a ogni elemento dell'array senza bisogno di cicli espliciti.

**Cosa succederebbe se saltassimo questo passaggio?**
- Non capiresti il concetto di broadcasting
- Non sapresti interpretare quanto un valore e "normale" o "anomalo"
- Non potresti procedere al calcolo dello z-score

### Concetto chiave: Broadcasting

Quando scrivi `array - scalare`, NumPy non esegue un ciclo Python. Invece:
1. "Espande" virtualmente lo scalare in un array della stessa forma
2. Esegue la sottrazione elemento per elemento in codice C ottimizzato
3. Restituisce un nuovo array con i risultati

Questo e molto piu veloce di un ciclo Python e produce codice piu leggibile.

### Formula applicata

$$\text{scostamento}_i = x_i - \bar{x}$$

Dove $x_i$ e ogni valore originale e $\bar{x}$ e la media.

### Interpretazione del risultato

| Segno scostamento | Significato |
|-------------------|-------------|
| Positivo (+) | Il valore e sopra la media |
| Negativo (-) | Il valore e sotto la media |
| Zero o vicino a zero | Il valore e circa uguale alla media |
| Molto grande (+ o -) | Il valore e lontano dalla media (potenziale outlier) |

### Proprieta matematica importante

La somma di tutti gli scostamenti dalla media e sempre zero (o quasi zero per errori di arrotondamento floating-point). Questa e una proprieta matematica della media: e il punto di "equilibrio" della distribuzione.

In [None]:
# =============================================================================
# CALCOLO SCOSTAMENTO DALLA MEDIA
# =============================================================================
# L'espressione numeri_random - val_mean sfrutta il broadcasting:
# val_mean (scalare) viene "espanso" per sottrarsi a ogni elemento.
#
# Equivalente Python puro (LENTO, non usare):
# scostamenti = []
# for x in numeri_random:
#     scostamenti.append(x - val_mean)
#
# Con NumPy (VELOCE, usa questo):
# scostamenti = numeri_random - val_mean  # Una sola riga!

scostamenti = numeri_random - val_mean

# Mostriamo valori originali, media e scostamenti affiancati
print("=== SCOSTAMENTI DALLA MEDIA ===")
print(f"Media = {val_mean:.2f}")
print("-" * 50)
print("Valore originale | Scostamento | Interpretazione")
print("-" * 50)

for i, (orig, scost) in enumerate(zip(numeri_random, scostamenti)):
    if scost > 0:
        interp = "sopra media"
    elif scost < 0:
        interp = "sotto media"
    else:
        interp = "= media"
    print(f"  {orig:>14}  | {scost:>+10.2f}  | {interp}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: la somma degli scostamenti deve essere circa 0
# -----------------------------------------------------------------------------
# Questa e una proprieta matematica fondamentale della media.
# La media e il "baricentro" dei dati, quindi gli scostamenti si bilanciano.

somma_scostamenti = scostamenti.sum()
print(f"\n=== VERIFICA PROPRIETA MATEMATICA ===")
print(f"Somma degli scostamenti: {somma_scostamenti:.10f}")
print("(Deve essere molto vicina a 0)")

# La tolleranza e necessaria per errori di arrotondamento floating-point
# Con 14 elementi e valori interi, l'errore dovrebbe essere < 1e-10
tolleranza = 1e-10
assert abs(somma_scostamenti) < tolleranza, \
    f"ERRORE: somma scostamenti = {somma_scostamenti}, atteso ~0!"
print(f"Verifica superata: |somma| < {tolleranza}")

# -----------------------------------------------------------------------------
# SANITY CHECK: la forma dell'array deve essere preservata
# -----------------------------------------------------------------------------
assert scostamenti.shape == numeri_random.shape, \
    "ERRORE: il broadcasting ha cambiato la forma!"
print(f"Verifica forma: {scostamenti.shape} == {numeri_random.shape}")

[ 6.57142857 -0.42857143 -5.42857143  0.57142857  4.57142857 -1.42857143
 -5.42857143 -2.42857143  4.57142857  1.57142857  1.57142857  0.57142857
 -5.42857143  0.57142857]


## 3.5 — Conteggio elementi sopra la media

**Perche questo passaggio:** Contare quanti elementi soddisfano una condizione e un'operazione frequentissima in analisi dati (es. quanti clienti hanno speso piu della media?).

**Meccanismo:**
1. `array > valore` produce un array booleano (`True`/`False`)
2. `sum(array_booleano)` somma i `True` (valgono 1) e `False` (valgono 0)
3. Il risultato e il conteggio degli elementi che soddisfano la condizione

**Alternativa:** `np.sum(array > valore)` fa la stessa cosa.

In [None]:
# =============================================================================
# CONTEGGIO ELEMENTI SOPRA LA MEDIA
# =============================================================================
# Passo 1: Creiamo la maschera booleana per vedere come funziona
# L'operatore > viene applicato elemento per elemento grazie al broadcasting

maschera_sopra_media = numeri_random > val_mean

print("=== CREAZIONE MASCHERA BOOLEANA ===")
print(f"Array originale: {numeri_random}")
print(f"Media: {val_mean:.2f}")
print(f"Condizione: valore > {val_mean:.2f}")
print(f"Maschera risultante: {maschera_sopra_media}")
print(f"Tipo della maschera: {maschera_sopra_media.dtype}")  # Atteso: bool

# Passo 2: Contiamo i True usando sum()
# True vale 1, False vale 0, quindi sum() conta i True
# Usiamo sia sum() Python che np.sum() per mostrare entrambi

elementi_sopra_media_python = sum(numeri_random > val_mean)
elementi_sopra_media_numpy = np.sum(numeri_random > val_mean)

print(f"\n=== CONTEGGIO ===")
print(f"Conteggio con sum() Python: {elementi_sopra_media_python}")
print(f"Conteggio con np.sum():     {elementi_sopra_media_numpy}")

# I due metodi devono dare lo stesso risultato
assert elementi_sopra_media_python == elementi_sopra_media_numpy, \
    "ERRORE: i due metodi danno risultati diversi!"

elementi_sopra_media = elementi_sopra_media_numpy  # Usiamo il risultato NumPy

# Calcoliamo anche quanti sono sotto o uguali alla media
elementi_sotto_o_uguali = len(numeri_random) - elementi_sopra_media

print(f"\n=== RIEPILOGO ===")
print(f"Elementi sopra la media ({val_mean:.2f}): {elementi_sopra_media}")
print(f"Elementi sotto o uguali alla media: {elementi_sotto_o_uguali}")
print(f"Totale: {elementi_sopra_media + elementi_sotto_o_uguali}")
print(f"Percentuale sopra media: {100 * elementi_sopra_media / len(numeri_random):.1f}%")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica coerenza
# -----------------------------------------------------------------------------
# Il conteggio deve essere tra 0 e la lunghezza dell'array (inclusi)
# Non puo essere negativo e non puo superare il numero totale di elementi

print(f"\n=== VERIFICA COERENZA ===")
assert 0 <= elementi_sopra_media <= len(numeri_random), \
    f"ERRORE: conteggio {elementi_sopra_media} fuori range [0, {len(numeri_random)}]!"
print(f"Verifica superata: 0 <= {elementi_sopra_media} <= {len(numeri_random)}")

# Verifica che la somma dei conteggi sia il totale
assert elementi_sopra_media + elementi_sotto_o_uguali == len(numeri_random), \
    "ERRORE: i conteggi non sommano al totale!"
print("Verifica superata: sopra + sotto/uguali = totale")

8


## 4.5 — Conteggio elementi sopra la media

### Perche questo passaggio e necessario

Contare quanti elementi soddisfano una condizione e un'operazione frequentissima in analisi dati. Ecco alcuni esempi reali:

- **Vendite**: quanti prodotti hanno venduto piu della media?
- **Clienti**: quanti clienti hanno speso piu della media?
- **Temperatura**: quanti giorni sono stati piu caldi della media stagionale?
- **Quality control**: quante misurazioni sono fuori tolleranza?
- **Finanza**: quanti giorni il titolo ha chiuso sopra la media mobile?

Questa operazione combina due concetti fondamentali: le **maschere booleane** (array di True/False) e il **conteggio tramite somma** (True vale 1, False vale 0).

**Cosa succederebbe se saltassimo questo passaggio?**
- Non sapresti usare le maschere booleane, strumento fondamentale
- Non potresti fare analisi condizionali sui dati
- Saresti costretto a usare cicli lenti invece di operazioni vettorizzate

### Meccanismo in dettaglio

Il processo avviene in due fasi:

**Fase 1: Creazione della maschera booleana**
```python
maschera = array > valore
```
Questo confronto viene applicato elemento per elemento. Per ogni elemento:
- Se la condizione e vera → True
- Se la condizione e falsa → False

Il risultato e un array di booleani con la stessa forma dell'originale.

**Fase 2: Conteggio dei True**
```python
conteggio = sum(maschera)  # oppure np.sum(maschera)
```
In Python/NumPy, `True` viene trattato come 1 e `False` come 0. Quindi la somma di un array booleano e il conteggio dei True.

### Funzione alternativa: np.sum()

| Aspetto | sum() built-in | np.sum() |
|---------|----------------|----------|
| Velocita | Piu lenta | Piu veloce su array grandi |
| Input | Qualsiasi iterabile | Array NumPy |
| Funzionalita | Base | Supporta `axis` per somme parziali |
| Consiglio | OK per array piccoli | Preferita per array grandi |

In [None]:
# =============================================================================
# CALCOLO Z-SCORE: PREPARAZIONE DEI DATI
# =============================================================================
# Creiamo un array di esempio con valori noti per illustrare lo z-score.
# Usiamo valori semplici per rendere i calcoli verificabili a mano.

x = np.array([10, 12, 15, 18, 20, 25])

print("=== DATI DI PARTENZA ===")
print("Array originale x:", x)
print("Numero elementi:", len(x))
print("Tipo dati:", x.dtype)

# Calcoliamo le statistiche che ci serviranno
print("\n=== STATISTICHE PRELIMINARI ===")
print(f"Minimo: {x.min()}")
print(f"Massimo: {x.max()}")
print(f"Range: {x.max() - x.min()}")

In [None]:
# =============================================================================
# CALCOLO Z-SCORE: APPLICAZIONE DELLA FORMULA
# =============================================================================
# Formula: z = (x - media) / std
# Applichiamo passo per passo per massima chiarezza.

# Passo 1: calcolare la media
# .mean() somma tutti gli elementi e divide per il numero di elementi
x_mean = x.mean()
print("=== PASSO 1: CALCOLO MEDIA ===")
print(f"Somma elementi: {x.sum()}")
print(f"Numero elementi: {len(x)}")
print(f"Media = {x.sum()} / {len(x)} = {x_mean:.4f}")

# Passo 2: calcolare la deviazione standard
# .std() calcola la radice quadrata della varianza
x_std = x.std()
print(f"\n=== PASSO 2: CALCOLO DEVIAZIONE STANDARD ===")
print(f"Deviazione standard: {x_std:.4f}")

# Passo 3: applicare la formula z = (x - media) / std
# Il broadcasting applica l'operazione a ogni elemento:
# - Prima sottrae la media da ogni elemento
# - Poi divide ogni risultato per la std
z = (x - x_mean) / x_std

print("\n=== PASSO 3: CALCOLO Z-SCORE ===")
print("Formula: z = (x - media) / std")
print(f"       = (x - {x_mean:.4f}) / {x_std:.4f}")
print("\nValori originali -> Z-score:")
for i, (orig, z_val) in enumerate(zip(x, z)):
    print(f"  x[{i}] = {orig:>4} -> z = ({orig} - {x_mean:.2f}) / {x_std:.2f} = {z_val:>+.4f}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica proprieta dello z-score
# -----------------------------------------------------------------------------
# Due proprieta DEVONO essere sempre vere:
# 1. La media degli z-score deve essere 0
# 2. La deviazione standard degli z-score deve essere 1

z_mean = z.mean()
z_std = z.std()

print("\n=== VERIFICA PROPRIETA Z-SCORE ===")
print(f"Media degli z-score: {z_mean:.10f}")
print(f"Atteso: 0.0")
print(f"Std degli z-score: {z_std:.10f}")
print(f"Atteso: 1.0")

# Verifica con tolleranza per errori di arrotondamento floating-point
tolleranza = 1e-10
assert abs(z_mean) < tolleranza, f"ERRORE: media z-score = {z_mean}, atteso ~0!"
assert abs(z_std - 1) < tolleranza, f"ERRORE: std z-score = {z_std}, atteso ~1!"

print("\nVerifica superata: standardizzazione corretta!")
print(f"  |media - 0| = {abs(z_mean):.2e} < {tolleranza}")
print(f"  |std - 1|   = {abs(z_std - 1):.2e} < {tolleranza}")

# -----------------------------------------------------------------------------
# INTERPRETAZIONE DEI RISULTATI
# -----------------------------------------------------------------------------
print("\n=== INTERPRETAZIONE ===")
for i, (orig, z_val) in enumerate(zip(x, z)):
    if z_val > 2:
        interp = "MOLTO SOPRA media (outlier?)"
    elif z_val > 1:
        interp = "sopra media"
    elif z_val > 0:
        interp = "leggermente sopra media"
    elif z_val > -1:
        interp = "leggermente sotto media"
    elif z_val > -2:
        interp = "sotto media"
    else:
        interp = "MOLTO SOTTO media (outlier?)"
    print(f"x = {orig:>4}: z = {z_val:>+.2f} -> {interp}")

[-1.32744662 -0.92921264 -0.33186166  0.26548932  0.66372331  1.65930828]
Media: -1.8503717077085943e-16
Deviazione standard: 1.0


## 4.6 — Calcolo dello Z-score (Punteggio Standard)

### Perche questo passaggio e necessario

Lo z-score e una delle trasformazioni piu importanti in statistica e machine learning. Standardizza i dati portandoli su una scala comune con media 0 e deviazione standard 1. Questo e essenziale in molte situazioni:

1. **Confrontare variabili con scale diverse**: come confrontare eta (0-100) con reddito (0-1.000.000)? Lo z-score le porta sulla stessa scala.

2. **Preparare dati per algoritmi ML**: molti algoritmi (regressione, SVM, reti neurali) funzionano meglio o richiedono dati standardizzati.

3. **Identificare outlier**: valori con |z| > 2 o |z| > 3 sono statisticamente insoliti.

4. **Calcolare probabilita**: in una distribuzione normale, lo z-score permette di calcolare percentili.

**Cosa succederebbe se saltassimo questo passaggio?**
- Non potresti confrontare correttamente variabili con scale diverse
- Alcuni algoritmi ML darebbero risultati errati
- Non sapresti identificare outlier in modo statisticamente fondato

### Formula dello z-score spiegata

$$z_i = \frac{x_i - \bar{x}}{\sigma}$$

**Passo per passo:**
1. $x_i$ e il valore che vuoi standardizzare
2. $\bar{x}$ e la media di tutti i valori
3. $(x_i - \bar{x})$ e lo scostamento dalla media (calcolato nel passaggio precedente)
4. $\sigma$ e la deviazione standard
5. Dividendo lo scostamento per la deviazione standard, ottieni "quante deviazioni standard" il valore dista dalla media

### Proprieta garantite dello z-score

| Proprieta | Valore | Perche |
|-----------|--------|--------|
| Media dei dati standardizzati | Esattamente 0 | Sottraiamo la media, quindi la nuova media e 0 |
| Deviazione standard dei dati standardizzati | Esattamente 1 | Dividiamo per la std, quindi la nuova std e 1 |
| Forma della distribuzione | Invariata | Trasformazione lineare, non cambia la forma |
| Ordine dei valori | Invariato | Trasformazione monotona crescente |

### Interpretazione pratica dei valori z

| Valore z | Significato pratico | Percentile (distribuzione normale) |
|----------|---------------------|-----------------------------------|
| z = 0 | Esattamente sulla media | 50% |
| z = 1 | 1 std sopra la media | 84.1% |
| z = 2 | 2 std sopra la media (insolito) | 97.7% |
| z = 3 | 3 std sopra la media (molto raro) | 99.9% |
| z = -1 | 1 std sotto la media | 15.9% |
| z = -2 | 2 std sotto la media (insolito) | 2.3% |
| z = -3 | 3 std sotto la media (molto raro) | 0.1% |

### Nota sul parametro ddof (gradi di liberta)

| Parametro | Divisore | Uso |
|-----------|----------|-----|
| `.std(ddof=0)` | N | Deviazione standard della popolazione (default NumPy) |
| `.std(ddof=1)` | N-1 | Deviazione standard campionaria (quando i dati sono un campione) |

Per lo z-score, la scelta di ddof deve essere coerente tra il calcolo della std e l'interpretazione. In questa lezione usiamo ddof=0 (default).

In [None]:
## 4.7 — Maschere Logiche e Boolean Indexing

### Perche questo passaggio e necessario

Le maschere booleane sono uno degli strumenti piu potenti di NumPy. Permettono di filtrare, selezionare e modificare elementi in modo elegante e veloce. In analisi dati, queste operazioni sono onnipresenti:

1. **Filtrare dati**: selezionare solo le righe che soddisfano una condizione
2. **Pulire dati**: rimuovere o sostituire valori invalidi
3. **Analisi condizionale**: calcolare statistiche su sottoinsiemi
4. **Feature engineering**: creare nuove variabili basate su condizioni

Senza maschere booleane, dovresti usare cicli espliciti, che sono molto piu lenti e verbosi.

**Cosa succederebbe se saltassimo questo passaggio?**
- Non sapresti filtrare dati in modo efficiente
- Il tuo codice sarebbe molto piu lento con cicli Python
- Non potresti fare analisi condizionali sui dati

### Operazioni principali con maschere booleane

| Operazione | Sintassi | Risultato | Esempio |
|------------|----------|-----------|---------|
| Creare maschera | `arr > 50` | Array di True/False | `[F, F, T, T]` |
| Filtrare elementi | `arr[arr > 50]` | Solo elementi True | `[60, 70]` |
| Modificare elementi | `arr[arr > 50] = 0` | Modifica in-place | `[30, 40, 0, 0]` |
| AND logico | `(cond1) & (cond2)` | True se entrambe vere | Valori in un range |
| OR logico | `(cond1) \| (cond2)` | True se almeno una vera | Valori estremi |
| NOT logico | `~condizione` | Inverte True/False | Valori che NON soddisfano |

### Attenzione critica: operatori corretti

**ERRORE COMUNE #1: usare and/or invece di &/|**
```python
# SBAGLIATO - genera ValueError
arr[(arr > 5) and (arr < 10)]

# CORRETTO
arr[(arr > 5) & (arr < 10)]
```

**ERRORE COMUNE #2: dimenticare le parentesi**
```python
# SBAGLIATO - errore di precedenza
arr[arr > 5 & arr < 10]  # Interpretato come: arr > (5 & arr) < 10

# CORRETTO
arr[(arr > 5) & (arr < 10)]
```

### Spiegazione della funzione np.all() e np.any()

| Funzione | Cosa fa | Restituisce True se |
|----------|---------|---------------------|
| `np.all(mask)` | Verifica che tutti siano True | TUTTI gli elementi sono True |
| `np.any(mask)` | Verifica che almeno uno sia True | ALMENO UN elemento e True |

Queste funzioni sono utili per i sanity check: "tutti i valori sono positivi?", "c'e almeno un valore nullo?".

In [None]:
# =============================================================================
# MASCHERE LOGICHE: CREAZIONE MASCHERA BOOLEANA
# =============================================================================
# Creiamo una maschera che identifica i numeri pari (divisibili per 2).
# L'operatore % (modulo) restituisce il resto della divisione.
# Se il resto e 0, il numero e pari.
#
# Esempio: 10 % 2 = 0 (pari), 7 % 2 = 1 (dispari)

# La condizione arr % 2 == 0 viene applicata elemento per elemento
# Ogni elemento viene testato: e divisibile per 2?
maschera_pari = arr % 2 == 0

print("=== CREAZIONE MASCHERA BOOLEANA ===")
print(f"Array originale: {arr}")
print(f"Condizione: valore % 2 == 0 (cioe: e pari?)")
print(f"Maschera risultante: {maschera_pari}")
print(f"Tipo maschera: {maschera_pari.dtype}")  # Atteso: bool
print(f"Forma maschera: {maschera_pari.shape}")  # Stessa forma dell'array

# Contiamo True e False
num_pari = np.sum(maschera_pari)       # Conta i True (pari)
num_dispari = np.sum(~maschera_pari)   # ~ inverte la maschera (dispari)

print(f"\n=== CONTEGGIO ===")
print(f"Numero di elementi pari: {num_pari}")
print(f"Numero di elementi dispari: {num_dispari}")
print(f"Totale: {num_pari + num_dispari}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica coerenza
# -----------------------------------------------------------------------------
assert num_pari + num_dispari == len(arr), "ERRORE: i conteggi non tornano!"
assert maschera_pari.shape == arr.shape, "ERRORE: la maschera ha forma diversa!"
print("\nVerifica superata: maschera coerente")

[ True  True  True False  True  True  True False False  True False False
  True  True False  True  True  True  True False]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: FILTRAGGIO (BOOLEAN INDEXING)
# =============================================================================
# Estraiamo solo i numeri pari usando la maschera come indice.
# La sintassi arr[maschera] restituisce un NUOVO array contenente
# solo gli elementi in posizioni dove la maschera e True.
#
# Nota importante: il risultato e una COPIA, non una vista.
# Modificare il risultato NON modifica l'array originale.

even_numbers = arr[arr % 2 == 0]

print("=== FILTRAGGIO CON BOOLEAN INDEXING ===")
print(f"Array originale ({len(arr)} elementi): {arr}")
print(f"Solo numeri pari ({len(even_numbers)} elementi): {even_numbers}")

# Mostriamo anche i dispari per completezza
odd_numbers = arr[arr % 2 != 0]
print(f"Solo numeri dispari ({len(odd_numbers)} elementi): {odd_numbers}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: tutti gli elementi estratti devono essere pari
# -----------------------------------------------------------------------------
# Verifichiamo che il filtro abbia funzionato correttamente
# np.all() restituisce True se TUTTI gli elementi soddisfano la condizione

if len(even_numbers) > 0:
    tutti_pari = np.all(even_numbers % 2 == 0)
    print(f"\n=== VERIFICA ===")
    print(f"Tutti gli elementi estratti sono pari? {tutti_pari}")
    assert tutti_pari, "ERRORE: alcuni elementi estratti non sono pari!"
else:
    print("\nNessun numero pari trovato nell'array")

# Verifica complementare sui dispari
if len(odd_numbers) > 0:
    tutti_dispari = np.all(odd_numbers % 2 != 0)
    print(f"Tutti gli elementi dispari sono effettivamente dispari? {tutti_dispari}")
    assert tutti_dispari, "ERRORE: alcuni elementi dispari non sono dispari!"

# Verifica che la somma delle lunghezze sia il totale
assert len(even_numbers) + len(odd_numbers) == len(arr), \
    "ERRORE: pari + dispari != totale!"
print("Verifica superata: pari + dispari = totale")

[74 48 50 56 80 68 52 32 70  8 94 12 48]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: CONDIZIONI COMBINATE
# =============================================================================
# Filtriamo i numeri pari che sono anche tra 40 e 70 (inclusi).
# Per combinare condizioni usiamo:
# - & per AND (entrambe le condizioni devono essere vere)
# - | per OR (almeno una condizione deve essere vera)
#
# ATTENZIONE: le parentesi sono OBBLIGATORIE intorno a ogni condizione!
# Questo perche & ha precedenza piu alta di >= e <=

print("=== CONDIZIONI COMBINATE ===")
print(f"Array di partenza (numeri pari): {even_numbers}")
print(f"Condizione: valore >= 40 AND valore <= 70")

# Costruiamo la condizione composta
# Ogni condizione e racchiusa tra parentesi
condizione_range = (even_numbers >= 40) & (even_numbers <= 70)

print(f"\nMaschera (True = nel range [40,70]): {condizione_range}")

# Applichiamo il filtro
between40_70 = even_numbers[condizione_range]

print(f"\nNumeri pari tra 40 e 70: {between40_70}")
print(f"Quanti sono: {len(between40_70)}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che tutti i valori siano nel range
# -----------------------------------------------------------------------------
if len(between40_70) > 0:
    # Verifichiamo che TUTTI i valori rispettino ENTRAMBE le condizioni
    tutti_nel_range = np.all((between40_70 >= 40) & (between40_70 <= 70))
    tutti_pari = np.all(between40_70 % 2 == 0)
    
    print(f"\n=== VERIFICA ===")
    print(f"Tutti nel range [40, 70]? {tutti_nel_range}")
    print(f"Tutti pari? {tutti_pari}")
    
    assert tutti_nel_range, "ERRORE: alcuni valori sono fuori range!"
    assert tutti_pari, "ERRORE: alcuni valori non sono pari!"
    print("Verifica superata: tutti i valori sono pari e nel range")
else:
    print("\nNessun valore soddisfa entrambe le condizioni")
    
# Mostriamo anche un esempio con OR
print("\n=== ESEMPIO CON OR ===")
# Valori < 30 OPPURE > 80 (estremi)
condizione_estremi = (even_numbers < 30) | (even_numbers > 80)
estremi = even_numbers[condizione_estremi]
print(f"Valori estremi (< 30 OR > 80): {estremi}")

[48 50 56 68 52 70 48]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: MODIFICA CONDIZIONALE IN-PLACE
# =============================================================================
# Modifichiamo l'array: tutti i numeri pari >= 90 diventano -1.
# Questa operazione modifica l'array originale (in-place).
#
# ATTENZIONE: questa e una modifica permanente dell'array!
# Se vuoi preservare l'originale, fai prima una copia con .copy()
#
# La sintassi arr[condizione] = valore assegna 'valore' a tutti
# gli elementi dove la condizione e True.

print("=== MODIFICA CONDIZIONALE IN-PLACE ===")
print(f"Array even_numbers PRIMA della modifica: {even_numbers}")
print(f"Valori >= 90: {even_numbers[even_numbers >= 90]}")

# Contiamo quanti valori verranno modificati
num_da_modificare = np.sum(even_numbers >= 90)
print(f"Numero di valori che verranno modificati: {num_da_modificare}")

# Creiamo la condizione
condizione_sopra90 = even_numbers >= 90

# Modifichiamo in-place
# NOTA: questo modifica permanentemente even_numbers
even_numbers[condizione_sopra90] = -1

print(f"\nArray even_numbers DOPO la modifica: {even_numbers}")
print("(I valori che erano >= 90 sono ora -1)")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che la modifica sia avvenuta correttamente
# -----------------------------------------------------------------------------
# Dopo la modifica:
# - Non ci devono essere valori >= 90 (eccetto -1 che e < 90)
# - Devono esserci esattamente num_da_modificare valori uguali a -1

valori_ancora_sopra90 = np.sum(even_numbers >= 90)
valori_meno1 = np.sum(even_numbers == -1)

print(f"\n=== VERIFICA ===")
print(f"Valori >= 90 rimasti: {valori_ancora_sopra90} (atteso: 0)")
print(f"Valori == -1: {valori_meno1} (atteso: {num_da_modificare})")

assert valori_ancora_sopra90 == 0, "ERRORE: ci sono ancora valori >= 90!"
assert valori_meno1 == num_da_modificare, "ERRORE: numero di -1 non corrisponde!"
print("Verifica superata: modifica in-place corretta")

[74 48 50 56 80 68 52 32 70  8 -1 12 48]


## 4.8 — Vettori e Matrici

### Perche questo passaggio e necessario

Molti problemi di data science e machine learning richiedono operazioni su matrici (tabelle di numeri). NumPy rende queste operazioni semplici, veloci ed eleganti. Capire vettori e matrici e fondamentale per:

1. **Rappresentare dataset**: una tabella di dati e una matrice (righe = osservazioni, colonne = variabili)
2. **Algebra lineare**: regressione, PCA, e molti altri algoritmi si basano su operazioni matriciali
3. **Trasformazioni**: normalizzazione, proiezioni, rotazioni
4. **Reti neurali**: le operazioni fondamentali sono prodotti matrice-vettore

**Cosa succederebbe se saltassimo questo passaggio?**
- Non capiresti come i dati sono organizzati internamente in pandas e sklearn
- Non potresti fare debugging efficace di algoritmi ML
- Non capiresti cosa fanno le librerie "sotto il cofano"

### Concetti chiave

| Termine | Definizione | Esempio shape |
|---------|-------------|---------------|
| **Scalare** | Singolo numero | () o nessuna shape |
| **Vettore** | Array 1D, sequenza di numeri | (n,) es. (5,) |
| **Matrice** | Array 2D, tabella con righe e colonne | (m, n) es. (3, 4) |
| **Tensore** | Array nD, generalizzazione a n dimensioni | (a, b, c, ...) |

### Shape: come leggerla

| Shape | Significato | Visualizzazione |
|-------|-------------|-----------------|
| (5,) | Vettore con 5 elementi | [ _ _ _ _ _ ] |
| (3, 4) | Matrice 3 righe x 4 colonne | 3 righe, ogni riga ha 4 elementi |
| (2, 3, 4) | Tensore 3D: 2 "piani", ognuno 3x4 | Come 2 matrici 3x4 impilate |

### Operazioni principali

| Operazione | Sintassi | Requisiti dimensionali |
|------------|----------|------------------------|
| Prodotto matrice-vettore | `np.dot(A, v)` o `A @ v` | A e (m, n), v e (n,) → risultato (m,) |
| Trasposta | `A.T` | (m, n) → (n, m) |
| Media per colonna | `A.mean(axis=0)` | (m, n) → (n,) |
| Media per riga | `A.mean(axis=1)` | (m, n) → (m,) |

### Il parametro axis spiegato visivamente

```
Matrice 3x4:
          col0  col1  col2  col3
         [  a     b     c     d  ]  ← riga 0
         [  e     f     g     h  ]  ← riga 1
         [  i     j     k     l  ]  ← riga 2

axis=0 (comprime le righe, risultato per colonna):
         [a+e+i b+f+j c+g+k d+h+l] / 3  → 4 valori (uno per colonna)

axis=1 (comprime le colonne, risultato per riga):
         [(a+b+c+d)/4]   → riga 0
         [(e+f+g+h)/4]   → riga 1  → 3 valori (uno per riga)
         [(i+j+k+l)/4]   → riga 2
```

**Regola mnemonica**: il numero dell'asse che specifichi "scompare" dal risultato.

### Creazione di Matrice e Vettore

### Perche questo sotto-passaggio e necessario

Prima di eseguire operazioni matriciali, dobbiamo creare gli oggetti su cui operare. Creeremo una matrice 3x3 e un vettore di 3 elementi per dimostrare le operazioni di algebra lineare. La scelta di una matrice quadrata semplifica la dimostrazione, ma le stesse operazioni funzionano con matrici rettangolari.

Usiamo `np.random.randint` con un parametro `size` che e una tupla invece di un intero. Questo crea un array multidimensionale invece di un vettore.

**Differenza nella sintassi di size:**
- `size=10` → vettore 1D con 10 elementi, shape (10,)
- `size=(3, 4)` → matrice 2D con 3 righe e 4 colonne, shape (3, 4)
- `size=(2, 3, 4)` → tensore 3D, shape (2, 3, 4)

In [None]:
# =============================================================================
# CREAZIONE MATRICE E VETTORE
# =============================================================================
# Creiamo una matrice 3x3 e un vettore di 3 elementi.
# La differenza e nel parametro size:
# - Tupla (3, 3) → matrice
# - Intero 3 → vettore

# Matrice 3x3: usiamo una tupla (3, 3) come size
# Genera 9 numeri casuali disposti in 3 righe e 3 colonne
matrix = np.random.randint(0, 100, size=(3, 3))

# Vettore di lunghezza 3: usiamo un intero 3 come size
# Genera 3 numeri casuali in una sequenza 1D
vector = np.random.randint(0, 100, size=3)

print("=== MATRICE 3x3 ===")
print(matrix)
print(f"Shape: {matrix.shape}")
print(f"Numero dimensioni: {matrix.ndim}")
print(f"Numero totale elementi: {matrix.size}")

print("\n=== VETTORE ===")
print(vector)
print(f"Shape: {vector.shape}")
print(f"Numero dimensioni: {vector.ndim}")
print(f"Numero elementi: {len(vector)}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica dimensioni
# -----------------------------------------------------------------------------
# Prima di procedere con operazioni matriciali, verifichiamo che le shape
# siano quelle attese. Errori di shape sono tra i piu comuni in NumPy.

print("\n=== VERIFICA DIMENSIONI ===")
assert matrix.shape == (3, 3), f"ERRORE: matrice ha shape {matrix.shape}, atteso (3, 3)!"
assert vector.shape == (3,), f"ERRORE: vettore ha shape {vector.shape}, atteso (3,)!"
assert matrix.ndim == 2, "ERRORE: la matrice dovrebbe avere 2 dimensioni!"
assert vector.ndim == 1, "ERRORE: il vettore dovrebbe avere 1 dimensione!"

print(f"Matrice: {matrix.shape} - OK (2D)")
print(f"Vettore: {vector.shape} - OK (1D)")
print("Verifica superata: dimensioni corrette per prodotto matrice-vettore")

[[58 69 11]
 [ 5 74 42]
 [14 57 48]] [75 51 69]


### Prodotto Matrice-Vettore

### Perche questo sotto-passaggio e necessario

Il prodotto matrice-vettore e l'operazione fondamentale dell'algebra lineare. E alla base di quasi tutti gli algoritmi di machine learning:

- **Regressione lineare**: calcola predizioni come X @ coefficienti
- **Reti neurali**: ogni layer calcola W @ x + b
- **PCA**: proietta dati su nuove direzioni tramite prodotto matriciale
- **Trasformazioni geometriche**: rotazioni, scaling, proiezioni

Capire cosa fa questa operazione ti aiutera a debuggare e interpretare i modelli.

### Formula matematica

Se $A$ e una matrice $m \times n$ e $\mathbf{v}$ e un vettore di lunghezza $n$, il prodotto $A \cdot \mathbf{v}$ e un vettore di lunghezza $m$ dove ogni elemento e:

$$(\mathbf{A} \cdot \mathbf{v})_i = \sum_{j=1}^{n} A_{ij} \cdot v_j$$

In parole semplici: per calcolare l'elemento $i$ del risultato, moltiplichi la riga $i$ della matrice per il vettore elemento per elemento, e sommi.

### Requisito dimensionale

| Matrice A | Vettore v | Risultato |
|-----------|-----------|-----------|
| (m, n) | (n,) | (m,) |
| (3, 4) | (4,) | (3,) |
| (100, 50) | (50,) | (100,) |

**Regola**: il numero di colonne di A deve essere uguale alla lunghezza di v.

In [None]:
# =============================================================================
# PRODOTTO MATRICE-VETTORE
# =============================================================================
# np.dot calcola il prodotto matriciale.
# Per matrice-vettore, possiamo usare due sintassi equivalenti:
# - np.dot(matrix, vector)
# - matrix @ vector (operatore @ introdotto in Python 3.5)
#
# La seconda sintassi e piu moderna e leggibile.

print("=== PRODOTTO MATRICE-VETTORE ===")
print("Matrice A:")
print(matrix)
print(f"Shape: {matrix.shape}")

print("\nVettore v:")
print(vector)
print(f"Shape: {vector.shape}")

# Calcoliamo il prodotto con entrambe le sintassi
prodotto_dot = np.dot(matrix, vector)
prodotto_at = matrix @ vector

print("\nProdotto (A @ v):")
print(prodotto_at)
print(f"Shape risultato: {prodotto_at.shape}")

# Verifichiamo che le due sintassi diano lo stesso risultato
print("\n=== VERIFICA EQUIVALENZA SINTASSI ===")
print(f"np.dot(A, v) = {prodotto_dot}")
print(f"A @ v        = {prodotto_at}")
assert np.array_equal(prodotto_dot, prodotto_at), "ERRORE: le due sintassi danno risultati diversi!"
print("Verifica superata: np.dot e @ sono equivalenti")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: il risultato deve avere la lunghezza corretta
# -----------------------------------------------------------------------------
# Per una matrice (m, n) e vettore (n,), il risultato deve avere (m,) elementi
# Nel nostro caso: (3, 3) @ (3,) → (3,)

m = matrix.shape[0]  # numero di righe della matrice
print(f"\n=== VERIFICA DIMENSIONE RISULTATO ===")
print(f"Righe matrice: {m}")
print(f"Lunghezza risultato: {len(prodotto_at)}")
assert len(prodotto_at) == m, f"ERRORE: lunghezza risultato {len(prodotto_at)} != righe matrice {m}!"
print("Verifica superata: dimensione risultato corretta")

# Mostriamo il calcolo esplicito per la prima riga
print("\n=== VERIFICA CALCOLO (prima riga) ===")
riga_0 = matrix[0]
calcolo_manuale = (riga_0 * vector).sum()
print(f"Riga 0 della matrice: {riga_0}")
print(f"Vettore: {vector}")
print(f"Prodotto elemento per elemento: {riga_0 * vector}")
print(f"Somma (calcolo manuale): {calcolo_manuale}")
print(f"Risultato da @ : {prodotto_at[0]}")
assert calcolo_manuale == prodotto_at[0], "ERRORE: calcolo manuale non corrisponde!"
print("Verifica superata: il calcolo e corretto")

[8628 7047 7269]


### Trasposta della Matrice

### Perche questo sotto-passaggio e necessario

La trasposta scambia righe e colonne di una matrice. E un'operazione fondamentale che serve in molte situazioni:

1. **Requisiti dimensionali**: se devi moltiplicare due matrici ma le dimensioni non combaciano, la trasposta puo risolvere
2. **Simmetria**: verificare se una matrice e simmetrica (A = A.T)
3. **Covarianza**: la matrice di covarianza si calcola come X.T @ X
4. **Interpretazione dati**: a volte e utile "girare" i dati per vederli da un'altra prospettiva

### Proprieta della trasposta

| Proprieta | Formula | Significato |
|-----------|---------|-------------|
| Shape | (m, n) → (n, m) | Righe e colonne si scambiano |
| Doppia trasposta | (A.T).T = A | Tornare indietro da il dato originale |
| Elemento | A.T[i,j] = A[j,i] | Gli indici si scambiano |
| Trasposta di vettore | (n,) resta (n,) | I vettori 1D non cambiano (serve reshape per ottenere vettore colonna) |

In [None]:
# =============================================================================
# TRASPOSTA DELLA MATRICE
# =============================================================================
# L'attributo .T restituisce la trasposta della matrice.
# Righe diventano colonne e viceversa.
#
# NOTA: .T restituisce una VISTA, non una copia.
# Modificare la trasposta modifica anche l'originale!

print("=== TRASPOSTA DELLA MATRICE ===")
print("Matrice originale A:")
print(matrix)
print(f"Shape: {matrix.shape}")

print("\nMatrice trasposta A.T:")
print(matrix.T)
print(f"Shape: {matrix.T.shape}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: per una matrice quadrata, la shape resta uguale
# Ma gli elementi [i,j] e [j,i] si scambiano
# -----------------------------------------------------------------------------
print("\n=== VERIFICA PROPRIETA TRASPOSTA ===")

# Verifica 1: la shape si inverte (per matrici quadrate resta uguale)
shape_orig = matrix.shape
shape_trasp = matrix.T.shape
print(f"Shape originale: {shape_orig}")
print(f"Shape trasposta: {shape_trasp}")
assert shape_trasp == (shape_orig[1], shape_orig[0]), "ERRORE: la shape non si e invertita!"
print("Verifica 1 superata: shape correttamente invertita")

# Verifica 2: gli elementi [i,j] e [j,i] si scambiano
print(f"\nElemento [0,1] originale: {matrix[0, 1]}")
print(f"Elemento [1,0] trasposta: {matrix.T[1, 0]}")
assert matrix[0, 1] == matrix.T[1, 0], "ERRORE: gli elementi non si sono scambiati!"
print("Verifica 2 superata: elementi [i,j] e [j,i] scambiati")

# Verifica 3: doppia trasposta = originale
doppia_trasposta = matrix.T.T
print(f"\nDoppia trasposta uguale a originale? {np.array_equal(doppia_trasposta, matrix)}")
assert np.array_equal(doppia_trasposta, matrix), "ERRORE: (A.T).T != A!"
print("Verifica 3 superata: (A.T).T = A")

array([[58,  5, 14],
       [69, 74, 57],
       [11, 42, 48]], dtype=int32)

### Aggregazioni per Asse

### Perche questo sotto-passaggio e necessario

Spesso vogliamo calcolare statistiche non sull'intero array, ma lungo una sola dimensione. Esempi pratici:

- **Dataset di vendite** (righe = giorni, colonne = prodotti): media giornaliera vs media per prodotto
- **Immagini** (righe = pixel verticali, colonne = pixel orizzontali): luminosita media per riga vs per colonna
- **Dati temporali** (righe = misurazioni, colonne = sensori): media per sensore vs media per istante

Il parametro `axis` controlla lungo quale dimensione aggregare.

### Il parametro axis

| Valore axis | Cosa viene "compresso" | Risultato | Esempio su (3, 4) |
|-------------|------------------------|-----------|-------------------|
| Nessuno | Tutto | Scalare | 1 valore |
| `axis=0` | Le righe | Un valore per colonna | 4 valori |
| `axis=1` | Le colonne | Un valore per riga | 3 valori |

### Regola mnemonica

"L'asse che specifichi e l'asse che scompare dal risultato."

- axis=0 su shape (3, 4) → risultato shape (4,) perche il "3" scompare
- axis=1 su shape (3, 4) → risultato shape (3,) perche il "4" scompare

### Visualizzazione

```
         axis=1 (comprime →)
              ↓
        [ a  b  c  d ]  → media_riga_0
axis=0  [ e  f  g  h ]  → media_riga_1
   ↓    [ i  j  k  l ]  → media_riga_2
        ↓  ↓  ↓  ↓
       media per colonna
```

In [None]:
# =============================================================================
# AGGREGAZIONI PER ASSE
# =============================================================================
# Il parametro axis specifica lungo quale dimensione aggregare.
# Ricorda: l'asse specificato "scompare" dal risultato.

print("=== MATRICE DI PARTENZA ===")
print("Matrice:")
print(matrix)
print(f"Shape: {matrix.shape} (3 righe, 3 colonne)")

# -----------------------------------------------------------------------------
# MEDIA SENZA ASSE: media di tutti gli elementi
# -----------------------------------------------------------------------------
media_globale = matrix.mean()
print(f"\n=== MEDIA GLOBALE (nessun asse) ===")
print(f"Media di tutti i {matrix.size} elementi: {media_globale:.2f}")

# -----------------------------------------------------------------------------
# MEDIA PER COLONNA (axis=0): comprime le righe
# -----------------------------------------------------------------------------
# Per ogni colonna, calcola la media delle 3 righe
# Shape: (3, 3) → (3,) perche l'asse 0 (righe) scompare
medie_colonne = matrix.mean(axis=0)
print(f"\n=== MEDIA PER COLONNA (axis=0) ===")
print(f"Medie: {medie_colonne}")
print(f"Lunghezza: {len(medie_colonne)} (una per ogni colonna)")
print(f"Shape risultato: {medie_colonne.shape}")

# Verifichiamo il calcolo per la prima colonna
col_0 = matrix[:, 0]  # Prima colonna
media_col_0_manuale = col_0.mean()
print(f"\nVerifica colonna 0: {col_0} → media = {media_col_0_manuale:.2f}")
assert abs(media_col_0_manuale - medie_colonne[0]) < 1e-10, "ERRORE calcolo!"

# -----------------------------------------------------------------------------
# MEDIA PER RIGA (axis=1): comprime le colonne
# -----------------------------------------------------------------------------
# Per ogni riga, calcola la media delle 3 colonne
# Shape: (3, 3) → (3,) perche l'asse 1 (colonne) scompare
medie_righe = matrix.mean(axis=1)
print(f"\n=== MEDIA PER RIGA (axis=1) ===")
print(f"Medie: {medie_righe}")
print(f"Lunghezza: {len(medie_righe)} (una per ogni riga)")
print(f"Shape risultato: {medie_righe.shape}")

# Verifichiamo il calcolo per la prima riga
riga_0 = matrix[0, :]  # Prima riga
media_riga_0_manuale = riga_0.mean()
print(f"\nVerifica riga 0: {riga_0} → media = {media_riga_0_manuale:.2f}")
assert abs(media_riga_0_manuale - medie_righe[0]) < 1e-10, "ERRORE calcolo!"

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: la media globale deve essere coerente
# -----------------------------------------------------------------------------
# Per una matrice, la media globale = media delle medie per colonna = media delle medie per riga
print(f"\n=== VERIFICA COERENZA ===")
print(f"Media globale:                    {media_globale:.4f}")
print(f"Media delle medie per colonna:    {medie_colonne.mean():.4f}")
print(f"Media delle medie per riga:       {medie_righe.mean():.4f}")

# Tolleranza per errori floating-point
assert abs(media_globale - medie_colonne.mean()) < 1e-10, "ERRORE: medie non coerenti!"
assert abs(media_globale - medie_righe.mean()) < 1e-10, "ERRORE: medie non coerenti!"
print("Verifica superata: tutte le medie sono coerenti")

array([46.        , 40.33333333, 39.66666667])

---

# 5) Esercizi risolti (step by step)

In questa sezione riassumiamo tutte le funzioni e i metodi usati nella lezione, con riferimento rapido per uso futuro. Questa serve come guida operativa da consultare quando applichi queste tecniche ai tuoi dati.

## Tabella riassuntiva: Funzioni di Importazione

| Funzione | Descrizione | Esempio |
|----------|-------------|---------|
| `import numpy as np` | Importa NumPy con alias `np` | `np.array([1,2,3])` |
| `import pandas as pd` | Importa Pandas con alias `pd` | `pd.DataFrame(...)` |

## Tabella riassuntiva: Generazione di Array

| Funzione | Input | Output | Descrizione | Errori comuni |
|----------|-------|--------|-------------|---------------|
| `np.array(lista)` | lista Python | ndarray | Converte lista in array NumPy | Elementi di tipo diverso → coercizione |
| `np.random.randint(low, high, size)` | int, int, int/tupla | ndarray | Genera interi casuali in [low, high) | high escluso, non incluso! |
| `np.random.seed(n)` | int | None | Fissa il generatore per riproducibilita | Deve essere chiamato PRIMA della generazione |
| `np.zeros(shape)` | tupla | ndarray | Array di tutti zeri | Shape deve essere tupla, es. (3,4) |
| `np.ones(shape)` | tupla | ndarray | Array di tutti uno | Shape deve essere tupla |
| `np.arange(start, stop, step)` | numeri | ndarray | Sequenza regolare | stop escluso, come range() |

## Tabella riassuntiva: Metodi Statistici di Array

| Metodo | Input | Output | Descrizione | Nota importante |
|--------|-------|--------|-------------|-----------------|
| `.max()` | - | scalare | Valore massimo | Per posizione usa np.argmax() |
| `.min()` | - | scalare | Valore minimo | Per posizione usa np.argmin() |
| `.mean()` | - | float | Media aritmetica | Sensibile a outlier |
| `.std()` | - | float | Deviazione standard (popolazione) | Per campione usa ddof=1 |
| `.std(ddof=1)` | - | float | Deviazione standard (campione) | Divisore N-1 invece di N |
| `.sum()` | - | scalare | Somma di tutti gli elementi | Overflow possibile con int |
| `.var()` | - | float | Varianza | = std**2 |

## Tabella riassuntiva: Attributi di Array

| Attributo | Tipo | Descrizione | Esempio |
|-----------|------|-------------|---------|
| `.shape` | tupla | Dimensioni dell'array | (3, 4) = 3 righe, 4 colonne |
| `.dtype` | dtype | Tipo di dato | int64, float64, bool |
| `.ndim` | int | Numero di dimensioni | 1 per vettori, 2 per matrici |
| `.size` | int | Numero totale di elementi | 12 per shape (3, 4) |
| `.T` | ndarray | Trasposta | Scambia righe e colonne |

## Tabella riassuntiva: Operazioni con Maschere

| Operazione | Sintassi | Descrizione | Attenzione |
|------------|----------|-------------|------------|
| Creare maschera | `arr > valore` | Restituisce array booleano | Ogni confronto e elemento per elemento |
| Filtrare | `arr[maschera]` | Estrae elementi True | Restituisce COPIA, non vista |
| Modificare | `arr[maschera] = nuovo` | Cambia elementi True | Modifica IN-PLACE |
| AND logico | `(cond1) & (cond2)` | True se entrambe vere | PARENTESI obbligatorie! |
| OR logico | `(cond1) \| (cond2)` | True se almeno una vera | PARENTESI obbligatorie! |
| NOT logico | `~condizione` | Inverte True/False | Singola tilde |

## Tabella riassuntiva: Algebra Lineare

| Funzione | Input | Output | Descrizione | Requisiti dimensionali |
|----------|-------|--------|-------------|------------------------|
| `np.dot(A, v)` | matrice, vettore | vettore | Prodotto matrice-vettore | colonne A = lunghezza v |
| `A @ v` | matrice, vettore | vettore | Equivalente a np.dot | colonne A = lunghezza v |
| `.mean(axis=0)` | - | array | Media per colonna | Asse 0 scompare |
| `.mean(axis=1)` | - | array | Media per riga | Asse 1 scompare |
| `.sum(axis=0)` | - | array | Somma per colonna | Asse 0 scompare |
| `.sum(axis=1)` | - | array | Somma per riga | Asse 1 scompare |

---

## Glossario essenziale

Questa tabella definisce i termini tecnici usati in questa lezione. Consulta questa sezione quando incontri un termine che non ricordi.

| Termine | Definizione |
|---------|-------------|
| **Array** | Struttura dati che contiene elementi dello stesso tipo, organizzati in una o piu dimensioni. In NumPy, e l'oggetto `ndarray`. |
| **Asse (axis)** | Una dimensione di un array. Per una matrice: axis=0 sono le righe, axis=1 sono le colonne. |
| **Boolean Indexing** | Tecnica di filtraggio che usa un array booleano per selezionare elementi. Sintassi: `arr[maschera]`. |
| **Broadcasting** | Meccanismo NumPy che espande automaticamente scalari o array piccoli per operare con array piu grandi senza cicli espliciti. |
| **Deviazione Standard** | Misura di dispersione: quanto i valori si allontanano dalla media. Formula: $\sqrt{\frac{1}{n}\sum(x_i - \bar{x})^2}$. |
| **dtype** | Tipo di dato di un array NumPy. Esempi: int64 (intero 64 bit), float64 (decimale 64 bit), bool (booleano). |
| **Maschera Booleana** | Array di True/False usato per filtrare o selezionare elementi. Creata con confronti: `arr > 5`. |
| **Matrice** | Array bidimensionale organizzato in righe e colonne. Shape: (m, n) dove m = righe, n = colonne. |
| **Media (Mean)** | Valore centrale calcolato come somma degli elementi diviso il loro numero. Formula: $\bar{x} = \frac{\sum x_i}{n}$. |
| **ndarray** | Oggetto array multidimensionale di NumPy (n-dimensional array). E il tipo fondamentale di NumPy. |
| **Prodotto Matrice-Vettore** | Operazione che moltiplica ogni riga della matrice per il vettore elemento per elemento e somma. |
| **Pseudo-casuale** | Numeri generati da un algoritmo deterministico che sembrano casuali. Riproducibili con `np.random.seed()`. |
| **Shape** | Attributo che descrive le dimensioni di un array. Esempio: (3, 4) = 3 righe, 4 colonne, 12 elementi totali. |
| **Trasposta** | Operazione che scambia righe e colonne di una matrice. In NumPy: `A.T`. Shape (m, n) → (n, m). |
| **Varianza** | Misura di dispersione: media dei quadrati degli scostamenti dalla media. E il quadrato della deviazione standard. |
| **Vettore** | Array monodimensionale, una sequenza di numeri. In NumPy ha shape (n,) con una sola dimensione. |
| **Vettorizzazione** | Esecuzione di operazioni su interi array senza cicli espliciti. E il modo "NumPy" di scrivere codice. |
| **Vista (View)** | Riferimento agli stessi dati in memoria. Modificare una vista modifica l'originale. Slicing crea viste. |
| **Z-score** | Punteggio standardizzato: quante deviazioni standard un valore dista dalla media. Formula: $z = \frac{x - \bar{x}}{\sigma}$. |

---

## Errori comuni e debug rapido

Questa sezione elenca gli errori piu frequenti quando si lavora con NumPy, con diagnosi e soluzioni immediate.

### Tabella errori-soluzioni

| Sintomo | Causa Probabile | Soluzione Rapida | Come verificare |
|---------|-----------------|------------------|-----------------|
| `ModuleNotFoundError: No module named 'numpy'` | NumPy non installato | `pip install numpy` | `import numpy` senza errori |
| `ValueError: operands could not be broadcast` | Forme incompatibili per broadcasting | `print(a.shape, b.shape)` e verifica compatibilita | Le shape devono essere compatibili |
| `TypeError: 'numpy.float64' object is not iterable` | Stai iterando su uno scalare | Verifica che sia array: `type(var)` | Deve essere `numpy.ndarray` |
| `IndexError: index X is out of bounds` | Indice fuori range | `print(arr.shape)` e usa indici 0 a n-1 | Indice < dimensione |
| Risultato inatteso con `and`/`or` | Usato `and` invece di `&` | Usa `&` / `|` con parentesi | `(cond1) & (cond2)` |
| `ValueError: The truth value of an array is ambiguous` | Usato `if array:` | Usa `if array.any():` o `if array.all():` | Specifica cosa intendi |
| Media non cambia dopo modifica | Hai creato copia invece di modificare in-place | Usa `arr[mask] = valore` direttamente | Stampa prima e dopo |
| Z-score non ha media 0 | Errore di arrotondamento o formula sbagliata | Usa `.mean()` e `.std()` dallo stesso array | `abs(z.mean()) < 1e-10` |
| Prodotto matrice-vettore fallisce | Dimensioni incompatibili | Matrice (m, n) richiede vettore (n,) | `print(A.shape, v.shape)` |
| `axis` produce risultato inatteso | Confusione su quale asse | axis=0 comprime righe, axis=1 comprime colonne | Verifica shape risultato |
| Array modificato inaspettatamente | Slicing crea viste, non copie | Usa `.copy()` per creare copia indipendente | `arr_copia = arr.copy()` |
| `MemoryError` | Array troppo grande | Lavora su sottoinsiemi o usa dtype piu piccolo | `arr.nbytes` per vedere dimensione |

### Tecniche di Debug Consigliate

1. **Stampa sempre la shape:** `print(f"Shape: {array.shape}")` prima di ogni operazione
2. **Verifica il dtype:** `print(f"Tipo: {array.dtype}")` per capire il tipo di dato
3. **Ispeziona i primi elementi:** `print(array[:5])` per vedere cosa contiene
4. **Usa assert per verifiche:** `assert condizione, "messaggio errore"` per bloccare l'esecuzione se qualcosa va storto
5. **Testa su dati piccoli:** Prima prova su array di 3-5 elementi dove puoi verificare a mano
6. **Confronta con calcolo manuale:** Per la prima riga/colonna, calcola a mano e confronta
7. **Usa print intermedi:** Stampa i risultati intermedi per capire dove il calcolo diverge

### Checklist di debug pre-operazione

Prima di ogni operazione NumPy importante, verifica:

- [ ] Le shape sono compatibili per l'operazione?
- [ ] I dtype sono appropriati (non stai dividendo interi quando vuoi decimali)?
- [ ] Non ci sono NaN inaspettati? (`np.isnan(arr).any()`)
- [ ] L'array non e vuoto? (`len(arr) > 0`)
- [ ] Stai modificando l'originale o una copia?

---

# 6) Conclusione operativa

## Cosa Abbiamo Imparato

In questa lezione abbiamo costruito le fondamenta per lavorare con dati numerici in Python. Ecco i concetti chiave da portare con te:

### Concetti fondamentali

1. **NumPy e il cuore del calcolo scientifico** in Python: array efficienti e operazioni vettorizzate che sono 10-100x piu veloci dei cicli Python

2. **Generare dati casuali** con `np.random.randint` per sperimentare e testare senza dipendere da file esterni

3. **Statistiche descrittive** (max, min, mean, std) sono il primo passo di qualsiasi analisi: ti dicono cosa contiene il dataset

4. **Broadcasting** permette operazioni elemento-per-elemento senza cicli: `array - media` sottrae la media da ogni elemento automaticamente

5. **Z-score** standardizza i dati portandoli su scala comune (media 0, std 1): essenziale per confrontare variabili con scale diverse

6. **Maschere booleane** sono lo strumento principale per filtrare e modificare dati condizionalmente: `arr[arr > 5]` estrae solo valori > 5

7. **Vettori e matrici** si manipolano con prodotto, trasposta e aggregazioni per asse: fondamentali per capire come funzionano gli algoritmi ML

### Pattern operativo da memorizzare

```
CREA → ISPEZIONA → CALCOLA → TRASFORMA → FILTRA → VERIFICA
```

Applica questo pattern a ogni analisi:
1. **CREA**: genera o carica i dati
2. **ISPEZIONA**: shape, dtype, head, statistiche
3. **CALCOLA**: statistiche descrittive
4. **TRASFORMA**: normalizzazione, feature engineering
5. **FILTRA**: selezione di sottoinsiemi
6. **VERIFICA**: controlla che i risultati siano sensati

### Regole d'oro NumPy

1. **Evita i cicli**: usa operazioni vettorizzate
2. **Verifica sempre la shape**: prima di ogni operazione
3. **Usa & e | con parentesi**: mai `and`/`or` con array
4. **Copia esplicitamente se necessario**: `.copy()` quando vuoi indipendenza
5. **Stampa risultati intermedi**: per debug

### Connessione con le lezioni successive

Questa lezione e la base per tutto quello che segue:
- **Pandas** (Lezione 2+): costruito sopra NumPy, aggiunge etichette
- **Feature Engineering**: usa broadcasting e maschere
- **Machine Learning**: usa matrici e prodotti per calcoli interni
- **Statistiche avanzate**: si costruiscono su mean, std, z-score

## Prossimi Passi

Nella prossima lezione userai Pandas per lavorare con dati tabulari (DataFrame), che si costruisce sopra NumPy ma aggiunge etichette per righe e colonne, rendendo l'analisi piu intuitiva.

---

# 7) Checklist di fine lezione

Prima di procedere alla prossima lezione, verifica di saper fare tutto quanto segue. Ogni punto corrisponde a una competenza pratica che userai nelle lezioni successive.

## Competenze fondamentali (obbligatorie)

- [ ] So importare NumPy con `import numpy as np`
- [ ] So creare un array di numeri casuali con `np.random.randint(low, high, size)`
- [ ] So verificare la forma di un array con `.shape`
- [ ] So verificare il tipo di dati con `.dtype`
- [ ] So calcolare max, min, media e deviazione standard di un array
- [ ] Capisco cos'e il broadcasting e so usarlo per operazioni scalare-array
- [ ] So calcolare lo z-score: `z = (x - x.mean()) / x.std()`
- [ ] Capisco che lo z-score ha sempre media 0 e std 1

## Competenze su maschere booleane (obbligatorie)

- [ ] So creare una maschera booleana con condizioni (`>`, `<`, `==`, `!=`)
- [ ] So combinare condizioni con `&` (AND) e `|` (OR) usando parentesi
- [ ] So che devo usare `&` e non `and` con array NumPy
- [ ] So filtrare un array con boolean indexing: `arr[maschera]`
- [ ] So modificare elementi selezionati in-place: `arr[maschera] = nuovo_valore`
- [ ] So contare elementi che soddisfano una condizione: `np.sum(maschera)`

## Competenze su matrici (obbligatorie)

- [ ] So creare matrici specificando shape come tupla: `np.random.randint(0, 100, (3, 4))`
- [ ] So calcolare il prodotto matrice-vettore con `np.dot(A, v)` o `A @ v`
- [ ] So ottenere la trasposta con `.T`
- [ ] Capisco la differenza tra `axis=0` (per colonna) e `axis=1` (per riga)
- [ ] So che l'asse specificato "scompare" dal risultato

## Competenze di verifica (obbligatorie)

- [ ] So aggiungere sanity check con `assert condizione, "messaggio"`
- [ ] So stampare shape e dtype per debug
- [ ] So verificare che la somma degli scostamenti dalla media sia circa 0
- [ ] So verificare che lo z-score abbia media 0 e std 1

## Auto-valutazione

Rispondi a queste domande per verificare la comprensione:

1. Perche NumPy e piu veloce delle liste Python?
2. Cosa significa `high` escluso in `np.random.randint`?
3. Qual e la differenza tra `.std()` e `.std(ddof=1)`?
4. Perche non posso usare `and` con array NumPy?
5. Cosa fa `arr[arr > 5] = 0`?
6. Se una matrice ha shape (3, 4), qual e la shape di `.mean(axis=0)`?

**Se hai dubbi su qualche punto, rileggi la sezione corrispondente prima di proseguire.**

---

# 8) Changelog didattico

Registro delle modifiche apportate a questo notebook per migliorarne la qualita didattica.

| Versione | Data | Modifiche |
|----------|------|-----------|
| 1.0 | Originale | Versione iniziale del notebook |
| 2.0 | 2025-01 | Ristrutturazione completa secondo template standard a 8 sezioni |
| 2.1 | 2025-01 | Espansione sezione teoria con spiegazioni da primi principi |
| 2.2 | 2025-01 | Aggiunta mappa decisionale dettagliata |
| 2.3 | 2025-01 | Potenziati tutti i "Perche questo passaggio" con 1500+ caratteri |
| 2.4 | 2025-01 | Aggiunti micro-checkpoint con assert dopo ogni passaggio chiave |
| 2.5 | 2025-01 | Espanse tabelle funzioni con colonne errori e quando usare |
| 2.6 | 2025-01 | Glossario ampliato a 19 termini con definizioni precise |
| 2.7 | 2025-01 | Sezione debug espansa con checklist pre-operazione |
| 2.8 | 2025-01 | Checklist finale ampliata con domande di auto-valutazione |

### Principi seguiti in questa revisione

- Ogni concetto spiegato da primi principi, senza assumere conoscenze pregresse
- Ogni passaggio di codice preceduto da spiegazione del "perche"
- Ogni funzione importante documentata con input/output/errori
- Verifica con assert dopo ogni operazione critica
- Nessuna rimozione di contenuto originale
- Linguaggio tecnico ma accessibile

---

**Fine della Lezione 1 - Introduzione a NumPy e Manipolazioni di Base**