# Lezione 1 — Introduzione a NumPy e Manipolazioni di Base

---

## Obiettivi della Lezione

Al termine di questa lezione sarai in grado di:

1. Comprendere cosa sia NumPy e perche si usa nell'analisi dati
2. Generare array di numeri casuali con `np.random.randint`
3. Calcolare statistiche descrittive di base: massimo, minimo, media, deviazione standard
4. Applicare il broadcasting per operazioni elemento-per-elemento
5. Utilizzare maschere booleane per filtrare e modificare array
6. Lavorare con vettori e matrici: prodotto, trasposta, aggregazioni per asse
7. Calcolare lo z-score (punteggio standard) di un array

---

## Prerequisiti

- Conoscenza base di Python (variabili, liste, funzioni)
- Nessuna conoscenza pregressa di NumPy richiesta

---

## Indice

1. Teoria concettuale approfondita
2. Schema mentale / mappa decisionale
3. Setup e importazione librerie
4. Sezione dimostrativa: operazioni NumPy passo per passo
5. Esercizi risolti guidati
6. Metodi spiegati
7. Glossario
8. Errori comuni e debug rapido
9. Conclusione operativa
10. Checklist di fine lezione
11. Changelog didattico

---

## Librerie Utilizzate

```python
numpy, pandas
```

---

# SEZIONE 1 — Teoria Concettuale Approfondita

## 1.1 — Cos'e NumPy e perche e fondamentale

**NumPy** (Numerical Python) e la libreria fondamentale per il calcolo scientifico in Python. Fornisce:

- Un oggetto array multidimensionale efficiente (`ndarray`)
- Funzioni matematiche ottimizzate che operano su interi array
- Strumenti per l'algebra lineare, generazione di numeri casuali e molto altro

**Perche usare NumPy invece delle liste Python?**

| Caratteristica | Liste Python | Array NumPy |
|---------------|--------------|-------------|
| Velocita | Lenta (cicli interpretati) | Veloce (operazioni vettorizzate in C) |
| Memoria | Maggiore overhead | Compatta e contigua |
| Operazioni matematiche | Richiede cicli espliciti | Operazioni su tutto l'array in una riga |
| Tipi di dato | Eterogenei | Omogenei (tutti dello stesso tipo) |

## 1.2 — Il concetto di Array

Un **array** e una struttura dati che contiene elementi dello stesso tipo, organizzati in una o piu dimensioni:

- **Vettore (1D)**: una sequenza di numeri, es. `[1, 2, 3, 4, 5]`
- **Matrice (2D)**: una tabella di numeri con righe e colonne
- **Tensore (nD)**: generalizzazione a n dimensioni

Ogni array ha attributi fondamentali:
- **shape**: la forma (es. `(3, 4)` per una matrice 3 righe x 4 colonne)
- **dtype**: il tipo di dato (es. `int64`, `float64`)
- **ndim**: il numero di dimensioni

## 1.3 — Statistiche descrittive: cosa misurano

Le statistiche descrittive riassumono un insieme di dati con pochi numeri:

| Statistica | Formula | Cosa misura |
|------------|---------|-------------|
| **Media** | $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ | Il valore "centrale" tipico |
| **Massimo** | $\max(x_1, x_2, ..., x_n)$ | Il valore piu grande |
| **Minimo** | $\min(x_1, x_2, ..., x_n)$ | Il valore piu piccolo |
| **Deviazione standard** | $\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}$ | Quanto i valori si disperdono dalla media |

**Interpretazione della deviazione standard:**
- Deviazione piccola: i valori sono concentrati vicino alla media
- Deviazione grande: i valori sono molto dispersi

## 1.4 — Il Broadcasting: operazioni senza cicli

Il **broadcasting** e il meccanismo che permette a NumPy di eseguire operazioni tra array di forme diverse. Quando scrivi:

```python
array - media  # dove media e un singolo numero
```

NumPy "espande" automaticamente il valore scalare per applicarlo a ogni elemento dell'array. Questo evita cicli espliciti e rende il codice piu leggibile e veloce.

## 1.5 — Z-score: standardizzazione dei dati

Lo **z-score** (o punteggio standard) trasforma i dati in una scala comune:

$$z_i = \frac{x_i - \bar{x}}{\sigma}$$

Dove:
- $x_i$ = valore originale
- $\bar{x}$ = media
- $\sigma$ = deviazione standard

**Proprieta del risultato:**
- La media dei dati standardizzati e sempre 0
- La deviazione standard e sempre 1

**Quando usarlo:** per confrontare variabili con scale diverse (es. eta in anni vs reddito in euro).

## 1.6 — Maschere booleane: filtraggio intelligente

Una **maschera booleana** e un array di `True`/`False` della stessa lunghezza dell'array originale. Si usa per:

1. **Filtrare**: estrarre solo gli elementi che soddisfano una condizione
2. **Contare**: sommare i `True` (ogni `True` vale 1)
3. **Modificare**: cambiare solo gli elementi selezionati

**Attenzione agli operatori:**
- Usa `&` per AND (non `and`)
- Usa `|` per OR (non `or`)
- Racchiudi ogni condizione tra parentesi

---

# SEZIONE 2 — Schema Mentale / Mappa Decisionale

## Quando usare NumPy

```
HAI DATI NUMERICI DA ELABORARE?
    |
    +-- NO --> Usa liste Python standard o altre strutture
    |
    +-- SI --> QUANTI ELEMENTI?
                |
                +-- Pochi (< 100) --> Liste Python vanno bene, ma NumPy e comunque piu elegante
                |
                +-- Molti (> 100) --> USA NUMPY per efficienza
                        |
                        +-- DEVI FARE OPERAZIONI MATEMATICHE SU TUTTI GLI ELEMENTI?
                                |
                                +-- SI --> Usa operazioni vettorizzate (broadcasting)
                                |
                                +-- DEVI FILTRARE/SELEZIONARE ELEMENTI?
                                        |
                                        +-- SI --> Usa maschere booleane
                                        |
                                        +-- DEVI FARE ALGEBRA LINEARE?
                                                |
                                                +-- SI --> Usa np.dot, .T, reshape
```

## Scelta della funzione statistica

| Domanda | Funzione |
|---------|----------|
| Qual e il valore tipico? | `.mean()` |
| Qual e il valore centrale ordinato? | `np.median()` |
| Quanto sono dispersi i dati? | `.std()` |
| Qual e il range? | `.max() - .min()` |
| Quanti elementi soddisfano una condizione? | `np.sum(maschera)` |

## Pattern operativo della lezione

```
1. CREA array (np.array o np.random)
       |
       v
2. ISPEZIONA (print, .shape, .dtype)
       |
       v
3. CALCOLA statistiche (.mean, .max, .min, .std)
       |
       v
4. TRASFORMA (broadcasting, z-score)
       |
       v
5. FILTRA (maschere booleane)
       |
       v
6. VERIFICA (controlla risultati attesi)
```

---

# SEZIONE 3 — Notebook Dimostrativo

## 3.1 — Setup: importare le librerie

**Perche questo passaggio:** Prima di usare qualsiasi funzione di NumPy o Pandas, dobbiamo importare le librerie. Usiamo alias standard (`np` e `pd`) che sono convenzioni universalmente adottate nella comunita Python.

Importiamo `pandas` e `numpy` con la sintassi `import <modulo> as <alias>`. In questo notebook useremo soprattutto NumPy:
- `import numpy as np` crea l'alias `np`, cosi ogni funzione NumPy si richiama come `np.funzione()`;
- `import pandas as pd` e presente per coerenza con gli altri esercizi ma non e strettamente usato in questo file.

In [None]:
# =============================================================================
# IMPORT DELLE LIBRERIE
# =============================================================================
# numpy: libreria per il calcolo numerico, array e operazioni vettorizzate
# pandas: libreria per la manipolazione di dati tabulari (usata poco in questa lezione)

import pandas as pd
import numpy as np

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che le librerie siano importate correttamente
# -----------------------------------------------------------------------------
# Se non ci sono errori, le librerie sono pronte. Stampiamo le versioni:
print("NumPy versione:", np.__version__)
print("Pandas versione:", pd.__version__)
print("Import completato con successo.")

## 3.2 — Generare numeri casuali con `np.random.randint`

**Perche questo passaggio:** In analisi dati spesso lavoriamo con dati reali, ma per imparare e utile generare dati sintetici. `np.random.randint` ci permette di creare array di interi casuali con controllo completo sui valori.

**Spiegazione della funzione:**

| Parametro | Tipo | Descrizione |
|-----------|------|-------------|
| `low` | int | Valore minimo (incluso) |
| `high` | int | Valore massimo (escluso) |
| `size` | int o tupla | Numero di elementi (int per vettore, tupla per matrice) |

**Output:** Un array NumPy di interi casuali.

**Attenzione:** Ogni esecuzione produce numeri diversi. Per risultati riproducibili, usa `np.random.seed(valore)` prima della chiamata.

In [None]:
# =============================================================================
# GENERAZIONE DI NUMERI CASUALI
# =============================================================================
# Creiamo un array di 14 interi casuali tra 15 (incluso) e 30 (escluso)
# Questo simula, ad esempio, temperature giornaliere in gradi Celsius

numeri_random = np.random.randint(low=15, high=30, size=14)

# Stampiamo l'array per vedere i valori generati
print("Array generato:", numeri_random)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifichiamo forma e tipo
# -----------------------------------------------------------------------------
# Cosa ci aspettiamo: un array 1D con 14 elementi, tipo int
print("Forma (shape):", numeri_random.shape)  # Atteso: (14,)
print("Tipo (dtype):", numeri_random.dtype)   # Atteso: int32 o int64
print("Numero elementi:", len(numeri_random)) # Atteso: 14

[28 21 16 22 26 20 16 19 26 23 23 22 16 22]


## 3.3 — Calcolare statistiche descrittive: max, min, std, mean

**Perche questo passaggio:** Le statistiche descrittive sono il primo passo di qualsiasi analisi. Ci dicono rapidamente com'e distribuito il nostro dataset.

**Metodi utilizzati:**

| Metodo | Input | Output | Descrizione |
|--------|-------|--------|-------------|
| `.max()` | array | scalare | Restituisce il valore massimo |
| `.min()` | array | scalare | Restituisce il valore minimo |
| `.mean()` | array | float | Calcola la media aritmetica |
| `.std()` | array | float | Calcola la deviazione standard (popolazione) |

**Nota importante:** Usiamo nomi di variabile come `val_max` invece di `max` per evitare di sovrascrivere la funzione built-in di Python. Nel codice seguente usiamo `max` per semplicita didattica, ma nella pratica professionale evita questo pattern.

In [None]:
# =============================================================================
# CALCOLO STATISTICHE DESCRITTIVE
# =============================================================================
# Applichiamo i metodi statistici all'array numeri_random

# Valore massimo dell'array
val_max = numeri_random.max()

# Valore minimo dell'array
val_min = numeri_random.min()

# Deviazione standard (misura la dispersione dei valori)
val_std = numeri_random.std()

# Media aritmetica (somma diviso numero elementi)
val_mean = numeri_random.mean()

# Stampiamo tutti i risultati in modo leggibile
print("=== STATISTICHE DESCRITTIVE ===")
print(f"Massimo: {val_max}")
print(f"Minimo:  {val_min}")
print(f"Media:   {val_mean:.2f}")
print(f"Std Dev: {val_std:.2f}")
print(f"Range:   {val_max - val_min}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica di coerenza
# -----------------------------------------------------------------------------
# La media deve essere compresa tra min e max
assert val_min <= val_mean <= val_max, "ERRORE: la media non e tra min e max!"
print("\nVerifica superata: min <= media <= max")

28 16 3.6589281356759136 21.428571428571427


## 3.4 — Scostamento dalla media (Broadcasting)

**Perche questo passaggio:** Calcolare quanto ogni valore si discosta dalla media e utile per identificare valori anomali e capire la distribuzione.

**Concetto chiave - Broadcasting:**
Quando scrivi `array - scalare`, NumPy applica automaticamente l'operazione a ogni elemento. Non servono cicli `for`.

**Formula applicata:**
$$\text{scostamento}_i = x_i - \bar{x}$$

**Interpretazione del risultato:**
- Valori positivi: sopra la media
- Valori negativi: sotto la media
- Valori vicini a zero: vicini alla media

In [None]:
# =============================================================================
# CALCOLO SCOSTAMENTO DALLA MEDIA
# =============================================================================
# L'espressione numeri_random - val_mean sfrutta il broadcasting:
# val_mean (scalare) viene "espanso" per sottrarsi a ogni elemento

scostamenti = numeri_random - val_mean

# Nota: np.array(...) qui e ridondante perche il risultato e gia un array,
# ma lo mostriamo per chiarezza didattica
scostamenti = np.array(numeri_random - val_mean)

print("Valori originali:", numeri_random)
print("Media:", val_mean)
print("Scostamenti dalla media:", scostamenti)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: la somma degli scostamenti deve essere circa 0
# -----------------------------------------------------------------------------
somma_scostamenti = scostamenti.sum()
print(f"\nSomma degli scostamenti: {somma_scostamenti:.10f}")
print("(Deve essere molto vicina a 0, eventuali piccole differenze sono errori di arrotondamento)")

[ 6.57142857 -0.42857143 -5.42857143  0.57142857  4.57142857 -1.42857143
 -5.42857143 -2.42857143  4.57142857  1.57142857  1.57142857  0.57142857
 -5.42857143  0.57142857]


## 3.5 — Conteggio elementi sopra la media

**Perche questo passaggio:** Contare quanti elementi soddisfano una condizione e un'operazione frequentissima in analisi dati (es. quanti clienti hanno speso piu della media?).

**Meccanismo:**
1. `array > valore` produce un array booleano (`True`/`False`)
2. `sum(array_booleano)` somma i `True` (valgono 1) e `False` (valgono 0)
3. Il risultato e il conteggio degli elementi che soddisfano la condizione

**Alternativa:** `np.sum(array > valore)` fa la stessa cosa.

In [None]:
# =============================================================================
# CONTEGGIO ELEMENTI SOPRA LA MEDIA
# =============================================================================
# Creiamo prima la maschera booleana per vedere come funziona
maschera_sopra_media = numeri_random > val_mean
print("Maschera booleana (True = sopra media):")
print(maschera_sopra_media)

# Contiamo i True usando sum()
# True vale 1, False vale 0, quindi sum() conta i True
elementi_sopra_media = sum(numeri_random > val_mean)

print(f"\nNumero di elementi sopra la media ({val_mean:.2f}): {elementi_sopra_media}")
print(f"Numero di elementi sotto o uguali alla media: {len(numeri_random) - elementi_sopra_media}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica coerenza
# -----------------------------------------------------------------------------
# Il conteggio deve essere tra 0 e la lunghezza dell'array
assert 0 <= elementi_sopra_media <= len(numeri_random), "ERRORE nel conteggio!"
print("\nVerifica superata: conteggio valido")

8


## 3.6 — Calcolo dello Z-score (Punteggio Standard)

**Perche questo passaggio:** Lo z-score standardizza i dati, portandoli su una scala comune con media 0 e deviazione standard 1. Essenziale per confrontare variabili con scale diverse.

**Formula:**
$$z_i = \frac{x_i - \bar{x}}{\sigma}$$

**Interpretazione dei valori z:**
| Valore z | Significato |
|----------|-------------|
| z = 0 | Il valore e esattamente sulla media |
| z = 1 | Il valore e 1 deviazione standard sopra la media |
| z = -1 | Il valore e 1 deviazione standard sotto la media |
| z > 2 o z < -2 | Valore insolito (outlier potenziale) |
| z > 3 o z < -3 | Valore molto raro |

**Nota sul parametro `ddof`:**
- `.std()` di default calcola la deviazione standard della popolazione (denominatore N)
- `.std(ddof=1)` calcola la deviazione standard campionaria (denominatore N-1), usata quando i dati sono un campione

In [None]:
# =============================================================================
# CALCOLO Z-SCORE: PREPARAZIONE DEI DATI
# =============================================================================
# Creiamo un array di esempio con valori noti per illustrare lo z-score
x = np.array([10, 12, 15, 18, 20, 25])

print("Array originale x:", x)
print("Numero elementi:", len(x))

In [None]:
# =============================================================================
# CALCOLO Z-SCORE: APPLICAZIONE DELLA FORMULA
# =============================================================================
# Passo 1: calcolare la media
x_mean = x.mean()
print(f"Media di x: {x_mean:.2f}")

# Passo 2: calcolare la deviazione standard
x_std = x.std()
print(f"Deviazione standard di x: {x_std:.2f}")

# Passo 3: applicare la formula z = (x - media) / std
# Il broadcasting applica l'operazione a ogni elemento
z = (x - x_mean) / x_std

print("\nValori standardizzati (z-score):")
print(z)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica proprieta dello z-score
# -----------------------------------------------------------------------------
print("\n=== VERIFICA PROPRIETA Z-SCORE ===")
print(f"Media degli z-score: {z.mean():.10f} (atteso: 0)")
print(f"Std degli z-score:   {z.std():.10f} (atteso: 1)")

# Verifica con tolleranza per errori di arrotondamento
assert abs(z.mean()) < 1e-10, "ERRORE: la media degli z-score non e 0!"
assert abs(z.std() - 1) < 1e-10, "ERRORE: la std degli z-score non e 1!"
print("\nVerifica superata: standardizzazione corretta")

[-1.32744662 -0.92921264 -0.33186166  0.26548932  0.66372331  1.65930828]
Media: -1.8503717077085943e-16
Deviazione standard: 1.0


## 3.7 — Maschere Logiche e Boolean Indexing

**Perche questo passaggio:** Le maschere booleane sono uno degli strumenti piu potenti di NumPy. Permettono di filtrare, selezionare e modificare elementi in modo elegante e veloce.

**Operazioni principali:**

| Operazione | Sintassi | Risultato |
|------------|----------|-----------|
| Creare maschera | `arr > 50` | Array di True/False |
| Filtrare elementi | `arr[arr > 50]` | Solo elementi che soddisfano la condizione |
| Modificare elementi | `arr[arr > 50] = nuovo_valore` | Modifica in-place |
| Combinare condizioni (AND) | `(cond1) & (cond2)` | True solo se entrambe vere |
| Combinare condizioni (OR) | `(cond1) \| (cond2)` | True se almeno una vera |
| Negare condizione | `~condizione` | Inverte True/False |

**Attenzione critica:**
- Usa `&` e `|`, NON `and` e `or` (questi ultimi non funzionano con array)
- Racchiudi SEMPRE ogni condizione tra parentesi: `(arr > 5) & (arr < 10)`

In [None]:
# =============================================================================
# MASCHERE LOGICHE: CREAZIONE ARRAY DI PARTENZA
# =============================================================================
# Creiamo un array di 20 interi casuali tra 0 e 100
arr = np.random.randint(0, 101, size=20)

print("Array originale:")
print(arr)
print(f"Lunghezza: {len(arr)}")
print(f"Min: {arr.min()}, Max: {arr.max()}")

In [None]:
# =============================================================================
# MASCHERE LOGICHE: CREAZIONE MASCHERA BOOLEANA
# =============================================================================
# Creiamo una maschera che identifica i numeri pari (divisibili per 2)
# L'operatore % restituisce il resto della divisione
# Se il resto e 0, il numero e pari

maschera_pari = arr % 2 == 0

print("Maschera booleana (True = numero pari):")
print(maschera_pari)
print(f"\nNumero di elementi pari: {np.sum(maschera_pari)}")
print(f"Numero di elementi dispari: {np.sum(~maschera_pari)}")  # ~ inverte la maschera

[ True  True  True False  True  True  True False False  True False False
  True  True False  True  True  True  True False]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: FILTRAGGIO (BOOLEAN INDEXING)
# =============================================================================
# Estraiamo solo i numeri pari usando la maschera come indice
# arr[maschera] restituisce un NUOVO array con solo gli elementi True

even_numbers = arr[arr % 2 == 0]

print("Solo numeri pari estratti:")
print(even_numbers)
print(f"Lunghezza array filtrato: {len(even_numbers)}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: tutti gli elementi devono essere pari
# -----------------------------------------------------------------------------
if len(even_numbers) > 0:
    tutti_pari = np.all(even_numbers % 2 == 0)
    print(f"\nVerifica: tutti pari? {tutti_pari}")

[74 48 50 56 80 68 52 32 70  8 94 12 48]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: CONDIZIONI COMBINATE
# =============================================================================
# Filtriamo i numeri pari che sono anche tra 40 e 70 (inclusi)
# ATTENZIONE: usa & per AND e parentesi intorno a ogni condizione

condizione_range = (even_numbers >= 40) & (even_numbers <= 70)
between40_70 = even_numbers[condizione_range]

print("Numeri pari tra 40 e 70:")
print(between40_70)
print(f"Quanti sono: {len(between40_70)}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che tutti i valori siano nel range
# -----------------------------------------------------------------------------
if len(between40_70) > 0:
    tutti_nel_range = np.all((between40_70 >= 40) & (between40_70 <= 70))
    print(f"Verifica range: {tutti_nel_range}")

[48 50 56 68 52 70 48]


In [None]:
# =============================================================================
# MASCHERE LOGICHE: MODIFICA CONDIZIONALE IN-PLACE
# =============================================================================
# Modifichiamo l'array: tutti i numeri pari >= 90 diventano -1
# Questa operazione modifica l'array originale (in-place)

print("Array even_numbers PRIMA della modifica:")
print(even_numbers)

# Creiamo la condizione
condizione_sopra90 = even_numbers >= 90

# Modifichiamo in-place
even_numbers[condizione_sopra90] = -1

print("\nArray even_numbers DOPO la modifica (valori >= 90 -> -1):")
print(even_numbers)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica che non ci siano piu valori >= 90 (eccetto -1)
# -----------------------------------------------------------------------------
valori_positivi_sopra90 = np.sum((even_numbers >= 90))
print(f"\nValori positivi >= 90 rimasti: {valori_positivi_sopra90} (atteso: 0)")

[74 48 50 56 80 68 52 32 70  8 -1 12 48]


## 3.8 — Vettori e Matrici

**Perche questo passaggio:** Molti problemi di data science richiedono operazioni su matrici (tabelle di numeri). NumPy rende queste operazioni semplici e veloci.

**Concetti chiave:**

| Termine | Definizione |
|---------|-------------|
| **Vettore** | Array 1D, una sequenza di numeri |
| **Matrice** | Array 2D, una tabella con righe e colonne |
| **Shape** | Dimensioni dell'array, es. (3, 4) = 3 righe, 4 colonne |
| **Trasposta** | Scambia righe e colonne |

**Operazioni principali:**
- `np.dot(A, v)` o `A @ v`: prodotto matrice-vettore
- `A.T`: trasposta della matrice A
- `A.mean(axis=0)`: media per colonna
- `A.mean(axis=1)`: media per riga

### Creazione di Matrice e Vettore

**Perche questo passaggio:** Creiamo una matrice 3x3 e un vettore di lunghezza 3 per dimostrare le operazioni di algebra lineare base.

In [None]:
# =============================================================================
# CREAZIONE MATRICE E VETTORE
# =============================================================================
# Matrice 3x3: usiamo una tupla (3, 3) come size
matrix = np.random.randint(0, 100, (3, 3))

# Vettore di lunghezza 3: usiamo un intero 3 come size
vector = np.random.randint(0, 100, 3)

print("=== MATRICE 3x3 ===")
print(matrix)
print(f"Shape: {matrix.shape}")

print("\n=== VETTORE ===")
print(vector)
print(f"Shape: {vector.shape}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: verifica dimensioni
# -----------------------------------------------------------------------------
assert matrix.shape == (3, 3), "ERRORE: la matrice non e 3x3!"
assert vector.shape == (3,), "ERRORE: il vettore non ha 3 elementi!"
print("\nVerifica dimensioni superata")

[[58 69 11]
 [ 5 74 42]
 [14 57 48]] [75 51 69]


### Prodotto Matrice-Vettore

**Perche questo passaggio:** Il prodotto matrice-vettore e l'operazione fondamentale dell'algebra lineare. Ogni elemento del risultato e la somma pesata di una riga della matrice moltiplicata per il vettore.

**Formula per l'elemento i del risultato:**
$$(\mathbf{A} \cdot \mathbf{v})_i = \sum_{j=1}^{n} A_{ij} \cdot v_j$$

**Requisito dimensionale:** Se A e (m x n), v deve avere n elementi. Il risultato ha m elementi.

In [None]:
# =============================================================================
# PRODOTTO MATRICE-VETTORE
# =============================================================================
# np.dot calcola il prodotto matriciale
# Equivalente a: matrix @ vector (operatore @)

prodotto = np.dot(matrix, vector)

print("Matrice:")
print(matrix)
print("\nVettore:", vector)
print("\nProdotto (matrix @ vector):", prodotto)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: il risultato deve avere 3 elementi (numero righe della matrice)
# -----------------------------------------------------------------------------
assert len(prodotto) == 3, "ERRORE: il prodotto non ha la lunghezza attesa!"
print(f"\nLunghezza risultato: {len(prodotto)} (atteso: 3)")

[8628 7047 7269]


### Trasposta della Matrice

**Perche questo passaggio:** La trasposta scambia righe e colonne. E utile per cambiare prospettiva sui dati o per soddisfare requisiti dimensionali in operazioni matriciali.

In [None]:
# =============================================================================
# TRASPOSTA DELLA MATRICE
# =============================================================================
# L'attributo .T restituisce la trasposta
# Righe diventano colonne e viceversa

print("Matrice originale:")
print(matrix)
print(f"Shape: {matrix.shape}")

print("\nMatrice trasposta:")
print(matrix.T)
print(f"Shape: {matrix.T.shape}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: per una matrice quadrata, la shape resta uguale
# Ma gli elementi [i,j] e [j,i] si scambiano
# -----------------------------------------------------------------------------
print(f"\nElemento [0,1] originale: {matrix[0, 1]}")
print(f"Elemento [1,0] trasposta: {matrix.T[1, 0]}")
print("Devono essere uguali:", matrix[0, 1] == matrix.T[1, 0])

array([[58,  5, 14],
       [69, 74, 57],
       [11, 42, 48]], dtype=int32)

### Aggregazioni per Asse

**Perche questo passaggio:** Spesso vogliamo calcolare statistiche lungo una sola dimensione (es. media di ogni colonna). Il parametro `axis` controlla questo.

**Il parametro axis:**
- `axis=0`: opera lungo le righe (risultato: un valore per colonna)
- `axis=1`: opera lungo le colonne (risultato: un valore per riga)

**Regola mnemonica:** "axis=0 comprime le righe, axis=1 comprime le colonne"

In [None]:
# =============================================================================
# AGGREGAZIONI PER ASSE
# =============================================================================
print("Matrice:")
print(matrix)

# Media per colonna (axis=0): comprime le righe
medie_colonne = matrix.mean(axis=0)
print(f"\nMedia per colonna (axis=0): {medie_colonne}")
print(f"Lunghezza: {len(medie_colonne)} (una per ogni colonna)")

# Media per riga (axis=1): comprime le colonne
medie_righe = matrix.mean(axis=1)
print(f"\nMedia per riga (axis=1): {medie_righe}")
print(f"Lunghezza: {len(medie_righe)} (una per ogni riga)")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: la media globale deve essere coerente
# -----------------------------------------------------------------------------
media_globale = matrix.mean()
print(f"\nMedia globale: {media_globale:.2f}")
print(f"Media delle medie per colonna: {medie_colonne.mean():.2f}")
print(f"Media delle medie per riga: {medie_righe.mean():.2f}")
print("(Tutte e tre dovrebbero essere uguali per una matrice)")

array([46.        , 40.33333333, 39.66666667])

---

# SEZIONE 4 — Metodi Spiegati

Di seguito una spiegazione dettagliata di ogni funzione e metodo usato in questa lezione.

## Funzioni di Importazione

| Funzione | Descrizione | Esempio |
|----------|-------------|---------|
| `import numpy as np` | Importa NumPy con alias `np` | `np.array([1,2,3])` |
| `import pandas as pd` | Importa Pandas con alias `pd` | `pd.DataFrame(...)` |

## Generazione di Array

| Funzione | Input | Output | Descrizione |
|----------|-------|--------|-------------|
| `np.array(lista)` | lista Python | ndarray | Converte lista in array NumPy |
| `np.random.randint(low, high, size)` | int, int, int/tupla | ndarray | Genera interi casuali in [low, high) |
| `np.random.seed(n)` | int | None | Fissa il generatore per riproducibilita |

## Metodi Statistici di Array

| Metodo | Input | Output | Descrizione |
|--------|-------|--------|-------------|
| `.max()` | - | scalare | Valore massimo |
| `.min()` | - | scalare | Valore minimo |
| `.mean()` | - | float | Media aritmetica |
| `.std()` | - | float | Deviazione standard (popolazione) |
| `.std(ddof=1)` | - | float | Deviazione standard (campione) |
| `.sum()` | - | scalare | Somma di tutti gli elementi |

## Attributi di Array

| Attributo | Tipo | Descrizione |
|-----------|------|-------------|
| `.shape` | tupla | Dimensioni dell'array (es. (3, 4)) |
| `.dtype` | dtype | Tipo di dato (es. int64, float64) |
| `.ndim` | int | Numero di dimensioni |
| `.T` | ndarray | Trasposta (scambia righe/colonne) |

## Operazioni con Maschere

| Operazione | Sintassi | Descrizione |
|------------|----------|-------------|
| Creare maschera | `arr > valore` | Restituisce array booleano |
| Filtrare | `arr[maschera]` | Estrae elementi True |
| Modificare | `arr[maschera] = nuovo` | Cambia elementi True |
| AND logico | `(cond1) & (cond2)` | True se entrambe vere |
| OR logico | `(cond1) \| (cond2)` | True se almeno una vera |
| NOT logico | `~condizione` | Inverte True/False |

## Algebra Lineare

| Funzione | Input | Output | Descrizione |
|----------|-------|--------|-------------|
| `np.dot(A, v)` | matrice, vettore | vettore | Prodotto matrice-vettore |
| `A @ v` | matrice, vettore | vettore | Equivalente a np.dot |
| `.mean(axis=0)` | - | array | Media per colonna |
| `.mean(axis=1)` | - | array | Media per riga |

---

# SEZIONE 5 — Glossario

| Termine | Definizione |
|---------|-------------|
| **Array** | Struttura dati che contiene elementi dello stesso tipo, organizzati in una o piu dimensioni |
| **Broadcasting** | Meccanismo NumPy che espande automaticamente scalari o array piccoli per operare con array piu grandi |
| **Boolean Indexing** | Tecnica di filtraggio che usa un array booleano per selezionare elementi |
| **Deviazione Standard** | Misura di dispersione: quanto i valori si allontanano dalla media. Formula: radice quadrata della varianza |
| **dtype** | Tipo di dato di un array NumPy (es. int64, float64, bool) |
| **Maschera Booleana** | Array di True/False usato per filtrare o selezionare elementi |
| **Matrice** | Array bidimensionale organizzato in righe e colonne |
| **Media** | Valore centrale calcolato come somma degli elementi diviso il loro numero |
| **ndarray** | Oggetto array multidimensionale di NumPy (n-dimensional array) |
| **Prodotto Matrice-Vettore** | Operazione che moltiplica ogni riga della matrice per il vettore e somma |
| **Pseudo-casuale** | Numeri generati da un algoritmo deterministico che sembrano casuali |
| **Shape** | Attributo che descrive le dimensioni di un array (es. (3, 4) = 3 righe, 4 colonne) |
| **Trasposta** | Operazione che scambia righe e colonne di una matrice |
| **Vettore** | Array monodimensionale, una sequenza di numeri |
| **Vettorizzazione** | Esecuzione di operazioni su interi array senza cicli espliciti |
| **Z-score** | Punteggio standardizzato che indica quante deviazioni standard un valore dista dalla media |

---

# SEZIONE 6 — Errori Comuni e Debug Rapido

| Sintomo | Causa Probabile | Soluzione Rapida |
|---------|-----------------|------------------|
| `ModuleNotFoundError: No module named 'numpy'` | NumPy non installato | Esegui `pip install numpy` nel terminale |
| `ValueError: operands could not be broadcast` | Forme incompatibili per broadcasting | Verifica `.shape` di entrambi gli array |
| `TypeError: 'numpy.float64' object is not iterable` | Stai iterando su uno scalare invece di un array | Controlla che la variabile sia un array, non un singolo numero |
| `IndexError: index X is out of bounds` | Indice fuori range | Verifica `.shape` e usa indici da 0 a n-1 |
| Risultato inatteso con `and`/`or` | Usato `and` invece di `&` | Con array usa `&` (AND) e `\|` (OR) con parentesi |
| `ValueError: The truth value of an array is ambiguous` | Usato `if array:` | Usa `if array.any():` o `if array.all():` |
| Media non cambia dopo modifica | Hai creato una copia invece di modificare in-place | Verifica se stai usando `array[mask] = valore` |
| Z-score non ha media 0 | Errore di arrotondamento o formula sbagliata | Usa `.mean()` e `.std()` dallo stesso array |
| Prodotto matrice-vettore fallisce | Dimensioni incompatibili | Matrice (m x n) richiede vettore di lunghezza n |
| `axis` produce risultato inatteso | Confusione su quale asse comprime | axis=0 comprime righe (risultato: per colonna), axis=1 comprime colonne |

## Tecniche di Debug Consigliate

1. **Stampa sempre la shape:** `print(array.shape)` prima di operazioni
2. **Verifica il dtype:** `print(array.dtype)` per capire il tipo
3. **Ispeziona i primi elementi:** `print(array[:5])` per vedere cosa contiene
4. **Usa assert per verifiche:** `assert condizione, "messaggio errore"`
5. **Testa su dati piccoli:** Prima prova su array di 3-5 elementi

---

# SEZIONE 7 — Conclusione Operativa

## Cosa Abbiamo Imparato

In questa lezione abbiamo costruito le fondamenta per lavorare con dati numerici in Python:

1. **NumPy e il cuore del calcolo scientifico** in Python: array efficienti e operazioni vettorizzate
2. **Generare dati casuali** con `np.random.randint` per sperimentare e testare
3. **Statistiche descrittive** (max, min, mean, std) riassumono rapidamente un dataset
4. **Broadcasting** permette operazioni elemento-per-elemento senza cicli
5. **Z-score** standardizza i dati per renderli confrontabili
6. **Maschere booleane** sono lo strumento principale per filtrare e modificare dati
7. **Vettori e matrici** si manipolano con prodotto, trasposta e aggregazioni per asse

## Pattern Operativo da Ricordare

```
CREA -> ISPEZIONA -> CALCOLA -> TRASFORMA -> FILTRA -> VERIFICA
```

Applica questo pattern a ogni analisi: prima capisci cosa hai, poi opera sui dati.

## Prossimi Passi

Nella prossima lezione useremo Pandas per lavorare con dati tabulari (DataFrame), che si costruisce sopra NumPy ma aggiunge etichette per righe e colonne.

---

# SEZIONE 8 — Checklist di Fine Lezione

Prima di procedere alla prossima lezione, verifica di saper fare tutto quanto segue:

- [ ] So importare NumPy con `import numpy as np`
- [ ] So creare un array di numeri casuali con `np.random.randint`
- [ ] So verificare la forma di un array con `.shape`
- [ ] So calcolare max, min, media e deviazione standard di un array
- [ ] Capisco cos'e il broadcasting e so usarlo per operazioni scalare-array
- [ ] So calcolare lo z-score e capisco cosa rappresenta
- [ ] So creare una maschera booleana con condizioni (`>`, `<`, `==`)
- [ ] So combinare condizioni con `&` (AND) e `|` (OR)
- [ ] So filtrare un array con boolean indexing: `arr[maschera]`
- [ ] So modificare elementi selezionati: `arr[maschera] = nuovo_valore`
- [ ] So creare matrici specificando shape come tupla
- [ ] So calcolare il prodotto matrice-vettore con `np.dot`
- [ ] So ottenere la trasposta con `.T`
- [ ] Capisco la differenza tra `axis=0` e `axis=1`
- [ ] So aggiungere micro-checkpoint per verificare i risultati

**Se hai dubbi su qualche punto, rileggi la sezione corrispondente prima di proseguire.**

---

# SEZIONE 9 — Changelog Didattico

| Versione | Data       | Modifiche                                                                 |
|----------|------------|---------------------------------------------------------------------------|
| 1.0      | Originale  | Versione iniziale del notebook                                           |
| 2.0      | 2025-01-XX | Ristrutturazione completa secondo template standard a 8 sezioni          |
|          |            | + Aggiunta SEZIONE 1: Teoria concettuale approfondita                    |
|          |            | + Aggiunta SEZIONE 2: Schema mentale / mappa decisionale                 |
|          |            | + Potenziata SEZIONE 3: Aggiunta spiegazioni "Perche questo passaggio"  |
|          |            | + Aggiunti micro-checkpoint con asserzioni e sanity check                |
|          |            | + Aggiunta SEZIONE 4: Metodi spiegati con tabelle di riferimento         |
|          |            | + Aggiunta SEZIONE 5: Glossario (16 termini)                             |
|          |            | + Aggiunta SEZIONE 6: Errori comuni e debug rapido                       |
|          |            | + Aggiunta SEZIONE 7: Conclusione operativa                              |
|          |            | + Aggiunta SEZIONE 8: Checklist di fine lezione                          |
|          |            | + Aggiunta SEZIONE 9: Changelog didattico                                |
|          |            | + Rinominate variabili per evitare shadowing (max->val_max, min->val_min)|
|          |            | + Migliorati commenti inline in ogni cella di codice                     |

---

**Fine della Lezione 1**