# Esercitazione di Statistica Descrittiva con Python

**Obiettivo:** In questa esercitazione, esploreremo alcuni concetti base della statistica descrittiva utilizzando le librerie Python `pandas` e `numpy`. Impareremo a calcolare e interpretare le principali misure di tendenza centrale e di posizione.

L'esercitazione è divisa in sezioni. Ogni sezione introduce un concetto teorico, ne mostra l'applicazione pratica con esempi di codice e propone delle attività da svolgere in autonomia.

## 1. Primi Passi con Pandas e Numpy

Prima di iniziare con la statistica, dobbiamo caricare il nostro dataset e prendere confidenza con gli strumenti. In questa sezione, importeremo le librerie necessarie e useremo alcune funzioni base di `pandas` per esplorare i dati.

In [None]:
import pandas as pd
import numpy as np

# Carichiamo il dataset che abbiamo creato in precedenza
df = pd.read_csv('smartphones.csv')

### Visualizzare i dati
La prima cosa da fare è dare un'occhiata ai dati. Il comando `.head()` è perfetto per questo, perché ci mostra le prime righe del nostro DataFrame (di default, 5).

In [None]:
# Visualizziamo le prime 5 righe del dataset
df.head()

### Informazioni sul DataFrame
Il metodo `.info()` ci fornisce un riassunto tecnico del DataFrame: il numero di righe, il numero di colonne, i loro nomi, il tipo di dati che contengono (es. `int64` per i numeri interi, `object` per le stringhe) e la quantità di memoria utilizzata.

In [None]:
# Otteniamo informazioni generali sul DataFrame
df.info()

### Statistiche di base
Infine, `.describe()` è uno strumento potentissimo che calcola automaticamente le principali statistiche descrittive per tutte le colonne numeriche. Ci dà il conteggio, la media, la deviazione standard, il valore minimo, il massimo e i quartili. Molti di questi valori li analizzeremo nel dettaglio più avanti.

In [None]:
# Otteniamo una statistica descrittiva di base per le colonne numeriche
df.describe()

## 2. Misure di Tendenza Centrale

Le misure di tendenza centrale sono valori che cercano di riassumere un'intera distribuzione di dati in un singolo numero. Le più comuni sono la media, la mediana e la moda.

- **Media**: È la somma di tutti i valori divisa per il loro numero totale. È sensibile ai valori anomali (outlier).
- **Mediana**: È il valore centrale in un insieme di dati ordinati. Se il numero di dati è pari, è la media dei due valori centrali. Non è sensibile ai valori anomali.
- **Moda**: È il valore che compare più frequentemente in un insieme di dati.

In [None]:
# Calcoliamo la media del prezzo
media_prezzo = df['prezzo'].mean()
print(f"La media del prezzo è: {media_prezzo:.2f} €")

# Calcoliamo la mediana del prezzo
mediana_prezzo = df['prezzo'].median()
print(f"La mediana del prezzo è: {mediana_prezzo:.2f} €")

# Calcoliamo la moda del brand
moda_brand = df['brand'].mode()[0] # .mode() restituisce una Serie, prendiamo il primo elemento
print(f"La moda del brand è: {moda_brand}")

### Attività 1: Calcolare la media manualmente

Per capire davvero come funziona la media, proviamo a implementare il calcolo da zero. Completa la funzione  qui sotto. La funzione deve accettare una lista di numeri e restituire la loro media.

In [None]:
def calcola_media(lista_numeri):
    """Calcola la media di una lista di numeri."""
    # SUGGERIMENTO: Hai bisogno di due cose: la somma di tutti i numeri e il conteggio di quanti numeri ci sono.
    # In Python, puoi usare sum() per sommare e len() per contare.
    
    # Scrivi qui il tuo codice
    somma = sum(lista_numeri)
    conteggio = len(lista_numeri)
    if conteggio == 0:
        return 0 # Gestiamo il caso di una lista vuota
    media = somma / conteggio
    return media

# Testiamo la funzione con la colonna 'batteria_mAh'
media_batteria_manuale = calcola_media(df['batteria_mAh'].tolist())
media_batteria_pandas = df['batteria_mAh'].mean()

print(f"Media calcolata manualmente: {media_batteria_manuale:.2f}")
print(f"Media calcolata con pandas: {media_batteria_pandas:.2f}")

# Un piccolo test per verificare la correttezza
assert round(media_batteria_manuale, 2) == round(media_batteria_pandas, 2)

### Attività 2: Analisi dei Risultati

Ora che abbiamo calcolato media e mediana del prezzo, rispondiamo a qualche domanda. Scrivi le tue osservazioni nella cella sottostante.

**Scheletro guidato:**
1.  **Confronto Media e Mediana**: I valori di media e mediana del prezzo sono molto simili o molto diversi? (, )
2.  **Interpretazione**: Cosa suggerisce questa somiglianza o differenza riguardo alla distribuzione dei prezzi degli smartphone nel nostro dataset? Se la media è più alta della mediana, potrebbe significare che ci sono alcuni modelli molto costosi che "alzano" la media. Se sono simili, la distribuzione è abbastanza simmetrica.
3.  **Moda**: Qual è il brand più comune ()? Questo dato cosa ci dice sulla composizione del nostro campione di smartphone?

**RISPOSTE (scrivi qui le tue osservazioni):**

1.  
2.  
3.  

## 3. Percentili e Quartili

I **percentili** sono valori che dividono un insieme di dati ordinati in 100 parti uguali. Ad esempio, il 25° percentile (Q1) è il valore al di sotto del quale si trova il 25% dei dati.

I **quartili** sono percentili specifici che dividono i dati in quattro parti uguali:
- **Q1 (Primo Quartile)**: Corrisponde al 25° percentile.
- **Q2 (Secondo Quartile)**: Corrisponde al 50° percentile, che è anche la **mediana**.
- **Q3 (Terzo Quartile)**: Corrisponde al 75° percentile.

In [None]:
# Calcoliamo i quartili per la colonna 'prezzo'
q1_prezzo = df['prezzo'].quantile(0.25)
q2_prezzo = df['prezzo'].quantile(0.50)
q3_prezzo = df['prezzo'].quantile(0.75)

print(f"Primo quartile (Q1) del prezzo: {q1_prezzo:.2f} €")
print(f"Secondo quartile (Q2) del prezzo: {q2_prezzo:.2f} €")
print(f"Terzo quartile (Q3) del prezzo: {q3_prezzo:.2f} €")

# Ricorda che il metodo .describe() ci aveva già fornito questi valori!
df['prezzo'].describe()

### Attività 3: Verifica di un'ipotesi

Usiamo i quartili per verificare un'affermazione. L'ipotesi è: **"Il 25% degli smartphone più economici nel nostro dataset costa meno di 300€."**

Per verificarlo, calcola il primo quartile (Q1) della colonna  e confronta il risultato con 300€. Scrivi il codice per il calcolo e poi commenta il risultato nella cella di testo sottostante.

In [None]:
# Scrivi qui il codice per calcolare il Q1 del prezzo
primo_quartile_prezzo = df['prezzo'].quantile(0.25)
print(f"Il primo quartile del prezzo è: {primo_quartile_prezzo:.2f} €")

**RISPOSTA (scrivi qui la tua conclusione):**

L'affermazione è vera o falsa? Motiva la tua risposta sulla base del valore di Q1 che hai calcolato.

# Soluzioni degli Esercizi

In questa sezione trovi le soluzioni e le spiegazioni per le attività proposte.

### Soluzione Attività 1: Calcolare la media manualmente

Il codice completo per la funzione  è il seguente. La logica consiste nel sommare tutti gli elementi della lista e dividerli per il loro numero (il conteggio).

In [None]:
def calcola_media(lista_numeri):
    """Calcola la media di una lista di numeri."""
    somma = sum(lista_numeri)
    conteggio = len(lista_numeri)
    if conteggio == 0:
        return 0
    media = somma / conteggio
    return media

### Soluzione Attività 2: Analisi dei Risultati

**Motivazione:** Le risposte a queste domande dipendono dai dati generati casualmente, quindi i tuoi risultati potrebbero essere leggermente diversi. Tuttavia, il ragionamento da seguire è questo:

1.  **Confronto Media e Mediana**: Osserva i valori di  e . Molto probabilmente saranno abbastanza vicini, ma non identici.
2.  **Interpretazione**: Se la media è leggermente più alta della mediana, significa che ci sono alcuni smartphone con un prezzo molto elevato che "tira su" il valore medio. Se fossero identiche, la distribuzione dei prezzi sarebbe perfettamente simmetrica. La mediana è spesso un indicatore più robusto del "centro" di una distribuzione perché non è influenzata dai valori estremi.
3.  **Moda**: La moda ci dice semplicemente quale brand appare più spesso. Se, ad esempio, la moda è "BrandC", significa che nel nostro campione casuale, quel brand è il più rappresentato. Non ci dà informazioni sulla qualità o sul prezzo, ma solo sulla frequenza.

### Soluzione Attività 3: Verifica di un'ipotesi

**Ipotesi**: *"Il 25% degli smartphone più economici nel nostro dataset costa meno di 300€."*

**Svolgimento**: Per verificare questa affermazione, dobbiamo calcolare il 25° percentile (Q1) dei prezzi. Questo valore ci dirà esattamente qual è il prezzo massimo del 25% più economico degli smartphone.

Il codice calcola che il Q1 è un certo valore (es. ). Poiché questo valore è inferiore a 300€, l'affermazione è **vera**. Il valore di Q1 ci dice che il 25% degli smartphone ha un prezzo pari o inferiore a , che è appunto un valore minore di 300€.