# Esercitazione Guidata: Analisi di Dati con Python e Pandas

Benvenuti a questa esercitazione pratica! L'obiettivo di oggi è imparare a esplorare, pulire e visualizzare un dataset reale utilizzando le librerie Python che sono il pane quotidiano di ogni Data Analyst: **Pandas**, **NumPy** e **Matplotlib**.

Lavoreremo con il dataset `Dataset Abitudini Sportive`, che raccoglie informazioni sulle abitudini di allenamento di diverse persone. Impareremo a scoprire cosa si nasconde dietro i numeri e a rispondere a domande concrete basate sui dati.

In [None]:
# Importiamo le librerie che ci servono
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Un piccolo comando per migliorare lo stile dei grafici
plt.style.use('seaborn-v0_8-whitegrid')

## 1. Caricamento del Dataset

Per prima cosa, dobbiamo caricare i nostri dati. Assicurati di aver caricato il file `Dataset Abitudini Sportive.csv` nella sessione di Colab (puoi semplicemente trascinarlo nella cartella a sinistra).

In [None]:
# Specifichiamo il nome del file
file_path = 'Dataset Abitudini Sportive.csv'

# Carichiamo il file CSV in un DataFrame di Pandas
df = pd.read_csv(file_path)


## 2. Analisi Esplorativa Iniziale

Ora che i dati sono caricati, diamo una prima occhiata per capire con cosa abbiamo a che fare. È come aprire il cofano di una macchina per la prima volta: non capiremo subito tutto, ma ci faremo un'idea generale.

### `df.head()` - Le prime 5 righe
Il comando `head()` ci mostra un'anteprima del dataset, utilissima per capire al volo quali sono le colonne e che tipo di dati contengono.

In [None]:
df.head()

### `df.info()` - Informazioni sul DataFrame
Il metodo `info()` è fondamentale. Ci fornisce una sintesi delle colonne, il numero di valori non nulli e il tipo di dato (Dtype) di ogni colonna. È il nostro primo strumento per scovare eventuali problemi, come dati mancanti o tipi di dato sbagliati.

In [None]:
df.info()

### `df.describe()` - Statistiche di base
Con `describe()`, otteniamo un riassunto statistico per tutte le colonne numeriche: media, deviazione standard, minimo, massimo e i percentili. Questo ci aiuta a capire la distribuzione dei dati e a identificare possibili valori anomali (outlier).

In [None]:
df.describe()

## 3. Pulizia dei Dati (Data Cleaning)

Dall'analisi iniziale, abbiamo notato qualcosa di strano. Ad esempio, `df.describe()` mostra un valore minimo di `-999` per alcune colonne, che non ha senso. Inoltre, `df.info()` ci fa capire che alcune colonne numeriche sono state lette come `object` (testo). Questo significa che il nostro dataset è "sporco" e ha bisogno di essere pulito.

I problemi principali sono:
1.  **Valori mancanti codificati come `-999`** in colonne numeriche.
2.  **Valori mancanti codificati come `***`** in colonne categoriche (testuali).
3.  **Stringhe vuote (`''`)** che impediscono la corretta interpretazione di colonne numeriche.

### Sostituzione dei valori anomali
Il primo passo è sostituire tutti i valori usati per indicare dati mancanti (`-999` e `***`) con `np.nan`, un valore speciale di NumPy che Pandas riconosce come "Not a Number" (mancante).

In [None]:
# Sostituiamo i valori anomali con NaN
df.replace([-999, '***'], np.nan, inplace=True)

# Diamo un'occhiata di nuovo alle prime righe
df.head()

### Conversione dei tipi di dato
Ora che abbiamo gestito i valori codificati, dobbiamo correggere i tipi di dato. Forzeremo la conversione delle colonne che dovrebbero essere numeriche al tipo `float`. Useremo `pd.to_numeric` con `errors='coerce'`, un parametro potentissimo che trasformerà automaticamente in `NaN` qualsiasi valore che non riesce a convertire (come le stringhe vuote).

In [None]:
# Selezioniamo le colonne da convertire
colonne_numeriche = ['ore_settimanali_allenamento', 'frequenza_allenamento', 'soddisfazione_allenamento', 'attrezzatura_comprata_annualmente', 'frequenza_infortuni', 'alimentazione_durante_allenamento', 'tempo_riposo_settimanale', 'Y']

# Applichiamo la conversione
for colonna in colonne_numeriche:
    df[colonna] = pd.to_numeric(df[colonna], errors='coerce')

# Controlliamo di nuovo i tipi di dato
df.info()

### Verifica dei valori mancanti
Ora che abbiamo pulito il dataset, usiamo `isnull().sum()` per contare quanti valori mancanti (`NaN`) ci sono in ogni colonna. Questo ci dà la conferma finale del nostro lavoro di pulizia.

In [None]:
# Contiamo i valori NaN per ogni colonna
df.isnull().sum()

## 4. Visualizzazione dei Dati

I grafici sono il modo migliore per "vedere" i dati e scoprire pattern che i numeri da soli non mostrano. Creeremo alcuni grafici di base per esplorare le colonne più interessanti del nostro dataset pulito.

### Istogramma - Distribuzione delle ore di allenamento
Un istogramma è perfetto per visualizzare la distribuzione di una variabile numerica, come le ore di allenamento settimanali. Ci mostra quante persone rientrano in ciascun "intervallo" di ore.

In [None]:
plt.figure(figsize=(10, 6))
df['ore_settimanali_allenamento'].hist(bins=15, edgecolor='black')
plt.title('Distribuzione delle Ore di Allenamento Settimanali')
plt.xlabel('Ore di Allenamento')
plt.ylabel('Numero di Persone')
plt.show()

### Grafico a Barre - Obiettivi di Allenamento
Un grafico a barre è l'ideale per le variabili categoriche. Lo useremo per contare quante persone hanno ciascun obiettivo di allenamento.

In [None]:
plt.figure(figsize=(12, 7))
df['obiettivo_allenamento_label'].value_counts().plot(kind='bar', color='skyblue')
plt.title('Frequenza degli Obiettivi di Allenamento')
plt.xlabel('Obiettivo')
plt.ylabel('Numero di Persone')
plt.xticks(rotation=45, ha='right')
plt.tight_layout() # Aggiusta il layout per non tagliare le etichette
plt.show()

### Grafico a Barre - Riposo Settimanale
Facciamo lo stesso per visualizzare quanto riposano le persone durante la settimana.

In [None]:
plt.figure(figsize=(10, 6))
df['tempo_riposo_settimanale_label'].value_counts().plot(kind='bar', color='lightgreen')
plt.title('Frequenza del Riposo Settimanale')
plt.xlabel('Giorni di Riposo')
plt.ylabel('Numero di Persone')
plt.xticks(rotation=0)
plt.show()

## 5. Formulazione e Verifica di Ipotesi

Questa è la parte più divertente: usare i dati per rispondere a delle domande! Formuliamo due semplici ipotesi e vediamo se i dati le confermano.

### Ipotesi 1: Chi punta alla perdita di peso compra meno attrezzatura di chi punta al miglioramento muscolare?

**Logica:** Vogliamo confrontare la media di `attrezzatura_comprata_annualmente` per due gruppi specifici. Per farlo, dobbiamo:
1.  Filtrare il DataFrame per selezionare solo le righe che ci interessano.
2.  Calcolare la media per ciascun gruppo.

In [None]:
# Filtriamo i due gruppi
gruppo_perdita_peso = df[df['obiettivo_allenamento_label'] == 'Perdita peso']
gruppo_massa_muscolare = df[df['obiettivo_allenamento_label'] == 'Miglioramento muscolare']

# Calcoliamo la media per ciascun gruppo
media_peso = gruppo_perdita_peso['attrezzatura_comprata_annualmente'].mean()
media_massa = gruppo_massa_muscolare['attrezzatura_comprata_annualmente'].mean()

print(f"Media spesa per attrezzatura (Perdita peso): {media_peso:.2f} €")
print(f"Media spesa per attrezzatura (Miglioramento muscolare): {media_massa:.2f} €")

### Ipotesi 2: C'è una relazione tra la frequenza di allenamento e la soddisfazione?

**Logica:** Vogliamo vedere se, in media, le persone che si allenano più spesso sono anche più soddisfatte. Il metodo `groupby()` è perfetto per questo: raggruppa tutte le righe in base a una colonna (la frequenza) e ci permette di calcolare una statistica (la media della soddisfazione) per ogni gruppo.

In [None]:
# Raggruppiamo per frequenza e calcoliamo la soddisfazione media
soddisfazione_per_frequenza = df.groupby('frequenza_allenamento')['soddisfazione_allenamento'].mean()

print("Soddisfazione media per frequenza di allenamento:")
print(soddisfazione_per_frequenza)