# Fondamenti di Pandas e Numpy per Statistical Learning

Benvenuto! Questo notebook è una guida di base alle librerie **Numpy** e **Pandas**, i pilastri della Data Science in Python. 

Questa guida è strutturata per darti le basi necessarie per affrontare corsi di **Statistical Learning** e Machine Learning.

## Indice degli argomenti:
1. **Numpy**: Calcolo numerico, array, `arange`, `linspace`.
2. **Pandas Series**: Dati monodimensionali.
3. **Pandas DataFrame**: Creazione, `head`, `tail`, `shape`.
4. **Selezione Dati**: `loc`, `iloc` e slicing.
5. **Filtraggio**: Query e maschere booleane.
6. **Manipolazione**: Ordinamento, `apply`, `map`.
7. **Dati Mancanti**: Gestione dei `NaN`.
8. **Aggregazione**: `groupby` e statistiche.

Ogni sezione include spiegazioni ed **Esercizi Pratici** per fissare i concetti. Le soluzioni sono nascoste: clicca su "Vedi Soluzione" per controllarle.


## 1. Setup e Importazione

Prima di iniziare, assicurati di avere installate le seguenti librerie. Apri un terminale e esegui:

```bash
pip install numpy pandas
```


Importiamo le librerie con i loro alias standard.

In [3]:
import numpy as np
import pandas as pd

print("Librerie importate!")

Librerie importate!


--- 
## 2. Numpy

Numpy introduce l'**array**, una struttura dati molto più efficiente delle liste Python per i calcoli numerici.

### Creazione Array e Tipi di Dato
Oltre a convertire liste, possiamo generare array automaticamente.

In [None]:
# Creazione da lista
arr = np.array([10, 20, 30])

# np.arange: Crea un range di numeri (start, stop, step)
range_arr = np.arange(0, 10, 2)  # Da 0 a 10 (escluso) a passi di 2
print("Arange:", range_arr)

# np.linspace: Crea n numeri equamente spaziati tra start e stop
lin_arr = np.linspace(0, 1, 5)  # 5 numeri tra 0 e 1
print("Linspace:", lin_arr)

# Shape e Dtype
print("\nShape (dimensioni):", lin_arr.shape)
print("Tipo di dato (dtype):", lin_arr.dtype)

### Mini Esercizio 1: Numpy
1. Crea un array con `np.linspace` che contenga 10 numeri tra 0 e 100.
2. Controlla il `dtype` dell'array.
3. Cambia la forma (`shape`) dell'array in (2, 5) usando `.reshape(2, 5)`.

In [7]:
arr = np.linspace(0 , 100 ,10)
print(arr)
print(arr.dtype)

reshape = arr.reshape(2, 5)
print(reshape)

[  0.          11.11111111  22.22222222  33.33333333  44.44444444
  55.55555556  66.66666667  77.77777778  88.88888889 100.        ]
float64
[[  0.          11.11111111  22.22222222  33.33333333  44.44444444]
 [ 55.55555556  66.66666667  77.77777778  88.88888889 100.        ]]


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 1
arr = np.linspace(0, 100, 10)
print("Array:", arr)
print("Dtype:", arr.dtype)

arr_reshaped = arr.reshape(2, 5)
print("Reshaped:\n", arr_reshaped)
```
</details>

### Operazioni e Statistiche

Numpy permette di eseguire operazioni vettoriali (elemento per elemento) e calcolare statistiche di base.

In [None]:
# Creazione di un array
arr = np.array([10, 20, 30, 40, 50])
print("Array:", arr)

# Operazioni vettoriali (senza cicli for!)
print("Diviso 10:", arr / 10)
print("Al quadrato:", arr ** 2)

# Statistiche di base
print("Media:", np.mean(arr))
print("Deviazione Standard:", np.std(arr))

### Mini Esercizio 2: Numpy
1. Crea un array numpy con i numeri da 1 a 10 (suggerimento: usa `np.arange`).
2. Moltiplica tutti i numeri per 5.
3. Calcola la somma totale degli elementi.

In [14]:
arr = np.arange(1, 11)
print("Molt per 5: ", arr * 5)
somma = np.sum(arr)
print(somma)
#print(arr.sum())

Molt per 5:  [ 5 10 15 20 25 30 35 40 45 50]
55


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# SOLUZIONE
a = np.arange(1, 11)
a_per_5 = a * 5
somma = np.sum(a_per_5)
print(a_per_5)
print("Somma:", somma)
```
</details>

--- 
## 3. Pandas Series

Una **Series** è come una colonna di una tabella o un array potenziato. Ha un **indice** (etichette).

In [15]:
s = pd.Series([100, 200, 300], index=['Gennaio', 'Febbraio', 'Marzo'])
print(s)
print("\nValore di Gennaio:", s['Gennaio'])

Gennaio     100
Febbraio    200
Marzo       300
dtype: int64

Valore di Gennaio: 100


### Mini Esercizio 2: Series
Crea una Series con i giorni della settimana come indice e le temperature previste come valori. Stampa la temperatura di 'Mercoledì'.

In [19]:
series = pd.Series([13,17,15,14,21,16,19], index=['Lunedi','Martedi','Mercoledi','Giovedi','Venerdi','Sabato','Domenica'])
print(series)
print("\nValore di Mercoledi: ", series['Mercoledi'])

Lunedi       13
Martedi      17
Mercoledi    15
Giovedi      14
Venerdi      21
Sabato       16
Domenica     19
dtype: int64

Valore di Mercoledi:  15


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 2
temp = pd.Series([20, 22, 19, 25, 24], 
                 index=['Lunedì', 'Martedì', 'Mercoledì', 'Giovedì', 'Venerdì'])
print(temp['Mercoledì'])
```
</details>

--- 
## 4. Pandas DataFrame: Creazione e Ispezione

Il **DataFrame** è una tabella con righe e colonne.

### Creazione

In [21]:
data = {
    'Nome': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Hank'],
    'Età': [25, 30, 35, 40, 22, np.nan, 28, 55],
    'Città': ['Roma', 'Milano', 'Roma', 'Napoli', 'Milano', 'Torino', 'Roma', 'Napoli'],
    'Stipendio': [1200, 1500, 1800, 2000, 1100, 1600, 1350, 2500],
    'Dipartimento': ['HR', 'IT', 'IT', 'Sales', 'HR', 'Sales', 'IT', 'Management'],
    'Regione': ['Lazio', 'Lombardia', 'Lazio', 'Campania', 'Lombardia', 'Piemonte', 'Lazio', 'Campania']
}
df = pd.DataFrame(data)
df.head() # Prime 5 righe di default

Unnamed: 0,Nome,Età,Città,Stipendio,Dipartimento,Regione
0,Alice,25.0,Roma,1200,HR,Lazio
1,Bob,30.0,Milano,1500,IT,Lombardia
2,Charlie,35.0,Roma,1800,IT,Lazio
3,David,40.0,Napoli,2000,Sales,Campania
4,Eva,22.0,Milano,1100,HR,Lombardia


### Salvataggio e Caricamento
Spesso caricherai dati da file CSV o Excel. Qui simuliamo il processo.

In [None]:
df.to_csv('impiegati.csv', index=False)  # Salva su disco
df_caricato = pd.read_csv('impiegati.csv')  # Legge da disco, disponibile lettura anche di file xlsx con pd.read_excel()

### Ispezione: `head`, `tail`, `shape`, `info`
Quando hai tanti dati, non puoi stamparli tutti.
- **`head(n)`**: Mostra le prime n righe.
- **`tail(n)`**: Mostra le ultime n righe.
- **`shape`**: Restituisce (numero_righe, numero_colonne).
- **`info()`**: Panoramica sui tipi di dati e nulli.
- **`describe()`**: Panoramica sulle statistiche di base del dataframe.

In [None]:
print("Prime 2 righe:")
print(df.head(2))

print("\nUltime 2 righe:")
print(df.tail(2))

print("\nDimensioni (Righe, Colonne):", df.shape)

print("\nInfo:", df.info())

print("\nStatistiche di base:")
display(df.describe())

### Operazioni comuni sul DataFrame
Di seguito alcune operazioni di uso quotidiano che è utile conoscere quando si lavora con DataFrame in pandas.

**Selezione e accesso**
- `df['colonna']` o `df.colonna`: accedi a una colonna come `Series`.
- `df[['col1', 'col2']]`: selezione di più colonne (ritorna un DataFrame).
- `df.iloc[...]` / `df.loc[...]`: accesso per posizione o per etichetta (già visto).
- `df.values` o `df['col'].values`: ottieni un array NumPy dei valori.

**Riepiloghi e frequenze**
- `df['col'].unique()`: valori unici di una colonna.
- `df['col'].nunique()`: numero di valori unici.
- `df['col'].value_counts()`: conteggi delle occorrenze (utile per categorie).

**Metadati e tipi**
- `df.columns`: lista dei nomi delle colonne.
- `df.dtypes`: tipo di dato per colonna.
- `df['col'] = df['col'].astype(tipo)`: convertire il tipo di una colonna (attenzione ai NaN).

**Ordinamento, rinomina e rimozione**
- `df.sort_values('col')`: ordina il DataFrame per una colonna.
- `df.rename(columns={'old':'new'})`: rinomina colonne.
- `df.drop(columns=['col'])`: rimuove colonne.

**Indice e campionamento**
- `df.set_index('col')` / `df.reset_index()`: impostare/rimuovere l'indice.
- `df.sample(n)`: prende un campione casuale di righe.

Questi esempi mostrano l'uso pratico di quanto sopra.


In [None]:
# Esempi pratici: operazioni comuni
# 1) Selezione colonna (Series)
print('Colonna Nome come Series:', df['Nome'])
print('Stesso risultato con attributo (se il nome è un identificatore valido):')
print(df.Nome)

# 2) Selezione di più colonne (DataFrame)
print('Selezione Nome e Stipendio:', df[['Nome', 'Stipendio']])

# 3) Valori come array o lista
print('Età come array numpy:', df['Età'].values)
print('Nome come lista:', df['Nome'].tolist())

# 4) Unique / nunique / value_counts
print('Valori unici Città:', df['Città'].unique())
print('Numero di città:', df['Città'].nunique())
print('Frequenze città:', df['Città'].value_counts())

# 5) Columns, dtypes
print('Colonne:', df.columns)
print('Tipi colonne:', df.dtypes)

# 6) Convertire tipi (attenzione ai NaN: riempi prima o usare errors='ignore')
df_temp = df.copy()
df_temp['Età_filled_int'] = df_temp['Età'].fillna(0).astype(int)
print('Età riempita e convertita a int:', df_temp[['Età', 'Età_filled_int']])

# 7) Ordinamento, rinomina e drop
print('Top 3 per stipendio:', df.sort_values('Stipendio', ascending=False).head(3))
print('Rinomina colonna Stipendio -> Salary:', df.rename(columns={'Stipendio':'Salary'}).head(2))
print('Drop colonna:', df.drop(columns=['Regione']).head(2))

# 8) Set/reset index e sample
df_idx = df.set_index('Nome')
print('DataFrame con index Nome:', df_idx.head(2))
print('Reset index:', df_idx.reset_index().head(2))
print('Sample 3 righe:', df.sample(3, random_state=1))

# 9) Operazioni veloci utili
print('Numero totale di elementi (size):', df.size)
print('Numero di righe:', len(df))
print('Verifica presenza colonna Stipendio:', 'Stipendio' in df.columns)


### Mini Esercizio 3: Ispezione
1. Stampa le ultime 3 righe del DataFrame.
2. Stampa quante righe e colonne ha il dataset (usando `shape`).

In [23]:
print(df.tail(3))
print("\nShape", df.shape)

    Nome   Età   Città  Stipendio Dipartimento   Regione
5  Frank   NaN  Torino       1600        Sales  Piemonte
6  Grace  28.0    Roma       1350           IT     Lazio
7   Hank  55.0  Napoli       2500   Management  Campania

Shape (8, 6)


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 3
print(df.tail(3))
print("Shape:", df.shape)
```
</details>

--- 
## 5. Selezione: `loc` e `iloc`

- **`.loc[riga, colonna]`**: Usa le **etichette** (nomi).
- **`.iloc[riga, colonna]`**: Usa gli **indici numerici** (posizioni).

In [24]:
# iloc: Riga 0, Colonna 1 ('Età')
print("Elemento in (0,1):", df.iloc[0, 1])

# Slicing con iloc: Righe 0-2, Colonne 0-2
print("\nSlicing:\n", df.iloc[0:3, 0:2])

Elemento in (0,1): 25.0

Slicing:
       Nome   Età
0    Alice  25.0
1      Bob  30.0
2  Charlie  35.0


### Mini Esercizio 4: Selezione
Seleziona le righe dalla 5 alla fine, e solo le colonne 'Nome' e 'Stipendio'. Usa `iloc` o `loc` a tua scelta (nota: con `loc` userai i nomi delle colonne).

In [45]:
print("Elementi:", (df.iloc[:, 0:4]))

Elementi:       Nome   Età   Città  Stipendio
0    Alice  25.0    Roma       1200
1      Bob  30.0  Milano       1500
2  Charlie  35.0    Roma       1800
3    David  40.0  Napoli       2000
4      Eva  22.0  Milano       1100
5    Frank   NaN  Torino       1600
6    Grace  28.0    Roma       1350
7     Hank  55.0  Napoli       2500


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 4
# Con loc (più leggibile per le colonne)
print(df.loc[5:, ['Nome', 'Stipendio']])

# Con iloc (supponendo Nome=0 e Stipendio=3)
print(df.iloc[5:, [0, 3]])
```
</details>

--- 
## 6. Filtraggio

Filtrare le righe in base a condizioni.

In [None]:
# Stipendio > 1500
print(df[df['Stipendio'] > 1500])

# Condizioni multiple: (Cond1) & (Cond2)
print(df[(df['Città'] == 'Roma') & (df['Età'] > 30)])

### Mini Esercizio 5: Filtri
Trova le persone che NON sono di 'Roma' e hanno uno stipendio inferiore a 1500.

In [28]:
print(df[(df['Stipendio'] < 1500) & (df['Città'] != 'Roma')]) 

  Nome   Età   Città  Stipendio Dipartimento    Regione
4  Eva  22.0  Milano       1100           HR  Lombardia


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 5
filtro = df[(df['Città'] != 'Roma') & (df['Stipendio'] < 1500)]
print(filtro)
```
</details>

--- 
## 7. Manipolazione: `apply` e `map`

- **`apply`**: Applica una funzione a ogni elemento (o riga/colonna).
- **`map`**: Mappa i valori di una Series usando un dizionario (utile per ricodificare).

In [None]:
# Apply: Creiamo una categoria di stipendio
def categoria_stipendio(stipendio):
    if stipendio > 1500:
        return 'Alto'
    else:
        return 'Basso'
df['Categoria_Stipendio'] = df['Stipendio'].apply(categoria_stipendio)

#OPPURE:
df['Categoria_Stipendio'] = df['Stipendio'].apply(lambda x: 'Alto' if x > 1500 else 'Basso')

#---------------------------------------

# Map: Aggiungiamo la regione in base alla città
mappa_regioni = {
    'Roma': 'Lazio', 
    'Milano': 'Lombardia', 
    'Napoli': 'Campania', 
    'Torino': 'Piemonte'
}
df['Regione'] = df['Città'].map(mappa_regioni)

df[['Città', 'Regione', 'Stipendio', 'Categoria_Stipendio']].head()

### Mini Esercizio 6: Map e Apply
1. Usa `map` per creare una colonna 'Codice_Dip' che mappa 'HR' in 1, 'IT' in 2, 'Sales' in 3, 'Management' in 4.
2. Usa `apply` per creare una colonna 'Bonus' che è il 10% dello stipendio se il dipartimento è 'Sales', altrimenti 0.

In [None]:
mappa_dipartimenti = {
    'HR': 1,
    'IT': 2,
    'Sales': 3,
    'Management': 4
}

df['Codice_Dip'] = df['Dipartimento'].map(mappa_dipartimenti)

def calcola_bonus(riga):
    if riga['Dipartimento'] == 'Sales':
        return riga['Stipendio'] * 0.1
    return 0

df['Bonus'] = df.apply(calcola_bonus, axis=1)
df[['Dipartimento', 'Stipendio', 'Bonus']].head(10)


Unnamed: 0,Dipartimento,Stipendio,Bonus
0,HR,1200,0.0
1,IT,1500,0.0
2,IT,1800,0.0
3,Sales,2000,200.0
4,HR,1100,0.0
5,Sales,1600,160.0
6,IT,1350,0.0
7,Management,2500,0.0


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 6
# 1. Map
codici = {'HR': 1, 'IT': 2, 'Sales': 3, 'Management': 4}
df['Codice_Dip'] = df['Dipartimento'].map(codici)

# 2. Apply (su riga intera axis=1, o su colonna)
# Metodo semplice su colonna non basta perché dipende da un'altra colonna (Dipartimento)
# Usiamo apply su tutto il dataframe (axis=1) per accedere a più colonne
def calcola_bonus(riga):
    if riga['Dipartimento'] == 'Sales':
        return riga['Stipendio'] * 0.10
    return 0

df['Bonus'] = df.apply(calcola_bonus, axis=1)
print(df[['Dipartimento', 'Stipendio', 'Bonus']].head())
```
</details>

--- 
## 8. Dati Mancanti
I dati mancanti (NaN) sono comuni nei dataset reali. Qui vediamo le funzioni e le tecniche più usate per identificarli, rimuoverli o imputarli.

**Funzioni principali:**
- `isna()` / `isnull()`: identifica i valori mancanti (True/False).
- `notna()` / `notnull()`: l'opposto di `isna()`.
- `dropna(axis=0|1, how='any'|'all', thresh=..., subset=[...])`: rimuove righe/colonne con NaN secondo criteri.
- `fillna(value|dict|method='ffill'|'bfill')`: sostituisce i NaN con valori o con il metodo di propagazione avanti/indietro.
- `interpolate(method='linear'|'time'|'pad'|'polynomial')`: interpolazione numerica per riempire NaN.

Di seguito alcuni esempi pratici che usano il DataFrame `df` creato in precedenza.

In [None]:
# Esempi pratici di gestione dei NaN
# Conta per colonna
print('NaN per colonna:', df.isna().sum())

# Drop righe che hanno NaN in colonne specifiche (es. 'Età')
print('\nDrop righe senza Età:')
print(df.dropna(subset=['Età']))

# Drop righe che hanno TUTTI i valori NaN (rare qui) o almeno uno
# df.dropna(how='all')  # rimuove solo righe tutte NaN
# df.dropna(how='any')  # rimuove righe con almeno un NaN

# Fill con dizionario (diversi valori per colonna)
df_filled = df.fillna({'Età': df['Età'].mean(), 'Stipendio': df['Stipendio'].median()})
print('\nFill con valori per colonna:', df_filled[['Età', 'Stipendio']])

# Interpolazione numerica (utile per serie temporali o valori ordinati)
df_interp = df.copy()
df_interp['Età'] = df_interp['Età'].interpolate(method='linear')
print('\nInterpolate Età:', df_interp['Età'])

# Forward/backward fill (propaga ultimo valore valido avanti o indietro)
df_ffill = df.copy()
df_ffill['Età'] = df_ffill['Età'].fillna(method='ffill')
print('\nFFILL Età:', df_ffill['Età'])

### Mini Esercizio 7: Dati Mancanti
Verifica se ci sono ancora dati mancanti nel dataframe.

In [73]:
print(df.isna())

    Nome    Età  Città  Stipendio  Dipartimento  Regione  Codice_Dip  Bonus
0  False  False  False      False         False    False       False  False
1  False  False  False      False         False    False       False  False
2  False  False  False      False         False    False       False  False
3  False  False  False      False         False    False       False  False
4  False  False  False      False         False    False       False  False
5  False   True  False      False         False    False       False  False
6  False  False  False      False         False    False       False  False
7  False  False  False      False         False    False       False  False


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 7
print(df.isna().sum())
```
</details>

--- 
## 9. GroupBy


`groupby` è molto potente quando vuoi raggruppare righe e calcolare aggregazioni per ciascun gruppo. La principale operazione è:
- `agg()` / `aggregate()`: applica una o più funzioni di aggregazione (es. `mean`, `sum`, `max`).

**Funzioni di aggregazione comuni:** `mean`, `sum`, `count`, `size`, `min`, `max`, `median`, `std`, `var`, `nunique`, `first`, `last`.


In [None]:
# Esempi di GroupBy avanzati
# 1) Più aggregazioni su una colonna
print(df.groupby('Dipartimento')['Stipendio'].agg(['mean', 'median', 'max', 'count']))

# 2) GroupBy su più colonne
print('\nGroupBy Città e Dipartimento (mean, sum):')
print(df.groupby(['Città', 'Dipartimento'])['Stipendio'].agg(['mean', 'sum']))

# 3) Aggregazioni diverse per colonne (uso di dict)
agg_dict = {'Stipendio': ['mean', 'max'], 'Età': 'median'}
print('\nAggregazioni diverse per colonne:\n', df.groupby('Città').agg(agg_dict))


### Mini Esercizio 8: GroupBy
Calcola lo stipendio massimo per ogni Città.

In [72]:
print(df.groupby('Città')['Stipendio'].agg(['max']).head())

         max
Città       
Milano  1500
Napoli  2500
Roma    1800
Torino  1600


<details>
<summary><strong>Vedi Soluzione</strong></summary>

```python
# Soluzione 8
print(df.groupby('Città')['Stipendio'].max())
```
</details>

---
## 10. Esercizio Finale riassuntivo

In questa sezione troverai un esercizio complessivo che mette insieme **tutti** gli argomenti trattati: creazione di DataFrame, selezione dati, filtraggio, aggregazione e manipolazione.

### Dataset: Iris Flower Dataset

Useremo il famoso **Iris Dataset**, disponibile in scikit-learn. Questo dataset contiene misurazioni di fiori Iris (lunghezza e larghezza dei sepali, lunghezza e larghezza dei petali) con le relative specie.

**Obiettivo dell'esercizio**: Esplorare il dataset e rispondere a una serie di domande utilizzando le tecniche apprese.

### Parte A: Caricamento e Esplorazione Iniziale

**Domanda A.1**: Carica il dataset Iris da scikit-learn e crea un DataFrame Pandas. Visualizza le prime 10 righe e le informazioni generali (shape, colonne, dtypes).



In [None]:
%pip install scikit-learn

In [None]:
# Domanda A.1: Carica il dataset Iris
from sklearn import datasets

# Carica il dataset
iris = datasets.load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
df_iris['Species'] = iris.target_names[iris.target]

# Visualizza
print(df_iris.head(10))
print(df_iris.shape)
print(df_iris.dtypes)


     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

       Species  
0       se

<details>
<summary><strong>Vedi Soluzione A.1</strong></summary>

```python
# Soluzione A.1
from sklearn import datasets

iris = datasets.load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)
df_iris['Species'] = iris.target_names[iris.target]

print("Prime 10 righe:")
print(df_iris.head(10))
print("\nInformazioni generali:")
print(f"Shape: {df_iris.shape}")
print(f"Colonne: {df_iris.columns.tolist()}")
print("\nDtypes:")
print(df_iris.dtypes)
```

**Spiegazione**: Abbiamo usato `load_iris()` da scikit-learn, creato un DataFrame dai dati, aggiungiunto la colonna 'Species' con i nomi delle specie, e poi visualizzato le prime 10 righe e le informazioni generali usando `head()`, `shape`, `columns` e `dtypes`.

</details>

---

**Domanda A.2**: Quali sono le specie di fiori nel dataset? Quanti campioni ci sono per ogni specie?


In [None]:
# le singole specie presenti
print(df_iris['Species'].unique())

# il numero di occorrenze di ciascuna specie
print("\n", df_iris['Species'].value_counts())

['setosa' 'versicolor' 'virginica']
Species
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64


<details>
<summary><strong>Vedi Soluzione A.2</strong></summary>

```python
# Soluzione A.2
print("Specie di fiori nel dataset:")
print(df_iris['Species'].value_counts())
```

**Output atteso**:
```
setosa        50
versicolor    50
virginica      50
Name: Species, dtype: int64
```

**Spiegazione**: Abbiamo usato `value_counts()` per contare il numero di campioni per ogni specie. Questo è un modo rapido per ottenere statistiche su colonne categoriche.

</details>

---

### Parte B: Selezione e Filtraggio Dati

**Domanda B.1**: Seleziona solo la colonna 'sepal length (cm)' e mostra il valore minimo, massimo e la media.


In [82]:
print(df_iris['sepal length (cm)'].agg(['min','max','median']))

min       4.3
max       7.9
median    5.8
Name: sepal length (cm), dtype: float64


<details>
<summary><strong>Vedi Soluzione B.1</strong></summary>

```python
# Soluzione B.1
sepal_length = df_iris['sepal length (cm)']
print(f"Minimo: {sepal_length.min()}")
print(f"Massimo: {sepal_length.max()}")
print(f"Media: {sepal_length.mean()}")
```

**Output atteso**:
```
Minimo: 4.3
Massimo: 7.9
Media: 5.843333333333334
```

**Spiegazione**: Abbiamo selezionato la colonna usando `df['colonna']` e poi applicato i metodi `.min()`, `.max()` e `.mean()` per ottenere le statistiche.

</details>

---

**Domanda B.2**: Filtra il dataset per mostrare solo i fiori della specie 'setosa' e conta quante righe restano.


In [89]:
setosa = df_iris[df_iris['Species'] == 'setosa']
print(f"{len(setosa)} \n {setosa.shape}")

50 
 (50, 5)


<details>
<summary><strong>Vedi Soluzione B.2</strong></summary>

```python
# Soluzione B.2
setosa_df = df_iris[df_iris['Species'] == 'setosa']
print(f"Numero di fiori setosa: {len(setosa_df)}")
print(f"Shape: {setosa_df.shape}")
```

**Output atteso**:
```
Numero di fiori setosa: 50
Shape: (50, 5)
```

**Spiegazione**: Abbiamo usato una maschera booleana `df_iris['Species'] == 'setosa'` per filtrare il DataFrame e poi contato le righe con `len()` o osservato la `shape`.

</details>

---

**Domanda B.3**: Filtra il dataset per mostrare solo i fiori con 'sepal length (cm)' > 6 e 'petal length (cm)' < 4. Quanti ne trovi?


In [92]:
print(df_iris[(df_iris['sepal length (cm)'] > 6) & (df_iris['petal length (cm)'] < 4)].agg("count"))

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
Species              0
dtype: int64


<details>
<summary><strong>Vedi Soluzione B.3</strong></summary>

```python
# Soluzione B.3
filtered_df = df_iris[(df_iris['sepal length (cm)'] > 6) & (df_iris['petal length (cm)'] < 4)]
print(f"Fiori con sepal length > 6 e petal length < 4: {len(filtered_df)}")
print(filtered_df)
```

**Output atteso**: 9 fiori (tutti della specie setosa)

**Spiegazione**: Abbiamo combinato due maschere booleane con l'operatore `&` (AND logico). Ricorda che in Pandas usiamo `&` e `|` (non `and`/`or`) e le condizioni vanno tra parentesi.

</details>

---

### Parte C: Manipolazione e Aggregazione Dati

**Domanda C.1**: Calcola la lunghezza media dei sepali (`sepal length`) per ogni specie. Quale specie ha la lunghezza media maggiore?


<details>
<summary><strong>Vedi Soluzione C.1</strong></summary>

```python
# Soluzione C.1
sepal_length_by_species = df_iris.groupby('Species')['sepal length (cm)'].mean()
print("Lunghezza media dei sepali per specie:")
print(sepal_length_by_species)
print(f"\nSpecie con lunghezza media maggiore: {sepal_length_by_species.idxmax()}")
```

**Output atteso**:
```
Lunghezza media dei sepali per specie:
Species
setosa        5.006
versicolor    5.936
virginica     6.588
Name: sepal length (cm), dtype: float64

Specie con lunghezza media maggiore: virginica
```

**Spiegazione**: Abbiamo usato `groupby('Species')` per raggruppare il DataFrame per specie, poi `.mean()` per calcolare la media della colonna 'sepal length (cm)'. Infine, `.idxmax()` ha trovato l'indice (la specie) con il valore massimo.

</details>

---

**Domanda C.2**: Per ogni specie, calcola sia la media che la deviazione standard di tutte e quattro le misurazioni (sepal length, sepal width, petal length, petal width). Mostra i risultati in modo ordinato.


<details>
<summary><strong>Vedi Soluzione C.2</strong></summary>

```python
# Soluzione C.2
numeric_cols = df_iris.iloc[:, :-1].columns

stats_by_species = df_iris.groupby('Species')[numeric_cols].agg(['mean', 'std'])
print("Media e Deviazione Standard per specie:")
print(stats_by_species)
```

**Spiegazione**: Abbiamo usato:
- `df.iloc[:, :-1]` per selezionare solo le colonne numeriche (escludendo l'ultima colonna 'Species')
- `groupby('Species')` per raggruppare per specie
- `.agg(['mean', 'std'])` per calcolare sia la media che la deviazione standard per ogni colonna
Questo crea un DataFrame con una struttura multi-livello (MultiIndex) nelle colonne.

</details>

---

**Domanda C.3**: Crea una nuova colonna che calcoli il "rapporto sepal" come (sepal length / sepal width). Poi, ordina il DataFrame in base a questa nuova colonna in modo decrescente e mostra le prime 5 righe.


<details>
<summary><strong>Vedi Soluzione C.3</strong></summary>

```python
# Soluzione C.3
df_iris['sepal_ratio'] = df_iris['sepal length (cm)'] / df_iris['sepal width (cm)']

df_sorted = df_iris.sort_values('sepal_ratio', ascending=False)

print("Top 5 fiori con rapporto sepal più alto:")
print(df_sorted[['sepal length (cm)', 'sepal width (cm)', 'sepal_ratio', 'Species']].head())
```

**Spiegazione**: Abbiamo:
1. Creato una nuova colonna con una semplice operazione aritmetica
2. Usato `sort_values()` per ordinare il DataFrame per questa colonna
3. Usato `ascending=False` per ordinamento decrescente
4. Selezionato colonne specifiche con la sintassi `df[['col1', 'col2']]`

</details>

---

### Parte D: Analisi Avanzata

**Domanda D.1**: Crea una tabella (usando `groupby` e `agg`) che mostra per ogni specie: il numero di campioni, la media di tutte le misurazioni, e il valore massimo della lunghezza dei petali.


<details>
<summary><strong>Vedi Soluzione D.1</strong></summary>

```python
# Soluzione D.1
agg_dict = {
    'sepal length (cm)': 'mean',
    'sepal width (cm)': 'mean',
    'petal length (cm)': ['mean', 'max'],
    'petal width (cm)': 'mean'
}

result = df_iris.groupby('Species').agg(agg_dict)
result['count'] = df_iris.groupby('Species').size()

print("Tabella di riepilogo per specie:")
print(result)
```

**Spiegazione**: 
- Abbiamo creato un dizionario che specifica diverse aggregazioni per diverse colonne
- Per 'petal length (cm)', abbiamo richiesto sia 'mean' che 'max'
- Abbiamo aggiunto il conteggio usando `.size()` (che conta il numero di righe in ogni gruppo)
- Il risultato è una tabella multi-livello che riassume tutte le statistiche per specie

</details>

---

**Domanda D.2**: Quale specie ha il rapporto sepal medio più basso? Mostra il valore esatto e la specie.


<details>
<summary><strong>Vedi Soluzione D.2</strong></summary>

```python
# Soluzione D.2
if 'sepal_ratio' not in df_iris.columns:
    df_iris['sepal_ratio'] = df_iris['sepal length (cm)'] / df_iris['sepal width (cm)']

mean_ratio_by_species = df_iris.groupby('Species')['sepal_ratio'].mean()
print("Rapporto sepal medio per specie:")
print(mean_ratio_by_species)

species_min_ratio = mean_ratio_by_species.idxmin()
min_ratio_value = mean_ratio_by_species.min()

print(f"\nSpecie con rapporto sepal medio più basso: {species_min_ratio}")
print(f"Valore: {min_ratio_value:.4f}")
```

**Output atteso**:
```
Rapporto sepal medio per specie:
Species
setosa        1.456604
versicolor    1.294516
virginica     1.303634
Name: sepal_ratio, dtype: float64

Specie con rapporto sepal medio più basso: versicolor
Valore: 1.2945
```

**Spiegazione**: Abbiamo usato `.idxmin()` per trovare l'indice (specie) con il valore minimo di rapporto sepal medio. `.min()` ha restituito il valore minimo stesso.

</details>

---

**Domanda D.3**: Crea un riassunto finale usando `describe()` sul dataframe completo. Che informazioni puoi ricavare?


<details>
<summary><strong>Vedi Soluzione D.3</strong></summary>

```python
# Soluzione D.3
print("Statistiche descrittive del dataset Iris:")
print(df_iris.describe())
```

**Spiegazione**: `.describe()` è uno strumento straordinariamente utile che fornisce automaticamente:
- **count**: Numero di valori non-NaN
- **mean**: Media
- **std**: Deviazione standard
- **min**: Valore minimo
- **25%, 50%, 75%**: Quartili (percentili)
- **max**: Valore massimo

Questo ti dà una visione d'insieme della distribuzione dei dati senza dover scrivere singole query. Nota che `.describe()` considera solo colonne numeriche per impostazione predefinita.

</details>

---

## Conclusioni dell'Esercizio

Complimenti per aver completato il notebook!

Hai imparato gli strumenti fondamentali che userai in ogni progetto di Data Science! 
