# Esercizio con il modulo Pandas
In questo esercizio lavoreremo con il modulo `pandas` utilizzando un file `.csv` creato all'inizio.
---

## **1. Lettura del file `.csv`**
- Leggi il file `data.csv` e caricalo in un `DataFrame`.
- Utilizza il metodo `read_csv()` per leggere il file CSV e visualizza le prime righe del `DataFrame` con `head()`.

In [2]:
# Importazione della libreria pandas e assegnamento come nome pd
import pandas as pd

# Lettura del file csv e inserimento dentro al dataframe pandas
df = pd.read_csv('data.csv')

# Stampa delle prime 3 righe del dataframe
print(df.head(3))

         Nome  Età   Città  Punteggio
0      Sylvia   34  Verona         83
1      Ettore   22  Verona         82
2  Costantino   33  Milano         84


## **2. Esplorazione dei dati**
- Mostra informazioni generali sul `DataFrame`, come i tipi di dati, utilizzando `info()`.
- Mostra le statistiche descrittive delle colonne numeriche utilizzando `describe()`.

In [3]:

# Stampa delle diverse modalità per il DataFrame

print('------------------------------------------------------------- STAMPA LE INFORMAZIONI SUL DATAFRAME')
print(df.info())
print('------------------------------------------------------------- STAMPA LE STATISTICHE')
print(df.describe())

------------------------------------------------------------- STAMPA LE INFORMAZIONI SUL DATAFRAME
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Nome       500 non-null    object
 1   Età        500 non-null    int64 
 2   Città      500 non-null    object
 3   Punteggio  500 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 15.8+ KB
None
------------------------------------------------------------- STAMPA LE STATISTICHE
              Età  Punteggio
count  500.000000  500.00000
mean    42.736000   75.65800
std     15.377361   14.78439
min     18.000000   50.00000
25%     29.000000   63.00000
50%     42.000000   76.00000
75%     57.000000   89.00000
max     70.000000  100.00000


## **3. Selezione di colonne specifiche**
- Seleziona una o più colonne dal `DataFrame`.
- Utilizza le parentesi quadre `[]` per selezionare una singola colonna o un elenco di colonne.

In [12]:

# Bisogna mettere la doppia quadra perchè sennò Pandas lo legge come un nome unico e non due colonne diverse

print(df[['Nome', 'Città']])

           Nome    Città
0        Sylvia   Verona
1        Ettore   Verona
2    Costantino   Milano
3       Edoardo  Venezia
4         Guido  Bologna
..          ...      ...
495        Milo  Palermo
496    Maurizio   Milano
497     Cecilia   Torino
498    Leopoldo   Napoli
499    Patrizio   Torino

[500 rows x 2 columns]


## **4. Filtraggio dei dati**
- Filtra le righe del `DataFrame` per visualizzare solo i record che soddisfano una condizione specifica (es: valori superiori a una certa soglia).
- Suggerimento: utilizza l'operatore di confronto all'interno delle parentesi quadre `[]`.

In [17]:

# La quadra interna restituisce valori Boolean invece con quella esteriore estrapoliamo i dati dal DataFrame

print(df[df['Età'] >= 40])

           Nome  Età    Città  Punteggio
3       Edoardo   67  Venezia         53
5       Jolanda   44   Napoli         97
9       Gaetano   48  Catania         99
11      Michele   51   Verona         50
12      Gaetano   48   Milano         56
..          ...  ...      ...        ...
492  Alessandro   66   Napoli         63
494      Emilio   46     Roma         95
495        Milo   60  Palermo         79
498    Leopoldo   45   Napoli         68
499    Patrizio   44   Torino         91

[270 rows x 4 columns]


## **5. Aggiunta di nuove colonne**
- Aggiungi una nuova colonna al `DataFrame` calcolata a partire da altre colonne esistenti.
- Utilizza l'operazione `DataFrame['nuova_colonna'] = ...` per creare una nuova colonna.

In [20]:

# Eseguo l'addizione tra i due numeri interi Età e Punteggio
somma_punt_eta = df['Età'] + df['Punteggio']

# Aggiungo la variabile a una nuova colonna del DataFrame
df['Somma'] = somma_punt_eta

# Visualizzo tutto il DataFrame per vedere se l'aggiunta della colonna è andata a buon fine
print(df)

           Nome  Età    Città  Punteggio  Somma
0        Sylvia   34   Verona         83    117
1        Ettore   22   Verona         82    104
2    Costantino   33   Milano         84    117
3       Edoardo   67  Venezia         53    120
4         Guido   26  Bologna         60     86
..          ...  ...      ...        ...    ...
495        Milo   60  Palermo         79    139
496    Maurizio   39   Milano         95    134
497     Cecilia   39   Torino         80    119
498    Leopoldo   45   Napoli         68    113
499    Patrizio   44   Torino         91    135

[500 rows x 5 columns]


## **6. Ordinamento dei dati**
- Ordina i dati in base a una o più colonne.
- Utilizza `sort_values()` per ordinare il `DataFrame` specificando la colonna e l'ordine.

In [24]:
# Riordino il DataFrame in ordine crescente sulla base della colonna Età
df = df.sort_values(by = 'Età', ascending = True)

# Stampo il dataframe
print(df)

           Nome  Età    Città  Punteggio  Somma
434    Giovanni   18  Venezia         71     89
444    Telemaco   18   Torino         70     88
327     Claudio   18  Venezia         94    112
91       Simone   18  Palermo         87    105
223       Livio   18     Roma         64     82
..          ...  ...      ...        ...    ...
182    Torquato   69  Venezia         93    162
427     Claudia   70   Verona         81    151
341       Luisa   70     Roma         95    165
238  Giuseppina   70   Milano         82    152
188      Baccio   70  Palermo         94    164

[500 rows x 5 columns]


## **7. Raggruppamento e aggregazione**
- Raggruppa i dati in base ai valori di una colonna e calcola operazioni di aggregazione (es: somma, media).
- Utilizza `groupby()` seguito da metodi di aggregazione come `sum()`, `mean()`.

In [29]:

# Salvo dentro a una variabile "Città" il groupby e faccio la somma dei punteggi per ogni città
città = df.groupby('Città')['Punteggio'].sum()

# Stampo la variabile con all'interno i valori per ogni città
print(città)

Città
Bologna    4122
Catania    3449
Firenze    3162
Milano     4467
Napoli     3188
Palermo    3895
Roma       3808
Torino     3846
Venezia    3656
Verona     4236
Name: Punteggio, dtype: int64


## **8. Gestione dei valori mancanti**
- Identifica i valori mancanti e sostituiscili con un valore appropriato.
- Utilizza `isna()` o `isnull()` per identificare i valori mancanti e `fillna()` o `dropna()` per gestirli.

In [33]:

# Stampo la linea di introduzione al primo output
print('-------------------------------------------------- STAMPA BOOLEAN --------------------------------------------')

# Ricevere una restituzione dei valori mancanti con valori boolean
print(df.isnull())

# Stampo la linea di separazione dei due prompt
print('-------------------------------------------------- SOSTITUZIONE VALORI CON ALTRI -------------------------------------------')

# Sostituire i valori nulli con valori predefinati che do io per ogni colonna
print(df.fillna(value={'Nome': 'Sconosciuto', 'Età': 0, 'Città': 'Sconosciuta', 'Punteggio': 0, 'Somma': 0}))

-------------------------------------------------- STAMPA BOOLEAN --------------------------------------------
      Nome    Età  Città  Punteggio  Somma
434  False  False  False      False  False
444  False  False  False      False  False
327  False  False  False      False  False
91   False  False  False      False  False
223  False  False  False      False  False
..     ...    ...    ...        ...    ...
182  False  False  False      False  False
427  False  False  False      False  False
341  False  False  False      False  False
238  False  False  False      False  False
188  False  False  False      False  False

[500 rows x 5 columns]
-------------------------------------------------- SOSTITUZIONE VALORI CON ALTRI -------------------------------------------
           Nome  Età    Città  Punteggio  Somma
434    Giovanni   18  Venezia         71     89
444    Telemaco   18   Torino         70     88
327     Claudio   18  Venezia         94    112
91       Simone   18  Palermo   

## **9. Salvataggio del `DataFrame` aggiornato**
- Dopo aver effettuato modifiche, salva il `DataFrame` aggiornato in un nuovo file CSV.
- Utilizza `to_csv()` per salvare il file aggiornato con un nome diverso (es: `data_updated.csv`).

In [34]:

# Salvataggio del file csv aggiornato nella cartella con nome diverso per non creare errori
df.to_csv('data_updated.csv')