# Introduzione a Pandas

`Pandas` è una libreria basata sulla libreria `numpy`, che ha lo scopo di manipolare *Data Frames*.

Un *data frame* è una tabella che organizza i dati in righe (*record*) e colonne intestate:
oggetto di tipo `DataFrame`

Singole righe (*record*) e singole colonne: oggetti di tipo `Series`.


`Pandas` offre tre funzionalità principali:

1. costruzione
1. interrogazione
1. aggiornamento

Formati da cui derivare un *data frame*: `csv`, `excel`, `json`.

---

Importare `Pandas`:

In [2]:
import pandas as pd

### Creazione di un *Data Frame* a partire da un dizionario

       df = pd.DataFrame(data_dictionary)

In [5]:
dati = {'Cognome' : ['Rossi', 'Bianchi', 'Verdi', 'Neri'], 'Nome' : ['Andrea', 'Sara', 'Tommaso', 'Anna'], 'AnnoNascita' : [2000, 2001, 1999, 2004]}

In [8]:
pd.DataFrame(dati)

Unnamed: 0,Cognome,Nome,AnnoNascita
0,Rossi,Andrea,2000
1,Bianchi,Sara,2001
2,Verdi,Tommaso,1999
3,Neri,Anna,2004


### Creazione di un *Data Frame* a partire da una lista

       df = pd.DataFrame(data_list, columns = column_names)

In [None]:
dati = []
dati.append(['Rossi', 'Andrea', 2000])
dati.append(['Bianchi', 'Sara', 2001])
dati.append(['Verdi', 'Tommaso', 1999])
dati.append(['Neri', 'Anna', 2004])

In [9]:
pd.DataFrame(dati, columns = ['Cognome', 'Nome', 'AnnoNascita'])

Unnamed: 0,Cognome,Nome,AnnoNascita
0,Rossi,Andrea,2000
1,Bianchi,Sara,2001
2,Verdi,Tommaso,1999
3,Neri,Anna,2004


### Creazione di un *Data Frame* da un file `csv`

    df = pd.read_csv(csv_file_name)

### Lettura del file `2017-german-election-overall.csv`

In [10]:
df = pd.read_csv('./2017-german-election-overall.csv')

In [11]:
df

Unnamed: 0,area_id,area_names,state,registered.voters,total_votes,invalid_first_votes,invalid_second_votes,valid_first_votes,valid_second_votes
0,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1647,1509,170258,170396
1,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1299,1125,137901,138075
2,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,175950,132016,1133,1141,130883,130875
3,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1285,1119,156102,156268
4,5,Kiel,Schleswig-Holstein,204650,151463,1657,1290,149806,150173
...,...,...,...,...,...,...,...,...,...
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,2354,1818,137190,137726
295,296,Saarbrücken,Saarland,199887,147602,2304,2171,145298,145431
296,297,Saarlouis,Saarland,207500,160371,2422,2831,157949,157540
297,298,St. Wendel,Saarland,177468,141378,2620,2668,138758,138710


### Informazioni sul *Data Frame*

- informazioni generali sul data frame

        df.info()

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 299 entries, 0 to 298
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   area_id               299 non-null    int64 
 1   area_names            299 non-null    object
 2   state                 299 non-null    object
 3   registered.voters     299 non-null    int64 
 4   total_votes           299 non-null    int64 
 5   invalid_first_votes   299 non-null    int64 
 6   invalid_second_votes  299 non-null    int64 
 7   valid_first_votes     299 non-null    int64 
 8   valid_second_votes    299 non-null    int64 
dtypes: int64(7), object(2)
memory usage: 21.1+ KB


### Ottenere le prime/ultime `n` righe

    df.head(n)
    df.tail(n)

In [15]:
df.tail()

Unnamed: 0,area_id,area_names,state,registered.voters,total_votes,invalid_first_votes,invalid_second_votes,valid_first_votes,valid_second_votes
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,2354,1818,137190,137726
295,296,Saarbrücken,Saarland,199887,147602,2304,2171,145298,145431
296,297,Saarlouis,Saarland,207500,160371,2422,2831,157949,157540
297,298,St. Wendel,Saarland,177468,141378,2620,2668,138758,138710
298,299,Homburg,Saarland,192408,145990,2668,2467,143322,143523


### Fare una copia di un *data frame*

        df.copy()

In [16]:
df.copy()

Unnamed: 0,area_id,area_names,state,registered.voters,total_votes,invalid_first_votes,invalid_second_votes,valid_first_votes,valid_second_votes
0,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1647,1509,170258,170396
1,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1299,1125,137901,138075
2,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,175950,132016,1133,1141,130883,130875
3,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1285,1119,156102,156268
4,5,Kiel,Schleswig-Holstein,204650,151463,1657,1290,149806,150173
...,...,...,...,...,...,...,...,...,...
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,2354,1818,137190,137726
295,296,Saarbrücken,Saarland,199887,147602,2304,2171,145298,145431
296,297,Saarlouis,Saarland,207500,160371,2422,2831,157949,157540
297,298,St. Wendel,Saarland,177468,141378,2620,2668,138758,138710


### Variabili `shape` e `columns`

- `shape`: numero di righe e di colonne del *Data Frame*
- `columns`: nomi delle colonne del *Data Frame* (oggetto di tipo `Index`) 

In [17]:
df.shape

(299, 9)

In [19]:
list(df.columns)

['area_id',
 'area_names',
 'state',
 'registered.voters',
 'total_votes',
 'invalid_first_votes',
 'invalid_second_votes',
 'valid_first_votes',
 'valid_second_votes']

### Cambiare nomi alle colonne

    df.rename(columns = name_dict, inplace = True|False)

In [20]:
df.rename(columns = {'registered.voters' : 'voters', 'area_names' : 'area'}, inplace = True)

In [21]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_first_votes,invalid_second_votes,valid_first_votes,valid_second_votes
0,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1647,1509,170258,170396
1,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1299,1125,137901,138075
2,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,175950,132016,1133,1141,130883,130875
3,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1285,1119,156102,156268
4,5,Kiel,Schleswig-Holstein,204650,151463,1657,1290,149806,150173
...,...,...,...,...,...,...,...,...,...
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,2354,1818,137190,137726
295,296,Saarbrücken,Saarland,199887,147602,2304,2171,145298,145431
296,297,Saarlouis,Saarland,207500,160371,2422,2831,157949,157540
297,298,St. Wendel,Saarland,177468,141378,2620,2668,138758,138710


### Rimuovere righe e colonne

Il metodo `drop()`:

    df.drop(list_to_remove, axis = 1|0, inplace = True|False)
    
rimuove le colonne (`axis = 1`) o le righe (`axis = 0`) specificate nella lista `list_to_remove`.

---

**ESERCIZIO**: rimuovere le colonne `valid_first_votes` e `invalid_first_votes` e in seguito le righe con indici `2`, `9` e `10`.

In [22]:
df.drop(['valid_first_votes', 'invalid_first_votes'], axis = 1, inplace = True)

In [23]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes
0,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1509,170396
1,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1125,138075
2,3,Steinburg – Dithmarschen Süd,Schleswig-Holstein,175950,132016,1141,130875
3,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1119,156268
4,5,Kiel,Schleswig-Holstein,204650,151463,1290,150173
...,...,...,...,...,...,...,...
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,1818,137726
295,296,Saarbrücken,Saarland,199887,147602,2171,145431
296,297,Saarlouis,Saarland,207500,160371,2831,157540
297,298,St. Wendel,Saarland,177468,141378,2668,138710


In [24]:
df.drop([2,9,10], axis = 0, inplace = True)

In [25]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes
0,1,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1509,170396
1,2,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1125,138075
3,4,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1119,156268
4,5,Kiel,Schleswig-Holstein,204650,151463,1290,150173
5,6,Plön – Neumünster,Schleswig-Holstein,174934,131710,1196,130514
...,...,...,...,...,...,...,...
294,295,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,1818,137726
295,296,Saarbrücken,Saarland,199887,147602,2171,145431
296,297,Saarlouis,Saarland,207500,160371,2831,157540
297,298,St. Wendel,Saarland,177468,141378,2668,138710


### Selezionare una colonna

Le espressioni:

    df[column_name]
    df.column_name
    
restituiscono la colonna avente nome `column_name`, in un oggetto di tipo `Series`.

---

**NB**: le espressioni:

    df[column_name] = new_value
    df.column_name = new_value
    
aggiornano tutti i valori della colonna, restituita dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre la colonna `voters`.

In [29]:
df['voters']

0      225659
1      186384
3      199632
4      204650
5      174934
        ...  
294    183202
295    199887
296    207500
297    177468
298    192408
Name: voters, Length: 296, dtype: int64

In [30]:
df.voters

0      225659
1      186384
3      199632
4      204650
5      174934
        ...  
294    183202
295    199887
296    207500
297    177468
298    192408
Name: voters, Length: 296, dtype: int64

**NB**: i singoli valori in una colonna mantengono l'indice associato alla riga a cui appartengono.

In [31]:
list(df.voters)

[225659,
 186384,
 199632,
 204650,
 174934,
 237474,
 245826,
 181480,
 216743,
 205757,
 222718,
 240887,
 225843,
 212051,
 243510,
 185942,
 192399,
 217226,
 235513,
 222034,
 191560,
 235233,
 189344,
 226253,
 227695,
 187679,
 197298,
 230151,
 220042,
 193959,
 196136,
 168081,
 199081,
 180866,
 199131,
 196475,
 194800,
 179883,
 193433,
 233242,
 214617,
 217905,
 187377,
 240015,
 218349,
 206133,
 192041,
 183963,
 202963,
 220420,
 252461,
 221636,
 176001,
 184714,
 243106,
 226413,
 183181,
 247441,
 248676,
 194757,
 178676,
 168542,
 165625,
 220787,
 215606,
 238060,
 177004,
 224494,
 214668,
 191636,
 207102,
 206706,
 237071,
 182392,
 184602,
 221209,
 198672,
 235250,
 202616,
 223426,
 205105,
 200704,
 205300,
 179273,
 228247,
 190051,
 199675,
 248982,
 246753,
 192571,
 240982,
 203644,
 227583,
 237415,
 216020,
 208418,
 217422,
 212208,
 208129,
 222845,
 205238,
 163228,
 220762,
 193175,
 214779,
 190552,
 201450,
 227423,
 226096,
 207178,
 179117,
 

**ESERCIZIO**: aggiornare a 0 tutti i valori della colonna `area_id`.

In [32]:
df['area_id'] = 0

In [33]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes
0,0,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1509,170396
1,0,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1125,138075
3,0,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1119,156268
4,0,Kiel,Schleswig-Holstein,204650,151463,1290,150173
5,0,Plön – Neumünster,Schleswig-Holstein,174934,131710,1196,130514
...,...,...,...,...,...,...,...
294,0,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,1818,137726
295,0,Saarbrücken,Saarland,199887,147602,2171,145431
296,0,Saarlouis,Saarland,207500,160371,2831,157540
297,0,St. Wendel,Saarland,177468,141378,2668,138710


### Selezionare più colonne

L'espressione:

    df[column_list]
    
restituisce le colonne della lista `column_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df[column_list] = new_value
    
aggiorna tutti i valori del *data frame*, restituito dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre le colonne `voters` e `total_votes`.

In [34]:
df[['voters', 'total_votes']]

Unnamed: 0,voters,total_votes
0,225659,171905
1,186384,139200
3,199632,157387
4,204650,151463
5,174934,131710
...,...,...
294,183202,139544
295,199887,147602
296,207500,160371
297,177468,141378


**NB:** se `column_list` contiene un'unica stringa, il *data frame* sarà composto da un'unica colonna.

In [35]:
df[['voters']]

Unnamed: 0,voters
0,225659
1,186384
3,199632
4,204650
5,174934
...,...
294,183202
295,199887
296,207500
297,177468


### Ottenere gli indici di riga (chiavi primarie)

L'espressione: 
    
    df.index

restituisce gli indici delle righe del *data frame* invocante.

**NB**: gli indici possono anche essere ottenuti da un oggetto di tipo `Series` (colonna).

---

In [36]:
df.index

Int64Index([  0,   1,   3,   4,   5,   6,   7,   8,  11,  12,
            ...
            289, 290, 291, 292, 293, 294, 295, 296, 297, 298],
           dtype='int64', length=296)

In [37]:
df.area_id.index

Int64Index([  0,   1,   3,   4,   5,   6,   7,   8,  11,  12,
            ...
            289, 290, 291, 292, 293, 294, 295, 296, 297, 298],
           dtype='int64', length=296)

### Aggiornare una colonna

L'istruzione di assegnamento: 

    df[column_name] = series_obj
    
aggiorna la colonna `column_name` con i valori dell'oggetto `series_obj` che deve essere della stessa dimensione del *data frame*.

**NB**: `series_obj` può essere il risultato di un'espressione.

---

**ESERCIZIO**: aggiornare i valori della colonna `area_id` con i relativi indici (chiave primaria).

In [38]:
df['area_id'] = df.index

In [39]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes
0,0,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1509,170396
1,1,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1125,138075
3,3,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1119,156268
4,4,Kiel,Schleswig-Holstein,204650,151463,1290,150173
5,5,Plön – Neumünster,Schleswig-Holstein,174934,131710,1196,130514
...,...,...,...,...,...,...,...
294,294,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,1818,137726
295,295,Saarbrücken,Saarland,199887,147602,2171,145431
296,296,Saarlouis,Saarland,207500,160371,2831,157540
297,297,St. Wendel,Saarland,177468,141378,2668,138710


### Aggiungere una colonna

L'istruzione di assegnamento: 

    df[new_column_name] = series_obj
    
aggiunge la colonna `new_column_name` con i valori dell'oggetto `series_obj` che deve essere della stessa dimensione del *data frame*.

**NB**: `series_obj` può essere il risultato di un'espressione.

---

**ESERCIZIO**: aggiungere la colonna che contiene la differenza tra le colonne `total_votes` e `invalid_second_votes`

In [40]:
df['check_valid'] = df['total_votes'] - df['invalid_second_votes']

In [41]:
df

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes,check_valid
0,0,Flensburg – Schleswig,Schleswig-Holstein,225659,171905,1509,170396,170396
1,1,Nordfriesland – Dithmarschen Nord,Schleswig-Holstein,186384,139200,1125,138075,138075
3,3,Rendsburg-Eckernförde,Schleswig-Holstein,199632,157387,1119,156268,156268
4,4,Kiel,Schleswig-Holstein,204650,151463,1290,150173,150173
5,5,Plön – Neumünster,Schleswig-Holstein,174934,131710,1196,130514,130514
...,...,...,...,...,...,...,...,...
294,294,Zollernalb – Sigmaringen,Baden-Württemberg,183202,139544,1818,137726,137726
295,295,Saarbrücken,Saarland,199887,147602,2171,145431,145431
296,296,Saarlouis,Saarland,207500,160371,2831,157540,157540
297,297,St. Wendel,Saarland,177468,141378,2668,138710,138710


### Selezionare le righe tramite *slicing*

L'espressione: 

    df[start_pos_index:end_pos_index:step]
    
restituisce le righe che hanno indice di posizione compreso tra `start_pos_index` e `end_pos_index` secondo lo step indicato, in un oggetto `DataFrame`.

---

L'espressione:

    df[start_pos_index:end_pos_index:step] = new_value
    
aggiorna tutti i valori dell'oggetto, restituito dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**NB**: lo *slicing* può essere applicato anche a un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe dalla quarta alla undicesima.

In [42]:
df[3:11]

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes,check_valid
4,4,Kiel,Schleswig-Holstein,204650,151463,1290,150173,150173
5,5,Plön – Neumünster,Schleswig-Holstein,174934,131710,1196,130514,130514
6,6,Pinneberg,Schleswig-Holstein,237474,187711,1339,186372,186372
7,7,Segeberg – Stormarn-Mitte,Schleswig-Holstein,245826,193318,1381,191937,191937
8,8,Ostholstein – Stormarn-Nord,Schleswig-Holstein,181480,138415,1142,137273,137273
11,11,Schwerin – Ludwigslust-Parchim I – Nordwestmec...,Mecklenburg-Vorpommern,216743,157070,1658,155412,155412
12,12,Ludwigslust-Parchim II – Nordwestmecklenburg I...,Mecklenburg-Vorpommern,205757,146781,1673,145108,145108
13,13,Rostock – Landkreis Rostock II,Mecklenburg-Vorpommern,222718,164037,1731,162306,162306


### Selezionare le righe in base a una condizione

Una maschera è un oggetto di tipo `Series` che contiene valori booleani `True` e `False` e che può essere utilizzata per selezionare le righe di un *data frame*.

L'espressione:

    df[mask]
    
restituisce un *data frame* con le sole righe che corrispondono a un valore `True` di `mask`.

La dimensione di `mask` deve essere uguale al numero di righe in `df`ed è il risultato di un'espressione booleana.

---

L'espressione:

    df[mask] = new_value
    
aggiorna tutti i valori del *data frame* restituito a sinistra con il nuovo valore `new_value`.

---

**NB**: la maschera può essere applicata anche a un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: selezionare le righe del *data frame* che hanno valore `Berlin` nella colonna `state`.

In [45]:
mask = df['state'] == 'Berlin'

In [46]:
df[mask]

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes,check_valid
74,74,Berlin-Mitte,Berlin,206706,151634,2214,149420,149420
75,75,Berlin-Pankow,Berlin,237071,188607,2198,186409,186409
76,76,Berlin-Reinickendorf,Berlin,182392,137084,2171,134913,134913
77,77,Berlin-Spandau – Charlottenburg Nord,Berlin,184602,132934,2276,130658,130658
78,78,Berlin-Steglitz-Zehlendorf,Berlin,221209,180827,2110,178717,178717
79,79,Berlin-Charlottenburg-Wilmersdorf,Berlin,198672,158245,1429,156816,156816
80,80,Berlin-Tempelhof-Schöneberg,Berlin,235250,181259,2162,179097,179097
81,81,Berlin-Neukölln,Berlin,202616,143790,2980,140810,140810
82,82,Berlin-Friedrichshain-Kreuzberg – Prenzlauer B...,Berlin,223426,173504,1664,171840,171840
83,83,Berlin-Treptow-Köpenick,Berlin,205105,157461,2124,155337,155337


---

**ESERCIZIO**: produrre le aree e il numero dei votanti per gli stati `Berlin` e `Bayern`.

In [50]:
mask = (df['state'] == 'Berlin') | (df['state'] == 'Bayern')

In [51]:
df[mask]

Unnamed: 0,area_id,area,state,voters,total_votes,invalid_second_votes,valid_second_votes,check_valid
74,74,Berlin-Mitte,Berlin,206706,151634,2214,149420,149420
75,75,Berlin-Pankow,Berlin,237071,188607,2198,186409,186409
76,76,Berlin-Reinickendorf,Berlin,182392,137084,2171,134913,134913
77,77,Berlin-Spandau – Charlottenburg Nord,Berlin,184602,132934,2276,130658,130658
78,78,Berlin-Steglitz-Zehlendorf,Berlin,221209,180827,2110,178717,178717
79,79,Berlin-Charlottenburg-Wilmersdorf,Berlin,198672,158245,1429,156816,156816
80,80,Berlin-Tempelhof-Schöneberg,Berlin,235250,181259,2162,179097,179097
81,81,Berlin-Neukölln,Berlin,202616,143790,2980,140810,140810
82,82,Berlin-Friedrichshain-Kreuzberg – Prenzlauer B...,Berlin,223426,173504,1664,171840,171840
83,83,Berlin-Treptow-Köpenick,Berlin,205105,157461,2124,155337,155337


---

**ESERCIZIO**: estrarre gli indici delle righe che corrispondono agli stati `Berlin` e `Bayern`.

In [52]:
mask = (df['state'] == 'Berlin') | (df['state'] == 'Bayern')
df[mask].index

Int64Index([ 74,  75,  76,  77,  78,  79,  80,  81,  82,  83,  84,  85, 211,
            212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224,
            225, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237,
            238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250,
            251, 252, 253, 254, 255, 256],
           dtype='int64')

### Selezionare una riga tramite `iloc[]`


    df.iloc[pos_index]
    
prende in input e restituisce la riga che ha indice di posizione `pos_index`, in un oggetto di tipo `Series`.

---

L'espressione:

    df.iloc[pos_index] = new_value
    
aggiorna tutti i valori della riga restituita a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[pos_index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre l'area della riga con indice di posizione `2` (cioé la terza riga del *data frame*).

**NB**: anche un oggetto `Series` che contiene una riga di un *data frame* può essere sottoposto a selezione di colonne (esattamente come per un *data frame*).

### Selezionare righe contigue tramite `iloc[]`

L'espressione:

    df.iloc[start_pos_index:end_pos_index]
    
restituisce tutte le righe dalla posizione di indice `start_pos_index` a quella di indice `end_pos_index-1`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.iloc[start_pos_index:end_pos_index] = new_value
    
aggiorna tutti i valori delle righe restituite a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[start_pos_index:end_pos_index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre la lista delle aree delle righe dalla ottava alla dodicesima.

---

### Selezionare righe (anche non contigue) tramite `iloc[]`

L'espressione:

    df.iloc[pos_index_list]
    
restituisce tutte le righe nelle posizioni indicate nella lista `pos_index_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.iloc[pos_index_list] = new_value
    
aggiorna tutti i valori delle righe restituite a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[pos_index_list]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre i valori relativi alla colonna `area` per tutte l'ottava, la nona, la dodicesima e la quattordicesima riga.

### Selezionare una riga tramite `loc[]`

L'espressione:

        df.loc[index]
        
restituisce la riga che ha indice `index`, in un oggetto `Series` (se non esiste, viene lanciato un `KeyError`).

---

L'espressione:

        df.loc[index] = new_value
        
aggiorna tutti i valori della riga che ha indice `index` con il nuovo valore `new_value`.

---

**NB**: `loc[index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre lo stato della riga di indice `3`.

### Selezionare righe (anche non contigue) tramite `loc[]`

L'espressione:

    df.loc[index_list]
    
restituisce tutte le righe che hanno gli indici presenti nella lista `index_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.loc[index_list] = new_value
    
aggiorna tutti i valori delle righe che hanno indice in `index_list` con il nuovo valore `new_value`.

---

**NB**: `loc[index_list]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe di indice `3`, `8` e `10`.

### Selezionare le righe che rispettano una condizione tramite `loc[]`

L'espressione:

        df.loc[mask]
        
restituisce le righe che verificano la condizione rappresentata da `mask`.

---

L'espressione:

        df.loc[mask] = new_value
        
aggiorna tutti i valori delle righe che verificano la condizione rappresentata da `mask` con il nuovo valore `new_value`.

---

**NB**: `loc[mask]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe corrispondenti a `Berlin` nella colonna `state`.

### Selezionare una colonna di una riga tramite `loc[]`

L'espressione:

    df.loc[index, column_name]
    
restituisce il valore della riga che ha indice `index` relativo alla colonna `column_name`.

---

L'espressione:

    df.loc[index, column_name] = new_value
    
aggiorna il valore della riga che ha indice `index` relativo alla colonna `column_name` con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre il valore relativo alla colonna `state` della riga di indice `5` e aggiornarlo con la stringa `unknown`.

### Selezionare una colonna per più righe tramite `loc[]`

L'espressione:

    df.loc[index_list, column_name]
    
restituisce i valori delle righe che hanno indici nella lista `index_list` relativi alla colonna `column_name`, in un oggetto di tipo `Series`.

---

L'espressione:

    df.loc[index_list, column_name] = new_value
    
aggiorna i valori delle righe che hanno indici nella lista `index_list` relativi alla colonna `column_name`, con il nuovo valore .`new_value`.

---

**ESERCIZIO**: estrarre i valori relativi alla colonna `state` delle righe di indici `5`, `10` e `11` e aggiornarli con la stringa `unknown`.

---

**ESERCIZIO**: aggiornare a 0 tutti i valori relativi della colonna `invalid_second_votes` che sono inferiori a 200.

### Selezionare più colonne per più righe tramite `loc[]`

L'espressione:

        df.loc[index_list, column_list]
        
restituisce i valori delle righe che hanno indici nella lista `index_list` relativi alle colonne presenti nella lista `column_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.loc[index_list, column_list] = new_value
    
aggiorna i valori delle righe che hanno indici nella lista `index_list` relativi alle colonne nella lista `column_list`, con il nuovo valore .`new_value`.

---

**ESERCIZIO**: estrarre i valori relativi alle colonne `area` e `state` per le righe di indice `100`, `150` e `200`.

### Ottenere un valore tramite `at[]`

L'espressione:

    df.at[index, column_name]
    
restituisce il valore della riga con indice `index` in corrispondenza della colonna `column_name`.

---

L'espressione:

    df.at[index, column_name] = new_value
    
aggiorna il valore della riga con indice `index` in corrispondenza della colonna `column_name` con il nuovo valore `new_value`.

---

**ESEMPIO**: 

### Controllare la presenza di valori nulli

La funzione:

    pd.isnull(df|column)
    
prende come argomento un *data frame* oppure una colonna e restituisce un oggetto `Series` contenente valori booleani.

---
    
Il metodo:

    df|column.isnull()
    
viene invocato su un *data frame* oppure su una colonna e restituisce un oggetto `DataFrame` contenente valori booleani.

---

### Ottenere valori unici con il metodo  `unique()`

Il metodo `unique()` degli oggetti `Series` restituisce l'array dei valori distinti presenti nell'oggetto invocante.

---

**ESERCIZIO**: determinare la lista dei valori unici della colonna `state`.

### Ottenere statistiche generali


Gli oggetti `DataFrame` e `Series` dispongono del metodo `describe()` per ottenere statistiche generali su *data frame* e colonne.

### Alcuni metodi...

Gli oggetti `DataFrame` e `Series` dispongono di metodi come `max()`, `min()`, `count()`, `var()`, `std()`, `mean()`, `sum()`.

---

**ESEMPI**:

I *data frame* hanno inoltre il metodo `corr()` per calcolare la matrice di covarianza. 

### Ordinare valori

Il metodo `sort_values()`:

    df.sort_values(column_list, ascending = True|False, inplace = True|False)
    
ordina le righe secondo le colonne specificate in nella lista `column_list` in senso ascendente o discendente.
    
`inplace = True` significa che il *data frame* invocante viene aggiornato, mentre per `inplace = False` viene restituita una copia aggiornata.

**NB**: al posto di `column_list` si puo anche mettere un solo nome di colonna.

---

**ESERCIZIO**: ordinare le righe per colonne `state` e `area` in ordine ascendente (senza aggiornare il *data frame* invocante).

---

**ESERCIZIO**: ordinare le righe per numero di voti totali in ordine discendente (senza aggiornare il *data frame* invocante).

### Raggruppare i valori

Il metodo `groupby()`:

    df.groupby(column_list)
   
restituisce un oggetto `DataFrameGroupBy` che raggruppa i valori secondo le colonne specificate nella lista `column_list`, a cui può essere applicata un'operazione.

**NB**: al posto di `column_list` si puo anche mettere un solo nome di colonna.

---

**ESERCIZIO**: estrarre il numero di votanti totali per "stato".

---

**ESERCIZIO**: visualizzare il numero dei votanti per ogni area raggruppandole per "stato".

### Applicare una funzione a un *data frame* con il metodo `apply()`

Il metodo:

        df.apply(function)
        
applica la funzione `function` a tutti i valori del *data frame* invocante e restituisce un *data frame* con la stessa struttura che contiene i valori restituiti dalla funzione.

**NB**: `apply()` è un metodo anche degli oggetti `Series`.

---

**ESERCIZIO**: estrarre il *data frame* del numero totale dei votanti e dei voti totali decrementati di 1000 unità.

---

**ESERCIZIO**: estrarre la colonna del numero totale dei votanti convertito in numero decimale.

### Iterare lungo le righe di un *data frame*

Il metodo `iterrows()` permette di iterare lungo le righe di un *data frame*.

    for (index, record) in df.iterrows():
        block

### Salvare un *data frame* in formato `csv`

Il metodo `to_csv`

        df.to_csv(file_name, index=False|True)
        
scrive il *data frame* in formato `csv` in un  file.

Se la keyword `index` è `True`, gli indici delle righe vengono prodotti in output e il relativo nome di campo è la stringa vuota.

---

### Richiamare `matplotlib` da Pandas

### Cambiare indice al *data frame*

Il metodo:
    
    df.set_index(column_name, inplace = True|False)
    
assegna la colonna `column_name` (non deve contenere duplicati) come colonna degli indici. 