# Introduzione a Pandas

`Pandas` è una libreria basata sulla libreria `numpy`, che ha lo scopo di manipolare *Data Frames*.

Un *data frame* è una tabella che organizza i dati in righe (*record*) e colonne intestate:
oggetto di tipo `DataFrame`

Singole righe (*record*) e singole colonne: oggetti di tipo `Series`.


`Pandas` offre tre funzionalità principali:

1. costruzione
1. interrogazione
1. aggiornamento

Formati da cui derivare un *data frame*: `csv`, `excel`, `json`.

---

Importare `Pandas`:

### Creazione di un *Data Frame* a partire da un dizionario

       df = pd.DataFrame(data_dictionary)

### Creazione di un *Data Frame* a partire da una lista

       df = pd.DataFrame(data_list, coumns = column_names)

### Creazione di un *Data Frame* da un file `csv`

    df = pd.read_csv(csv_file_name)

### Lettura del file `2017-german-election-overall.csv`

### Informazioni sul *Data Frame*

- informazioni generali sul data frame

        df.info()

### Ottenere le prime/ultime `n` righe

    df.head(n)
    df.tail(n)

### Fare una copia di un *data frame*

        df.copy()

In [None]:
df.copy()

### Variabili `shape` e `columns`

- `shape`: numero di righe e di colonne del *Data Frame*
- `columns`: nomi delle colonne del *Data Frame* (oggetto di tipo `Index`) 

### Cambiare nomi alle colonne

    df.rename(columns = name_dict, inplace = True|False)

### Rimuovere righe e colonne

Il metodo `drop()`:

    df.drop(list_to_remove, axis = 1|0, inplace = True|False)
    
rimuove le colonne (`axis = 1`) o le righe (`axis = 0`) specificate nella lista `list_to_remove`.

---

**ESERCIZIO**: rimuovere le colonne `valid_first_votes` e `invalid_first_votes` e in seguito le righe con indici `2`, `9` e `10`.

### Selezionare una colonna

Le espressioni:

    df[column_name]
    df.column_name
    
restituiscono la colonna avente nome `column_name`, in un oggetto di tipo `Series`.

---

**NB**: le espressioni:

    df[column_name] = new_value
    df.column_name = new_value
    
aggiornano tutti i valori della colonna, restituita dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre la colonna `voters`.

**NB**: i singoli valori in una colonna mantengono l'indice associato alla riga a cui appartengono.

**ESERCIZIO**: aggiornare a 0 tutti i valori della colonna `area_id`.

### Selezionare più colonne

L'espressione:

    df[column_list]
    
restituisce le colonne della lista `column_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df[column_list] = new_value
    
aggiorna tutti i valori del *data frame*, restituito dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre le colonne `voters` e `total_votes`.

**NB:** se `column_list` contiene un'unica stringa, il *data frame* sarà composto da un'unica colonna.

### Ottenere gli indici di riga (chiavi primarie)

L'espressione: 
    
    df.index

restituisce gli indici delle righe del *data frame* invocante.

**NB**: gli indici possono anche essere ottenuti da un oggetto di tipo `Series` (colonna).

---

### Aggiornare una colonna

L'istruzione di assegnamento: 

    df[column_name] = series_obj
    
aggiorna la colonna `column_name` con i valori dell'oggetto `series_obj` che deve essere della stessa dimensione del *data frame*.

**NB**: `series_obj` può essere il risultato di un'espressione.

---

**ESERCIZIO**: aggiornare i valori della colonna `area` con i relativi indici (chiave primaria).

### Aggiungere una colonna

L'istruzione di assegnamento: 

    df[new_column_name] = series_obj
    
aggiunge la colonna `new_column_name` con i valori dell'oggetto `series_obj` che deve essere della stessa dimensione del *data frame*.

**NB**: `series_obj` può essere il risultato di un'espressione.

---

**ESERCIZIO**: aggiungere la colonna che contiene la differenza tra le colonne `total_votes` e `invalid_second_votes`

### Selezionare le righe tramite *slicing*

L'espressione: 

    df[start_pos_index:end_pos_index:step]
    
restituisce le righe che hanno indice di posizione compreso tra `start_pos_index` e `end_pos_index` secondo lo step indicato, in un oggetto `DataFrame`.

---

L'espressione:

    df[start_pos_index:end_pos_index:step] = new_value
    
aggiorna tutti i valori dell'oggetto, restituito dall'espressione a sinistra dell'assegnamento, con il nuovo valore `new_value`.

---

**NB**: lo *slicing* può essere applicato anche a un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe dalla quarta alla undicesima.

### Selezionare le righe in base a una condizione

Una maschera è un oggetto di tipo `Series` che contiene valori booleani `True` e `False` e che può essere utilizzata per selezionare le righe di un *data frame*.

L'espressione:

    df[mask]
    
restituisce un *data frame* con le sole righe che corrispondono a un valore `True` di `mask`.

La dimensione di `mask` deve essere uguale al numero di righe in `df`ed è il risultato di un'espressione booleana.

---

L'espressione:

    df[mask] = new_value
    
aggiorna tutti i valori del *data frame* restituito a sinistra con il nuovo valore `new_value`.

---

**NB**: la maschera può essere applicata anche a un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: selezionare le righe del *data frame* che hanno valore `Berlin` nella colonna `state`.

---

**ESERCIZIO**: produrre le aree e il numero dei votanti per gli stati `Berlin` e `Bayern`.

---

**ESERCIZIO**: estrarre gli indici delle righe che corrispondono agli stati `Berlin` e `Bayern`.

### Selezionare una riga tramite `iloc[]`

Il metodo:

    df.iloc[pos_index]
    
prende in input e restituisce la riga che ha indice di posizione `pos_index`, in un oggetto di tipo `Series`.

---

L'espressione:

    df.iloc[pos_index] = new_value
    
aggiorna tutti i valori della riga restituita a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[pos_index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre l'area della riga con indice di posizione `2` (cioé la terza riga del *data frame*).

**NB**: anche un oggetto `Series` che contiene una riga di un *data frame* può essere sottoposto a selezione di colonne (esattamente come per un *data frame*).

### Selezionare righe contigue tramite `iloc[]`

L'espressione:

    df.iloc[start_pos_index:end_pos_index]
    
restituisce tutte le righe dalla posizione di indice `start_pos_index` a quella di indice `end_pos_index-1`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.iloc[start_pos_index:end_pos_index] = new_value
    
aggiorna tutti i valori delle righe restituite a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[start_pos_index:end_pos_index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre la lista delle aree delle righe dalla ottava alla dodicesima.

---

### Selezionare righe (anche non contigue) tramite `iloc[]`

L'espressione:

    df.iloc[pos_index_list]
    
restituisce tutte le righe nelle posizioni indicate nella lista `pos_index_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.iloc[pos_index_list] = new_value
    
aggiorna tutti i valori delle righe restituite a sinistra con il nuovo valore `new_value`.

---

**NB**: `iloc[pos_index_list]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre i valori relativi alla colonna `area` per tutte l'ottava, la nona, la dodicesima e la quattordicesima riga.

### Selezionare una riga tramite `loc[]`

L'espressione:

        df.loc[index]
        
restituisce la riga che ha indice `index`, in un oggetto `Series` (se non esiste, viene lanciato un `KeyError`).

---

L'espressione:

        df.loc[index] = new_value
        
aggiorna tutti i valori della riga che ha indice `index` con il nuovo valore `new_value`.

---

**NB**: `loc[index]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre lo stato della riga di indice `3`.

### Selezionare righe (anche non contigue) tramite `loc[]`

L'espressione:

    df.loc[index_list]
    
restituisce tutte le righe che hanno gli indici presenti nella lista `index_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.loc[index_list] = new_value
    
aggiorna tutti i valori delle righe che hanno indice in `index_list` con il nuovo valore `new_value`.

---

**NB**: `loc[index_list]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe di indice `3`, `8` e `10`.

### Selezionare le righe che rispettano una condizione tramite `loc[]`

L'espressione:

        df.loc[mask]
        
restituisce le righe che verificano la condizione rappresentata da `mask`.

---

L'espressione:

        df.loc[mask] = new_value
        
aggiorna tutti i valori delle righe che verificano la condizione rappresentata da `mask` con il nuovo valore `new_value`.

---

**NB**: `loc[mask]` può essere invocato anche da un oggetto di tipo `Series` (riga o colonna).

---

**ESERCIZIO**: estrarre le righe corrispondenti a `Berlin` nella colonna `state`.

### Selezionare una colonna di una riga tramite `loc[]`

L'espressione:

    df.loc[index, column_name]
    
restituisce il valore della riga che ha indice `index` relativo alla colonna `column_name`.

---

L'espressione:

    df.loc[index, column_name] = new_value
    
aggiorna il valore della riga che ha indice `index` relativo alla colonna `column_name` con il nuovo valore `new_value`.

---

**ESERCIZIO**: estrarre il valore relativo alla colonna `state` della riga di indice `5` e aggiornarlo con la stringa `unknown`.

### Selezionare una colonna per più righe tramite `loc[]`

L'espressione:

    df.loc[index_list, column_name]
    
restituisce i valori delle righe che hanno indici nella lista `index_list` relativi alla colonna `column_name`, in un oggetto di tipo `Series`.

---

L'espressione:

    df.loc[index_list, column_name] = new_value
    
aggiorna i valori delle righe che hanno indici nella lista `index_list` relativi alla colonna `column_name`, con il nuovo valore .`new_value`.

---

**ESERCIZIO**: estrarre i valori relativi alla colonna `state` delle righe di indici `5`, `10` e `11` e aggiornarli con la stringa `unknown`.

---

**ESERCIZIO**: aggiornare a 0 tutti i valori relativi della colonna `invalid_second_votes` che sono inferiori a 200.

### Selezionare più colonne per più righe tramite `loc[]`

L'espressione:

        df.loc[index_list, column_list]
        
restituisce i valori delle righe che hanno indici nella lista `index_list` relativi alle colonne presenti nella lista `column_list`, in un oggetto di tipo `DataFrame`.

---

L'espressione:

    df.loc[index_list, column_list] = new_value
    
aggiorna i valori delle righe che hanno indici nella lista `index_list` relativi alle colonne nella lista `column_list`, con il nuovo valore .`new_value`.

---

**ESERCIZIO**: estrarre i valori relativi alle colonne `area` e `state` per le righe di indice `100`, `150` e `200`.

### Ottenere un valore tramite `at[]`

L'espressione:

    df.at[index, column_name]
    
restituisce il valore della riga con indice `index` in corrispondenza della colonna `column_name`.

---

L'espressione:

    df.at[index, column_name] = new_value
    
aggiorna il valore della riga con indice `index` in corrispondenza della colonna `column_name` con il nuovo valore `new_value`.

---

**ESEMPIO**: 

### Controllare la presenza di valori nulli

La funzione:

    pd.isnull(df|column)
    
prende come argomento un *data frame* oppure una colonna e restituisce un oggetto `Series` contenente valori booleani.

---
    
Il metodo:

    df|column.isnull()
    
viene invocato su un *data frame* oppure su una colonna e restituisce un oggetto `DataFrame` contenente valori booleani.

---

### Ottenere valori unici con il metodo  `unique()`

Il metodo `unique()` degli oggetti `Series` restituisce l'array dei valori distinti presenti nell'oggetto invocante.

---

**ESERCIZIO**: determinare la lista dei valori unici della colonna `state`.

### Ottenere statistiche generali


Gli oggetti `DataFrame` e `Series` dispongono del metodo `describe()` per ottenere statistiche generali su *data frame* e colonne.

### Alcuni metodi...

Gli oggetti `DataFrame` e `Series` dispongono di metodi come `max()`, `min()`, `count()`, `var()`, `std()`, `mean()`, `sum()`.

---

**ESEMPI**:

I *data frame* hanno inoltre il metodo `corr()` per calcolare la matrice di covarianza. 

### Ordinare valori

Il metodo `sort_values()`:

    df.sort_values(column_list, ascending = True|False, inplace = True|False)
    
ordina le righe secondo le colonne specificate in nella lista `column_list` in senso ascendente o discendente.
    
`inplace = True` significa che il *data frame* invocante viene aggiornato, mentre per `inplace = False` viene restituita una copia aggiornata.

**NB**: al posto di `column_list` si puo anche mettere un solo nome di colonna.

---

**ESERCIZIO**: ordinare le righe per colonne `state` e `area` in ordine ascendente (senza aggiornare il *data frame* invocante).

---

**ESERCIZIO**: ordinare le righe per numero di voti totali in ordine discendente (senza aggiornare il *data frame* invocante).

### Raggruppare i valori

Il metodo `groupby()`:

    df.groupby(column_list)
   
restituisce un oggetto `DataFrameGroupBy` che raggruppa i valori secondo le colonne specificate nella lista `column_list`, a cui può essere applicata un'operazione.

**NB**: al posto di `column_list` si puo anche mettere un solo nome di colonna.

---

**ESERCIZIO**: estrarre il numero di votanti totali per "stato".

---

**ESERCIZIO**: visualizzare il numero dei votanti per ogni area raggruppandole per "stato".

### Applicare una funzione a un *data frame* con il metodo `apply()`

Il metodo:

        df.apply(function)
        
applica la funzione `function` a tutti i valori del *data frame* invocante e restituisce un *data frame* con la stessa struttura che contiene i valori restituiti dalla funzione.

**NB**: `apply()` è un metodo anche degli oggetti `Series`.

---

**ESERCIZIO**: estrarre il *data frame* del numero totale dei votanti e dei voti totali decrementati di 1000 unità.

---

**ESERCIZIO**: estrarre la colonna del numero totale dei votanti convertito in numero decimale.

### Iterare lungo le righe di un *data frame*

Il metodo `iterrows()` permette di iterare lungo le righe di un *data frame*.

    for (index, record) in df.iterrows():
        block

### Salvare un *data frame* in formato `csv`

Il metodo `to_csv`

        df.to_csv(file_name, index=False|True)
        
scrive il *data frame* in formato `csv` in un  file.

Se la keyword `index` è `True`, gli indici delle righe vengono prodotti in output e il relativo nome di campo è la stringa vuota.

---

### Richiamare `matplotlib` da Pandas

### Cambiare indice al *data frame*

Il metodo:
    
    df.set_index(column_name, inplace = True|False)
    
assegna la colonna `column_name` (non deve contenere duplicati) come colonna degli indici. 