# Introduzione a Pandas

`Pandas` è una libreria, costruita sulla base della libreria `numpy`, che ha lo scopo di manipolare data frames.

Oggetto di tipo `DataFrame` = tabella organizzata in righe (records) e colonne intestate.

`Pandas` offre tre funzionalità principali:

1. costruzione
1. interrogazione
1. aggiornamento

`Pandas` permette di ottenere un data frame a partire da un file in formato tabulare come `csv`, `excel` ma anche a partire da un file in formato `json`.

Per usare `Pandas` bisogna importarlo scrivendo:

In [None]:
import pandas as pd

### Leggere un file `csv` con Pandas

Un file `csv` è un file composto di record di campi separati da `,` di cui il primo è il record di intestazione che specifica il nome di ognuno dei campi dei record seguenti che contengono i dati.

Funzione `read_csv()` per leggere un file `csv`:

    df = pd.read_csv(csv_file_name)

`df` è il riferimento a oggetto di tipo `DataFrame`

#### Ad esempio leggiamo il file `2017-german-election-overall.csv`

Pandas riconosce automaticamente il file di input come file in formato `csv` e riconosce i tipi di dati in esso contenuti.

Ogni colonna della tabella contiene dati omogenei.

Ad ognuno dei record Pandas associa un indice progressivo che ha il ruolo di chiave primaria.

In [None]:
df = pd.read_csv("./2017-german-election-overall.csv")

In [None]:
type(df)

In [None]:
df

### Ottenere informazioni sul data frame

- informazioni generali sul data frame

        df.info() 
        
- statistiche generali sul data frame

        df.describe() 

In [None]:
df.info()

In [None]:
df.describe()

### Ottenere la copia di un data frame

        df.copy()

In [None]:
df.copy()

### Variabili `shape` e `columns`

- `shape`, tupla contenente il numero di righe e numero di colonne del data frame
- `columns`, oggetto `Index` che contiene i nomi delle colonne del data frame 

In [None]:
df.shape

In [None]:
list(df.columns)

### Cambiare i nomi delle colonne

    df.rename(columns = name_dict, inplace = True|False)

`name_dict`, dizionario che mappa un nome a un nuovo nome

In [None]:
df.rename(columns = {'registered.voters':'registered_voters', 'area_names':'area'}, inplace = True)
df

### Rimuovere colonne

    df.drop(column_list, axis = 1, inplace = True|False)

In [None]:
df.drop(['invalid_second_votes', 'valid_second_votes'], axis=1, inplace = True)
df

### Rimuovere righe per indice

    df.drop(index_list, axis = 0, inplace = True|False)

In [None]:
df.drop([7,9,12], axis=0, inplace = True)
df

### Ottenere le prime/ultime righe

    df.head(n)
    df.tail(n)

In [None]:
df.head(8)

In [None]:
df.tail(8)

In [None]:
df.head()

In [None]:
df.tail()

### Selezionare righe per posizione (*slicing*)

    df[start_pos:end_pos]

In [None]:
df[0:11]

In [None]:
df[:11]
df.head(11)

### Selezionare una colonna

L'espressione:

    df[column_name]
    
restituisce la colonna con nome `column_name` in un oggetto `Series`, attraverso cui si possono applicare metodi come `max()`, `min()`, `count()`, `var()`, `std()`, `mean()` etc. oppure `describe()`.

In [None]:
type(df['registered_voters'])

In [None]:
df['registered_voters']

In [None]:
df['registered_voters'].describe()

In alternativa si può usare la notazione con il punto:

    df.column_name

In [None]:
df.registered_voters.describe()

### Selezionare colonne

L'espressione:

    df[column_list]

restituisce un data frame con le colonne specificate in `column_list`, attraverso cui si possono applicare metodi come `max()`, `min()`, `count()`, `var()`, `std()`, `mean()`, `corr()` etc.

In [None]:
type(df[['registered_voters', 'total_votes']])

In [None]:
df[['registered_voters', 'total_votes']].mean()

In [None]:
df[['registered_voters', 'total_votes']].mean()[1]

In [None]:
df[['registered_voters', 'total_votes']].corr()

**NB**: i metodi possono anche essere invocati sul dataset intero.

In [None]:
df.mean()

In [None]:
df.corr()

### Controllare se ci sono valori nulli

Le espressioni:

    pd.isnull(df)
    df.isnull()
    
restituiscono un data frame di valori booleani.

In [None]:
pd.isnull(df)

In [None]:
df.isnull()

Le espressioni:

    pd.isnull(series_obj)
    series_obj.isnull()
    
restituiscono un data frame di valori booleani.

In [None]:
df['state'].isnull()

In [None]:
pd.isnull(df['state'])

### Metodo `unique()`

Il metodo `unique()` degli oggetti `Series` restituisce l'array dei valori distinti presenti nell'oggetto invocante.

In [None]:
df['state'].unique()

In [None]:
df.state.unique()

### Selezionare le righe che verificano una certa condizione

Le istruzioni equivalenti:

    mask = df[column_name] cfr_op value
    mask = df.column_name cfr_op value

dove `cfr_op` è un operatore di confronto, assegnano alla variabile `mask` un oggetto `Series` di valori booleani in cui l'i-esimo booleano è `True` se il valore nell'i-esima riga in corrispondenza della colonna `column_name` verifica l'espressione di confronto.

In [None]:
mask = df['state'] == 'Berlin'
mask

In [None]:
mask = df.state == 'Berlin'
mask

L'espressione:

    df[mask]
    
restituisce un data frame con le sole righe che corrispondono a un valore `True` in `mask`.

In [None]:
df[mask]

In [None]:
mask = (df['state'] == 'Berlin') | (df['state'] == 'Bayern')
df[mask]

In [None]:
df[mask][['area', 'registered_voters']]

### Ottenere gli indici delle righe che verificano una certa condizione

    df[mask].index

In [None]:
df[mask][['area', 'registered_voters']].index

### Localizzare righe con `iloc[]`

L'espressione:

    df.iloc[pos_index]
    
restituisce in un oggetto di tipo `Series` la riga in posizione di indice `pos_index`.

In [None]:
df.iloc[7]

In [None]:
df.iloc[7]['area']

L'espressione:

    df.iloc[start_pos_index:end_pos_index]
    
restituisce in un oggetto di tipo `DataFrame` tutte le righe dalla posizione di indice `start_pos_index` a quella di indice `end_pos_index-1`.

In [None]:
df.iloc[7:12]

In [None]:
df.iloc[7:12]['area']

L'espressione:

    df.iloc[pos_index_list]
    
restituisce in un oggetto di tipo `DataFrame` tutte le righe dalla posizione di indice `start_pos_index` a quella di indice `end_pos_index-1`.

In [None]:
df.iloc[[7, 8, 11, 13]]

In [None]:
df.iloc[[7, 8, 11, 13]]['area']

### Uso di  `loc[]`

- accesso a una riga tramite il suo indice

        df.loc[index]

In [None]:
df.loc[5]

- accesso a più righe tramite i loro indici

        df.loc[[index1, index2, ...]]

In [None]:
df.loc[[5,8,10]]

- accesso a un valore del data frame

        df.loc[index, column_name]

In [None]:
df.loc[5, 'state']

- accesso a più valori del data frame

        df.loc[[index1, index2, ...], column_name]

In [None]:
df.loc[[5,10,11], 'state']

In [None]:
df.loc[[5,10,11], 'state'] = 'unknown'

- accesso a più valori del data frame

        df.loc[[index1, index2, ...], [column_name1, column_name2, ...]]

In [None]:
df.loc[[5,10,11], ['area', 'state']]

- accesso alle righe che verificano una certa condizione

        df.loc[mask]

In [None]:
df.loc[df['state'] == 'Berlin']

### Ottenere un valore tramite un indice con `at[]`

    df.at[index, column_name]

In [None]:
df.at[11, 'area']

In [None]:
df.at[11, 'area'] = 'unknown'

### Ordinare valori

Ordinare per valori di una colonna:

    df.sort_values(column_name, ascending = True|False, inplace = True|False)
    
Ordinare per valori di più colonne:

    df.sort_values(column_list, ascending = True|False, inplace = True|False)

In [None]:
df.sort_values('total_votes', ascending = False)

In [None]:
df.sort_values(['state', 'area'], ascending = True)

### Raggruppare i valori

L'espressione:

    df.groupby(column_name)
    df.groupby(column_list)
   
restituisce un oggetto `DataFrameGroupBy`.

In [None]:
df.groupby('state')['registered_voters'].sum()

In [None]:
df.groupby(['state', 'area'])['registered_voters'].sum()

### Aggiungere una colonna

    df[new_column] = new_series_obj

In [None]:
df['difference'] = df['valid_first_votes'] - df['invalid_first_votes']
df

### Applicare una funzione a un oggetto `Series`

L'espressione:

        series_obj.apply(fun)
        
applica la funzione `fun` a tutti i valori in `series_obj` e restituisce un altro oggetto di tipo `Series`.

In [None]:
df['registered_voters'].apply(lambda x: float(x+1))

### Applicare una funzione a un oggetto `DataFrame`

L'espressione:

        df.applymap(fun)
        
applica la funzione `fun` a tutti i valori in `df` e restituisce un altro oggetto di tipo `DataFrame`.

In [None]:
df[['registered_voters', 'total_votes']].applymap(lambda x: 'votes='+str(x))

### Come iterare i record di un data frame

    for (index, record) in df.iterrows():
        do_something

In [None]:
for (index, record) in df.iterrows():
        print(str(index) + ' ' + record['state'])

### Scrivere un data frame su un file in formato `csv`

        df.to_csv(file_name, index=False|True)

In [None]:
df.to_csv('./output.csv', index = False)

### Richiamare `matplotlib` da Pandas

In [None]:
df.registered_voters.plot(label="Registered voters", legend=True)