# Introduzione a Pandas

Oggetto di tipo `DataFrame` = tabella organizzata in righe (records) e colonne intestate.

`Pandas` offre tre funzionalità principali:

1. costruzione
1. interrogazione
1. aggiornamento

### Leggere un file `csv` con Pandas

Un file `csv` è un file composto di record di campi separati da `,` di cui il primo è il record di intestazione che specifica il nome di ognuno dei campi dei record seguenti che contengono i dati.

Funzione `read_csv()` per leggere un file `csv`:

    df = pd.read_csv(csv_file_name)

`df` è il riferimento a oggetto di tipo `DataFrame`

#### Ad esempio leggiamo il file `2017-german-election-overall.csv`

### Ottenere informazioni sul data frame

- informazioni generali sul data frame

        df.info() 
        
- statistiche generali sul data frame

        df.describe() 

### Ottenere la copia di un data frame

        df.copy()

### Variabili `shape` e `columns`

- `shape`, tupla contenente il numero di righe e numero di colonne del data frame
- `columns`, oggetto `Index` che contiene i nomi delle colonne del data frame 

### Cambiare i nomi delle colonne

    df.rename(columns = name_dict, inplace = True|False)

`name_dict`, dizionario che mappa un nome a un nuovo nome

### Rimuovere colonne

    df.drop(column_list, axis = 1, inplace = True|False)

### Rimuovere righe per indice

    df.drop(index_list, axis = 0, inplace = True|False)

### Ottenere le prime/ultime righe

    df.head(n)
    df.tail(n)

### Selezionare righe per posizione (*slicing*)

    df[start_pos:end_pos]

### Selezionare una colonna

L'espressione:

    df[column_name]
    
restituisce la colonna con nome `column_name` in un oggetto `Series`

In alternativa si può usare la notazione con il punto:

    df.column_name

### Selezionare colonne

L'espressione:

    df[column_list]

restituisce un data frame con le colonne specificate in `column_list`.

### Controllare se ci sono valori nulli

Le espressioni:

    pd.isnull(df)
    df.isnull()
    
restituiscono un data frame di valori booleani.

Le espressioni:

    pd.isnull(series_obj)
    series_obj.isnull()
    
restituiscono un data frame di valori booleani.

### Metodo `unique()`

Il metodo `unique()` degli oggetti `Series` restituisce l'array dei valori distinti presenti nell'oggetto invocante.

### Selezionare le righe che verificano una certa condizione

Le istruzioni equivalenti:

    mask = df[column_name] cfr_op value
    mask = df.column_name cfr_op value

dove `cfr_op` è un operatore di confronto, assegnano alla variabile `mask` un oggetto `Series` di valori booleani in cui l'i-esimo booleano è `True` se il valore nell'i-esima riga in corrispondenza della colonna `column_name` verifica l'espressione di confronto.

L'espressione:

    df[mask]
    
restituisce un data frame con le sole righe che corrispondono a un valore `True` in `mask`.

### Ottenere gli indici delle righe che verificano una certa condizione

    df[mask].index

### Localizzare righe con `iloc[]`

L'espressione:

    df.iloc[pos_index]
    
restituisce in un oggetto di tipo `Series` la riga in posizione di indice `pos_index`.

L'espressione:

    df.iloc[start_pos_index:end_pos_index]
    
restituisce in un oggetto di tipo `DataFrame` tutte le righe dalla posizione di indice `start_pos_index` a quella di indice `end_pos_index-1`.

L'espressione:

    df.iloc[pos_index_list]
    
restituisce in un oggetto di tipo `DataFrame` tutte le righe specificate.

### Uso di  `loc[]`

- accesso a una riga tramite il suo indice

        df.loc[index]

- accesso a più righe tramite i loro indici

        df.loc[[index1, index2, ...]]

- accesso a un valore del data frame

        df.loc[index, column_name]

- accesso a più valori del data frame

        df.loc[[index1, index2, ...], column_name]

- accesso a più valori del data frame

        df.loc[[index1, index2, ...], [column_name1, column_name2, ...]]

- accesso alle righe che verificano una certa condizione

        df.loc[mask]

### Ottenere un valore tramite un indice con `at[]`

    df.at[index, column_name]

### Ordinare valori

Ordinare per valori di una colonna:

    df.sort_values(column_name, ascending = True|False, inplace = True|False)
    
Ordinare per valori di più colonne:

    df.sort_values(column_list, ascending = True|False, inplace = True|False)

### Raggruppare i valori

L'espressione:

    df.groupby(column_name)
    df.groupby(column_list)
   
restituisce un oggetto `DataFrameGroupBy`.

### Aggiungere una colonna

    df[new_column] = new_series_obj

### Applicare una funzione a un oggetto `Series`

L'espressione:

        series_obj.apply(fun)
        
applica la funzione `fun` a tutti i valori in `series_obj` e restituisce un altro oggetto di tipo `Series`.

### Applicare una funzione a un oggetto `DataFrame`

L'espressione:

        df.applymap(fun)
        
applica la funzione `fun` a tutti i valori in `df` e restituisce un altro oggetto di tipo `DataFrame`.

### Come iterare i record di un data frame

    for (index, record) in df.iterrows():
        do_something

### Scrivere un data frame su un file in formato `csv`

        df.to_csv(file_name, index=False|True)

### Richiamare `matplotlib` da Pandas