# Introduzione a Pandas

*Data Frame* (oggetto di tipo `DataFrame`): tabella che organizza i dati in righe (*record*) e colonne con un'intestazione.

Ogni colonna contiene dati di tipo omogeneo.

Ad ognuna delle righe viene associato un indice (chiave primaria), che di default è un numero intero progressivo.

Righe e colonne sono oggetti di tipo `Series`.

### Funzionalità

1. costruzione
1. interrogazione
1. aggiornamento

Formati da cui derivare un *data frame*: `csv`, `excel`, `json`.

---

Importare `Pandas`.

---

## Creazione di un *Data Frame* a partire da un dizionario

       df = pd.DataFrame(data_dictionary)

---

## Creazione di un *Data Frame* a partire da una lista

       df = pd.DataFrame(data_list, columns = column_names)
       


---

## Creazione di un *Data Frame* da un file `csv`

    df = pd.read_csv(csv_file_name)

### Lettura del file `2017-german-election-overall.csv`

---

## Recuperare informazioni sul *Data Frame*

        df.info()

---

## Ottenere le prime/ultime `n` righe

    df.head(n)
    df.tail(n)

---

## Fare una copia di un *data frame*

        df.copy()

---

## Variabile `shape`



## Variabile  `columns`

---

## Cambiare i nomi delle colonne

    df.rename(columns = name_dict, inplace = False)


---

## Rimuovere righe o colonne

    df.drop(list_to_remove, axis = 1|0, inplace = False)
    
---

**ESERCIZIO**: rimuovere le colonne `valid_first_votes` e `invalid_first_votes` e in seguito le righe con indice `2`, `9` e `10`.

---

## Estrarre una colonna

    df[column_name]
    df.column_name
    
---

**ESERCIZIO**: estrarre la colonna `voters` e aggiornare a 0 tutti i valori della colonna `area_id`.

---

## Estrarre più colonne


    df[column_list]
    
---

**ESERCIZIO**: estrarre le colonne `voters` e `total_votes`.

---

## Ottenere gli indici (chiavi primarie) di un data frame (o di una colonna)
    
    df.index
    column.index

---

---

## Aggiornare i valori di una colonna

    df[column_name] = series_obj
    
---

**ESERCIZIO**: aggiornare i valori della colonna `area_id` con il relativo indice.

---

## Aggiungere una colonna

    df[new_column_name] = series_obj
    
---

**ESERCIZIO**: aggiungere la colonna che contiene la percentuale dei voti totali sui votanti.

---

## Selezionare righe tramite *slicing*


    df[start_pos_index:end_pos_index:step]
    
---

**ESERCIZIO**: estrarre le righe dalla quarta alla undicesima.

---

## Selezionare righe in base a una condizione

    df[mask]
    
`mask` è un oggetto di tipo `Series` che contiene valori booleani `True` e `False`.

Viene restituito un *data frame* con le sole righe che corrispondono a un valore `True` di `mask`.

---

**ESERCIZIO**: estrarre i *records* che si riferiscono a Berlin.

---

**ESERCIZIO**: estrarre il data frame che contiene solo le aree e il numero dei votanti per `Berlin` e `Bayern`.

---

## Selezionare una riga tramite `iloc[]`

    df.iloc[pos_index]
    

---

## Selezionare righe contigue tramite `iloc[]`

    df.iloc[start_pos_index:end_pos_index]
    

---

## Selezionare righe non contigue tramite `iloc[]`


    df.iloc[pos_index_list]
    
---

---

## Selezionare una riga tramite `loc[]`


        df.loc[index]
        
---

**ESERCIZIO**: estrarre il campo `area` della riga con indice `4`.

---

## Selezionare righe tramite `loc[]`


    df.loc[index_list]
    
---

**ESERCIZIO**: estrarre le righe con indici `5`, `8` e `10`.

---

## Selezionare righe che rispettano una condizione tramite `loc[]`


        df.loc[mask]
        
---

**ESERCIZIO**: estrarre le righe corrispondenti al valore `Berlin` della colonna `state`.

---

## Selezionare il campo di una riga tramite `loc[]`


    df.loc[index, column_name]
    
---

---

## Selezionare un campo di più righe tramite `loc[]`


    df.loc[index_list, column_name]
    
---

---

**ESERCIZIO**: aggiornare a 0 tutti i valori inferiori a 200 relativi alla colonna `invalid_second_votes`.

---

## Selezionare più campi di più righe tramite `loc[]`


        df.loc[index_list, column_list]
        
---

---

## Ottenere un valore tramite `at[]`

    df.at[index, column_name]
    
---

---

## Controllare la presenza di valori nulli


    pd.isnull(df|column)
    
---

---

## Ottenere statistiche generali

    df.describe()
    column.describe()

---

## Alcuni metodi utili...

Gli oggetti `DataFrame` e `Series` dispongono di metodi come `max()`, `min()`, `count()`, `var()`, `std()`, `mean()`, `sum()`.

Gli oggetti `DataFrame` dispongono del metodo `corr()` per calcolare la matrice di covarianza. 

---

### Metodo  `unique()`

Il metodo `unique()` degli oggetti `Series` restituisce l'array dei valori distinti presenti nell'oggetto invocante.

---

**ESERCIZIO**: determinare i valori distinti della colonna `state`.

### Metodo `value_counts()`

    column|df.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)

---

**ESERCIZIO**: determinare le frequenze relative del campo `state` e produrle in ordine crescente.

### Metodo `sort_values()`


    df.sort_values(column|column_list, ascending = True, inplace = False)
    
---

**ESERCIZIO**: ordinare le righe per colonne `state` e `area`, in ordine discendente (senza aggiornare il *data frame* invocante).

---

**ESERCIZIO**: ordinare le righe per numero di voti totali, in ordine discendente (senza aggiornare il *data frame* invocante).

---

## Raggruppare valori

    df.groupby(column_list)
   
---

**ESERCIZIO**: estrarre il numero di votanti totali per campo `state`.

---

**ESERCIZIO**: visualizzare il numero dei votanti per ogni area raggruppandole per campo `state`.

---

## Applicare una funzione con il metodo `apply()`

        df.apply(function)
        column.apply(function)


---

**ESERCIZIO**: estrarre il *data frame* con le due colonne contenenti il numero dei votanti e dei voti totali, con tutti i valori decrementati di 1000 unità.

---

**ESERCIZIO**: estrarre la colonna del numero dei votanti convertito in numero decimale.

---

## Iterare lungo le righe di un *data frame*


    for (index, record) in df.iterrows():
        block

---

## Salvare un *data frame* in formato `csv`


        df.to_csv(file_name, index = False)
        
---

---

## Richiamare `matplotlib` da Pandas

---

## Cambiare gli indici (chiavi primarie)
    
    df.set_index(column|columns, drop = True, inplace = False)
 

---

**ESERCIZIO**: produrre una copia del data frame che ha indice dato dal campo `area` seguito da un `-` e dall'attuale indice.