# `Pandas`
### [pandas.pydata.org](https://pandas.pydata.org/)
<sub>([Getting Started](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html) della documentazione ufficiale)</sub>

`Pandas` è una libreria software scritta per Python per la manipolazione e l'analisi dei dati.  
In particolare, offre strutture dati e operazioni per manipolare tabelle
numeriche e serie temporali.  
È un software libero, come tutto quello visto finora, rilasciato sotto la licenza BSD.  
Il nome deriva dal termine "panel data", termine econometrico per set di 
dati che include osservazioni su più periodi di tempo per gli stessi individui.

**Caratteristiche** principali di `Pandas` sono:

- **Caricamento** e **salvataggio** di formati standard per dati tabellari, quali CSV (Comma-separated Values), TSV (Tab-separated Values), file Excel e formati per database
- Semplicità nella esecuzione di operazioni di **indicizzazione** e **aggregazione** di dati
- Semplicità nella esecuzione di operazioni **numeriche** e **statistiche**
- Semplicità nella **visualizzazione** dei risultati delle operazioni

Come per tutti gli altri moduli e librerie anche Pandas si importa in Python con la sintassi:

In [None]:
import pandas as pd

anche in questo caso per comodità usiamo un _alias_ ,`pd`, per semplificare la scrittura del codice.

### Pandas Datatypes

Principalmente esistono due tipi di dati in `pandas` le _Series_ ed i _DataFrame_ :

- **`Series`** rappresenta dati 1D, come le serie temporali
- **`DataFrame`** rappresenta dati 2D, praticamente qualunque insieme di dati in forma tabellare
Ogni colonna di un DataFrame è una Series.

## `DataFrame`  

Un `DataFrame` è una struttura dati bi-dimensionale che può memorizzare diversi tipi(stringhe, interi, valori floating, categorie, etc.) in colonne. E' praticamente simile ad un foglio di calcolo o una tabella SQL.  
Da un punto di vista 'visivo' l'_output_ di un `DataFrame` (in un Jupyter Notebook) appare come una ordinaria tabella di dati in righe e colonne; ma sotto questa apparenza, ci sono tre elementi, **`index`**, **`columns`** e **`values`** da tenere presenti per sfruttare al massimo le potenzialità di un `DataFrame`  
![dataframe](img/01_table_dataframe1.svg)

In [None]:
df = pd.DataFrame({
     "Name": ["Mr. James, Tiberius, Kirk",
     "Mr. S'chn T'gai Spock",
     "Miss. Nyota Uhura", "Mr. Hikaru Sulu", "Dott. Leonard \"Bones\" McCoy"],
     "Year of Birth": [2233, 2230, 2239, 2238, 2234],
     "Age": [38,41,32,33,37],
     "Sex": ["male", "male", "female", "male", "male"]}
)

Sopra abbiamo creato un `DataFrame` partendo da un dizionario dove le chiavi sono gli _header_ delle colonne, ed i valori delle liste, righe del `DataFrame`

In [None]:
df = pd.read_csv('esempi/dataset/star_trek.csv')

In [None]:
df

- La tabella ha tre colonne con le loro _label_.
- La colonna "Name" contiene stringhe; le colonne "Year of Birth" e "Age" contengono numeri interi e l'ultima "Sex" contiene sempre stringhe

### Ogni colonna in un `DataFrame` è una `Series`
![serie](img/01_table_series.svg)

### `Series`
Una `Series` è un vettore mono-dimensionale i cui elementi sono etichettati con un `index`.

In questo senso, la `Series` opera un po' come una lista (si possono accedere gli elementi in sequenza) e un po' come un dizionario (si può accedere ad un elemento tramite il suo indice, che opera come una chiave e non deve essere per forza numerico)

Se per esempio voglio lavorare con i dati della colonna **Year of Birth**

In [None]:
df["Year of Birth"]

Selezionando una singola colonna di un `Dataframe`, il risultato è una _pandas_ `Series`. La selezione di una colonna si ottiene richiamando la _label_ della colonna tra parentesi quadre`[]`

**Creazione di Series**  
Una `Series` può essere creata tramite la funzione `pd.Series()`:

- Specificando sia dati che indici

In [None]:
Ages = pd.Series([38,41,32],index=["Kirk","Spock","Uhura"])
Ages

_(N.d.R. Le date e le età si riferiscono al primo film STAR TREK - THE MOVIE ambientato nella data astrale 2271)_

- Passando un dizionario (le chiavi diventano gli indici e i valori i dati)

In [None]:
Grado = pd.Series({"Kirk": "Cpt.", "Spock": "Lt. Cmdr.", "Uhura" : "Lt.", "Sulu": "Lt.", "McCoy": "Lt. Cmdr.", "Montgomery": "Lt. Cmdr.", "Chekov": "Ens.", "Chapel": "Lt."})
print(Grado)

In [None]:
type(Grado)

In [None]:
#Aggiunta di una colonna al DataFrame
df['Rank'] = Grado.values

In [None]:
df

Una `Series` a differenza del `DataFrame` non ha _label_ di colonna ma _label_ di riga. 

**Proviamo** ora a fare qualcosa con i `DataFrame` o le `Series`

Per sapere l'età massima dei membri dell'Enterprise...  
Possiamo scoprirlo selezionando la colonna "Age" e applicando il metodo `max()`

In [None]:
df["Age"].max()

o sulla `Series`:

In [None]:
Ages.max()

Come visto per il metodo `max()`, si possono fare diverse cose sui `DataFrame` e sulle `Series`.  
`pandas` fornisce molte funzionalità, che possono essere applicate come metodi sia ai `DataFrame` che alle `Series`. In quanto `metodi` non dimentichiamo che sono di fatto funzioni e quindi devono avere sempre le parentesi tonde `()`.

Per avere "on the fly" qualche statistica di base sul nostro `DataFrame`

In [None]:
df.describe()

Il metodo `describe()` offre una rapida panoramica dei dati numerici contenuti nel `DataFrame`. Poichè "Name" e "Sex" sono colonne di dati testuali, non sono state prese in considerazione dal metodo.

Molte delle operazioni sui `DataFrame` e sulle `Series` come visto già per il `describe()` ritornano di fatto un altro _dataframe_ o un'altra _series_ .

### Leggere e scrivere dati tabellari in `Pandas`

![lettura](img/02_io_readwrite1.svg)

Come si vede dall'immagine `Pandas` è in grado di importare dati da molti formati: 

- csv
- xlsx, xls
- html, xml, json
- hdf5
- Sql, etc.

e può esportare in altrettanti formati.  
Vediamo ora con quali metodi e funzioni possiamo fare.

### Leggere dati 
Per esempio leggiamo i dati di un _dataset_ contentente titoli di film e loro genere, in formato _csv_ (oltre 9000 titoli): 

In [None]:
import pandas as pd

In [None]:
movies = pd.read_csv('esempi/dataset/movies_mod.csv') #contiene dei NaN

`Pandas` mette a disposizione la funzione `read_csv()` per **leggere** i dati dei file _csv_ e memorizzarli in `DataFrame`. Per gli altri formati è facile immaginare che la funzione corretta sarà `read_*`(dove * sarà di volta in volta 'excel', 'hdf', 'html', etc.)

Dopo aver importato dei dati, controllate sempre che siano stati importati correttamente. Visualizzando un `DataFrame` vedremo sempre le prime e le ultime 5 righe 

In [None]:
movies

- Per visualizzare solo le prime 5 righe

In [None]:
movies.head()

- le ultime 5

In [None]:
movies.tail()

le due funzioni `head()` e `tail()` prendono anche come argomento un intero rapresentante il numero di righe da visualizzare.  
Spesso il `DataFrame` creato è molto lungo e nei Jupyter Notebook viene sintetizzato con dei '...'

Per vederlo completo possiamo aggiustare le opzioni di visualizzazione:

- display.max_columns `pd.set_option('max_columns', None)`
- display.max_rows `pd.set_option("max_rows", None)`

il valore `None` permette di vedere tutte le colonne o le righe, ma può essere sostituito anche da un numero intero `pd.set_option("max_rows", 100)` (per vedere solo 100 righe)

In [None]:
pd.set_option("max_rows", None)

In [None]:
movies

In [None]:
pd.reset_option("max_rows") # ripristina il default

In [None]:
movies

Per vedere che tipi di dati `Pandas` ha importato possiamo farlo con

In [None]:
movies.dtypes

In [None]:
movies.info() # fornisce dati più tecnici sul dataframe

>come si vede i valori buoni sono 9742! Quattro righe di valori NaN sono state escluse.

### Scrivere dati
Finora abbiamo visto come leggere dati tabellari con le funzioni `read_*`, parallelamente per esportare i dati, esistono  le funzioni **`to_*`**. Quindi se voglio scrivere un file Excel userò la funzione `to_excel()` oppure per esportare in _html_ potrò usare la funzione `to_html()`. Vediamo come creare il file dei film in format per Excel:

In [None]:
movies.to_excel('esempi/dataset/movies.xlsx', index=False)

Nell'esempio sopra abbiamo passato anche il parametro `index=False` per non salvare le etichette degli indici.