# Pandas
Quando si ha a che fare con dataset più strutturati, i soli array numpy non sono sufficienti a manipolare propriamente i dati. Pandas è costruito su Numpy, quindi è perfettamente integrato con tutte le funzioni dei numpy array.

Le strutture principali di Pandas sono ```Series```, ```DataFrame``` e ```Index```, di cui parleremo estensivamente in questa sezione. Tutte queste strutture possono essere pensate come "estensioni" dell'oggetto ```ndarray``` di Numpy, dove le righe e le colonne, al posto di essere identificate da indici strettamente numerici, sono identificate da etichette di vario tipo (che quindi possono anche essere stringhe ecc.)

Iniziamo con l'importare Pandas nel notebook:

In [None]:
import pandas as pd
pd.__version__

La documentazione built-in funziona esattamente come con Numpy:

In [None]:
pd.DataFrame?

Per comodità si importa anche Numpy

In [None]:
import numpy as np

## Pandas Series
Una ```Series``` è un array mono-dimensionale di dati "indexed", dove però gli indici possono essere di qualsiasi tipo. Può essere semplicemente creata da una lista:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

Si possono identificare quindi due sequenze distinte, quella dei valori e quella degli indici:

In [None]:
data.values

In [None]:
data.index

Le regole sullo slicing sono identiche a quelle per i Numpy array:

In [None]:
data[1:3]

La struttura ```Series```, però, come accennato, è molto più flessibile di un semplice array Numpy. La prima cosa che possiamo fare è utilizzare degli inidici personalizzati:

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

In [None]:
# Possiamo accedere agli elementi esattamente come ci aspetteremmo
data['b']

In [None]:
# E lo slicing?
# -> Completa qui

Gli indici possono essere anche non "contigui" e non "sequenziali":

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 3, 7])
data

In [None]:
# E lo slicing?
# -> Completa qui

Data la flessibilità degli indici, si può pensare alle ```Series``` come a delle estenzioni dei dizionari in python. Infatti, pososno essere facilmente create da dizionari, dove le chiavi sono gli indici:

In [None]:
ex_dict = {'a': 1,
           'c': 21,
           'e': 35,
           'd': 115,
           'b': 2}
ex_series = pd.Series(ex_dict)
ex_series

Se si fornisce un singolo scalare in fase di creazione, Pandas riempie la serie ripetendo lo stesso valore:

In [None]:
pd.Series(5, index=[100, 200, 300])

Se da un dizionario si desidera un risultato diverso dall'intero dizionario, gli indici possono essere settati esplicitamente:

In [None]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

## Pandas Dataframe
Un ```DataFrame```, esattamente come per le ```Series```, può essere pensato a una generalizzazione di un Numpy ```ndarray``` bidimensionale, con indici personalizzati sia di riga che di colonna.

Si può quindi pensare a un ```DataFrame``` come una specie di tabella composta da ```Series``` come colonne (che condividono lo stesso indice). Di seguito un esempio pratico: 

In [None]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
print(population)
print("\n")
area = pd.Series(area_dict)
print(area)

In [None]:
states = pd.DataFrame({'population': population,
                       'area': area})
states

Esattamente come per le ```Series```, si può facilmente accedere alla lista di indici condivisa:

In [None]:
states.index

Addizionalmente, si può anche accedere allalista delle colonne:

In [None]:
states.columns

Inoltre, si può vedere il ```DataFrame``` stesso come la generalizzazione di un dizionario: in questo caso, così come in una ```Series``` a ogni indice corrisponde un valore, qui a ogni colonna corrisponde una ```Series```, infatti:

In [None]:
states['area']

**ATTENZIONE**: in un Numpy array bidimensionale, ```data[0]``` ritorna la prima *riga*; con i ```DataFrame```, ```data['col0']``` ritrona la prima *colonna*.

Di seguito qualche altro esempio di come possono essere costruiti i ```DataFrame```:

In [None]:
# Da una singola Series
pd.DataFrame(population, columns=['population'])

In [None]:
# Da una lista di dizionari
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

In [None]:
# Se delle chiavi mancano, Pandas riempie con NaN
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
# Da un dizionario di Series
pd.DataFrame({'population': population, 'area': area})

In [None]:
# Da un array numpy bidimensionale
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

## Pandas Index
L'oggetto ```Index``` di Pandas è il wrapper che consente di avere indici customizzati sia nelle ```Series``` che nei ```DataFrame```. Esso può essere visto come un *immutable array* o come un *ordered set*.

Iniziamo a costuire un semplice ```Index``` da una lista di interi:

In [None]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Essendo una sorta di *immutable array*, eredita tutte le proprietà di questo tipo di oggetti:

In [None]:
ind[1]

In [None]:
ind[::2]

Eredita anche delle proprietà tipiche dei Numpy array:

In [None]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

È però immutabile (come una tupla), quindi se si prova a modificarlo viene restituito un errore:

In [None]:
ind[1] = 0

Essendo però anche *ordered set*, supporta le operazioni tipiche tra set di python:

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
# intersezione
# la versione con gli operatori è deprecata indA & indB
indA.intersection(indB)

In [None]:
# unione
# la versione con gli operatori è deprecata indA | indB
indA.union(indB)

In [None]:
# differenza simmetrica
# la versione con gli operatori è deprecata indA ^ indB
# Sarebbe lo XOR
indA.symmetric_difference(indB)

## Data Selection
In questa sezione si approfondiscono i metodi di selezione delle varie strutture

### Series
Oltre alla classica selezione con le parentesi quadre ```data[]```, con le serie si possono usare espressioni tipiche dei dizionari:


In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

Allo stesso modo si possono modificare con la sintassi dei dizionari. Ad esempio, si possono estendere assegnando dati a una nuova chiave:

In [None]:
data['e'] = 1.25
data

Come accennato nella prima sezione, le varie tecniche di indexing possono essere fonte di confusione. Per risolvere questo problema, Pandas ha introdotto degli specifici *indexer attributes* (cambiano lo schema di indexing).

```loc```: indexing con l'indice esplicito
```iloc```: indexing con l'indice implicito

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

In [None]:
data.loc[1]

In [None]:
data.loc[1:3]

In [None]:
data.iloc[1]

In [None]:
data.iloc[1:3]

### Dataframe
Anche per i DataFrame ci sono varie modalità di accesso. Di seguito alcuni esempi:

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

In [None]:
# Accesso dictionary-style classico (indexing)
data['area']

In [None]:
# Accesso attribute-style
data.area

**Attenzione**: se il nome della colonna non è una stringa o è in conflitto con i metodi del DataFrame, l'attribute-style non può essere usato. Infatti: 

In [None]:
data.pop is data['pop']

L'indexing funziona in maniera simile alle series, di seguito qualche esempio:

In [None]:
data.iloc[:3, :2]

In [None]:
data.loc[:'Florida', :'pop']

Pandas è una libreria molto ampia e ha molte funzionalità. Implementa anche le operazioni tra strutture e  molte altre funzionalità avanzate, oltre lo scopo di questo corso. Quando ci sarà da effettuare operazioni, nel caso in cui i dati non siano eccessivamente strutturati, si può semplicemente ottenere il corrispondente ```ndarray``` con il metodo ```to_numpy()```:

In [None]:
data_np = data.to_numpy()
data_np

In [None]:
type(data_np)

In [None]:
# si può fare anche con le singole colonne:
data["area"].to_numpy()

# Matplotlib
Matplotlib è una libreria per il plotting MATLAB-style molto estesa costruita su Numpy arrays.

Iniziamo importando il modulo per il plotting, che è ciò che ci interessa:



In [None]:
import matplotlib.pyplot as plt

Matplotlib può essere usata con due tipi di interfacce. Chiamando direttamente il modulo ```matplotlib.pyplot``` (MATLAB style): 

In [None]:
x = np.linspace(0, 10, 1000)
plt.plot(x, np.sin(x));

Oppure in maniera object-oriented:

In [None]:
fig = plt.figure()
ax = plt.axes()

ax.plot(x, np.sin(x));

Ci sono un'infinità di variabili settabili in un plot. Per praticità, di seguito si presenteranno varie opzioni tramite esempi.

In [None]:
# Singolo plot con più linee
plt.plot(x, np.sin(x))
plt.plot(x, np.cos(x));

Ci sono vari modi di specificare il colore:

In [None]:
plt.plot(x, np.sin(x - 0), color='blue')        # specify color by name
plt.plot(x, np.sin(x - 1), color='g')           # short color code (rgbcmyk)
plt.plot(x, np.sin(x - 2), color='0.75')        # Grayscale between 0 and 1
plt.plot(x, np.sin(x - 3), color='#FFDD44')     # Hex code (RRGGBB from 00 to FF)
plt.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # RGB tuple, values 0 to 1
plt.plot(x, np.sin(x - 5), color='chartreuse'); # all HTML color names supported

Si possono inoltre settare vari stili:

In [None]:
plt.plot(x, x + 0, linestyle='solid')
plt.plot(x, x + 1, linestyle='dashed')
plt.plot(x, x + 2, linestyle='dashdot')
plt.plot(x, x + 3, linestyle='dotted');

# For short, you can use the following codes:
plt.plot(x, x + 4, linestyle='-')  # solid
plt.plot(x, x + 5, linestyle='--') # dashed
plt.plot(x, x + 6, linestyle='-.') # dashdot
plt.plot(x, x + 7, linestyle=':');  # dotted

Si possono combinare, anche se il codice ne perde in leggibilità:

In [None]:
plt.plot(x, x + 0, '-g')  # solid green
plt.plot(x, x + 1, '--c') # dashed cyan
plt.plot(x, x + 2, '-.k') # dashdot black
plt.plot(x, x + 3, ':r');  # dotted red

Si possono esprimere manualmente i limiti per gli assi:

In [None]:
plt.plot(x, np.sin(x))

plt.xlim(-1, 11)
plt.ylim(-1.5, 1.5)

plt.grid(True); # per attivare la griglia

Si possono inoltre assegnare vari tipi di label:

In [None]:
plt.plot(x, np.sin(x))
plt.title("A Sine Curve")
plt.xlabel("x")
plt.ylabel("sin(x)");

Oltre che una legenda:

In [None]:
plt.plot(x, np.sin(x), '-g', label='sin(x)')
plt.plot(x, np.cos(x), ':b', label='cos(x)')
plt.axis('equal')

plt.legend();

Tutto questo si applica a vari tipi di plot. Di seguito vari esempi.

In [None]:
# Scatter plot
x = np.linspace(0, 10, 30)
y = np.sin(x)
plt.plot(x, y, 'o', color='black');

In [None]:
# Scatter plot passando singoli punti con relativo marker
rng = np.random.RandomState(0)
for marker in ['o', '.', ',', 'x', '+', 'v', '^', '<', '>', 's', 'd']:
    plt.plot(rng.rand(5), rng.rand(5), marker,
             label="marker='{0}'".format(marker))
plt.legend(numpoints=1)
plt.xlim(0, 1.8);

Per facilitare lo styling si può settare uno stile globale:

In [None]:
plt.style.use('seaborn-whitegrid')

In [None]:
# Con plt.scatter si possono creare plot più complessi
# qui sia la dimensione che il colore dei punti contiene informazione

rng = np.random.RandomState(0)
x = rng.randn(100)
y = rng.randn(100)
colors = rng.rand(100)
sizes = 1000 * rng.rand(100)

plt.scatter(x, y, c=colors, s=sizes, alpha=0.3,
            cmap='viridis')
plt.colorbar();  # show color scale

In [None]:
# Errorbars
x = np.linspace(0, 10, 50)
dy = 0.8
y = np.sin(x) + dy * np.random.randn(50)
plt.errorbar(x, y, yerr=dy, fmt='o', color='black', ecolor='lightgray', elinewidth=3, capsize=0);

In [None]:
# histogram
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)

kwargs = dict(histtype='stepfilled', alpha=0.3, density=True, bins=40)

plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs);

E molto altro... 