# Manage your data

In questa lezione andremo alla scoperta della libreria [`pandas`](https://pandas.pydata.org/), una libreria usatissima in tutti i progetti di data science. `pandas` permette di manipolare e trasformare i propri dati in maniera semplice e veloce.

## Link utili
Se hai un problema con un comando di pandas o non sai come eseguire una certa operazione, il primo posto in cui cercare informazioni è sicuramente la [documentazione](https://pandas.pydata.org/docs/). In particolare, la documentazione è divisa in diverse sezioni:
- *get started*: intro e tutorial a pandas;
- *user guide*: nozioni sulle logiche utilizzate nel costruire la libreria, che permettono di capire meglio il suo funzionamento e il suo comportamento
- *API reference*: la sezione dedicata alla documentazione completa e alla spiegazione dei singoli oggetti e funzioni esistenti in `pandas`. A volte il termine *API* è utilizzato come sinonimo di *funzioni*.

## Intro to `pandas`

Cominciamo ad esplorare le funzionalità di questa libreria.

La prima cosa da sapere è che `pandas` definisce due classi principali tramite cui gestire i dati: le `Series` e i `DataFrame`.

Puoi intendere una `Series` come una singola *colonna* di dati, ovvero una lista di elementi. I `DataFrame` invece sono *tabelle* di dati, con righe e colonne. Di fatto, un `DataFrame` è l'accostamento di più `Series` una accanto all'altra.

In [None]:
import pandas as pd

### pd.Series

In [None]:
my_series = pd.Series([1, 2, 3, 4])
my_series

In [None]:
my_series_str = pd.Series(["a", "b", "c", "d"])
my_series_str

Osserviamo che:
- le `Series` possono contenere un qualsiasi tipo di dato (nel nostro esempio, intero o stringa). Lo stesso vale per i `DataFrame`.
- i dati sono riportati in colonna. Ma vediamo due colonne! I nostri dati sono nella colonna più a destra. La colonna a sinistra, allineata con i nostri dati, rappresenta *l'indice* della serie. Parleremo degli indici più avanti.

Le `Series` sono oggetti che hanno a disposizione moltissimi metodi per operare sui dati. Queste operazioni possono essere di diverso tipo:

In [None]:
my_series.sum()

In [None]:
my_series.shift(1)

### pd.DataFrame

In [None]:
df = pd.DataFrame(
    data={"colonna1": my_series, "colonna2": my_series_str, "colonna3": [1.4, "cane", 7, "gatto"]},
    index=range(4), # Specificando l'index possiamo gestire anche la creazione di dataframe a partire da colonne non tutte della stessa lunghezza
)
display(df)

Abbiamo costruito un dataframe in un modo piuttosto standard, ma che garantisce una certa flessibilità. Innanzitutto abbiamo costruito il dataframe *per colonne* (ma si può fare anche *per righe*), specificando per le prime due colonne le serie che avevamo costruito in precedenza. Nella terza colonna abbiamo incluso una nuova lista di dati.

Notiamo che anche il dataframe ha un indice, indicato sulla sinistra. Ad ogni colonna è assegnato un nome. Qui l'abbiamo specificato noi, ma se non lo facciamo è assegnato un valore di default. L'insieme delle colonne costituisce un altro *indice*.

In [None]:
print(df.index) # indice sulle righe
print(df.columns) # indice sulle colonne

In [None]:
display(df["colonna1"])                # otteniamo una serie
display(df[["colonna1", "colonna2"]])  # NOTA la lista di nomi delle colonne! --> otteniamo un DataFrame perché stiamo selezionando più colonne
display(df[["colonna1"]])              # NOTA che usando la lista, otteniamo comunque un dataframe

Anche sui dataframe si possono fare moltissime operazioni. Vediamone alcune.

In [None]:
df[["colonna1", "colonna2"]].sum()

In [None]:
df.shift(1)

In [None]:
display(df.drop(columns="colonna3"))
display(df.drop(index=[0, 1]))

In [None]:
df.rename(columns={"colonna3": "nuovo nome"})

In [None]:
df.shift(1).fillna("ciao!")

Possiamo anche aggiungere nuove righe e colonne

In [None]:
df["nuova colonna"] = [0, 0, 0, 0]
df

In [None]:
nuova_riga = {"colonna1": 5, "colonna2": "e", "colonna3": 100, "nuova colonna": 0}
df = pd.concat(
    [
        df, 
        pd.DataFrame(nuova_riga, index=[0])
    ], 
    axis="index").reset_index(drop=True)
df

### Selezione di colonne e righe

Abbiamo già visto come selezionare colonne singole o multiple. Questo si può fare anche simultaneamente alla selezione delle righe.

Esistono due funzioni che permettono in maniera piuttosto chiara di effetture delle selezioni del nostro dataframe:
- `.loc`: funziona con i nomi (cioè le etichette, che possono anche essere dei numeri interi, come succede spesso ad esempio per le righe) degli indici (ad esempio, i nomi delle colonne) o liste/serie di booleani;
- `.iloc`: permette di tagliare il dataset grazie a numeri interi (da cui la `i` iniziale). È utile quindi se vogliamo tagliare le righe 2 alla 4, o selezionare le prime 2 colonne. 

In [None]:
display(df.loc[:, ["colonna2", "colonna3"]])
display(df.loc[3:4, ["colonna2", "colonna3"]])  # ATTENZIONE! Qui '3:4' non sono gli indici, ma le ETICHETTE (cioè il nome dell'indice) delle righe
display(df.loc[:3, ["colonna2", "colonna3"]])

# Con .iloc mettiamo per le righe le POSIZIONI che vogliamo estrarre
display(df.iloc[3:4, [1,2]])  # Qui vogliamo prendere la terza riga
display(df.iloc[3:5, [0, 3]])

### Gli indici
Come abbiamo visto, le `Series` hanno un solo indice (sulle righe), mentre i `DataFrame` ne hanno due (uno per le righe e uno per le colonne). 

Gli indici sono uno strumento utilizzato da `pandas` per facilitare la ricerca di righe o colonne specifiche quando si effettuano filtri e per avere delle label che identifichino in modo chiaro i nostri dati. Consentono anche di fare diverse ottimizzazioni su operazioni che coinvolgono ad esempio serie temporali. Esistono anche i `MultiIndex`, ovvero indici con più livelli, che possono essere utili in molte situazioni, ma richiedono spesso una complessità di gestione non banale, e sono quindi utilizzati solo in casi in cui davvero non se ne può fare a meno.

In queste lezioni probabilmente non ci capiterà di fare operazioni complesse con gli indici, ma è importante sapere che esistono perché alcune operazioni eseguite dalle funzioni di `pandas` danno un risultato che dipende proprio dal valore degli indici.

Può succedere infatti che, a seguito di manipolazioni del dato, il valore dell'indice del nostro dataframe cambi e, se non ce ne accorgiamo, la successiva applicazione di un'operazione che agisce sugli indici può portare ad un risultato scorretto e che non ci aspettiamo. Questo succede spesso usando funzioni che coinvolgono due diversi dataframe.

Se incontreremo problemi legati agli indici, vedremo di volta in volta come riconoscerli e affrontarli.

# Link utili

- Scrivere in markdown nelle celle: https://docs.github.com/en/github/writing-on-github/basic-writing-and-formatting-syntax

- Pandas Cheatsheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

- Python Data Science Handbook: libro di riferimento per la manipolazione dei dati e il lavoro con i dati (disponibile gratuitamente qui): https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/Index.ipynb

- Guida ufficiale di Pandas (Ottima documentazione con esempi molto completa): https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#essential-basic-functionality