# Esplorazione dati con ``pandas``

Questo tutorial è l'applicazione al nostro caso di studio del tutorial ufficiale [pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html).

``pandas`` è una libreria Python utile per manipolare e analizzare dati. Questa libreria fornisce due tipi di strutture dati: ``Series`` e ``DataFrame``. 

Ci immaginiamo i nostri dati in una struttura a tabella, come in excel. Ogni colonna è rappresentata con una ``Series``, e l'intera tabella è rappresentata com un ``DataFrame``.

<img src="table.png" style = "width:1182px; height=702px;">

## Importazione e lettura file

### Importare pandas

In [2]:
import pandas as pd

In [3]:
metadata_file = "collaborative_book_metadata.csv"

### Lettura dataset

In [4]:
books_df = pd.read_csv("data/"+metadata_file, index_col=0)

### Visualizzazione dataset

In [None]:
books_df

Un ``DataFrame`` è una struttura di dati bidimensionale che può memorizzare dati di diverso tipo (compresi caratteri, numeri interi, valori in virgola mobile, dati categorici e altro) in colonne. È simile a un foglio di calcolo, a una tabella SQL o a data.frame in R.

Per visualizzare le prime N righe di un ``DataFrame``, utilizzare il metodo ``head()`` con il numero di righe richiesto (in questo caso 20) come argomento.

In [None]:
books_df.head(20)

### Tipi di dato nel DataFrame

Per verificare come pandas ha interpretato ciascuno dei tipi di dati delle colonne, si può richiedere l'attributo pandas ``dtypes``.

Per ciascuna colonna, viene elencato il tipo di dati utilizzato.

In [None]:
books_df.dtypes

### Sommario di un DataFrame

In [None]:
books_df.info()

Il metodo ``info()`` fornisce informazioni tecniche su un DataFrame, quindi spieghiamo l'output in modo più dettagliato:

- Si tratta effettivamente di un DataFrame.
- Ci sono 96 voci, cioè 96 righe.
- Ogni riga ha un'etichetta di riga (alias l'indice) con valori che vanno da 0 a 95.
- La tabella ha 10 colonne. La maggior parte delle colonne ha un valore per ciascuna riga (tutti gli 96 valori sono non nulli). Nessuna colonna ha valori mancanti.
- Le colonne book_id, num_pages, ratings_count e book_id_mapping sono costituite da dati interi. Le altre colonne sono dati testuali (stringhe, aliasi object).
- Il tipo di dati (caratteri, interi,...) nelle diverse colonne è riassunto dall'elenco dei tipi di dati.
- Viene fornita anche la quantità approssimativa di RAM utilizzata per contenere il DataFrame.

### Statistiche di base

In [None]:
books_df[["title","name"]]

Il metodo ``describe()`` fornisce una rapida panoramica dei dati numerici di un ``DataFrame``. Le colonne contenenti dati testuali, per impostazione predefinita, non vengono prese in considerazione dal metodo ``describe()``.

Molte operazioni di pandas restituiscono un ``DataFrame`` o una ``Series``. Il metodo ``describe()`` è un esempio di operazione pandas che restituisce una ``Series`` o un ``DataFrame`` pandas.

## Selezione di colonne e righe

### Selezionare una colonna

Per selezionare la colonna, utilizzare l'etichetta della colonna tra parentesi quadre ``[]``.

In [None]:
books_df["title"]

Quando si seleziona una singola colonna di un ``DataFrame`` pandas, il risultato è una ``Series`` pandas . 

In [None]:
type(books_df["title"])

Possiamo vedere quante righe abbiamo estratto

In [None]:
books_df["title"].shape

``DataFrame.shape`` è un attributo (ricordate il tutorial sulla lettura e la scrittura, non usate le parentesi per gli attributi) di una ``Series`` pandas e di un ``DataFrame`` che contiene il numero di righe e colonne: ``(nrows, ncolumns)``. Una serie pandas è unidimensionale e viene restituito solo il numero di righe.

### Selezionare più colonne

Per selezionare più colonne, utilizzare un elenco di nomi di colonne all'interno delle parentesi di selezione ``[]``.

In [None]:
books_df[["title","name"]]

In [None]:
type(books_df[["title","name"]])

In [None]:
books_df[["title","name"]].shape

### Filtrare righe

Per selezionare le righe in base a un'espressione condizionale, utilizzare una condizione all'interno delle parentesi di selezione ``[]``.

In [16]:
long_books = books_df[books_df['num_pages']>1000]

In [None]:
long_books

La condizione all'interno delle parentesi di selezione ``books_df['num_pages']>1000`` verifica per quali righe la colonna ``num_pages``ha un valore superiore a 1000:

In [None]:
books_df['num_pages']>1000

L'output dell'espressione condizionale (>, ma anche ==, !=, <, <=,...) è in realtà una serie pandas di valori booleani (veri o falsi) con lo stesso numero di righe del ``DataFrame`` originale. Una ``Series`` di valori booleani di questo tipo può essere usata per filtrare il ``DataFrame`` inserendola tra le parentesi di selezione ``[]``. Verranno selezionate solo le righe per le quali il valore è ``True``.

Quante righe avremo selezionato?

In [None]:
long_books.shape

### Filtrare righe con più condizioni

Proviamo a selezionare i libri di Stephen King e J.K. Rowling.

In [None]:
king_rowling = books_df[books_df['name'].isin(["J.K. Rowling", "Stephen King"])]
king_rowling.head()

Simile all'espressione condizionale, la funzione condizionale ``isin()`` restituisce un ``True`` per ogni riga i cui valori sono presenti nell'elenco fornito. Per filtrare le righe in base a tale funzione, utilizzare la funzione condizionale all'interno delle parentesi di selezione ``[]``. In questo caso, la condizione all'interno delle parentesi di selezione ``books_df['name'].isin(["J.K. Rowling", "Stephen King"]`` verifica per quali righe la colonna ``name`` è pari a J.K. Rowling o Stephen King.

Quanto sopra è equivalente a filtrare le righe per le quali l'autore è J.K. Rowling o Stephen King e a combinare le due affermazioni con l'operatore ``|`` (o):

In [21]:
king_rowling = books_df[(books_df['name']=="J.K. Rowling")|(books_df['name']=="Stephen King")]

Quando si combinano più affermazioni condizionali, ogni condizione deve essere circondata da parentesi ``()``. Inoltre, non è possibile utilizzare ``or``/``and`` ma è necessario utilizzare l'operatore o ``|`` e l'operatore e ``&``.

### Filtrare righe con valori nulli

La funzione condizionale ``notna()`` restituisce un ``True`` per ogni riga i cui valori non sono ``Null``. Per questo motivo, può essere combinata con le parentesi di selezione ``[]`` per filtrare la tabella dei dati.

In [None]:
print(books_df.shape)
print(books_df.notna().shape)

### Selezionare righe e colonne contemporaneamente

Quando selezioniamo righe e colonne insieme, l'uso delle parentesi ``[]`` non è più sufficiente. Gli operatori ``loc``/``iloc`` sono necessari davanti alle parentesi di selezione ``[]``. Quando si usa ``loc``/``iloc``, la parte prima della virgola è la riga desiderata e la parte dopo la virgola è la colonna che si desidera selezionare.

In [None]:
books_df.loc[books_df['num_pages']>1000, "name"]

### Selezionare righe in base alla loro posizione

Quando si è interessati a determinate righe e/o colonne in base alla loro posizione nella tabella, si usa l'operatore ``iloc`` davanti alle parentesi di selezione ``[]``.

In [None]:
books_df.iloc[10:15]

In [None]:
books_df.iloc[10:15, 1:5]

In [None]:
books_df.iloc[0:3, [1,5,8]]

### Cambiare il valore dei dati della selezione effettuata

Quando si selezionano righe e/o colonne specifiche con ``loc`` o ``iloc``, è possibile assegnare nuovi valori ai dati selezionati. Ad esempio, per assegnare il nome anonimo ai primi 3 elementi della colonna autore.

In [None]:
books_df.iloc[0:3, 8] = "Autore Anonimo"
books_df.iloc[0:3, [1,8]]

## Calcolo delle statistiche descrittive

Sono disponibili diverse statistiche che possono essere applicate alle colonne con dati numerici. Le operazioni in generale escludono i dati mancanti e operano di default sulle righe.

### Massimo e minimo


In [None]:
print(f"Massimo numero di pagine: {books_df['num_pages'].max()}")

In [None]:
print(f"Minimo numero di pagine: {books_df['num_pages'].min()}")

Come illustrato dal metodo ``max()``, si possono fare cose con un ``DataFrame`` o una ``Series``. pandas fornisce molte funzionalità, ognuna delle quali è un metodo che si può applicare a un ``DataFrame`` o a una ``Series``. Poiché i metodi sono funzioni, non dimenticate di usare le parentesi ``()``.

### Media, mediana

In [None]:
print(f"Media numero di pagine: {books_df['num_pages'].mean()}")
print(f"Mediana numero di pagine: {books_df['num_pages'].median()}")

### Calcolo su più colonne

In [None]:
books_df[['num_pages', 'ratings_count']].mean()

### Raggruppamento per valori categorici

Il calcolo di una determinata statistica (ad esempio, il numero di pagine medio) per ogni categoria di una colonna (ad esempio, nome dell'autore nella colonna ``name``) è uno schema comune. Il metodo ``groupby`` è utilizzato per supportare questo tipo di operazioni. Questo rientra nello schema più generale split-apply-combine:

- Dividere i dati in gruppi
- Applicare una funzione a ciascun gruppo in modo indipendente
- Combinare i risultati in una struttura di dati

In [None]:
books_df[['num_pages', 'name']].groupby("name").mean()

Poiché il nostro interesse è il numero medio di pagine per ogni autore, viene effettuata prima una sotto-selezione su queste due colonne: ``books_df[['num_pages', 'name']]``. Successivamente, si applica il metodo ``groupby()`` alla colonna ``name`` per creare un gruppo per categoria. Viene calcolato e restituito il numero medio di pagine per ogni autore.

Nell'esempio precedente, abbiamo prima selezionato esplicitamente le 2 colonne. In caso contrario, il metodo della media viene applicato a ogni colonna contenente colonne numeriche passando ``numeric_only=True``:

In [None]:
books_df.groupby("name").mean(numeric_only=True)

La selezione delle colonne (parentesi rettangolari ``[]`` come di consueto) è supportata anche sui dati raggruppati.

Inoltre, possiamo raggruppare il ``DataFrame`` per più colonne, ottenendone le combinazioni dei valori.

In [None]:
books_df.groupby(["name","genre"])["num_pages"].mean().tail(20)

### Conteggio del numero di righe per gruppo

Il metodo ``value_counts()`` conta il numero di record per ogni categoria in una colonna.

In [None]:
books_df["name"].value_counts()

La funzione è una scorciatoia, poiché si tratta in realtà di un'operazione di ``groupby`` in combinazione con il conteggio del numero di record all'interno di ciascun gruppo.

In [None]:
books_df.groupby("name")["name"].count()

## Gestione delle colonne

### Creare nuove colonne derivate da colonne esistenti

Creare una nuova colonna assegnando l'output al ``DataFrame`` con un nuovo nome di colonna tra i ``[]``. Il calcolo dei valori delle nuove righe è eseguito elemento per elemento, perciò l'operazione utilizzata viene applicata riga per riga per ottenere il valore della nuova riga.

In [None]:
books_df['famous'] = books_df['ratings_count'] > 100000
books_df

### Rinominare colonne

La funzione ``rename()`` può essere utilizzata sia per le etichette di riga che per quelle di colonna. Fornire un dizionario con le chiavi i nomi correnti e i valori i nuovi nomi per aggiornare i nomi corrispondenti.

In [None]:
books_df_renamed = books_df.rename(columns={'name':'author'})
books_df_renamed

La mappatura non deve essere limitata ai soli nomi fissi, ma può essere anche una funzione di mappatura. Ad esempio, anche la conversione dei nomi delle colonne in lettere minuscole può essere eseguita con una funzione.

In [None]:
books_df_renamed = books_df.rename(columns=str.upper)
books_df_renamed

## Combinare più DataFrame diversi

### Concatenazione

In [None]:
ratings_file = "collaborative_books_df.csv"
ratings_df = pd.read_csv("data/"+ratings_file, index_col=0)
ratings_df

La funzione ``concat()`` esegue operazioni di concatenazione di più tabelle lungo uno degli assi (riga o colonna).

<img src="concat.svg" style = "width:1182px; height=702px;">

Per impostazione predefinita, la concatenazione avviene lungo l'asse 0, quindi la tabella risultante combina le righe delle tabelle di input.

In [64]:
books_and_ratings = pd.concat([books_df, ratings_df])

 Controlliamo la ``shape`` della tabella originale e di quella concatenata per verificare l'operazione.

In [None]:
print('Shape di ``books_df``: ', books_df.shape)
print('Shape di ``ratings_df``: ', ratings_df.shape)
print('Shape della tabella risultante ``books_and_ratings``: ', books_and_ratings.shape)

### Unione tramite chiave comune

Utilizzando la funzione ``merge()``, per ogni riga della tabella ``books_df`` vengono aggiunte le coordinate corrispondenti dalla tabella ``ratings_df``. Entrambe le tabelle hanno in comune la colonna ``book_id_mapping``, utilizzata come chiave per combinare le informazioni. La funzione ``merge()`` supporta diverse opzioni di unione, simili alle operazioni di tipo database.

<img src="merge.svg" style = "width:1182px; height=702px;">

Più informazioni sulla funzione ``merge``: https://pandas.pydata.org/docs/reference/api/pandas.merge.html#pandas.merge .

In [None]:
books_ratings_merge = pd.merge(books_df, ratings_df, on="book_id_mapping")
books_ratings_merge

In [None]:
print('Shape della tabella risultante ``books_ratings_merge``: ', books_ratings_merge.shape)