# Esplorazione dati con ``pandas``

Questo tutorial è l'applicazione al nostro caso di studio del tutorial ufficiale [pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html).

``pandas`` è una libreria Python utile per manipolare e analizzare dati. Questa libreria fornisce due tipi di strutture dati: ``Series`` e ``DataFrame``. 

Ci immaginiamo i nostri dati in una struttura a tabella, come in excel. Ogni colonna è rappresentata con una ``Series``, e l'intera tabella è rappresentata com un ``DataFrame``.

<img src="table.png" style = "width:1182px; height=702px;">

## Importazione e lettura file

### Importare pandas

In [2]:
import pandas as pd

In [3]:
metadata_file = "collaborative_book_metadata.csv"

### Lettura dataset

In [4]:
books_df = pd.read_csv("data/"+metadata_file, index_col=0)

### Visualizzazione dataset

In [5]:
books_df

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Jane Austen,808
1,872333,Blue Bloods Blue Bloods 1,https://images.gr-assets.com/books/1322281515m...,https://www.goodreads.com/book/show/872333.Blu...,302,117633,"When the Mayflower set sail in 1620, it carrie...","['young-adult', 'fantasy, paranormal', 'romanc...",Melissa de la Cruz,217
2,15507958,Me Before You Me Before You 1,https://images.gr-assets.com/books/1357108762m...,https://www.goodreads.com/book/show/15507958-m...,369,609327,Louisa Clark is an ordinary young woman living...,"['romance', 'fiction']",Jojo Moyes,385
3,66559,Sharp Objects,https://images.gr-assets.com/books/1423241485m...,https://www.goodreads.com/book/show/66559.Shar...,254,208394,"Fresh from a brief stay at a psych hospital, r...","['mystery, thriller, crime', 'fiction']",Gillian Flynn,192
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873
...,...,...,...,...,...,...,...,...,...,...
91,10600242,How to Be a Woman,https://images.gr-assets.com/books/1405909800m...,https://www.goodreads.com/book/show/10600242-h...,312,72029,Though they have the vote and the Pill and hav...,"['non-fiction', 'history, historical fiction, ...",Caitlin Moran,356
92,9516,Persepolis The Story of a Childhood Persepolis 1,https://images.gr-assets.com/books/1425871473m...,https://www.goodreads.com/book/show/9516.Perse...,153,119470,"A New York TimesNotable Book\nA Time Magazine""...","['comics, graphic', 'non-fiction', 'history, h...",Mattias Ripa,708
93,307791,The City of Ember Book of Ember 1,https://images.gr-assets.com/books/1397931596m...,https://www.goodreads.com/book/show/307791.The...,270,202775,"Many hundreds of years ago, the city of Ember ...","['young-adult', 'fantasy, paranormal', 'fictio...",Jeanne DuPrau,175
94,37442,Wicked The Life and Times of the Wicked Witch ...,https://images.gr-assets.com/books/1437733293m...,https://www.goodreads.com/book/show/37442.Wicked,409,508863,When Dorothy triumphed over the Wicked Witch o...,"['fantasy, paranormal', 'fiction', 'young-adul...",Douglas Smith,374


Un ``DataFrame`` è una struttura di dati bidimensionale che può memorizzare dati di diverso tipo (compresi caratteri, numeri interi, valori in virgola mobile, dati categorici e altro) in colonne. È simile a un foglio di calcolo, a una tabella SQL o a data.frame in R.

Per visualizzare le prime N righe di un ``DataFrame``, utilizzare il metodo ``head()`` con il numero di righe richiesto (in questo caso 20) come argomento.

In [6]:
books_df.head(20)

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Jane Austen,808
1,872333,Blue Bloods Blue Bloods 1,https://images.gr-assets.com/books/1322281515m...,https://www.goodreads.com/book/show/872333.Blu...,302,117633,"When the Mayflower set sail in 1620, it carrie...","['young-adult', 'fantasy, paranormal', 'romanc...",Melissa de la Cruz,217
2,15507958,Me Before You Me Before You 1,https://images.gr-assets.com/books/1357108762m...,https://www.goodreads.com/book/show/15507958-m...,369,609327,Louisa Clark is an ordinary young woman living...,"['romance', 'fiction']",Jojo Moyes,385
3,66559,Sharp Objects,https://images.gr-assets.com/books/1423241485m...,https://www.goodreads.com/book/show/66559.Shar...,254,208394,"Fresh from a brief stay at a psych hospital, r...","['mystery, thriller, crime', 'fiction']",Gillian Flynn,192
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873
5,7670,The Andromeda Strain,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/7670.The_A...,327,176161,The United States government is given a warnin...,"['fiction', 'mystery, thriller, crime', 'fanta...",Michael Crichton,524
6,10664113,A Dance with Dragons A Song of Ice and Fire 5,https://images.gr-assets.com/books/1327885335m...,https://www.goodreads.com/book/show/10664113-a...,1125,374315,"In the aftermath of a colossal battle, the fut...","['fantasy, paranormal', 'fiction', 'history, h...",George R.R. Martin,740
7,10572,A Clash of Kings A Song of Ice and Fire 2,https://images.gr-assets.com/books/1358254974m...,https://www.goodreads.com/book/show/10572.A_Cl...,761,534960,Alternate cover edition can be found .\nTime ...,"['fantasy, paranormal', 'fiction', 'history, h...",George R.R. Martin,47
8,228665,The Eye of the World Wheel of Time 1,https://images.gr-assets.com/books/1337818095m...,https://www.goodreads.com/book/show/228665.The...,814,266994,"The Wheel of Time turns and Ages come and go, ...","['fantasy, paranormal', 'fiction', 'young-adult']",Robert Jordan,320
9,233649,The Great Hunt Wheel of Time 2,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/233649.The...,705,165160,The Wheel of Time turns and Ages come and pass...,"['fantasy, paranormal', 'fiction', 'young-adul...",Robert Jordan,520


### Tipi di dato nel DataFrame

Per verificare come pandas ha interpretato ciascuno dei tipi di dati delle colonne, si può richiedere l'attributo pandas ``dtypes``.

Per ciascuna colonna, viene elencato il tipo di dati utilizzato.

In [7]:
books_df.dtypes

book_id             int64
title              object
image_url          object
url                object
num_pages           int64
ratings_count       int64
description        object
genre              object
name               object
book_id_mapping     int64
dtype: object

### Sommario di un DataFrame

In [8]:
books_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96 entries, 0 to 95
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   book_id          96 non-null     int64 
 1   title            96 non-null     object
 2   image_url        96 non-null     object
 3   url              96 non-null     object
 4   num_pages        96 non-null     int64 
 5   ratings_count    96 non-null     int64 
 6   description      96 non-null     object
 7   genre            96 non-null     object
 8   name             96 non-null     object
 9   book_id_mapping  96 non-null     int64 
dtypes: int64(4), object(6)
memory usage: 8.2+ KB


Il metodo ``info()`` fornisce informazioni tecniche su un DataFrame, quindi spieghiamo l'output in modo più dettagliato:

- Si tratta effettivamente di un DataFrame.
- Ci sono 96 voci, cioè 96 righe.
- Ogni riga ha un'etichetta di riga (alias l'indice) con valori che vanno da 0 a 95.
- La tabella ha 10 colonne. La maggior parte delle colonne ha un valore per ciascuna riga (tutti gli 96 valori sono non nulli). Nessuna colonna ha valori mancanti.
- Le colonne book_id, num_pages, ratings_count e book_id_mapping sono costituite da dati interi. Le altre colonne sono dati testuali (stringhe, aliasi object).
- Il tipo di dati (caratteri, interi,...) nelle diverse colonne è riassunto dall'elenco dei tipi di dati.
- Viene fornita anche la quantità approssimativa di RAM utilizzata per contenere il DataFrame.

### Statistiche di base

In [9]:
books_df[["title","name"]]

Unnamed: 0,title,name
0,Pride and Prejudice and Zombies Pride and Prej...,Jane Austen
1,Blue Bloods Blue Bloods 1,Melissa de la Cruz
2,Me Before You Me Before You 1,Jojo Moyes
3,Sharp Objects,Gillian Flynn
4,The Way of Kings The Stormlight Archive 1,Brandon Sanderson
...,...,...
91,How to Be a Woman,Caitlin Moran
92,Persepolis The Story of a Childhood Persepolis 1,Mattias Ripa
93,The City of Ember Book of Ember 1,Jeanne DuPrau
94,Wicked The Life and Times of the Wicked Witch ...,Douglas Smith


Il metodo ``describe()`` fornisce una rapida panoramica dei dati numerici di un ``DataFrame``. Le colonne contenenti dati testuali, per impostazione predefinita, non vengono prese in considerazione dal metodo ``describe()``.

Molte operazioni di pandas restituiscono un ``DataFrame`` o una ``Series``. Il metodo ``describe()`` è un esempio di operazione pandas che restituisce una ``Series`` o un ``DataFrame`` pandas.

## Selezione di colonne e righe

### Selezionare una colonna

Per selezionare la colonna, utilizzare l'etichetta della colonna tra parentesi quadre ``[]``.

In [10]:
books_df["title"]

0     Pride and Prejudice and Zombies Pride and Prej...
1                             Blue Bloods Blue Bloods 1
2                         Me Before You Me Before You 1
3                                         Sharp Objects
4             The Way of Kings The Stormlight Archive 1
                            ...                        
91                                    How to Be a Woman
92     Persepolis The Story of a Childhood Persepolis 1
93                    The City of Ember Book of Ember 1
94    Wicked The Life and Times of the Wicked Witch ...
95    Harry Potter and the Cursed Child Parts 1 2 Ha...
Name: title, Length: 96, dtype: object

Quando si seleziona una singola colonna di un ``DataFrame`` pandas, il risultato è una ``Series`` pandas . 

In [11]:
type(books_df["title"])

pandas.core.series.Series

Possiamo vedere quante righe abbiamo estratto

In [12]:
books_df["title"].shape

(96,)

``DataFrame.shape`` è un attributo (ricordate il tutorial sulla lettura e la scrittura, non usate le parentesi per gli attributi) di una ``Series`` pandas e di un ``DataFrame`` che contiene il numero di righe e colonne: ``(nrows, ncolumns)``. Una serie pandas è unidimensionale e viene restituito solo il numero di righe.

### Selezionare più colonne

Per selezionare più colonne, utilizzare un elenco di nomi di colonne all'interno delle parentesi di selezione ``[]``.

In [13]:
books_df[["title","name"]]

Unnamed: 0,title,name
0,Pride and Prejudice and Zombies Pride and Prej...,Jane Austen
1,Blue Bloods Blue Bloods 1,Melissa de la Cruz
2,Me Before You Me Before You 1,Jojo Moyes
3,Sharp Objects,Gillian Flynn
4,The Way of Kings The Stormlight Archive 1,Brandon Sanderson
...,...,...
91,How to Be a Woman,Caitlin Moran
92,Persepolis The Story of a Childhood Persepolis 1,Mattias Ripa
93,The City of Ember Book of Ember 1,Jeanne DuPrau
94,Wicked The Life and Times of the Wicked Witch ...,Douglas Smith


In [14]:
type(books_df[["title","name"]])

pandas.core.frame.DataFrame

In [15]:
books_df[["title","name"]].shape

(96, 2)

### Filtrare righe

Per selezionare le righe in base a un'espressione condizionale, utilizzare una condizione all'interno delle parentesi di selezione ``[]``.

In [16]:
long_books = books_df[books_df['num_pages']>1000]

In [17]:
long_books

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873
6,10664113,A Dance with Dragons A Song of Ice and Fire 5,https://images.gr-assets.com/books/1327885335m...,https://www.goodreads.com/book/show/10664113-a...,1125,374315,"In the aftermath of a colossal battle, the fut...","['fantasy, paranormal', 'fiction', 'history, h...",George R.R. Martin,740
18,862041,Harry Potter Boxset Harry Potter 17,https://images.gr-assets.com/books/1392579059m...,https://www.goodreads.com/book/show/862041.Har...,4100,193057,"The exciting tales of Harry Potter, the young ...","['fantasy, paranormal', 'young-adult', 'fictio...",J.K. Rowling,679


La condizione all'interno delle parentesi di selezione ``books_df['num_pages']>1000`` verifica per quali righe la colonna ``num_pages``ha un valore superiore a 1000:

In [18]:
books_df['num_pages']>1000

0     False
1     False
2     False
3     False
4      True
      ...  
91    False
92    False
93    False
94    False
95    False
Name: num_pages, Length: 96, dtype: bool

L'output dell'espressione condizionale (>, ma anche ==, !=, <, <=,...) è in realtà una serie pandas di valori booleani (veri o falsi) con lo stesso numero di righe del ``DataFrame`` originale. Una ``Series`` di valori booleani di questo tipo può essere usata per filtrare il ``DataFrame`` inserendola tra le parentesi di selezione ``[]``. Verranno selezionate solo le righe per le quali il valore è ``True``.

Quante righe avremo selezionato?

In [19]:
long_books.shape

(3, 10)

### Filtrare righe con più condizioni

Proviamo a selezionare i libri di Stephen King e J.K. Rowling.

In [20]:
king_rowling = books_df[books_df['name'].isin(["J.K. Rowling", "Stephen King"])]
king_rowling.head()

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping
16,11564,The Girl Who Loved Tom Gordon,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/11564.The_...,264,97308,Nine-year-old Trisha McFarland strays from the...,"['fiction', 'mystery, thriller, crime', 'fanta...",Stephen King,25
17,16130549,Doctor Sleep,https://images.gr-assets.com/books/1510335480m...,https://www.goodreads.com/book/show/16130549-d...,531,98088,Stephen King returns to the characters and ter...,"['fiction', 'mystery, thriller, crime', 'fanta...",Stephen King,621
18,862041,Harry Potter Boxset Harry Potter 17,https://images.gr-assets.com/books/1392579059m...,https://www.goodreads.com/book/show/862041.Har...,4100,193057,"The exciting tales of Harry Potter, the young ...","['fantasy, paranormal', 'young-adult', 'fictio...",J.K. Rowling,679
19,29056083,Harry Potter and the Cursed Child Parts One an...,https://images.gr-assets.com/books/1470082995m...,https://www.goodreads.com/book/show/29056083-h...,343,288018,The Eighth Story. Nineteen Years Later.\nIt wa...,"['fantasy, paranormal', 'fiction', 'young-adul...",J.K. Rowling,186


Simile all'espressione condizionale, la funzione condizionale ``isin()`` restituisce un ``True`` per ogni riga i cui valori sono presenti nell'elenco fornito. Per filtrare le righe in base a tale funzione, utilizzare la funzione condizionale all'interno delle parentesi di selezione ``[]``. In questo caso, la condizione all'interno delle parentesi di selezione ``books_df['name'].isin(["J.K. Rowling", "Stephen King"]`` verifica per quali righe la colonna ``name`` è pari a J.K. Rowling o Stephen King.

Quanto sopra è equivalente a filtrare le righe per le quali l'autore è J.K. Rowling o Stephen King e a combinare le due affermazioni con l'operatore ``|`` (o):

In [21]:
king_rowling = books_df[(books_df['name']=="J.K. Rowling")|(books_df['name']=="Stephen King")]

Quando si combinano più affermazioni condizionali, ogni condizione deve essere circondata da parentesi ``()``. Inoltre, non è possibile utilizzare ``or``/``and`` ma è necessario utilizzare l'operatore o ``|`` e l'operatore e ``&``.

### Filtrare righe con valori nulli

La funzione condizionale ``notna()`` restituisce un ``True`` per ogni riga i cui valori non sono ``Null``. Per questo motivo, può essere combinata con le parentesi di selezione ``[]`` per filtrare la tabella dei dati.

In [22]:
print(books_df.shape)
print(books_df.notna().shape)

(96, 10)
(96, 10)


### Selezionare righe e colonne contemporaneamente

Quando selezioniamo righe e colonne insieme, l'uso delle parentesi ``[]`` non è più sufficiente. Gli operatori ``loc``/``iloc`` sono necessari davanti alle parentesi di selezione ``[]``. Quando si usa ``loc``/``iloc``, la parte prima della virgola è la riga desiderata e la parte dopo la virgola è la colonna che si desidera selezionare.

In [23]:
books_df.loc[books_df['num_pages']>1000, "name"]

4      Brandon Sanderson
6     George R.R. Martin
18          J.K. Rowling
Name: name, dtype: object

### Selezionare righe in base alla loro posizione

Quando si è interessati a determinate righe e/o colonne in base alla loro posizione nella tabella, si usa l'operatore ``iloc`` davanti alle parentesi di selezione ``[]``.

In [24]:
books_df.iloc[10:15]

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping
10,1430,Eleven Minutes,https://images.gr-assets.com/books/1358266987m...,https://www.goodreads.com/book/show/1430.Eleve...,273,104240,"Eleven Minutesis the story of Maria, a young g...","['fiction', 'romance']",Margaret Jull Costa,912
11,13,The Ultimate Hitchhikers Guide to the Galaxy,https://images.gr-assets.com/books/1404613595m...,https://www.goodreads.com/book/show/13.The_Ult...,815,225626,"At last in paperback in one complete volume, h...","['fiction', 'fantasy, paranormal', 'young-adult']",Douglas Adams,856
12,117251,Hamlet Screenplay Introduction And Film Diary,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/117251.Hamlet,224,160043,Often credited with creating a popular movie a...,"['fiction', 'poetry', 'history, historical fic...",William Shakespeare,911
13,2233407,From Dead to Worse Sookie Stackhouse 8,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/2233407.Fr...,359,152039,After the natural disaster of Hurricane Katrin...,"['fantasy, paranormal', 'fiction', 'romance', ...",Charlaine Harris,140
14,170210,Dead as a Doornail Sookie Stackhouse 5,https://images.gr-assets.com/books/1468562419m...,https://www.goodreads.com/book/show/170210.Dea...,297,170673,Small-town cocktail waitress Sookie Stackhouse...,"['fantasy, paranormal', 'fiction', 'romance', ...",Charlaine Harris,222


In [25]:
books_df.iloc[10:15, 1:5]

Unnamed: 0,title,image_url,url,num_pages
10,Eleven Minutes,https://images.gr-assets.com/books/1358266987m...,https://www.goodreads.com/book/show/1430.Eleve...,273
11,The Ultimate Hitchhikers Guide to the Galaxy,https://images.gr-assets.com/books/1404613595m...,https://www.goodreads.com/book/show/13.The_Ult...,815
12,Hamlet Screenplay Introduction And Film Diary,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/117251.Hamlet,224
13,From Dead to Worse Sookie Stackhouse 8,https://s.gr-assets.com/assets/nophoto/book/11...,https://www.goodreads.com/book/show/2233407.Fr...,359
14,Dead as a Doornail Sookie Stackhouse 5,https://images.gr-assets.com/books/1468562419m...,https://www.goodreads.com/book/show/170210.Dea...,297


In [26]:
books_df.iloc[0:3, [1,5,8]]

Unnamed: 0,title,ratings_count,name
0,Pride and Prejudice and Zombies Pride and Prej...,105537,Jane Austen
1,Blue Bloods Blue Bloods 1,117633,Melissa de la Cruz
2,Me Before You Me Before You 1,609327,Jojo Moyes


### Cambiare il valore dei dati della selezione effettuata

Quando si selezionano righe e/o colonne specifiche con ``loc`` o ``iloc``, è possibile assegnare nuovi valori ai dati selezionati. Ad esempio, per assegnare il nome anonimo ai primi 3 elementi della colonna autore.

In [27]:
books_df.iloc[0:3, 8] = "Autore Anonimo"
books_df.iloc[0:3, [1,8]]

Unnamed: 0,title,name
0,Pride and Prejudice and Zombies Pride and Prej...,Autore Anonimo
1,Blue Bloods Blue Bloods 1,Autore Anonimo
2,Me Before You Me Before You 1,Autore Anonimo


## Calcolo delle statistiche descrittive

Sono disponibili diverse statistiche che possono essere applicate alle colonne con dati numerici. Le operazioni in generale escludono i dati mancanti e operano di default sulle righe.

### Massimo e minimo


In [36]:
print(f"Massimo numero di pagine: {books_df['num_pages'].max()}")

Massimo numero di pagine: 4100


In [38]:
print(f"Minimo numero di pagine: {books_df['num_pages'].min()}")

Minimo numero di pagine: 26


Come illustrato dal metodo ``max()``, si possono fare cose con un ``DataFrame`` o una ``Series``. pandas fornisce molte funzionalità, ognuna delle quali è un metodo che si può applicare a un ``DataFrame`` o a una ``Series``. Poiché i metodi sono funzioni, non dimenticate di usare le parentesi ``()``.

### Media, mediana

In [33]:
print(f"Media numero di pagine: {books_df['num_pages'].mean()}")
print(f"Mediana numero di pagine: {books_df['num_pages'].median()}")

Media numero di pagine: 388.96875
Mediana numero di pagine: 313.0


### Calcolo su più colonne

In [39]:
books_df[['num_pages', 'ratings_count']].mean()

num_pages           388.968750
ratings_count    235801.385417
dtype: float64

### Raggruppamento per valori categorici

Il calcolo di una determinata statistica (ad esempio, il numero di pagine medio) per ogni categoria di una colonna (ad esempio, nome dell'autore nella colonna ``name``) è uno schema comune. Il metodo ``groupby`` è utilizzato per supportare questo tipo di operazioni. Questo rientra nello schema più generale split-apply-combine:

- Dividere i dati in gruppi
- Applicare una funzione a ciascun gruppo in modo indipendente
- Combinare i risultati in una struttura di dati

In [41]:
books_df[['num_pages', 'name']].groupby("name").mean()

Unnamed: 0_level_0,num_pages
name,Unnamed: 1_level_1
Abbi Glines,300.000000
Alex Flinn,304.000000
Art Spiegelman,159.000000
Autore Anonimo,330.333333
Becca Fitzpatrick,454.000000
...,...
Tom Clancy,432.000000
Tony Moore,144.000000
Ursula K. Le Guin,183.000000
Veronica Roth,43.000000


Poiché il nostro interesse è il numero medio di pagine per ogni autore, viene effettuata prima una sotto-selezione su queste due colonne: ``books_df[['num_pages', 'name']]``. Successivamente, si applica il metodo ``groupby()`` alla colonna ``name`` per creare un gruppo per categoria. Viene calcolato e restituito il numero medio di pagine per ogni autore.

Nell'esempio precedente, abbiamo prima selezionato esplicitamente le 2 colonne. In caso contrario, il metodo della media viene applicato a ogni colonna contenente colonne numeriche passando ``numeric_only=True``:

In [43]:
books_df.groupby("name").mean(numeric_only=True)

Unnamed: 0_level_0,book_id,num_pages,ratings_count,book_id_mapping
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Abbi Glines,16070903.0,300.000000,140420.0,282.0
Alex Flinn,544891.0,304.000000,151529.0,481.0
Art Spiegelman,15196.0,159.000000,189288.0,101.0
Autore Anonimo,7426690.0,330.333333,277499.0,470.0
Becca Fitzpatrick,12751687.0,454.000000,109752.0,642.0
...,...,...,...,...
Tom Clancy,19691.0,432.000000,274053.0,466.0
Tony Moore,138398.0,144.000000,168436.0,899.0
Ursula K. Le Guin,13642.0,183.000000,157732.0,706.0
Veronica Roth,13615258.0,43.000000,82006.0,697.0


La selezione delle colonne (parentesi rettangolari ``[]`` come di consueto) è supportata anche sui dati raggruppati.

Inoltre, possiamo raggruppare il ``DataFrame`` per più colonne, ottenendone le combinazioni dei valori.

In [50]:
books_df.groupby(["name","genre"])["num_pages"].mean().tail(20)

name                 genre                                                                                                   
Rick Riordan         ['young-adult', 'fiction', 'children', 'fantasy, paranormal', 'romance']                                    521.0
Robert C. O'Brien    ['fantasy, paranormal', 'children', 'fiction', 'young-adult']                                               240.0
Robert Jordan        ['fantasy, paranormal', 'fiction', 'young-adult', 'romance']                                                705.0
                     ['fantasy, paranormal', 'fiction', 'young-adult']                                                           814.0
Sara Shepard         ['young-adult', 'mystery, thriller, crime', 'fiction', 'romance']                                           286.0
Sarah Dessen         ['young-adult', 'romance', 'fiction']                                                                       345.0
Shel Silverstein     ['poetry', 'children', 'fiction', 'young-ad

### Conteggio del numero di righe per gruppo

Il metodo ``value_counts()`` conta il numero di record per ogni categoria in una colonna.

In [52]:
books_df["name"].value_counts()

name
Autore Anonimo              3
Fiona Staples               3
Charlaine Harris            3
Christopher Paolini         3
Stephenie Meyer             2
                           ..
Chimamanda Ngozi Adichie    1
Eric Carle                  1
Shel Silverstein            1
Neil Gaiman                 1
Jack Thorne                 1
Name: count, Length: 81, dtype: int64

La funzione è una scorciatoia, poiché si tratta in realtà di un'operazione di ``groupby`` in combinazione con il conteggio del numero di record all'interno di ciascun gruppo.

In [53]:
books_df.groupby("name")["name"].count()

name
Abbi Glines            1
Alex Flinn             1
Art Spiegelman         1
Autore Anonimo         3
Becca Fitzpatrick      1
                      ..
Tom Clancy             1
Tony Moore             1
Ursula K. Le Guin      1
Veronica Roth          1
William Shakespeare    1
Name: name, Length: 81, dtype: int64

## Gestione delle colonne

### Creare nuove colonne derivate da colonne esistenti

Creare una nuova colonna assegnando l'output al ``DataFrame`` con un nuovo nome di colonna tra i ``[]``. Il calcolo dei valori delle nuove righe è eseguito elemento per elemento, perciò l'operazione utilizzata viene applicata riga per riga per ottenere il valore della nuova riga.

In [55]:
books_df['famous'] = books_df['ratings_count'] > 100000
books_df

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping,famous
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True
1,872333,Blue Bloods Blue Bloods 1,https://images.gr-assets.com/books/1322281515m...,https://www.goodreads.com/book/show/872333.Blu...,302,117633,"When the Mayflower set sail in 1620, it carrie...","['young-adult', 'fantasy, paranormal', 'romanc...",Autore Anonimo,217,True
2,15507958,Me Before You Me Before You 1,https://images.gr-assets.com/books/1357108762m...,https://www.goodreads.com/book/show/15507958-m...,369,609327,Louisa Clark is an ordinary young woman living...,"['romance', 'fiction']",Autore Anonimo,385,True
3,66559,Sharp Objects,https://images.gr-assets.com/books/1423241485m...,https://www.goodreads.com/book/show/66559.Shar...,254,208394,"Fresh from a brief stay at a psych hospital, r...","['mystery, thriller, crime', 'fiction']",Gillian Flynn,192,True
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873,True
...,...,...,...,...,...,...,...,...,...,...,...
91,10600242,How to Be a Woman,https://images.gr-assets.com/books/1405909800m...,https://www.goodreads.com/book/show/10600242-h...,312,72029,Though they have the vote and the Pill and hav...,"['non-fiction', 'history, historical fiction, ...",Caitlin Moran,356,False
92,9516,Persepolis The Story of a Childhood Persepolis 1,https://images.gr-assets.com/books/1425871473m...,https://www.goodreads.com/book/show/9516.Perse...,153,119470,"A New York TimesNotable Book\nA Time Magazine""...","['comics, graphic', 'non-fiction', 'history, h...",Mattias Ripa,708,True
93,307791,The City of Ember Book of Ember 1,https://images.gr-assets.com/books/1397931596m...,https://www.goodreads.com/book/show/307791.The...,270,202775,"Many hundreds of years ago, the city of Ember ...","['young-adult', 'fantasy, paranormal', 'fictio...",Jeanne DuPrau,175,True
94,37442,Wicked The Life and Times of the Wicked Witch ...,https://images.gr-assets.com/books/1437733293m...,https://www.goodreads.com/book/show/37442.Wicked,409,508863,When Dorothy triumphed over the Wicked Witch o...,"['fantasy, paranormal', 'fiction', 'young-adul...",Douglas Smith,374,True


### Rinominare colonne

La funzione ``rename()`` può essere utilizzata sia per le etichette di riga che per quelle di colonna. Fornire un dizionario con le chiavi i nomi correnti e i valori i nuovi nomi per aggiornare i nomi corrispondenti.

In [57]:
books_df_renamed = books_df.rename(columns={'name':'author'})
books_df_renamed

Unnamed: 0,book_id,title,image_url,url,num_pages,ratings_count,description,genre,author,book_id_mapping,famous
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True
1,872333,Blue Bloods Blue Bloods 1,https://images.gr-assets.com/books/1322281515m...,https://www.goodreads.com/book/show/872333.Blu...,302,117633,"When the Mayflower set sail in 1620, it carrie...","['young-adult', 'fantasy, paranormal', 'romanc...",Autore Anonimo,217,True
2,15507958,Me Before You Me Before You 1,https://images.gr-assets.com/books/1357108762m...,https://www.goodreads.com/book/show/15507958-m...,369,609327,Louisa Clark is an ordinary young woman living...,"['romance', 'fiction']",Autore Anonimo,385,True
3,66559,Sharp Objects,https://images.gr-assets.com/books/1423241485m...,https://www.goodreads.com/book/show/66559.Shar...,254,208394,"Fresh from a brief stay at a psych hospital, r...","['mystery, thriller, crime', 'fiction']",Gillian Flynn,192,True
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873,True
...,...,...,...,...,...,...,...,...,...,...,...
91,10600242,How to Be a Woman,https://images.gr-assets.com/books/1405909800m...,https://www.goodreads.com/book/show/10600242-h...,312,72029,Though they have the vote and the Pill and hav...,"['non-fiction', 'history, historical fiction, ...",Caitlin Moran,356,False
92,9516,Persepolis The Story of a Childhood Persepolis 1,https://images.gr-assets.com/books/1425871473m...,https://www.goodreads.com/book/show/9516.Perse...,153,119470,"A New York TimesNotable Book\nA Time Magazine""...","['comics, graphic', 'non-fiction', 'history, h...",Mattias Ripa,708,True
93,307791,The City of Ember Book of Ember 1,https://images.gr-assets.com/books/1397931596m...,https://www.goodreads.com/book/show/307791.The...,270,202775,"Many hundreds of years ago, the city of Ember ...","['young-adult', 'fantasy, paranormal', 'fictio...",Jeanne DuPrau,175,True
94,37442,Wicked The Life and Times of the Wicked Witch ...,https://images.gr-assets.com/books/1437733293m...,https://www.goodreads.com/book/show/37442.Wicked,409,508863,When Dorothy triumphed over the Wicked Witch o...,"['fantasy, paranormal', 'fiction', 'young-adul...",Douglas Smith,374,True


La mappatura non deve essere limitata ai soli nomi fissi, ma può essere anche una funzione di mappatura. Ad esempio, anche la conversione dei nomi delle colonne in lettere minuscole può essere eseguita con una funzione.

In [59]:
books_df_renamed = books_df.rename(columns=str.upper)
books_df_renamed

Unnamed: 0,BOOK_ID,TITLE,IMAGE_URL,URL,NUM_PAGES,RATINGS_COUNT,DESCRIPTION,GENRE,NAME,BOOK_ID_MAPPING,FAMOUS
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True
1,872333,Blue Bloods Blue Bloods 1,https://images.gr-assets.com/books/1322281515m...,https://www.goodreads.com/book/show/872333.Blu...,302,117633,"When the Mayflower set sail in 1620, it carrie...","['young-adult', 'fantasy, paranormal', 'romanc...",Autore Anonimo,217,True
2,15507958,Me Before You Me Before You 1,https://images.gr-assets.com/books/1357108762m...,https://www.goodreads.com/book/show/15507958-m...,369,609327,Louisa Clark is an ordinary young woman living...,"['romance', 'fiction']",Autore Anonimo,385,True
3,66559,Sharp Objects,https://images.gr-assets.com/books/1423241485m...,https://www.goodreads.com/book/show/66559.Shar...,254,208394,"Fresh from a brief stay at a psych hospital, r...","['mystery, thriller, crime', 'fiction']",Gillian Flynn,192,True
4,7235533,The Way of Kings The Stormlight Archive 1,https://images.gr-assets.com/books/1507307887m...,https://www.goodreads.com/book/show/7235533-th...,1007,151473,"Speak again the ancient oaths,\nLife before de...","['fantasy, paranormal', 'fiction']",Brandon Sanderson,873,True
...,...,...,...,...,...,...,...,...,...,...,...
91,10600242,How to Be a Woman,https://images.gr-assets.com/books/1405909800m...,https://www.goodreads.com/book/show/10600242-h...,312,72029,Though they have the vote and the Pill and hav...,"['non-fiction', 'history, historical fiction, ...",Caitlin Moran,356,False
92,9516,Persepolis The Story of a Childhood Persepolis 1,https://images.gr-assets.com/books/1425871473m...,https://www.goodreads.com/book/show/9516.Perse...,153,119470,"A New York TimesNotable Book\nA Time Magazine""...","['comics, graphic', 'non-fiction', 'history, h...",Mattias Ripa,708,True
93,307791,The City of Ember Book of Ember 1,https://images.gr-assets.com/books/1397931596m...,https://www.goodreads.com/book/show/307791.The...,270,202775,"Many hundreds of years ago, the city of Ember ...","['young-adult', 'fantasy, paranormal', 'fictio...",Jeanne DuPrau,175,True
94,37442,Wicked The Life and Times of the Wicked Witch ...,https://images.gr-assets.com/books/1437733293m...,https://www.goodreads.com/book/show/37442.Wicked,409,508863,When Dorothy triumphed over the Wicked Witch o...,"['fantasy, paranormal', 'fiction', 'young-adul...",Douglas Smith,374,True


## Combinare più DataFrame diversi

### Concatenazione

In [61]:
ratings_file = "collaborative_books_df.csv"
ratings_df = pd.read_csv("data/"+ratings_file, index_col=0)
ratings_df

Unnamed: 0,title,book_id,user_id_mapping,book_id_mapping,Predicted Rating,Actual Rating
0,I Am the Messenger,19057,1537,299,4.5,5
1,I Am the Messenger,19057,23039,299,4.9,3
2,I Am the Messenger,19057,39096,299,3.9,3
3,I Am the Messenger,19057,14631,299,4.7,4
4,I Am the Messenger,19057,32816,299,4.3,5
...,...,...,...,...,...,...
196291,Coraline,17061,58417,106,4.1,4
196292,Coraline,17061,9941,106,3.5,5
196293,Coraline,17061,31383,106,3.6,3
196294,Coraline,17061,33833,106,3.7,5


La funzione ``concat()`` esegue operazioni di concatenazione di più tabelle lungo uno degli assi (riga o colonna).

<img src="concat.svg" style = "width:1182px; height=702px;">

Per impostazione predefinita, la concatenazione avviene lungo l'asse 0, quindi la tabella risultante combina le righe delle tabelle di input.

In [64]:
books_and_ratings = pd.concat([books_df, ratings_df])

 Controlliamo la ``shape`` della tabella originale e di quella concatenata per verificare l'operazione.

In [65]:
print('Shape di ``books_df``: ', books_df.shape)
print('Shape di ``ratings_df``: ', ratings_df.shape)
print('Shape della tabella risultante ``books_and_ratings``: ', books_and_ratings.shape)

Shape di ``books_df``:  (96, 11)
Shape di ``ratings_df``:  (196296, 6)
Shape della tabella risultante ``books_and_ratings``:  (196392, 14)


### Unione tramite chiave comune

Utilizzando la funzione ``merge()``, per ogni riga della tabella ``books_df`` vengono aggiunte le coordinate corrispondenti dalla tabella ``ratings_df``. Entrambe le tabelle hanno in comune la colonna ``book_id_mapping``, utilizzata come chiave per combinare le informazioni. La funzione ``merge()`` supporta diverse opzioni di unione, simili alle operazioni di tipo database.

<img src="merge.svg" style = "width:1182px; height=702px;">

Più informazioni sulla funzione ``merge``: https://pandas.pydata.org/docs/reference/api/pandas.merge.html#pandas.merge .

In [67]:
books_ratings_merge = pd.merge(books_df, ratings_df, on="book_id_mapping")
books_ratings_merge

Unnamed: 0,book_id_x,title_x,image_url,url,num_pages,ratings_count,description,genre,name,book_id_mapping,famous,title_y,book_id_y,user_id_mapping,Predicted Rating,Actual Rating
0,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True,The Last Lecture,2318271,2323,3.9,4
1,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True,The Last Lecture,2318271,48983,3.8,5
2,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True,The Last Lecture,2318271,6035,4.3,5
3,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True,The Last Lecture,2318271,6776,3.3,4
4,5899779,Pride and Prejudice and Zombies Pride and Prej...,https://images.gr-assets.com/books/1320449653m...,https://www.goodreads.com/book/show/5899779-pr...,320,105537,The New York Times Best Seller is now a major ...,"['fantasy, paranormal', 'romance', 'fiction', ...",Autore Anonimo,808,True,The Last Lecture,2318271,32993,3.7,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19819,29069989,Harry Potter and the Cursed Child Parts 1 2 Ha...,https://images.gr-assets.com/books/1470734340m...,https://www.goodreads.com/book/show/29069989-h...,309,88302,The Eighth Story. Nineteen Years Later.\nBased...,"['fantasy, paranormal', 'fiction', 'young-adul...",Jack Thorne,508,False,The Witch of Blackbird Pond,703292,28104,3.9,4
19820,29069989,Harry Potter and the Cursed Child Parts 1 2 Ha...,https://images.gr-assets.com/books/1470734340m...,https://www.goodreads.com/book/show/29069989-h...,309,88302,The Eighth Story. Nineteen Years Later.\nBased...,"['fantasy, paranormal', 'fiction', 'young-adul...",Jack Thorne,508,False,The Witch of Blackbird Pond,703292,40482,3.8,5
19821,29069989,Harry Potter and the Cursed Child Parts 1 2 Ha...,https://images.gr-assets.com/books/1470734340m...,https://www.goodreads.com/book/show/29069989-h...,309,88302,The Eighth Story. Nineteen Years Later.\nBased...,"['fantasy, paranormal', 'fiction', 'young-adul...",Jack Thorne,508,False,The Witch of Blackbird Pond,703292,38534,4.4,5
19822,29069989,Harry Potter and the Cursed Child Parts 1 2 Ha...,https://images.gr-assets.com/books/1470734340m...,https://www.goodreads.com/book/show/29069989-h...,309,88302,The Eighth Story. Nineteen Years Later.\nBased...,"['fantasy, paranormal', 'fiction', 'young-adul...",Jack Thorne,508,False,The Witch of Blackbird Pond,703292,10847,3.9,4


In [68]:
print('Shape della tabella risultante ``books_ratings_merge``: ', books_ratings_merge.shape)

Shape della tabella risultante ``books_ratings_merge``:  (19824, 16)
