In [1]:
import pandas as pd
import numpy as np

### Load datasets

Nella read_csv è stato usato il parametro `compression = '.gzip'` per definire il formato del file compresso contenente i dataset. I primi 3 dataset (Books, Book_Ratings e Users) hanno come separatore il `;`, mentre gli ultimi 2 (Goodbooks e Goodbooks_Ratings) sono CSV. Come richiesto è stato passato come encoding l'opzione `latin-1`. Inoltre Books, Book_Ratings e Users, presentano in alcuni dei valori, il carattere di escape `\`, al fine di una corretta lettura dei dataset, è stato impostato il parametro `escapechar= '\\'`.

In [2]:
books = pd.read_csv("https://github.com/gdv/foundationsCS/raw/master/progetti/2021/Books.csv.gz", compression = 'gzip', 
                    sep = ';', encoding = 'latin-1', escapechar='\\')
books.head()

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...
2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...
3,374157065,Flu: The Story of the Great Influenza Pandemic...,Gina Bari Kolata,1999,Farrar Straus Giroux,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...,http://images.amazon.com/images/P/0374157065.0...
4,393045218,The Mummies of Urumchi,E. J. W. Barber,1999,W. W. Norton &amp; Company,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...,http://images.amazon.com/images/P/0393045218.0...


La colonna `Year-Of-Publication` dataset `books` presenta due tipologie di valori anomali:
- Un numero consistente di libri risulta pubblicato nell'anno zero
- Un piccolo numero di libri risulta pubblicato nel futuro


Si ipotizza che il valore `0` per l'anno di pubblicazione sia utilizzato come valore assurdo atto a indicare un valore mancante e lo si sostituisce con un missing value `np.nan`. Data l'irrealisticità che caratterizza un possibile anno di pubblicazione futuro, anche questi valori sono sostituiti con missing values.
L'assegnazione di valori mancanti provoca una variazione del `dtype` della variabile in `float64`, il tipo originario `int64` viene ristabilito usando il metodo `pandas.DataFrame.astype`.

In [3]:
books.loc[(books['Year-Of-Publication'] == 0) | (books['Year-Of-Publication'] > 2021), 'Year-Of-Publication'] = np.nan
books['Year-Of-Publication'] = books['Year-Of-Publication'].astype('Int64')

In [4]:
ratings = pd.read_csv("https://github.com/gdv/foundationsCS/raw/master/progetti/2021/Book-Ratings.csv.gz", compression = 'gzip',
                      sep = ';', encoding = 'latin-1', escapechar='\\')
ratings.head()

Unnamed: 0,User-ID,ISBN,Book-Rating
0,276725,034545104X,0
1,276726,0155061224,5
2,276727,0446520802,0
3,276729,052165615X,3
4,276729,0521795028,6


In [5]:
users = pd.read_csv("https://github.com/gdv/foundationsCS/raw/master/progetti/2021/Users.csv.gz", compression = 'gzip', 
                    sep = ';', encoding = 'latin-1', escapechar='\\')

Viene utilizzato il metodo `pandas.DataFrame.astype` per assegnare il `dtype` corretto (intero, `int64`) all'attributo `Age`, il quale in fase di importazione viene letto come `float64`

In [6]:
users['Age'] = users['Age'].astype('Int64')
users.head()

Unnamed: 0,User-ID,Location,Age
0,1,"nyc, new york, usa",
1,2,"stockton, california, usa",18.0
2,3,"moscow, yukon territory, russia",
3,4,"porto, v.n.gaia, portugal",17.0
4,5,"farnborough, hants, united kingdom",


Importazione del dataset `goodbooks` e successiva conversione dell'attributo `original_publication_year` da `float64` a `int64`.

In [7]:
goodbooks = pd.read_csv("https://github.com/gdv/foundationsCS/raw/master/progetti/2021/goodbooks.csv.gz", compression = 'gzip', 
                        encoding = 'latin-1')
goodbooks['original_publication_year'] = goodbooks['original_publication_year'].astype('Int64')
goodbooks.head()

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,Suzanne Collins,2008,The Hunger Games,...,4780653,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...
1,2,3,3,4640799,491,439554934,9780440000000.0,"J.K. Rowling, Mary GrandPrÃ©",1997,Harry Potter and the Philosopher's Stone,...,4602479,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...
2,3,41865,41865,3212258,226,316015849,9780316000000.0,Stephenie Meyer,2005,Twilight,...,3866839,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...
3,4,2657,2657,3275794,487,61120081,9780061000000.0,Harper Lee,1960,To Kill a Mockingbird,...,3198671,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...
4,5,4671,4671,245494,1356,743273567,9780743000000.0,F. Scott Fitzgerald,1925,The Great Gatsby,...,2683664,2773745,51992,86236,197621,606158,936012,947718,https://images.gr-assets.com/books/1490528560m...,https://images.gr-assets.com/books/1490528560s...


In [8]:
goodbooks_ratings = pd.read_csv("https://github.com/gdv/foundationsCS/raw/master/progetti/2021/goodbooks-ratings.csv.gz", 
                                compression = 'gzip', encoding = 'latin-1')
goodbooks_ratings.head()

Unnamed: 0,user_id,book_id,rating
0,1,258,5
1,2,4081,4
2,2,260,5
3,2,9296,5
4,2,2318,3


### 1) Normalize the location field of Users dataset, splitting into city, region, country

In [9]:
users[['City', 'RegionState']] = users['Location'].str.split(',', expand = True, n = 1)
users.drop('Location', axis = 1, inplace = True)
users.head()

Unnamed: 0,User-ID,Age,City,RegionState
0,1,,nyc,"new york, usa"
1,2,18.0,stockton,"california, usa"
2,3,,moscow,"yukon territory, russia"
3,4,17.0,porto,"v.n.gaia, portugal"
4,5,,farnborough,"hants, united kingdom"


In [10]:
users[['Region', 'Country']] = users['RegionState'].str.rsplit(',', expand = True, n = 1)
users.drop('RegionState', axis = 1, inplace = True)
users.head()

Unnamed: 0,User-ID,Age,City,Region,Country
0,1,,nyc,new york,usa
1,2,18.0,stockton,california,usa
2,3,,moscow,yukon territory,russia
3,4,17.0,porto,v.n.gaia,portugal
4,5,,farnborough,hants,united kingdom


Abbiamo selezionato la colonna `Location` del dataset `Users`. L'obiettivo è quello di dividere questa colonna in tre nuovi attributi, `'City', 'Region' e 'Country'`. Per fare ciò, l'idea è l'utilizzo del metodo split. I valori dell'attributo `'Location'`, tuttavia, non sono normalizzati: la maggior parte delle righe hanno il numero di campi atteso (3) ma tante altre hanno un numero di campi diverso (fino a un massimo di 9 campi). 
Per risolvere il problema, notando che in quasi tutti i casi il primo campo è la città e l'ultimo lo stato, viene usata prima una split con un massimo numero di split pari a 2 per isolare la città e successivamente una rsplit, sempre con massimo numero di split pari a 2, per isolare lo stato. Facendo questo, tutti i campi rimanenti vengono "collassati" nella colonna `'Region'`. Le colonne non utili vengono rimosse col metodo drop.

In [11]:
users.loc[(users['City'] == 'n/a') | (users['City'] == '"n/a"'), 'City'] = np.NaN
users.loc[(users['Region'] == ' n/a') | (users['Region'] == ' "n/a"'), 'Region'] = np.NaN
users.loc[(users['Country'] == ' n/a') | (users['Country'] == ' "n/a"'), 'Country'] = np.NaN

In [12]:
users['City'].replace([None], np.nan, inplace=True)
users['Region'].replace([None], np.nan, inplace=True)
users['Country'].replace([None], np.nan, inplace=True)

Osservando il dataset, abbiamo inoltre notato come ad alcuni dei campi mancanti fossero assegnate le stringe ` "n/a"` o `' n/a'`, questi valori sono stati convertiti in missing value, in particolare sostituendoli con valori `np.NaN`.

È stato inoltre constatato come il metodo `pandas.Series.str.split` assegnasse ai campi mancanti `None`, per motivi di coerenza anche questi valori sono stati sostituiti (usando il metodo `pandas.DataFrame.replace`) con dei `np.NaN`.

Tuttavia, anche dopo questo procedimento il problema non è risolto completamente. L'attributo 'Region' andrebbe normalizzato, così come gli altri due attributi 'City' e 'Country' andrebbero controllati per verificare la realisticita dei valori presenti.

# INSERIRE QUI ESEMPI

Dal momento che a livello pratico dei punti successivi la normalizzazione di questi attributi risulta quasi ininfluente, è stato deciso di non procedere oltre.

### 2) For each book in the Books dataset, compute its average rating

In [13]:
books_w_ratings = pd.merge(books, ratings, on='ISBN', how='left')
books_w_ratings.head()

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L,User-ID,Book-Rating
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,2.0,0.0
1,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,8.0,5.0
2,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,11400.0,0.0
3,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,11676.0,8.0
4,2005018,Clara Callan,Richard Bruce Wright,2001,HarperFlamingo Canada,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,http://images.amazon.com/images/P/0002005018.0...,41385.0,0.0


Inizialmente abbiamo combinato i dataset `Books` e `Ratings` usando il metodo merge con parametro `how = left` (per effettuare una outer left join sulla tabella `Books`). Questa tabella contiene tutti i libri di `Books` e tutte le valutazioni ad essi corrispondenti (quando presenti). Per il libri senza nessuna valutazione, il valore degli attributi della tabella di destra sono `NULL`.

In [14]:
books_avg = books_w_ratings.groupby(['ISBN', 'Book-Title'], as_index=False)['Book-Rating'].mean().round(2)
books_avg.head()

Unnamed: 0,ISBN,Book-Title,Book-Rating
0,0000913154,The Way Things Work: An Illustrated Encycloped...,8.0
1,0001010565,Mog's Christmas,0.0
2,0001046438,Liar,9.0
3,0001046713,Twopence to Cross the Mersey,0.0
4,000104687X,"T.S. Eliot Reading ""The Wasteland"" and Other P...",6.0


A questo punto abbiamo effettuato una groupby sugli attributi `ISBN` e `Book-Title` e abbiamo generato la media aggregata relativa all'attributo `Book-Rating`, ottenendo per ogni libro la media delle sue valutazioni. Usando l'argomento `as_index=False` facciamo in modo che gli attributi del raggruppamento non vengano usati come indice del dataset.

### 3) For each book in the GoodBooks dataset, compute its average rating

In [15]:
goodbooks.columns

Index(['book_id', 'goodreads_book_id', 'best_book_id', 'work_id',
       'books_count', 'isbn', 'isbn13', 'authors', 'original_publication_year',
       'original_title', 'title', 'language_code', 'average_rating',
       'ratings_count', 'work_ratings_count', 'work_text_reviews_count',
       'ratings_1', 'ratings_2', 'ratings_3', 'ratings_4', 'ratings_5',
       'image_url', 'small_image_url'],
      dtype='object')

In [16]:
goodbooks[['book_id', 'original_title', 'average_rating']]

Unnamed: 0,book_id,original_title,average_rating
0,1,The Hunger Games,4.34
1,2,Harry Potter and the Philosopher's Stone,4.44
2,3,Twilight,3.57
3,4,To Kill a Mockingbird,4.25
4,5,The Great Gatsby,3.89
...,...,...,...
94,95,The Picture of Dorian Gray,4.06
95,96,Fifty Shades Freed,3.88
96,97,Dracula,3.98
97,98,Flickan som lekte med elden,4.22


Nel dataset `goodbooks` notiamo la presenza della colonna `average_ratings`, la variabile di interesse. Di conseguenza, abbiamo semplicemente riportato le colonne rilevanti del dataset `book_id, original_title e average_rating`. Abbiamo ignorato il dataset `goodbooks_Ratings` (e quindi l'ipotesi di seguire un procedimento analogo al punto precedente) in quanto il numero di valutazioni presenti era esiguo e l'analisi non sarebbe stata significativa.

### 4) Merge together all rows sharing the same book title, author and publisher. We will call the resulting datset merged books. The books that have not been merged together will not appear in merged books

In [17]:
merged = books.groupby(['Book-Title', 'Book-Author', 'Publisher'], as_index=False).size()
merged.head()

Unnamed: 0,Book-Title,Book-Author,Publisher,size
0,A Light in the Storm: The Civil War Diary of ...,Karen Hesse,Hyperion Books for Children,1
1,Always Have Popsicles,Rebecca Harvin,Rebecca L. Harvin,1
2,Apple Magic (The Collector's series),Martina Boudreau,Amer Cooking Guild,1
3,"Ask Lily (Young Women of Faith: Lily Series, ...",Nancy N. Rue,Zonderkidz,1
4,Beyond IBM: Leadership Marketing and Finance ...,Lou Mobley,"Teleonet, Incorporated",1


Abbiamo creato il dataset merged in cui, usando il metodo `pandas.DataFrame.groupby`, abbiamo raggruppato le righe che condividono titolo, autore e publisher. È stato inoltre usato il metodo `pandas.DataFrame.size` per ottenere la dimensione (`size`) di ciascun gruppo, assegnata ad un nuovo attributo omonimo.

In [18]:
merged_books = merged[merged['size'] > 1]
merged_books = merged_books.reset_index().drop('index', axis = 1)
merged_books.head()

Unnamed: 0,Book-Title,Book-Author,Publisher,size
0,!%@ (A Nutshell handbook),Donnalyn Frey,O'Reilly,2
1,'A Hell of a Place to Lose a Cow': An American...,Tim Brookes,National Geographic,2
2,"10,000 dreams interpreted: A dictionary of dreams",Gustavus Hindman Miller,Barnes &amp; Nobles Books,2
3,101 Famous Poems,Roy J. Cook,McGraw-Hill/Contemporary Books,3
4,15 Houseplants Even You Can't Kill,Joe Elder,Berkley Pub Group,2


Utilizzando il fancy indexing (boolean indexing) abbiamo effettuato un sebsetting del dataset merged mantenendo solo i raggruppamenti di dimensione maggiore o uguale a 2. Il nuovo dataset è stato nominato `merged_books` come da richiesta.

### 5) For each book in merged books compute its average rating

In [19]:
merged_books_w_avg = pd.merge(merged_books, books_avg, on="Book-Title")
merged_books_w_avg.head()

Unnamed: 0,Book-Title,Book-Author,Publisher,size,ISBN,Book-Rating
0,!%@ (A Nutshell handbook),Donnalyn Frey,O'Reilly,2,1565920317,6.0
1,!%@ (A Nutshell handbook),Donnalyn Frey,O'Reilly,2,1565920465,0.0
2,'A Hell of a Place to Lose a Cow': An American...,Tim Brookes,National Geographic,2,792276833,0.0
3,'A Hell of a Place to Lose a Cow': An American...,Tim Brookes,National Geographic,2,792277295,3.4
4,"10,000 dreams interpreted: A dictionary of dreams",Gustavus Hindman Miller,Barnes &amp; Nobles Books,2,1566196256,7.25


Abbiamo effetuato una combinazione (inner join) del dataset `merged_books` con il dataset precedentemente ottenuto al punto 2 (`books_avg`). In questo modo, per ogni raggruppamento, abbiamo ottenuto tutti i rating corrispondenti alle diverse versioni del libro.

In [74]:
merged_books_w_avg.groupby(['Book-Title', 'Book-Author', 'Publisher'], as_index=False)['Book-Rating'].mean().round(2)\
        .rename(columns = {'Book-Rating':'AVG_Book-Rating'})

Unnamed: 0,Book-Title,Book-Author,Publisher,AVG_Book-Rating
0,!%@ (A Nutshell handbook),Donnalyn Frey,O'Reilly,3.00
1,'A Hell of a Place to Lose a Cow': An American...,Tim Brookes,National Geographic,1.70
2,"10,000 dreams interpreted: A dictionary of dreams",Gustavus Hindman Miller,Barnes &amp; Nobles Books,6.96
3,101 Famous Poems,Roy J. Cook,McGraw-Hill/Contemporary Books,3.11
4,15 Houseplants Even You Can't Kill,Joe Elder,Berkley Pub Group,0.00
...,...,...,...,...
4720,Zia,Scott O'Dell,Laurel-Leaf Books,1.86
4721,Zia,Scott O'Dell,Yearling Books,1.86
4722,Zimmermann Telegram,Barbara Tuchman,Ballantine Books,2.00
4723,Zoids Chaotic Century (Zoids: Chaotic Century ...,Michiro Ueyama,Viz Comics,10.00


Per ogni raggruppamento di titolo, autore e publisher abbiamo calcolato la media dei rating (su tutte le possibili edizioni dei libri), arrotondata alla seconda cifra decimale.

### 6) For each book in merged books compute the minimum and maximum of the average ratings over all corresponding books in the books dataset

Abbiamo utilizzato il dataset `merged_books_w_avg` ottenuto al punto precedente, contenente tutte le edizioni dei libri contenuti in `merged_books`, associate a `Book-Rating`, ovvero il valore medio relativo alle recensioni della specifica edizione.
È stato applicato il metodo `pandas.DataFrame.groupby` alle variabili `Book-Title, Book-Author, Publisher`, per ogni libro di `merged_books` sono definiti massimo e minimo tra le votazioni medie relative a tutti i libri presenti anche in `books`, passanfo le funzioni `min` e `max` al parametro `func` del metodo `pandas.DataFrame.aggregate`.

In [75]:
grouped = merged_books_w_avg.groupby(['Book-Title', 'Book-Author', 'Publisher'], as_index=False).\
            agg({'Book-Rating':['max', 'min']})
grouped.columns = ['Book-Title', 'Book-Author', 'Publisher','MAX_Book-Rating', 'MIN_Book-Rating']
#grouped = grouped.reset_index()
display(grouped)

Unnamed: 0,Book-Title,Book-Author,Publisher,MAX_Book-Rating,MIN_Book-Rating
0,!%@ (A Nutshell handbook),Donnalyn Frey,O'Reilly,6.00,0.00
1,'A Hell of a Place to Lose a Cow': An American...,Tim Brookes,National Geographic,3.40,0.00
2,"10,000 dreams interpreted: A dictionary of dreams",Gustavus Hindman Miller,Barnes &amp; Nobles Books,7.25,6.67
3,101 Famous Poems,Roy J. Cook,McGraw-Hill/Contemporary Books,5.00,0.00
4,15 Houseplants Even You Can't Kill,Joe Elder,Berkley Pub Group,0.00,0.00
...,...,...,...,...,...
4720,Zia,Scott O'Dell,Laurel-Leaf Books,3.43,0.00
4721,Zia,Scott O'Dell,Yearling Books,3.43,0.00
4722,Zimmermann Telegram,Barbara Tuchman,Ballantine Books,4.00,0.00
4723,Zoids Chaotic Century (Zoids: Chaotic Century ...,Michiro Ueyama,Viz Comics,10.00,10.00


### 7) For each book in goodbooks, compute the list of its authors. Assuming that the number of reviews with a text (column work_text_reviews_count) is split equally among all authors, find for each authors the total number of reviews with a text. We will call this quantity the shared number of reviews with a text

Ogni elemento della colonna `authors` di `goodbooks` è formato dalle stringhe degli autori del libro separati da una virgola. 

Al fine di normalizzare la colonna degli autori:
1. Converto ogni elemento della colonna `authors` (usando il metodo `pandas.DataFrame.assign` per l'assegnazione) da stringhe separate da virgola a valori list-like (liste di stringhe), utilizzando `pandas.Series.str.split` per separare le stringhe.

In [24]:
goodbooks_ = goodbooks.assign(authors=goodbooks['authors'].str.split(', '))
goodbooks_.head()

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,[Suzanne Collins],2008,The Hunger Games,...,4780653,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...
1,2,3,3,4640799,491,439554934,9780440000000.0,"[J.K. Rowling, Mary GrandPrÃ©]",1997,Harry Potter and the Philosopher's Stone,...,4602479,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...
2,3,41865,41865,3212258,226,316015849,9780316000000.0,[Stephenie Meyer],2005,Twilight,...,3866839,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...
3,4,2657,2657,3275794,487,61120081,9780061000000.0,[Harper Lee],1960,To Kill a Mockingbird,...,3198671,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...
4,5,4671,4671,245494,1356,743273567,9780743000000.0,[F. Scott Fitzgerald],1925,The Great Gatsby,...,2683664,2773745,51992,86236,197621,606158,936012,947718,https://images.gr-assets.com/books/1490528560m...,https://images.gr-assets.com/books/1490528560s...


2. Ottengo una colonna che, per ogni libro, trova il numero delle recensioni testuali divise per il numero di autori del libro corrispondente.

In [25]:
goodbooks_['work_text_reviews_count_per_author'] = goodbooks_['work_text_reviews_count'] / goodbooks_['authors'].str.len()
goodbooks_.head()

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url,work_text_reviews_count_per_author
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,[Suzanne Collins],2008,The Hunger Games,...,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...,155254.0
1,2,3,3,4640799,491,439554934,9780440000000.0,"[J.K. Rowling, Mary GrandPrÃ©]",1997,Harry Potter and the Philosopher's Stone,...,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...,37933.5
2,3,41865,41865,3212258,226,316015849,9780316000000.0,[Stephenie Meyer],2005,Twilight,...,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...,95009.0
3,4,2657,2657,3275794,487,61120081,9780061000000.0,[Harper Lee],1960,To Kill a Mockingbird,...,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...,72586.0
4,5,4671,4671,245494,1356,743273567,9780743000000.0,[F. Scott Fitzgerald],1925,The Great Gatsby,...,2773745,51992,86236,197621,606158,936012,947718,https://images.gr-assets.com/books/1490528560m...,https://images.gr-assets.com/books/1490528560s...,51992.0


3. Genero, per ogni riga che presenta un numero n di autori, n righe distinte, dove a ogni libro è associato un solo autore. Questo può essere compiuto attraverso il metodo `pandas.DataFrame.explode` che, dato un attributo list-like di lunghezza n, genera n righe, una per ogni elemento della lista.

In [26]:
goodbooks_normalized = goodbooks_.explode('authors')
goodbooks_normalized.head()

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url,work_text_reviews_count_per_author
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,Suzanne Collins,2008,The Hunger Games,...,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...,155254.0
1,2,3,3,4640799,491,439554934,9780440000000.0,J.K. Rowling,1997,Harry Potter and the Philosopher's Stone,...,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...,37933.5
1,2,3,3,4640799,491,439554934,9780440000000.0,Mary GrandPrÃ©,1997,Harry Potter and the Philosopher's Stone,...,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...,37933.5
2,3,41865,41865,3212258,226,316015849,9780316000000.0,Stephenie Meyer,2005,Twilight,...,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...,95009.0
3,4,2657,2657,3275794,487,61120081,9780061000000.0,Harper Lee,1960,To Kill a Mockingbird,...,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...,72586.0


4. Trovo il numero totale di recensioni scritte per autore sfruttando la colonna `work_text_reviews_count_per_author` creata in precedenza. Per facilitare la lettura sono stati passati i nomi delle colonne del nuovo dataset. I valori sono stati arrotondati all'intero più vicino col metodo `pandas.DataFrame.round` e convertiti in interi con `pandas.DataFrame.astype`. I valori sono stati visualizzati in ordine alfabetico per facilitarne la comprensione. 

In [27]:
columns_ = {"authors": "authors", "work_text_reviews_count_per_author": "shared_number_of_reviews_with_a_text"}
authors_reviews_ = pd.DataFrame(goodbooks_normalized.groupby(['authors'], as_index = False)['work_text_reviews_count_per_author']\
                                .sum().round()).rename(columns = columns_)
authors_reviews_['shared_number_of_reviews_with_a_text'] = authors_reviews_['shared_number_of_reviews_with_a_text'].astype('int64')
authors_reviews_.sort_values('authors')

Unnamed: 0,authors,shared_number_of_reviews_with_a_text
0,Alan R. Clarke,27890
1,Aldous Huxley,20095
2,Alice Sebold,36642
3,Anne Frank,6942
4,Antoine de Saint-ExupÃ©ry,6134
...,...,...
104,Veronica Roth,156896
105,William Golding,26886
106,William Goldman,15630
107,William Shakespeare,7389


Abbiamo valutato in precedenza anche una soluzione usando un ciclo `for`, che per ogni autore presente nella colonna `authors` calcolava la somma delle reviews. Veniva generato un dizionario dove le chiavi erano i nomi degli autori e i valori la somma delle reviews.
Il metodo risultava però meno efficente dal punto di vista delle performance.

### 8) For each year of publication, determine the author that has the largest value of the shared number of reviews with a text

L'interpretazione che abbiamo dato alla richiesta è la seguente:

Per ogni anno, abbiamo trovato l'autore (o gli autori) che ha pubblicato uno o più libri in quell'anno, per cui risulta massima la somma del numero delle recensioni testuali per tutti i libri scritti in quell'anno (considerando che queste vengano equamente divise tra i diversi autori, nel caso questi siano più di uno).

1. Dal dataset `goodbooks_normalized` abbiamo mantenuto gli autori, l'anno in cui hanno pubblicato e il numero di reviews di ciascun libro (eventualmente condivise con altri autori).

In [28]:
colonne = {'original_publication_year':'original_publication_year', 'authors':'authors', \
           'work_text_reviews_count_per_author':'shared_number_of_reviews_with_a_text_per_year'}
gb_year_author_shared = goodbooks_normalized.groupby(['original_publication_year', 'authors'], as_index=False)\
            ['work_text_reviews_count_per_author'].sum().round().rename(columns = colonne)
gb_year_author_shared['shared_number_of_reviews_with_a_text_per_year'] = \
            gb_year_author_shared['shared_number_of_reviews_with_a_text_per_year'].astype('int64')
gb_year_author_shared.head()

Unnamed: 0,original_publication_year,authors,shared_number_of_reviews_with_a_text_per_year
0,-720,Bernard Knox,1620
1,-720,E.V. Rieu,1620
2,-720,FrÃ©dÃ©ric Mugler,1620
3,-720,Homer,1620
4,-720,Robert Fagles,1620


2. Abbiamo ottenuto, per ogni anno di pubblicazione, l'indice dell'autore (o degli autori) con numero di recensioni con testo massimo: 

    a) Abbiamo effettuato un raggruppamento sull'attributo `original_publication_year` di `gb_year_author_shared` utilizzando il metodo `pandas.DataFrame.groupby`.
    
    b) Abbiamo applicato il metodo `pandas.DataFrame.transform` all'attributo `shared_number_of_reviews_with_a_text_per_year` dell'oggetto grouped, passando un parametro `func = max`. Il metodo trasform permette di ottenere un dataframe che presenta gli stessi indici del dataframe originale (`gb_year_author_shared`). L'attributo `shared_number_of_reviews_with_a_text_per_year` viene però sostituito, per ogni autore di ogni anno, con il valore massimo di quel raggruppamento. Dopodichè viene fatto un confronto, in particolare una intersezione fra il dataframe originale e quello trasformato fatta mediante l'operatore `==`, ottenendo un vettore booleano nel quale si avrà valore `True` solo laddove l'autore abbia un numero di review testuali in quell'anno pari al valore massimo dell'anno.
    
    c) Usando il fancy indexing, otteniamo solo le righe a cui corrisponde il valore `True`. Al fine di rendere più semplice la lettura dell'output, data la presenza, per alcuni degli `original_publication_year`, di più autori con `original_publication_year` massimo, di convertire i valori dell'attributi `authors` in *list-like*.

In [54]:
pd.set_option('max_colwidth', 100)
idx = gb_year_author_shared.groupby(['original_publication_year'])['shared_number_of_reviews_with_a_text_per_year'].transform(max) == \
                                    gb_year_author_shared['shared_number_of_reviews_with_a_text_per_year']
display(gb_year_author_shared[idx].groupby(['original_publication_year', 'shared_number_of_reviews_with_a_text_per_year']).agg\
                                    ({'authors': lambda x: x.tolist()}))
pd.set_option('max_colwidth', 50)

Unnamed: 0_level_0,Unnamed: 1_level_0,authors
original_publication_year,shared_number_of_reviews_with_a_text_per_year,Unnamed: 2_level_1
-720,1620,"[Bernard Knox, E.V. Rieu, FrÃ©dÃ©ric Mugler, Homer, Robert Fagles]"
1595,7389,"[Robert Jackson, William Shakespeare]"
1811,3842,"[Jane Austen, Ros Ballaster, Tony Tanner]"
1813,49152,[Jane Austen]
1818,6664,"[Mary Wollstonecraft Shelley, Maurice Hindle, Percy Bysshe Shelley]"
1847,15606,"[Charlotte BrontÃ«, Michael Mason]"
1859,4364,"[Charles Dickens, Hablot Knight Browne, Richard Maxwell]"
1868,17090,[Louisa May Alcott]
1884,4149,"[Guy Cardwell, John Seelye, Mark Twain]"
1891,9824,"[Jeffrey Eugenides, Oscar Wilde]"


# DA TOGLIERE PRIMA DELLA CONSEGNA

In [30]:
gb_year_author_shared.groupby(['original_publication_year'])['shared_number_of_reviews_with_a_text_per_year'].transform(max)

0        1620
1        1620
2        1620
3        1620
4        1620
        ...  
133    140739
134    140739
135    140739
136    140739
137     93600
Name: shared_number_of_reviews_with_a_text_per_year, Length: 138, dtype: int64

In [31]:
idx

0       True
1       True
2       True
3       True
4       True
       ...  
133    False
134    False
135     True
136    False
137     True
Name: shared_number_of_reviews_with_a_text_per_year, Length: 138, dtype: bool

### 9) Assuming that there are no errors in the ISBN fields, find the books in both datasets, and compute the difference of average rating according to the ratings and the goodratings datasets

Abbiamo combinato il dataset goodbooks e il `dataset books_avg` creato al punto 2. Dal dataset `goodbooks` consideriamo solo gli attributi utili alla combinazione e l'attributo `average_rating`, mentre dal dataset `books_avg` consideriamo solo l'attributo `ISBN` utile nel merging (mediante funzione `pandas.DataFrame.merge`) e l'attributo `Book-Rating`.

In [32]:
both = pd.merge(goodbooks[['book_id', 'isbn', 'authors', 'title', 'average_rating']], books_avg[['ISBN', 'Book-Rating']], 
                left_on = 'isbn', right_on = 'ISBN')
both

Unnamed: 0,book_id,isbn,authors,title,average_rating,ISBN,Book-Rating
0,11,1594480001,Khaled Hosseini,The Kite Runner,4.26,1594480001,2.4
1,18,043965548X,"J.K. Rowling, Mary GrandPrÃ©, Rufus Beck",Harry Potter and the Prisoner of Azkaban (Harr...,4.53,043965548X,3.53
2,60,1400032717,Mark Haddon,The Curious Incident of the Dog in the Night-Time,3.85,1400032717,4.81
3,75,014028009X,Helen Fielding,"Bridget Jones's Diary (Bridget Jones, #1)",3.75,014028009X,3.75
4,90,014038572X,S.E. Hinton,The Outsiders,4.06,014038572X,4.46


Come si può vedere di seguito, però, gli attributi `average_rating` e `Book-Rating` hanno scale diverse:

In [33]:
print(goodbooks['average_rating'].min(), goodbooks['average_rating'].max())
print(books_avg['Book-Rating'].min(), books_avg['Book-Rating'].max())

3.51 4.61
0.0 10.0


Pertanto proponiamo di applicare un rescaling dell'attributo `Book-Rating`:

In [34]:
books_avg['Book-Rating_re_scaled'] = books_avg['Book-Rating'] / 2
books_avg.head()

Unnamed: 0,ISBN,Book-Title,Book-Rating,Book-Rating_re_scaled
0,0000913154,The Way Things Work: An Illustrated Encycloped...,8.0,4.0
1,0001010565,Mog's Christmas,0.0,0.0
2,0001046438,Liar,9.0,4.5
3,0001046713,Twopence to Cross the Mersey,0.0,0.0
4,000104687X,"T.S. Eliot Reading ""The Wasteland"" and Other P...",6.0,3.0


E andiamo a riscalare anche il dataset `both`. Dopodichè andiamo a creare la colonna `avg_difference` data dalla differenza dei due valori:

In [56]:
both_re_scaled = pd.merge(goodbooks[['book_id', 'isbn', 'authors', 'title', 'average_rating']], books_avg[['ISBN', 'Book-Rating', 'Book-Rating_re_scaled']], 
                left_on = 'isbn', right_on = 'ISBN')
both_re_scaled['avg_difference'] = both_re_scaled['average_rating'] - both_re_scaled['Book-Rating_re_scaled']
both_re_scaled[['ISBN','book_id', 'title', 'Book-Rating', 'Book-Rating_re_scaled', 'average_rating', 'avg_difference']]

Unnamed: 0,ISBN,book_id,title,Book-Rating,Book-Rating_re_scaled,average_rating,avg_difference
0,1594480001,11,The Kite Runner,2.4,1.2,4.26,3.06
1,043965548X,18,Harry Potter and the Prisoner of Azkaban (Harr...,3.53,1.765,4.53,2.765
2,1400032717,60,The Curious Incident of the Dog in the Night-Time,4.81,2.405,3.85,1.445
3,014028009X,75,"Bridget Jones's Diary (Bridget Jones, #1)",3.75,1.875,3.75,1.875
4,014038572X,90,The Outsiders,4.46,2.23,4.06,1.83


La scelta di comprimere la scala di `Book-Rating` anzichè di espandere quella di `average_rating` è data dal fatto che espandendo la scala si andrebbe a modificare la proporzione fra i voti.

### 10) Split the users dataset according to the age. One dataset contains the users with unknown age, one with age 0-14, one with age 15-24, one with age 25-34, and so on

Come prima cosa andiamo a creare il dataset contenente gli utenti con età sconosciuta:

In [36]:
users_nan = users[users['Age'].isnull()]
users_nan.head()

Unnamed: 0,User-ID,Age,City,Region,Country
0,1,,nyc,new york,usa
2,3,,moscow,yukon territory,russia
4,5,,farnborough,hants,united kingdom
6,7,,washington,dc,usa
7,8,,timmins,ontario,canada


Per separare nelle varie fasce gli utenti, invece, creiamo il dataset degli utenti per cui l'età è non-nulla:

In [37]:
users_temp = users[users['Age'].notnull()]
users_temp.head()

Unnamed: 0,User-ID,Age,City,Region,Country
1,2,18,stockton,california,usa
3,4,17,porto,v.n.gaia,portugal
5,6,61,santa monica,california,usa
9,10,26,albacete,wisconsin,spain
10,11,14,melbourne,victoria,australia


Applichiamo la funzione `pandas.cut` sull'attributo `Age`, inserendo (con `pandas.DataFrame.insert`) i risultati generati nel nuovo attributo `Age_group` che attribuisce ciascun utente al suo gruppo età. I bin sono stati inseriti manualmente e gli intervalli sono chiusi a sinistra e aperti a destra.

In [38]:
users_temp.insert(2, 'Age_group', pd.cut(users_temp['Age'], bins = [0, 15, 25, 35, 45, 55, 65, 75, 85, 95, 1000], \
              right = False, labels = ['<15', '15-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75-84', '85-94', '>95']))
users_temp.head()

Unnamed: 0,User-ID,Age,Age_group,City,Region,Country
1,2,18,15-24,stockton,california,usa
3,4,17,15-24,porto,v.n.gaia,portugal
5,6,61,55-64,santa monica,california,usa
9,10,26,25-34,albacete,wisconsin,spain
10,11,14,<15,melbourne,victoria,australia


Per creare i dataset relativi a ciascun gruppo di età seguiamo il seguente procedimento:
1. Si applica il metodo `pandas.DataFrame.groupby`, raggruppando le righe di `users_temp` in funzione della variabile categoriale `Age_group` (gruppo di età).
2. Viene applicata la funzione built-in `tuple()` all'oggetto `GroupBy` generato che crea una tupla dei gruppi. Gli elementi della tupla, in questo caso, sono composti dal nome del gruppo di età, da una virgola e dall'insieme delle righe appartenenti al gruppo stesso. 
3. Dopodichè trasformiamo la funzione `dict()` la tupla in un dizionario, in modo tale che i nomi dei gruppi diventino le chiavi del dizionario e che il valore associato sia il dataframe composto dagli utenti di quel gruppo.

In [39]:
d = dict(tuple(users_temp.groupby('Age_group')))
d['>95']

Unnamed: 0,User-ID,Age,Age_group,City,Region,Country
1288,1289,103,>95,san jose,california,usa
1322,1323,104,>95,milano,lombardia,italy
1578,1579,231,>95,akure,ondo/nigeria,nigeria
3084,3085,104,>95,zÃ¼rich,switzerland,switzerland
3210,3211,119,>95,le mesnil saint denis,yvelines,france
...,...,...,...,...,...,...
276352,276353,104,>95,hillsdale,new york,usa
277107,277108,104,>95,quinto,ticino,switzerland
277503,277504,103,>95,san diego,california,usa
277558,277559,98,>95,lake george,new york,usa


### 11) Find the books that appear only in the goodbooks datasets

Usiamo il metodo di pandas `pandas.DataFrame.isin`, che permette di verificare quali valori di `isbn` del dataset `goodbooks`.
In particolare il metodo genera un vettore booleano di lughezza uguale alla colonna `isbn`, dove un valore `True` indica che il libro appartiene all'intersezione tra `goodbooks` e `books` e un valore `False` che quel libro è presente solo in `goodbooks`. Il vettore booleano, utilizzato per il fancy indexing, permette l'estraazione dei libri non appartenenti all'intersezione.

In [40]:
goodbooks_not_books = goodbooks[goodbooks.isbn.isin(books.ISBN) == False]
goodbooks_not_books.head()

Unnamed: 0,book_id,goodreads_book_id,best_book_id,work_id,books_count,isbn,isbn13,authors,original_publication_year,original_title,...,ratings_count,work_ratings_count,work_text_reviews_count,ratings_1,ratings_2,ratings_3,ratings_4,ratings_5,image_url,small_image_url
0,1,2767052,2767052,2792775,272,439023483,9780439000000.0,Suzanne Collins,2008,The Hunger Games,...,4780653,4942365,155254,66715,127936,560092,1481305,2706317,https://images.gr-assets.com/books/1447303603m...,https://images.gr-assets.com/books/1447303603s...
1,2,3,3,4640799,491,439554934,9780440000000.0,"J.K. Rowling, Mary GrandPrÃ©",1997,Harry Potter and the Philosopher's Stone,...,4602479,4800065,75867,75504,101676,455024,1156318,3011543,https://images.gr-assets.com/books/1474154022m...,https://images.gr-assets.com/books/1474154022s...
2,3,41865,41865,3212258,226,316015849,9780316000000.0,Stephenie Meyer,2005,Twilight,...,3866839,3916824,95009,456191,436802,793319,875073,1355439,https://images.gr-assets.com/books/1361039443m...,https://images.gr-assets.com/books/1361039443s...
3,4,2657,2657,3275794,487,61120081,9780061000000.0,Harper Lee,1960,To Kill a Mockingbird,...,3198671,3340896,72586,60427,117415,446835,1001952,1714267,https://images.gr-assets.com/books/1361975680m...,https://images.gr-assets.com/books/1361975680s...
4,5,4671,4671,245494,1356,743273567,9780743000000.0,F. Scott Fitzgerald,1925,The Great Gatsby,...,2683664,2773745,51992,86236,197621,606158,936012,947718,https://images.gr-assets.com/books/1490528560m...,https://images.gr-assets.com/books/1490528560s...


### 12) Assuming that each pair (author, title) identifies a book, for each book find the number of times it appears in the books dataset. Which books appear the most times?

Il dataset `books` è raggruppato sulle coppie di attributi (autore, titolo) e usando il metodo `pandas.DataFrame.size` viene trovato il numero di apparizioni di ciascun libro. Per identificare l'indice del libro che appare più spesso usiamo `pandas.DataFrame.idxmax` e con il metodo `pandas.DataFrame.loc` viene estratta la riga corrispondente.

In [41]:
pairs = books.groupby(['Book-Title', 'Book-Author'], as_index = False).size()
pairs.head()

Unnamed: 0,Book-Title,Book-Author,size
0,A Light in the Storm: The Civil War Diary of ...,Karen Hesse,1
1,Always Have Popsicles,Rebecca Harvin,1
2,Apple Magic (The Collector's series),Martina Boudreau,1
3,"Ask Lily (Young Women of Faith: Lily Series, ...",Nancy N. Rue,1
4,Beyond IBM: Leadership Marketing and Finance ...,Lou Mobley,1


In [42]:
print(pairs.loc[pairs['size'].idxmax()].to_string())

Book-Title          Little Women
Book-Author    Louisa May Alcott
size                          21


### 13) Find the author with the highest average rating according to the goodbooks datasets

Dal dataset `goodbooks_normalized` già creato, estraiamo l'attributo `authors` contenente il nome autori e `average_rating`, che contiene i rating medi corrispondenti a tutti i libri da loro scritti e contenuti nel dataset goodbooks.

In [43]:
goodbooks_avg_rating = goodbooks_normalized[['authors', 'average_rating']]
goodbooks_avg_rating.head()

Unnamed: 0,authors,average_rating
0,Suzanne Collins,4.34
1,J.K. Rowling,4.44
1,Mary GrandPrÃ©,4.44
2,Stephenie Meyer,3.57
3,Harper Lee,4.25


Considerato che ci possono essere degli autori che compaiono più volte nella selezion (autori con più di un libro presente in `goodbooks`) andiamo a raggruppare per il nome dell'autore e calcoliamo la media dell'attributo `average_rating` con il metodo `GroupBy.mean` 

In [44]:
goodbooks_avg_rating_per_author = goodbooks_avg_rating.groupby('authors', as_index = False).mean()
goodbooks_avg_rating_per_author.head()

Unnamed: 0,authors,average_rating
0,Alan R. Clarke,3.82
1,Aldous Huxley,3.97
2,Alice Sebold,3.77
3,Anne Frank,4.1
4,Antoine de Saint-ExupÃ©ry,4.28


Con una idxmax e una loc identifichiamo l'autore con il rating medio più alto:

In [45]:
goodbooks_avg_rating_per_author.loc[[goodbooks_avg_rating_per_author['average_rating'].idxmax()]]

Unnamed: 0,authors,average_rating
91,Rufus Beck,4.53
