# Analisi di 22.5 valutazioni su Amazon

In [1]:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("AmazonReviews").setMaster("local")
sc = SparkContext.getOrCreate()

In [2]:
# Procuriamoci il Dataset
# Per prima cosa procuriamoci il dataset scaricandolo il locale, il dataset si trova in formato CSV a questo link, esegui il comando qui sotto per scaricarlo direttamente dal Notebook di DataBricks, che verrà salvato nella directory file:/databricks/driver.
# !wget http://snap.stanford.edu/data/amazon/productGraph/categoryFiles/ratings_Books.csv

reviewsRDD = sc.textFile("ratings_Books.csv")

# Recupero gli elementi

In [3]:
# Ogni elemento di ogni riga corrisponde a (in ordine):

#    Id dell'utente che ha lasciato la valutazione.
#    Id del libro recensito.
#    Valutazione da 1.0 a 5.0.
#    Timestamp di quando è stata lasciata la recensione.

# Per ovvi motivi di privacy non ci è possibile risalire ad un utente partendo dal suo ID, mentre per il libro 
# è possibile farlo aggiungendo l'ID a questo url https://www.amazon.com/dp/, ad esempio per il primo elemento: 
# https://www.amazon.com/dp/0000000116

# NOTA BENE Sì lo so, se hai cliccato sul link ti sei trovato una penna e non un libro come abbiamo detto, 
# il motivo è che tale penna è stata inserita impropriamente nella categoria libri di Amazon, quindi tutto 
# in regola per noi :).


reviewsRDD.take(5)

['AH2L9G3DQHHAJ,0000000116,4.0,1019865600',
 'A2IIIDRK3PRRZY,0000000116,1.0,1395619200',
 'A1TADCM7YWPQ8M,0000000868,4.0,1031702400',
 'AWGH7V0BDOJKB,0000013714,4.0,1383177600',
 'A3UTQPQPM4TQO0,0000013714,5.0,1374883200']

In [4]:
reviewsRDD = reviewsRDD.map(lambda x: x.split(","))
reviewsRDD.take(5)

[['AH2L9G3DQHHAJ', '0000000116', '4.0', '1019865600'],
 ['A2IIIDRK3PRRZY', '0000000116', '1.0', '1395619200'],
 ['A1TADCM7YWPQ8M', '0000000868', '4.0', '1031702400'],
 ['AWGH7V0BDOJKB', '0000013714', '4.0', '1383177600'],
 ['A3UTQPQPM4TQO0', '0000013714', '5.0', '1374883200']]

In [5]:
# Contiamo il numero totale di valutazioni
# Per contare il numero di recensioni usiamo semplicemente il metodo .count()

reviewsRDD.count()

22507155

# Quanti libri ci sono nel dataset?

In [6]:
booksRDD = reviewsRDD.map(lambda x: x[1])
booksRDD.take(5)

['0000000116', '0000000116', '0000000868', '0000013714', '0000013714']

In [7]:
uniqueRDD = booksRDD.distinct()
uniqueRDD.take(5)

['0001006657', '0001922408', '0002000601', '0002006650', '0002007770']

In [8]:
uniqueRDD.count()

2330066