In [1]:
from pyspark import SparkContext

# Initialisation du SparkContext
sc = SparkContext(appName="LectureDuDataset")

# Chargement du fichier
lines = sc.textFile("/data/u.data")

# Affichage des 5 premières lignes
print(lines.take(5))




['196\t242\t3\t881250949', '186\t302\t3\t891717742', '22\t377\t1\t878887116', '244\t51\t2\t880606923', '166\t346\t1\t886397596']


### 1 - Load the data using PySpark and analyze the frequency of each rating (absolute and in percentage of total).

In [2]:
# Extraction des ratings (3ème colonne)
ratings = lines.map(lambda x: x.split("\t")[2])

In [3]:
# Comptage des fréquences des notes
ratings_count = ratings.map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)

In [4]:
# Calcul du total des ratings
total_ratings = ratings.count()

In [6]:
# Calcul des pourcentages
ratings_percentage = ratings_count.map(lambda x: (x[0], x[1], (x[1] / total_ratings) * 100))

In [7]:
# Affichage des résultats
print("Fréquence des notes (valeur absolue et pourcentage) :")
for rating, count, percentage in ratings_percentage.collect():
    print(f"Note : {rating} | Fréquence absolue : {count} | Pourcentage : {percentage:.2f}%")


Fréquence des notes (valeur absolue et pourcentage) :
Note : 3 | Fréquence absolue : 27145 | Pourcentage : 27.15%
Note : 4 | Fréquence absolue : 34174 | Pourcentage : 34.17%
Note : 5 | Fréquence absolue : 21201 | Pourcentage : 21.20%
Note : 1 | Fréquence absolue : 6110 | Pourcentage : 6.11%
Note : 2 | Fréquence absolue : 11370 | Pourcentage : 11.37%


### 2 - Develop a PySpark program to count how many ratings each movie ratings got.

In [8]:
# Extraction des IDs des films (2ème colonne)
movies = lines.map(lambda x: x.split("\t")[1])

In [9]:
# Comptage du nombre de notes pour chaque film
movie_ratings_count = movies.map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b)

In [10]:
# Affichage des résultats
print("Nombre de notes par film :")
for movie_id, count in movie_ratings_count.collect():
    print(f"Film ID : {movie_id} | Nombre de notes : {count}")

Nombre de notes par film :
Film ID : 242 | Nombre de notes : 117
Film ID : 302 | Nombre de notes : 297
Film ID : 377 | Nombre de notes : 13
Film ID : 51 | Nombre de notes : 81
Film ID : 265 | Nombre de notes : 227
Film ID : 465 | Nombre de notes : 85
Film ID : 451 | Nombre de notes : 170
Film ID : 257 | Nombre de notes : 303
Film ID : 222 | Nombre de notes : 365
Film ID : 40 | Nombre de notes : 57
Film ID : 29 | Nombre de notes : 114
Film ID : 785 | Nombre de notes : 39
Film ID : 1042 | Nombre de notes : 28
Film ID : 392 | Nombre de notes : 68
Film ID : 486 | Nombre de notes : 64
Film ID : 144 | Nombre de notes : 243
Film ID : 768 | Nombre de notes : 52
Film ID : 277 | Nombre de notes : 71
Film ID : 234 | Nombre de notes : 280
Film ID : 246 | Nombre de notes : 124
Film ID : 193 | Nombre de notes : 157
Film ID : 1081 | Nombre de notes : 8
Film ID : 603 | Nombre de notes : 209
Film ID : 32 | Nombre de notes : 81
Film ID : 16 | Nombre de notes : 39
Film ID : 979 | Nombre de notes : 35
Fil

### 3 - Craft a function to filter and count the total movie ratings above 4.

In [12]:
# Extraction des ratings (3ème colonne)
ratings = lines.map(lambda x: int(x.split("\t")[2]))

In [13]:
# Filtrage des ratings supérieurs à 4
high_ratings = ratings.filter(lambda x: x > 4)

In [14]:
# Comptage du total des ratings supérieurs à 4
total_high_ratings = high_ratings.count()

In [15]:
# Affichage du résultat
print(f"Nombre total de notes de films supérieures à 4 : {total_high_ratings}")

Nombre total de notes de films supérieures à 4 : 21201


In [16]:
# Arrêt du SparkContext
sc.stop()