In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql import functions as F
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pyspark.sql.functions import count
import numpy as np
from pyspark.sql.window import Window
import os

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# V√©rifiez si un SparkContext existe d√©j√†
if 'sc' in locals() or 'sc' in globals():
    sc.stop()  # Arr√™tez le SparkContext pr√©c√©dent
    
spark = SparkSession.builder \
    .appName("ExploreRatingCSV") \
    .master("yarn") \
    .getOrCreate()

spark.sparkContext.setLogLevel("ERROR")


In [None]:
# Read the CSV file
ratings_df = spark.read.csv("hdfs:///input/rating.csv", header=True, inferSchema=True)
movies_df = spark.read.csv("hdfs:///input/movie.csv", header=True, inferSchema=True)

# Rating

In [None]:
# Afficher les 5 premi√®res lignes de ratings_df
print("Premi√®res lignes de ratings_df:")
ratings_df.show(5)

In [None]:
# V√©rification des valeurs nulles dans ratings_df
print("V√©rification des valeurs nulles dans ratings_df :")
ratings_null_counts = ratings_df.select([((F.col(c).isNull()).cast("int")).alias(c) for c in ratings_df.columns]) \
                                .agg(*[F.sum(F.col(c)).alias(c) for c in ratings_df.columns]) \
                                .collect()[0].asDict()
for col_name, null_count in ratings_null_counts.items():
    print(f"{col_name}: {null_count} null(s)")

# Afficher les lignes contenant des valeurs nulles dans ratings_df
print("\nLignes contenant des valeurs nulles dans ratings_df :")
condition = None
for c in ratings_df.columns:
    if condition is None:
        condition = F.col(c).isNull()
    else:
        condition = condition | F.col(c).isNull()

ratings_df.filter(condition).show(5)

# V√©rification des doublons dans ratings_df
print("\nV√©rification des doublons dans ratings_df :")
duplicates_count = ratings_df.count() - ratings_df.distinct().count()
print(f"Nombre de doublons : {duplicates_count}")
ratings_df.groupBy(ratings_df.columns).count().filter("count > 1").show(5)

In [None]:
# Compter le nombre d'√©valuations par utilisateur
user_rating_counts = ratings_df.groupBy("userId").count()

# Filtrer pour obtenir les utilisateurs ayant moins de deux √©valuations
users_with_less_than_two = user_rating_counts.filter(F.col("count") < 2)

# Compter le nombre total d'utilisateurs concern√©s
num_users_with_less_than_two = users_with_less_than_two.count()

print(f"Nombre d'utilisateurs ayant moins de deux √©valuations: {num_users_with_less_than_two}")

# Afficher quelques exemples de ces utilisateurs et leur nombre d'√©valuations
print("\nExemples d'utilisateurs avec moins de deux √©valuations:")
users_with_less_than_two.show(5)

In [None]:
# Compter le nombre de films distincts √©valu√©s par chaque utilisateur
distinct_movie_counts = ratings_df.groupBy("userId").agg(
    F.countDistinct("movieId").alias("distinct_movies_rated")
)

# Trier par nombre de films distincts en ordre croissant
sorted_users = distinct_movie_counts.orderBy("distinct_movies_rated")

# Trouver l'utilisateur avec le moins de films distincts √©valu√©s
user_with_least_movies = sorted_users.first()

print(f"L'utilisateur ayant √©valu√© le moins de films distincts est:")
print(f"userId: {user_with_least_movies['userId']}, avec {user_with_least_movies['distinct_movies_rated']} film(s) √©valu√©(s)")

# Afficher les 5 utilisateurs ayant √©valu√© le moins de films distincts
print("\nLes 5 utilisateurs ayant √©valu√© le moins de films distincts:")
sorted_users.show(5)

# Pour examiner les √©valuations de cet utilisateur 
user_id = user_with_least_movies['userId']
print(f"\nD√©tail des √©valuations de l'utilisateur {user_id}:")
ratings_df.filter(F.col("userId") == user_id).show()

In [None]:
# Agr√©ger d'abord c√¥t√© Spark (faible volume, typiquement < 20 lignes)
agg_df = ratings_df.groupBy("rating").count().orderBy("rating")

# Convertir en pandas (ici c‚Äôest s√ªr que √ßa tient en m√©moire)
agg_pd = agg_df.toPandas()

# Calculer la distribution cumulative
agg_pd["percentage"] = agg_pd["count"] / agg_pd["count"].sum()
agg_pd["cumulative"] = agg_pd["percentage"].cumsum()

plt.figure(figsize=(15, 6))

# üìä Distribution simple
plt.subplot(1, 2, 1)
sns.barplot(x="rating", y="count", hue="rating", data=agg_pd, palette="viridis", legend=False)
plt.title('Rating Frequency Distribution')
plt.xlabel('Rating')
plt.ylabel('Count')

plt.tight_layout()
plt.show()


# Movie

In [None]:
# Afficher les 5 premi√®res lignes de movies_df
print("Premi√®res lignes de movies_df:")
movies_df.show(5)

In [None]:
# V√©rification des valeurs nulles dans movies_df
print("\nV√©rification des valeurs nulles dans movies_df :")
movies_null_counts = movies_df.select([((F.col(c).isNull()).cast("int")).alias(c) for c in movies_df.columns]) \
                              .agg(*[F.sum(F.col(c)).alias(c) for c in movies_df.columns]) \
                              .collect()[0].asDict()
for col_name, null_count in movies_null_counts.items():
    print(f"{col_name}: {null_count} null(s)")

# Afficher les lignes contenant des valeurs nulles dans movies_df
print("\nLignes contenant des valeurs nulles dans movies_df :")
condition = None
for c in movies_df.columns:
    if condition is None:
        condition = F.col(c).isNull()
    else:
        condition = condition | F.col(c).isNull()

movies_df.filter(condition).show(5)

# V√©rification des doublons dans movies_df
print("\nV√©rification des doublons dans movies_df :")
duplicates_count = movies_df.count() - movies_df.distinct().count()
print(f"Nombre de doublons : {duplicates_count}")
movies_df.groupBy(movies_df.columns).count().filter("count > 1").show(5)

In [None]:
# Activit√© des utilisateurs : nombre de notes par user
user_activity_df = ratings_df.groupBy("userId").agg(count("*").alias("rating_count"))
user_activity_pd = user_activity_df.toPandas()

# Popularit√© des films : nombre de notes par film
movie_popularity_df = ratings_df.groupBy("movieId").agg(count("*").alias("rating_count"))
movie_popularity_pd = movie_popularity_df.toPandas()

plt.figure(figsize=(15, 6))

# üìä Activit√© utilisateurs - avec labels am√©lior√©s et nouvelle couleur
plt.subplot(1, 2, 1)
sns.histplot(np.log10(user_activity_pd["rating_count"]), bins=50, kde=True, color='steelblue')
plt.title('Distribution de l\'activit√© des utilisateurs', fontsize=13, fontweight='bold')
plt.xlabel('Log10(Nombre d\'√©valuations par utilisateur)')
plt.ylabel('Nombre d\'utilisateurs')
plt.grid(True, alpha=0.3, linestyle='--')
plt.annotate('√âchelle logarithmique', xy=(0.05, 0.95), xycoords='axes fraction', 
             fontsize=10, bbox=dict(boxstyle="round,pad=0.3", fc="white", alpha=0.8))

# üìä Popularit√© des films - avec labels am√©lior√©s et nouvelle couleur
plt.subplot(1, 2, 2)
sns.histplot(np.log10(movie_popularity_pd["rating_count"]), bins=50, kde=True, color='darkorange')
plt.title('Distribution de la popularit√© des films', fontsize=13, fontweight='bold')
plt.xlabel('Log10(Nombre d\'√©valuations par film)')
plt.ylabel('Nombre de films')
plt.grid(True, alpha=0.3, linestyle='--')
plt.annotate('√âchelle logarithmique', xy=(0.05, 0.95), xycoords='axes fraction', 
             fontsize=10, bbox=dict(boxstyle="round,pad=0.3", fc="white", alpha=0.8))

plt.tight_layout()
plt.suptitle('Analyse des distributions dans le dataset MovieLens', fontsize=15, y=1.05)
plt.show()

Analyse des Distributions du Dataset MovieLens
1. Comportement des Utilisateurs
Le graphique de gauche r√©v√®le comment les utilisateurs interagissent avec la plateforme:

Distribution logarithmique: La visualisation utilise une √©chelle logarithmique (base 10) pour repr√©senter efficacement la large gamme d'activit√©s utilisateur
Zone d'activit√© typique: La majorit√© des utilisateurs √©valuent entre 30 et 300 films (10^1.5 √† 10^2.5)
Comportement m√©dian: Le pic √† 10^1.5 indique qu'un utilisateur typique √©value environ 30-40 films
"Super-utilisateurs": La queue de distribution montre une minorit√© d'utilisateurs tr√®s actifs √©valuant jusqu'√† 3000+ films (10^3.5)

2. Popularit√© des Films
Le graphique de droite montre comment l'attention se distribue parmi les films:

Forte in√©galit√©: La courbe r√©v√®le une distribution extr√™mement asym√©trique avec un pic prononc√© pr√®s de 10^0
"Longue tra√Æne": La grande majorit√© des films re√ßoit tr√®s peu d'√©valuations (entre 1 et 10)
Films blockbusters: Un petit nombre de films accumule des milliers d'√©valuations (jusqu'√† 10^4)
Loi de puissance: Cette distribution suit typiquement une loi de puissance, caract√©ristique des ph√©nom√®nes de popularit√©

3. Implications pour les Syst√®mes de Recommandation
Ces distributions ont des cons√©quences importantes pour la conception d'algorithmes efficaces:
D√©fis Techniques

Matrice creuse: La matrice utilisateurs-films contient principalement des valeurs manquantes, compliquant l'analyse
Signal-bruit: Les films peu √©valu√©s offrent un signal statistique faible pour les pr√©dictions
D√©s√©quilibre d'information: Les d√©cisions sont souvent biais√©es vers les items populaires et les utilisateurs actifs

Strat√©gies de Correction

Normalisation des donn√©es: Pond√©rer les √©valuations pour r√©duire l'influence disproportionn√©e des super-utilisateurs
R√©gularisation: Appliquer des techniques comme la r√©gularisation L2 dans les mod√®les de factorisation matricielle
Diversification forc√©e: Int√©grer des m√©canismes pour promouvoir les contenus de la longue tra√Æne
Approches hybrides: Combiner le filtrage collaboratif avec des m√©thodes bas√©es sur le contenu moins sensibles aux biais

Opportunit√©s

Segmentation d'utilisateurs: Identifier des groupes d'utilisateurs avec diff√©rents niveaux d'engagement
D√©couvrabilit√©: Cr√©er des m√©canismes pour aider les utilisateurs √† d√©couvrir des films de niche
Personnalisation avanc√©e: Exploiter les donn√©es des super-utilisateurs comme source d'information riche pour am√©liorer les recommandations pour tous

Ces distributions asym√©triques sont caract√©ristiques des syst√®mes de recommandation et repr√©sentent √† la fois un d√©fi et une opportunit√© pour d√©velopper des algorithmes plus sophistiqu√©s et √©quitables.

# Ponderation

In [None]:
from pyspark.sql import SparkSession, functions as F
from pyspark.sql.types import StructType, StructField, IntegerType, FloatType, StringType

# ====================== INITIALISATION ======================
# V√©rifiez si un SparkContext existe d√©j√†
if 'sc' in locals() or 'sc' in globals():
    sc.stop()  # Arr√™tez le SparkContext pr√©c√©dent
    
spark = SparkSession.builder \
    .appName("WeightedRatingWithBias") \
    .master("yarn") \
    .getOrCreate()

# Chemin de sortie pour les donn√©es pond√©r√©es
output_path = "hdfs:///processed/weighted_ratings.csv"

# ====================== CHARGEMENT DES DONN√âES ======================
print("üì• Chargement des donn√©es...")

# Charger les donn√©es de ratings et films (assurez-vous que les fichiers existent)
ratings_df = spark.read.csv("hdfs:///input/rating.csv", header=True, inferSchema=True)
movies_df = spark.read.csv("hdfs:///input/movie.csv", header=True, inferSchema=True)

# V√©rification du chargement
print(f"‚úÖ Donn√©es de ratings charg√©es: {ratings_df.count()} lignes")
print(f"‚úÖ Donn√©es de films charg√©es: {movies_df.count()} lignes")

# ====================== CALCUL DES STATISTIQUES UTILISATEUR ET FILM ======================
print("üßÆ Calcul des statistiques pour la pond√©ration...")

# Calcul des statistiques par utilisateur
user_stats = ratings_df.groupBy("userId").agg(
    F.count("rating").alias("user_count"),
    F.avg("rating").alias("user_mean"),
    F.stddev("rating").alias("user_stddev")
)

# Calcul des statistiques par film
movie_stats = ratings_df.groupBy("movieId").agg(
    F.count("rating").alias("movie_count"),
    F.avg("rating").alias("movie_avg_rating")
)

# V√©rification des statistiques
print(f"‚úÖ Statistiques utilisateur calcul√©es : {user_stats.count()} utilisateurs")
print(f"‚úÖ Statistiques film calcul√©es : {movie_stats.count()} films")

# ====================== APPLICATION DE LA PONDERATION ======================
print("‚öñÔ∏è Application des pond√©rations et ajustements...")

# Joindre les statistiques utilisateur et film avec les donn√©es de ratings
weighted_df = ratings_df.join(user_stats, on="userId") \
                        .join(movie_stats, on="movieId") \
                        .join(movies_df, on="movieId")  # Joindre les informations du film

print(f"‚úÖ Donn√©es jointes avec les statistiques: {weighted_df.count()} lignes")

# Calcul des √©valuations normalis√©es et des poids
processed_df = weighted_df.withColumn(
    # Normalisation Z-score par utilisateur
    "normalized_rating", 
    (F.col("rating") - F.col("user_mean")) / 
    F.when(F.col("user_stddev") > 0, F.col("user_stddev")).otherwise(1.0)
).withColumn(
    # Poids utilisateur (inversement proportionnel √† l'activit√©)
    "user_weight", 
    1.0 / F.log1p(F.col("user_count"))
).withColumn(
    # Poids film (inversement proportionnel √† la popularit√©)
    "movie_weight", 
    1.0 / F.log1p(F.col("movie_count"))
).withColumn(
    # Confiance combin√©e
    "confidence", 
    F.col("user_weight") * F.col("movie_weight")
)

print("‚úÖ Pond√©ration appliqu√©e avec succ√®s")

# ====================== V√âRIFICATION DE LA PONDERATION ======================
print("\nüìà Statistiques des pond√©rations :")
processed_df.select(
    F.min("confidence").alias("min_confidence"),
    F.max("confidence").alias("max_confidence"),
    F.avg("confidence").alias("avg_confidence"),
    F.min("normalized_rating").alias("min_norm_rating"),
    F.max("normalized_rating").alias("max_norm_rating")
).show()

# ====================== S√âLECTION ET ENREGISTREMENT DES DONN√âES FINAL ======================
# S√©lectionner les colonnes importantes pour l'enregistrement final
final_df = processed_df.select(
    "userId", 
    "movieId",
    "rating",
    "normalized_rating",
    "confidence",
    "user_mean",
    "user_stddev",
    "movie_count",
    "title",      # du fichier movies.csv
    "genres",     # du fichier movies.csv
    "timestamp"   # garder le timestamp pour pouvoir faire des splits temporels
)

# Enregistrement des donn√©es pond√©r√©es dans le r√©pertoire HDFS
print(f"üíæ Enregistrement du fichier CSV pond√©r√© dans {output_path}...")

# V√©rifier si le r√©pertoire existe et le supprimer s'il existe d√©j√†
try:
    spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration()).delete(
        spark._jvm.org.apache.hadoop.fs.Path(output_path), True)
except:
    pass  # Le chemin n'existe pas, on continue

# Enregistrer en CSV
final_df.write.csv(output_path, header=True, mode="overwrite")

print("‚úÖ Pr√©traitement termin√©! Fichier pond√©r√© pr√™t √† √™tre utilis√©.")

# ====================== AFFICHAGE D'UN APER√áU DES DONN√âES PONDER√âES ======================
print("\nüìä Aper√ßu des donn√©es pond√©r√©es:")
final_df.select("userId", "movieId", "title", "rating", "normalized_rating", "confidence").show(5)

# ====================== STATISTIQUES SUPPL√âMENTAIRES ======================
print("\nüìà Statistiques suppl√©mentaires sur les donn√©es pond√©r√©es :")
final_df.select(
    F.avg("confidence").alias("avg_confidence"),
    F.countDistinct("userId").alias("unique_users"),
    F.countDistinct("movieId").alias("unique_movies"),
    F.avg("normalized_rating").alias("avg_normalized_rating")
).show()
