In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les données
ratings_df = pd.read_csv('/Film_recom/Datasets/ratings.csv')

# Afficher les premières lignes du DataFrame
print(ratings_df.head())

# Afficher les informations sur le DataFrame
print(ratings_df.info())

# 1. Vérifier les valeurs manquantes
print(ratings_df.isnull().sum())

# 2. Statistiques descriptives des évaluations
print(ratings_df['rating'].describe())

# 3. Distribution des évaluations
plt.figure(figsize=(10, 6))
sns.histplot(ratings_df['rating'], bins=10, kde=True)
plt.title('Distribution des évaluations')
plt.xlabel('Évaluation')
plt.ylabel('Nombre d\'évaluations')
plt.show()

# 4. Nombre d'évaluations par utilisateur
user_ratings_count = ratings_df['userId'].value_counts()
plt.figure(figsize=(12, 6))
sns.histplot(user_ratings_count, bins=50, kde=True)
plt.title('Distribution du nombre d\'évaluations par utilisateur')
plt.xlabel('Nombre d\'évaluations')
plt.ylabel('Nombre d\'utilisateurs')
plt.show()

# 5. Nombre d'évaluations par film
movie_ratings_count = ratings_df['movieId'].value_counts()
plt.figure(figsize=(12, 6))
sns.histplot(movie_ratings_count, bins=50, kde=True)
plt.title('Distribution du nombre d\'évaluations par film')
plt.xlabel('Nombre d\'évaluations')
plt.ylabel('Nombre de films')
plt.show()

# 6. Top 10 des films les plus évalués
top_rated_movies = movie_ratings_count.nlargest(10)
plt.figure(figsize=(12, 6))
top_rated_movies.plot(kind='bar')
plt.title('Top 10 des films les plus évalués')
plt.xlabel('ID du film')
plt.ylabel('Nombre d\'évaluations')
plt.xticks(rotation=45)
plt.show()

# 7. Évolution des évaluations dans le temps
if 'timestamp' in ratings_df.columns:
    ratings_df['date'] = pd.to_datetime(ratings_df['timestamp'], unit='s')
    ratings_over_time = ratings_df.groupby('date')['rating'].mean()
    plt.figure(figsize=(15, 6))
    ratings_over_time.plot()
    plt.title('Évolution de la moyenne des évaluations dans le temps')
    plt.xlabel('Date')
    plt.ylabel('Moyenne des évaluations')
    plt.show()

# 8. Corrélation entre le nombre d'évaluations et la note moyenne (pour les films)
movie_stats = ratings_df.groupby('movieId').agg({'rating': ['count', 'mean']})
movie_stats.columns = ['rating_count', 'rating_mean']
plt.figure(figsize=(10, 6))
sns.scatterplot(x='rating_count', y='rating_mean', data=movie_stats)
plt.title('Relation entre le nombre d\'évaluations et la note moyenne')
plt.xlabel('Nombre d\'évaluations')
plt.ylabel('Note moyenne')
plt.show()

In [None]:
from ratings_pipeline import RatingDataPipeline

# Créer une instance du pipeline
pipeline = RatingDataPipeline('/Film_recom/Datasets/ratings.csv')

# Exécuter le pipeline
pipeline.run_pipeline()

# Si vous voulez accéder aux données traitées
processed_data = pipeline.get_data()

# Vous pouvez maintenant utiliser processed_data pour d'autres analyses si nécessaire