<a href="https://colab.research.google.com/github/Kailash1917/pyspark-tp-analyses/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importer les bibliothèques nécessaires
from pyspark.sql import SparkSession
from pyspark.sql.functions import to_date

# 1. Créer une session Spark
spark = SparkSession.builder \
    .appName("Analyse de films") \
    .getOrCreate()

# 2. Indiquer le chemin du fichier CSV
file_path = "/Rotten Tomatoes Movies.csv"

# 3. Charger les données depuis le fichier CSV
df = spark.read.option("header", "true").option("inferSchema", "true").csv(file_path)

# Vérification des colonnes disponibles
print("Colonnes disponibles:", df.columns)

# 4. Nettoyer les données : supprimer les lignes vides
df_cleaned = df.na.drop()

# 5. Convertir la colonne "in_theaters_date" en format date
df_cleaned = df_cleaned.withColumn("in_theaters_date", to_date("in_theaters_date", "yyyy-MM-dd"))

# Afficher les premières lignes après nettoyage
df_cleaned.show(5)

# 6. Compter combien de films il y a dans chaque genre
df_genre_count = df_cleaned.groupBy("genre").count()
df_genre_count.show()

# 7. Filtrer les films avec une note Tomatometer supérieure à 80
df_high_tomatometer = df_cleaned.filter(df_cleaned["tomatometer_rating"] > 80)
df_high_tomatometer.show(5)

# 8. Calculer la durée moyenne des films
df_avg_runtime = df_cleaned.agg({"runtime_in_minutes": "avg"})
df_avg_runtime.show()

# 9. Compter combien de films il y a pour chaque studio
df_studio_count = df_cleaned.groupBy("studio_name").count()
df_studio_count.show()

# 10. Compter combien de films il y a pour chaque directeur
df_director = df_cleaned.groupBy("directors").count()
df_director.show()

# 11. Terminer la session Spark
spark.stop()
