In [1]:
# !pip install pandas matplotlib

import pandas as pd
import os

DATA_DIR = "data/imdb/csv_out"

# --- Chargement du fichier des films ---
movies = pd.read_csv(os.path.join(DATA_DIR, "movies_with_ratings.csv"),
                     dtype={"tconst": "string"})

# --- Chargement title.principals ---
principals = pd.read_csv(os.path.join(DATA_DIR, "title.principals.csv"),
                         dtype={"tconst": "string", "nconst": "string", "category": "string"})

# --- Chargement name.basics ---
names = pd.read_csv(os.path.join(DATA_DIR, "name.basics.csv"),
                    dtype={"nconst": "string", "primaryName": "string"})

# =========================================
#      🔹 Fusion pour avoir les infos films + personnes
# =========================================
df_all = principals.merge(movies, on="tconst", how="inner") \
                   .merge(names[["nconst", "primaryName"]], on="nconst", how="left")

# --- Séparer acteurs et réalisateurs ---
df_actors = df_all[df_all["category"].isin(["actor", "actress"])].copy()
df_directors = df_all[df_all["category"] == "director"].copy()

# =========================================
#      🔹 Analyses acteurs
# =========================================
print("\n=== ACTEURS ===")

# 1) Acteurs ayant joué dans le plus de films
actors_most_films = (
    df_actors.groupby("primaryName")["tconst"].nunique()
    .sort_values(ascending=False)
    .head(20)
)
print("\n🎬 Top acteurs par nombre de films :")
print(actors_most_films)

# 2) Acteurs avec la meilleure moyenne de rating (au moins 5 films pour fiabilité)
actors_best_rating = (
    df_actors.groupby("primaryName")
    .agg(avg_rating=("averageRating", "mean"),
         films_count=("tconst", "nunique"))
    .query("films_count >= 5")
    .sort_values("avg_rating", ascending=False)
    .head(20)
)
print("\n🏆 Acteurs avec la meilleure moyenne de rating (>=5 films) :")
print(actors_best_rating)

# 3) Acteurs avec la moyenne de numVotes la plus haute (>=5 films)
actors_best_votes = (
    df_actors.groupby("primaryName")
    .agg(avg_votes=("numVotes", "mean"),
         films_count=("tconst", "nunique"))
    .query("films_count >= 5")
    .sort_values("avg_votes", ascending=False)
    .head(20)
)
print("\n🔥 Acteurs avec la moyenne de numVotes la plus haute (>=5 films) :")
print(actors_best_votes)

# =========================================
#      🔹 Analyses réalisateurs
# =========================================
print("\n=== REALISATEURS ===")

# 1) Réalisateurs avec le plus de films
directors_most_films = (
    df_directors.groupby("primaryName")["tconst"].nunique()
    .sort_values(ascending=False)
    .head(20)
)
print("\n🎬 Top réalisateurs par nombre de films :")
print(directors_most_films)

# 2) Réalisateurs avec la meilleure moyenne de rating (>=3 films)
directors_best_rating = (
    df_directors.groupby("primaryName")
    .agg(avg_rating=("averageRating", "mean"),
         films_count=("tconst", "nunique"))
    .query("films_count >= 3")
    .sort_values("avg_rating", ascending=False)
    .head(20)
)
print("\n🏆 Réalisateurs avec la meilleure moyenne de rating (>=3 films) :")
print(directors_best_rating)

# 3) Réalisateurs avec la moyenne de numVotes la plus haute (>=3 films)
directors_best_votes = (
    df_directors.groupby("primaryName")
    .agg(avg_votes=("numVotes", "mean"),
         films_count=("tconst", "nunique"))
    .query("films_count >= 3")
    .sort_values("avg_votes", ascending=False)
    .head(20)
)
print("\n🔥 Réalisateurs avec la moyenne de numVotes la plus haute (>=3 films) :")
print(directors_best_votes)



=== ACTEURS ===

🎬 Top acteurs par nombre de films :
primaryName
Brahmanandam          814
Jagathy Sreekumar     529
Shakti Kapoor         470
Mammootty             404
Eric Roberts          397
Nassar                389
Mohammad Ali          380
Tanikella Bharani     377
Aruna Irani           371
Anupam Kher           359
Mohanlal              356
Gulshan Grover        347
Mithun Chakraborty    347
Ron Jeremy            337
Prakash Raj           330
Govardhan Asrani      327
Aachi Manorama        320
Nedumudi Venu         320
Indrans               308
Janardanan            306
Name: tconst, dtype: int64

🏆 Acteurs avec la meilleure moyenne de rating (>=5 films) :
                       avg_rating  films_count
primaryName                                   
Dulat Mukhametkaliyev    9.520000            5
Prince Oak Oakleyski     9.260000            5
Babymetal                9.175000           12
El Flaco De Michoacan    9.100000            5
Asha Sujay               9.080000           