Analyse des données

Préparation des données avec pandas


In [99]:
%load_ext autoreload
%autoreload 2
%reload_ext autoreload

import plotly.express as px
import plotly.graph_objects as go
import pandas as pd

pd.set_option('display.float_format', lambda x: f'{x :.2f}')
pd.set_option('display.max_columns', None)
from cleaner import DataCleaner
from get_dataframes import GetDataframes
import hjson

from datetime import datetime

import matplotlib.pyplot as plt
import explo_data_analysis.eda_movies as eda

with open("config.hjson") as fp:
    config = hjson.load(fp)

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


- On importe la dataframe "title_basics" qui contient les infos pour tout les films de la base de données.
- On enlève tout les films à caractère pornographique de notre liste.
- On nettoie les /N et les transforme en 0.
- On change les types de données des colonnes (float en int, etc...)
- On merge la dataframe "title_basics" avec "tmdb_full" pour obtenir des infos supplémentaires sur chaque film.
- On supprime les colonnes inutiles.
- On supprime les lignes pour lesquelles on a des valeurs manquantes suite au merging.
- On transforme les données dans les colonnes ayant plusieurs valeurs et les on les transforme en listes.
- On importe les dataframes "name_basics", "title_akas" et "title_principals".
- On merge la dataframe "title_akas" avec "tmdb_full".
- On filtre les films ayant eu une adaptaion en FR uniquement.
- On filtre seulement les films qui sont "Released".
- On nettoie "name_basics" comme précédement.
- On merge "name_basics", "title_principals" et on trie les acteurs, directeurs et autres dans un autre dataframe.
- On merge chaque dataframe (acteurs, directeurs, etc...) avec la liste des films qui étaient déjà merged avec tmdb.

In [100]:
datas = GetDataframes(config)
link = "movies"
df = datas.get_dataframes(
    link,
)

2023-11-06 15:09:19 INFO     TSV files already exist.
2023-11-06 15:09:19 INFO     Parquet loaded ! Importing movies...
2023-11-06 15:09:19 INFO     Dataframe movies ready to use!


- On créée une visualisation pour voir la distribution des notes moyennes de chaque film, le nombre de films par décénnie et le total de votes par décénnie.

In [101]:
eda.show_total_films_decade_plotly(df)

- On cherche quel genre de films est le plus répandu dans le dataset filtré

In [102]:
def graph_by_genre(df):
    total_genres = df.explode('titre_genres')['titre_genres'].value_counts()[::-1]
    fig = go.Figure()
    fig.add_trace(go.Bar(
        x=total_genres.values,
        y=total_genres.index,
        orientation="h",
        showlegend=False,
        marker=dict(
            color='royalblue',
            line=dict(color='black', width=1))
    ))

    fig.update_layout(
        title= "Répartition des genres de films",
        xaxis_title="Total",
        yaxis_title="Genres",
        autosize=True,
        height= 1000,
    )
    fig.show()

graph_by_genre(df)

- On peut voir que le nombre de films en dessous des années 1960 est très bas et nous décidons de ne pas les garder.
- Les films ayant moins de 5 en note moyenne ne nous intéressent pas non plus.
- Et les films ayant reçu trop peu de votes sont aussi enlevés.

In [103]:
condi =(
    (df["titre_date_sortie"] >= 1960) &
    (df["rating_avg"] >= 5) &
    (df["rating_votes"] >= 5000)
)

df = df[condi].reset_index(drop='index')

- Ici nous filtrons les genres qui n'ont que peu d'interet pour le cinéma.

In [104]:
genres_ = ["Music", "Documentary", "Reality-TV", "News"]
df = df[df['titre_genres'].apply(lambda x: all(g not in x for g in genres_))]

In [105]:
graph_by_genre(df)

- On peut désormais ré-afficher la distribution des notes moyennes, le total des films par décénnie et le nombre moyen des votes par décénnies

In [106]:
eda.show_total_films_decade_plotly(df)

- On cherche des informations sur la durée des films en minutes

In [107]:
def boxplot(df: pd.DataFrame):
    fig = px.box(
        data_frame = df,
        y = "titre_duree",
        points="outliers",
    )
    fig.update_layout(
        title="Durée des Films",
        yaxis_title="Durée des Films",
        showlegend=False
    )

    fig.show()

In [108]:
boxplot(df)

- On constate qu'il y a beaucoup trop de films avec des durées bien trop longues ainsi que des films trop courts qui devraient être considéré plutot comme des court-métrages.
- On enlève donc les films en dessous de 62 minutes et au dessus de 210 minutes (3h30)

In [109]:
condi =(
    ~((df["titre_duree"] < 62) | (df["titre_duree"] > 210))
)
df = df[condi].reset_index(drop='index')

boxplot(df)

- On cherche les 10 premiers pays desquels proviennent les films du dataset.

In [110]:
# import country_converter as coco

# def rename_country(country_name: str):
#     cc = coco.CountryConverter()
#     cc.convert(names=country_name, to='name', enforce_list=True)


# df["production_countries"] = df["production_countries"].apply(lambda x: rename_country(x))

In [111]:
def graph_by_country(df):
    """Trace un graphique Plotly pour le nombre de films par pays."""
    total = df.explode('production_countries')['production_countries'].value_counts()[:10]
    fig = go.Figure()

    fig.add_trace(go.Bar(
        y=total.index,
        x=total.values,
        orientation='h',
        marker=dict(
            color="royalblue",
            line=dict(color='black', width=1)
        )
    ))

    fig.update_layout(
        title="Nombre de films par Pays",
        xaxis_title="Nombre de films",
        yaxis_title="Pays",
        autosize=True,
        height=800
    )

    fig.update_yaxes(autorange="reversed")
    fig.show()

graph_by_country(df)

- On cherche si il y a une augmentation ou diminution de la durée des films dans le temps.

In [112]:
boxplotdf = df

boxplotdf["cuts"] = boxplotdf["cuts"].astype(str)
boxplotdf.sort_values("cuts", inplace=True)

fig = px.box(
    data_frame = boxplotdf,
    x = "cuts",
    y = "titre_duree",
    color = "cuts",
    points=False,
)
fig.update_layout(
    title="Durée des Films par Décénnie",
    xaxis_title="Décénnie",
    yaxis_title="Durée des Films",
    showlegend=False
    # legend=dict(
    #     yanchor="top",
    #     y=0.99,
    #     xanchor="left",
    #     x=0.01
    # )
)
fig.show()

In [113]:
df[((df["titre_duree"] > 170) & (df["titre_date_sortie"] > 2020))]

Unnamed: 0,titre_id,titre_str,titre_date_sortie,titre_duree,titre_genres,rating_avg,rating_votes,original_language,original_title,popularity,production_countries,revenue,spoken_languages,status,region,cuts
6763,tt10806040,Valimai,2022,178,"[Action, Crime, Thriller]",6.1,20314,ta,வலிமை,3.99,[IN],0.0,[ta],Released,FR,>2020
6696,tt10640346,Babylon,2022,189,"[Comedy, Drama, History]",7.1,148896,en,Babylon,119.47,[US],56351455.0,"[cn, en, es]",Released,FR,>2020
6682,tt10579952,Master,2021,179,"[Action, Crime, Thriller]",7.3,80368,ta,மாஸ்டர்,4.92,[IN],0.0,[ta],Released,FR,>2020
11407,tt9179430,Vikram,2022,175,"[Action, Crime, Thriller]",8.3,67512,ta,விக்ரம்,8.43,[IN],54172014.0,"[ml, ta]",Released,FR,>2020
11191,tt8178634,RRR,2022,187,"[Action, Drama]",7.8,157857,te,రౌద్రం రణం రుధిరం,121.56,[IN],160000000.0,"[en, te]",Released,FR,>2020
11460,tt9466814,Cobra,2022,183,"[Action, Crime, Thriller]",6.1,9563,ta,கோப்ரா,3.11,[IN],0.0,[ta],Released,FR,>2020
11450,tt9389998,Pushpa: The Rise - Part 1,2021,179,"[Action, Crime, Drama]",7.6,83087,te,పుష్పా - The Rise,24.87,[IN],0.0,[te],Released,FR,>2020
7634,tt14039582,Drive My Car,2021,179,[Drama],7.6,60611,ja,ドライブ・マイ・カー,13.0,[JP],15308325.0,"[zh, en, de, id, ja, ko, ms, tl]",Released,FR,>2020
7675,tt14182646,Vendhu Thanindhathu Kaadu,2022,177,"[Action, Crime, Drama]",7.3,7828,ta,வெந்து தணிந்தது காடு,3.09,[IN],0.0,"[hi, ml, ta]",Released,FR,>2020
7530,tt13521006,Beau Is Afraid,2023,179,"[Comedy, Drama, Horror]",6.8,43433,en,Beau Is Afraid,61.3,"[FI, US]",5769331.0,[en],Released,FR,>2020


- On cherche les 10 films avec le plus de votes sans compter les documentaires, concerts et films d'animations.

In [114]:
# Je dégage pour les films d'animation les concerts et les docs.
# genres_ = ['Animation', 'Music', 'Musical', 'Documentary'] # 'Animation',
# df_filtre = df[df['titre_genres'].apply(lambda x: all(g not in x for g in genres_))]
# Je veux uniquement les films ayant eu le plus de vote, je filtre par quantile 0.75 sup only.

# Groupe les films par la moyenne ratings, ne prend que le top 10
# grouped_films = (
#     df_filtre.groupby('titre_str')['rating_avg']
#     .mean()
#     .reset_index()
#     .sort_values("rating_avg", ascending=False)
#     .head(10)[::-1]
# )

# plt.figure(figsize=(20, 10))
# plt.barh(
#     grouped_films['titre_str'],
#     grouped_films['rating_avg'],
#     color='#e49b0f',
#     edgecolor = "black"
# )
# plt.xlabel('Note Moyenne')
# plt.ylabel('Films')
# plt.title('Top 10 des films only')
# plt.show()

def graph_top_10_movies(df: pd.DataFrame):
    df_filtre = df[df['rating_votes'] > df['rating_votes'].quantile(0.75)]

    grouped_films = (
        df_filtre.groupby('titre_str')['rating_avg']
        .mean()
        .reset_index()
        .sort_values("rating_avg", ascending=False)
        .head(10)
    )

    fig = go.Figure(go.Bar(
        x=grouped_films['rating_avg'],
        y=grouped_films['titre_str'],
        orientation='h',
        marker=dict(color='#e49b0f'),
        marker_line=dict(color="black", width=1)
    ))

    fig.update_layout(
        title='Top 10 des films only',
        xaxis_title='Note Moyenne',
        yaxis_title='Films',
        yaxis=dict(autorange="reversed")
    )

    fig.show()

graph_top_10_movies(df)

In [115]:
# #  World record of the longest documentary
# # source :https://fr.wikipedia.org/wiki/Ambianc%C3%A9
# longest = actor[actor["titre_duree"] == 43200]
# n = longest[["titre_str", "titre_duree"]].iloc[0]
# heure = n["titre_duree"] // 60
# jours = heure // 24
# print(f"Le film le plus long est {n['titre_str']} d'une durée de {heure} heures soit {jours} jours")
# # All time median for duration
# print(f"All time duration median : {round(actor['titre_duree'].median())} minutes")

In [116]:
df.s

AttributeError: 'DataFrame' object has no attribute 's'

In [137]:
df1 = pd.read_csv("movies_datasets/tmdb_full.csv")


Columns (24) have mixed types. Specify dtype option on import or set low_memory=False.



In [138]:
df2 = df1[df1["status"] == "Released"]

In [156]:
test = df2.sort_values("release_date", ascending=False)
# test.dropna("release_date", inplace=True)
# test[["imdb_id", "original_title", "release_date", "status"]]
test.dropna(subset=["release_date"], inplace=True)
test["release_date"] = pd.to_datetime(test["release_date"])


In [157]:
test.release_date.describe()

count                           300553
mean     1994-04-22 07:56:55.635844480
min                1874-12-09 00:00:00
25%                1979-01-01 00:00:00
50%                2005-05-17 00:00:00
75%                2015-11-18 00:00:00
max                2023-12-31 00:00:00
Name: release_date, dtype: object

In [160]:
test.dtypes

adult                                     bool
backdrop_path                           object
budget                                   int64
genres                                  object
homepage                                object
id                                       int64
imdb_id                                 object
original_language                       object
original_title                          object
overview                                object
popularity                             float64
poster_path                             object
production_countries                    object
release_date                    datetime64[ns]
revenue                                  int64
runtime                                  int64
spoken_languages                        object
status                                  object
tagline                                 object
title                                   object
video                                     bool
vote_average 

In [163]:
condi = (
    test["release_date"].dt.year == 2023
)
test[condi]

Unnamed: 0,adult,backdrop_path,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count,production_companies_name,production_companies_country
56844,False,/cEA0R4lWs3K5JNz19JmyGrt4hdD.jpg,0,"['Drama', 'Comedy']",,714650,tt14895212,ko,1승,An unsuccessful coach is paired up with a losi...,2.94,/pFunprEwhskfiemuiC5nXEw2KDO.jpg,['KR'],2023-12-31,0,120,['ko'],Released,,One Win,False,0.00,0,"['Luz Y Sonidos', 'Michigan Venture Capital', ...","['KR', 'KR', 'KR']"
24520,False,/rk5sdh9UqULAbp2dL0hhV4OzFaB.jpg,0,"['Drama', 'History']",,978580,tt16103266,de,Ingeborg Bachmann – Reise in die Wüste,It tells the story of the Austrian author Inge...,2.97,/8oBprPzJUc7lu4GtZrVRBkNe1wE.jpg,"['DE', 'AT', 'LU', 'CH']",2023-12-12,0,110,"['en', 'fr', 'de', 'it']",Released,,Ingeborg Bachmann – Journey into the Desert,False,0.00,0,"['tellfilm', 'Amour Fou Vienna', 'Heimatfilm',...","['CH', 'AT', 'DE', 'LU']"
46352,False,/1U9VAeUj2YE6GStU3ISXDuFMBSc.jpg,0,['Drama'],,784524,tt13652142,en,Magazine Dreams,Aspiring bodybuilder Killian Maddox struggles ...,6.71,/wY6BnK1NBV2q0SiJQpxM2mEQgZr.jpg,['US'],2023-12-08,0,124,['en'],Released,,Magazine Dreams,False,0.00,0,"['Jennifer Fox Productions', 'Tall Street Prod...","['US', 'US', 'US']"
14293,False,,0,[],,1102873,tt17423932,de,VIENNA CALLING,,1.35,,[],2023-11-16,0,0,[],Released,,VIENNA CALLING,False,0.00,0,"['Amour Fou Vienna', 'Fruitmarket Kultur und M...","['AT', '']"
19874,False,/huplTByCf3MZqFb798s7NVDKdbx.jpg,0,"['Drama', 'Horror', 'Thriller']",,1024773,tt15683734,en,It Lives Inside,"Sam is desperate to fit in at school, rejectin...",3.51,/dpgI82d8CrCDqDdBQeDUeFOIzI4.jpg,"['CA', 'US']",2023-11-03,0,99,"['en', 'hi']",Released,पिशाच,It Lives Inside,False,0.00,0,"['Neon', 'QC Entertainment', 'Brightlight Pict...","['US', 'US', 'CA']"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18407,False,,0,['Horror'],https://www.differentduckfilms.com/werewolf-game,1038938,tt16960240,en,Werewolf Game,Horror-mystery movie based on an adult party g...,1.40,/oaSVQgRAGtBkxz2BO04f4AMpxlB.jpg,['US'],2023-01-01,0,0,['en'],Released,Judge. Vote. Kill.,Werewolf Game,False,0.00,0,"['Different Duck Films', 'Sunstrike Pictures']","['US', 'US']"
67300,False,/cjqvU7wEtH41brkMX2PGzpSxH1e.jpg,2000000,['Thriller'],,650597,tt3400626,it,Shadows,"Alma and Alex, two adolescent sisters, are sur...",2.46,/cc7WApIVVeYOTYBFXGOKSzgRLK0.jpg,"['IE', 'IT']",2023-01-01,0,90,['en'],Released,,Shadows,False,8.00,2,"['Sky Italia', 'Ascent Film', 'Feline Films', ...","['IT', 'IT', '', 'IT', 'IT']"
19643,False,/iVai5L5SoCDICOJDRi2l1KOyKIu.jpg,0,"['Comedy', 'Romance']",,1026952,tt21797492,sl,Nekaj sladkega,A romantic comedy of confusion.,0.82,/8fSJCAkUYZFBiv2VbbWk720Fljj.jpg,['SI'],2023-01-01,0,90,['sl'],Released,,Something Sweet,False,0.00,0,['Sparks & Juice Production'],['SI']
17229,False,,0,"['Horror', 'Family']",,1055365,tt1455680,en,Spooky Tales,After hearing local scary stories from their G...,0.60,/czfmDnZnV5tQnnPFqxl7mTzIcA1.jpg,[],2023-01-01,0,88,['en'],Released,Spooky!,Spooky Tales,False,0.00,0,[],[]


In [None]:
tt_dict = df.titre_id[:4].to_dict()

In [None]:
tt_dict

new_ = {v:v for k,v in tt_dict.items()}

In [None]:
new_

{'tt0062765': 'tt0062765',
 'tt0061122': 'tt0061122',
 'tt0061107': 'tt0061107',
 'tt0061101': 'tt0061101'}

In [None]:

import requests
import json

with open("tmdb.json", "r") as fp:
    key = json.load(fp)

api_key = key["api_key"]

def get_movie_details(
    TMdb_id: int,
    use_IMdb: bool = False,
    IMdb_id: str = "",
):
    """Récupère les détails d'un film par son ID TMDB."""
    if use_IMdb:
        base_url = "https://api.themoviedb.org/3/find/"
        url = f"{base_url}{IMdb_id}?api_key={api_key}&external_source=imdb_id&language=fr"
    else:
        base_url = "https://api.themoviedb.org/3/movie/"
        url = f"{base_url}{movie_id}?api_key={api_key}&language=fr"
    response = requests.get(url)
    return response.json()

movie_id = 872585
import pprint

for tt, vv in new_.items():
    movie_details = get_movie_details(TMdb_id=movie_id, use_IMdb=True, IMdb_id=tt)
    desc = movie_details["movie_results"][0]["overview"]
    new_[tt] = desc

import pprint
pprint.pprint(new_)

# print(movie_details['title'])
# print(movie_details['overview'!])
# print(movie_details['spoken_languages'])


{'tt0061101': 'Tetsuya Hondo est un yakuza dont le clan vient récemment '
              'd’arrêter ses activités. Il est contacté par un clan rival mais '
              'décline l’offre. Comprenant qu’il met ainsi en péril sa vie '
              'ainsi que celles de ceux de son clan, son chef lui demande de '
              'quitter Tokyo et de devenir vagabond.',
 'tt0061107': 'Un chercheur en physique nucléaire, Michael Armstrong, rompt '
              'sans explications avec sa fiancée et assistante, Sarah, avant '
              'de se rendre à un congrès à Copenhague. Intriguée, elle le suit '
              "et découvre qu'il part en réalité pour Berlin-Est. Décidée à "
              'comprendre, elle prend le même avion et se rend compte que le '
              "professeur semble avoir choisi de vivre à l'Est…",
 'tt0061122': "La mère supérieure d'un pensionnat de jeunes filles a fort à "
              'faire avec Mary et Rachel, deux gamines délurées dont '
              "l'imagina