In [39]:
import pandas as pd
import mlflow
import mlflow.sklearn
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier  
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from datetime import datetime

In [40]:
mlflow.set_experiment("Film Box Office Prediction")
df = pd.read_csv("film_v2.csv")

In [41]:
# Nombre de lignes où la variable cible est vide (NaN)
nb_lignes_target_vide = df['entrees_demarrage_france'].isna().sum()
print(f"Nombre de lignes où entrees_demarrage_france est vide : {nb_lignes_target_vide}")

# Pourcentage de valeurs manquantes
pourcentage_manquant = (nb_lignes_target_vide / len(df)) * 100
print(f"Pourcentage de valeurs manquantes : {pourcentage_manquant:.2f}%")

Nombre de lignes où entrees_demarrage_france est vide : 1722
Pourcentage de valeurs manquantes : 99.25%


Ajout de la variable age_du_film

In [42]:
reference_date = datetime.now()
df['date_sortie_france'] = pd.to_datetime(df['date_sortie_france'], errors='coerce')
df['annee_sortie'] = df['date_sortie_france'].dt.year
df['age_du_film'] = datetime.now().year - df['annee_sortie']
print(df[[ 'titre','date_sortie_france', 'age_du_film']].head(20))


                                                titre date_sortie_france  \
0                   L'Extraordinaire Voyage de Marona         2020-01-08   
1                         Les Filles du Docteur March         2020-01-01   
2   Birds of Prey et la fabuleuse histoire de Harl...         2020-02-05   
3                                  Sonic, le hérisson         2020-02-12   
4                                           Uncharted         2022-02-16   
5                                     Sonic 2 le film         2022-03-30   
6                                        Gran Turismo         2023-08-09   
7                                         Borderlands         2024-08-07   
8                                             Sonic 3         2024-12-25   
9                                  Minecraft, Le Film         2025-04-02   
10                               Les Nouveaux mutants         2020-08-26   
11                                 Black Widow (2021)         2021-07-07   
12          

In [43]:
print(df.columns.tolist())

['film_id', 'titre', 'genre_principale', 'date_sortie_france', 'date_sortie_usa', 'image_url', 'synopsis', 'duree', 'note_moyenne', 'acteurs', 'entrees_demarrage_france', 'entrees_totales_france', 'budget', 'recette_usa', 'recette_reste_du_monde', 'recette_monde', 'duree_minutes', 'annee_sortie', 'age_du_film']


In [44]:
df.to_csv('film_v3.csv', index=False)

In [45]:
print(df['entrees_demarrage_france'].isna().count())

1735


In [46]:
print(df.dtypes)

film_id                              int64
titre                               object
genre_principale                    object
date_sortie_france          datetime64[ns]
date_sortie_usa                     object
image_url                           object
synopsis                            object
duree                               object
note_moyenne                        object
acteurs                             object
entrees_demarrage_france           float64
entrees_totales_france             float64
budget                             float64
recette_usa                        float64
recette_reste_du_monde             float64
recette_monde                      float64
duree_minutes                      float64
annee_sortie                         int32
age_du_film                          int32
dtype: object
