# **9000 Films et plus**

## Exploration du DataFrame et des Features

**Features du DataFrame**

Selon la propre source des données tabulaires, nous avons les colonnes suivantes (ainsi que leur signification) :

   

* Release_Date : date de sortie du film.

* Title : titre du film.

* Overview : résumé succinct de l’intrigue du film.

* Popularity : indicateur important calculé par les développeurs de TMDB, basé sur le nombre de vues par jour, de votes par jour, d’utilisateurs le marquant comme « favori » ou dans leur liste de suivi, la date de sortie, et d’autres critères.

* Vote_Count : nombre total de votes reçus de la part des spectateurs.

* Vote_Average : note moyenne sur 10, calculée à partir du nombre de votes et du nombre de spectateurs.

* Original_Language : langue originale du film ; les versions doublées ne sont pas prises en compte.

* Genre : catégories (genres) dans lesquelles le film peut être classé.

* Poster_Url : URL de l’affiche du film.


_Source des données : [Lien HuggingFace](https://huggingface.co/datasets/Pablinho/movies-dataset)_

In [1]:

import pandas as pd

# Création du DataFrame à partir des données csv
df = pd.read_csv("9000plus.csv")

print("Dimensions du DataFrame : \n", df.shape, end = "\n\n")
print("Colonnes du DataFrame : \n", df.columns, end = "\n\n")
print("Informations du DataFrame : ", df.info(), end = "\n\n")

Dimensions du DataFrame : 
 (9837, 9)

Colonnes du DataFrame : 
 Index(['Release_Date', 'Title', 'Overview', 'Popularity', 'Vote_Count',
       'Vote_Average', 'Original_Language', 'Genre', 'Poster_Url'],
      dtype='object')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9837 entries, 0 to 9836
Data columns (total 9 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Release_Date       9837 non-null   object 
 1   Title              9828 non-null   object 
 2   Overview           9828 non-null   object 
 3   Popularity         9827 non-null   float64
 4   Vote_Count         9827 non-null   object 
 5   Vote_Average       9827 non-null   object 
 6   Original_Language  9827 non-null   object 
 7   Genre              9826 non-null   object 
 8   Poster_Url         9826 non-null   object 
dtypes: float64(1), object(8)
memory usage: 691.8+ KB
Informations du DataFrame :  None



In [2]:
# Aperçu du DataFrame
df

Unnamed: 0,Release_Date,Title,Overview,Popularity,Vote_Count,Vote_Average,Original_Language,Genre,Poster_Url
0,2021-12-15,Spider-Man: No Way Home,Peter Parker is unmasked and no longer able to...,5083.954,8940,8.3,en,"Action, Adventure, Science Fiction",https://image.tmdb.org/t/p/original/1g0dhYtq4i...
1,2022-03-01,The Batman,"In his second year of fighting crime, Batman u...",3827.658,1151,8.1,en,"Crime, Mystery, Thriller",https://image.tmdb.org/t/p/original/74xTEgt7R3...
2,2022-02-25,No Exit,Stranded at a rest stop in the mountains durin...,2618.087,122,6.3,en,Thriller,https://image.tmdb.org/t/p/original/vDHsLnOWKl...
3,2021-11-24,Encanto,"The tale of an extraordinary family, the Madri...",2402.201,5076,7.7,en,"Animation, Comedy, Family, Fantasy",https://image.tmdb.org/t/p/original/4j0PNHkMr5...
4,2021-12-22,The King's Man,As a collection of history's worst tyrants and...,1895.511,1793,7.0,en,"Action, Adventure, Thriller, War",https://image.tmdb.org/t/p/original/aq4Pwv5Xeu...
...,...,...,...,...,...,...,...,...,...
9832,1973-10-15,Badlands,A dramatization of the Starkweather-Fugate kil...,13.357,896,7.6,en,"Drama, Crime",https://image.tmdb.org/t/p/original/z81rBzHNgi...
9833,2020-10-01,Violent Delights,A female vampire falls in love with a man she ...,13.356,8,3.5,es,Horror,https://image.tmdb.org/t/p/original/4b6HY7rud6...
9834,2016-05-06,The Offering,When young and successful reporter Jamie finds...,13.355,94,5.0,en,"Mystery, Thriller, Horror",https://image.tmdb.org/t/p/original/h4uMM1wOhz...
9835,2021-03-31,The United States vs. Billie Holiday,Billie Holiday spent much of her career being ...,13.354,152,6.7,en,"Music, Drama, History",https://image.tmdb.org/t/p/original/vEzkxuE2sJ...


**Changement de types des variables numériques**

On constate que nous n'avons pour l'heure que la colonne "Popularity" de type numérique.

La première chose à faire est donc de changer le type de :

* _"Release_Date"_ en **DateTime**,

* _"Vote_Count"_ en **entier**,

* _"Vote_Average"_ en **flottant**.

Ensuite, nous regarderons les valeurs manquantes, puis la significativité des variables ainsi que les statistiques descriptives des colonnes concernées (en fonction de leur type) afin de décider quoi faire desdites valeurs manquantes.

In [3]:
import datetime as dt

# Comme dt.datetime n'est pas un type Numpy-compatible, nous traitons la
# colonne individuellement
# df["Release_Date"] = pd.to_datetime(df["Release_Date"])
# On se rend compte que le changement est ineffectif (ValueError).

# Nous allons donc passer par des regex,
import re
reg = re.compile(r"^\d{4}-\d{2}-\d{2}$")
# Puis sélectionner uniquement les lignes transformables en format DateTime.
df = df[df['Release_Date'].str.contains(reg, regex=True)]

# Changement du type de "Release_Date"
df["Release_Date"] = pd.to_datetime(df["Release_Date"])

# Création d'un dictionnaire avec les noms de colonnes restantes et
# les nouveaux types.
var_dict = {"Vote_Count" : int, "Vote_Average" : float}
# Conversion des types des variables dans le type souhaité :
# df = df.astype(var_dict)

### On se rend compte que cette ligne de code ne fonctionne pas. En effet, on obtient l'erreur :
### ValueError: cannot convert float NaN to integer: Error while type casting for column 'Vote_Count'

# Vérification du changement en type datetime[n64]
df.dtypes

Release_Date         datetime64[ns]
Title                        object
Overview                     object
Popularity                  float64
Vote_Count                   object
Vote_Average                 object
Original_Language            object
Genre                        object
Poster_Url                   object
dtype: object

On se rend compte que le changement de type pour la colonne "Release_Date" a bien été effectué.

Il y a donc des valeurs NaN dans la colonne "Vote_Count" qui empêchent la conversion de types.
Cette conversion est absolument nécessaire, car les modèles développés par la suite utiliseront
les votes des spectateurs pour les différents films.

Par conséquent, on décide de s'occuper des valeurs manquantes avant de procéder au changement de type. On en profite également pour supprimer les doublons.

In [4]:
# Visualisation des doublons
df.duplicated() # Aucun doublon détecté

# Visualisation des valeurs manquantes
df.isna().sum()

# 1 valeur manquante par colonne détectée, pour 6/9 colonnes.
# On peut donc la/les supprimer sans perdre trop de donnnées
df = df.dropna()
# Vérification
print(df.isna().sum(), end = "\n\n")

# Création d'un dictionnaire avec les noms de colonnes restantes à
# changer et les nouveaux types.
var_dict = {"Vote_Count" : int, "Vote_Average" : float}
# Conversion des types des variables dans le type souhaité :
df = df.astype(var_dict)

# Vérification
print(df.dtypes, end = "\n\n")

# Les colonnes appropriées ont bien été converties en types numériques.

Release_Date         0
Title                0
Overview             0
Popularity           0
Vote_Count           0
Vote_Average         0
Original_Language    0
Genre                0
Poster_Url           0
dtype: int64

Release_Date         datetime64[ns]
Title                        object
Overview                     object
Popularity                  float64
Vote_Count                    int32
Vote_Average                float64
Original_Language            object
Genre                        object
Poster_Url                   object
dtype: object



**Feature Engineering temporel**

Pour plus de lisibilité des données par le modèle, et pour observer d'éventuels effets de saisonnalité dans les parutions des films, on séparera par la suite, dans la colonne "Release_Date" :
* l'année,
* le mois,
* le jour du mois,
* et le jour de la semaine.


In [5]:
# Année
df["Release_Year"] = df["Release_Date"].dt.year

# Mois
df["Release_Month"] = df["Release_Date"].dt.month

# Jour du mois
df["Release_Day"] = df["Release_Date"].dt.day

# Jour de la semaine
df["Release_Weekday"] = df["Release_Date"].dt.day_name()
# On remplacera le nom des jours de la semaine par des nombres de 1 à 7
weekdays_dict = {"Monday":1,
                 "Tuesday":2,
                 "Wednesday":3,
                 "Thursday":4,
                 "Friday":5,
                 "Saturday":6,
                 "Sunday":7
                 }
df["Release_Weekday"] = df["Release_Weekday"].replace(to_replace= weekdays_dict)

# Toutes les informations de la date de sortie ayant été extraites, on peut donc
# supprimer la variable "Release_Date" pour éviter une répétition des données.
df = df.drop(columns= ["Release_Date"])
df

  df["Release_Weekday"] = df["Release_Weekday"].replace(to_replace= weekdays_dict)


Unnamed: 0,Title,Overview,Popularity,Vote_Count,Vote_Average,Original_Language,Genre,Poster_Url,Release_Year,Release_Month,Release_Day,Release_Weekday
0,Spider-Man: No Way Home,Peter Parker is unmasked and no longer able to...,5083.954,8940,8.3,en,"Action, Adventure, Science Fiction",https://image.tmdb.org/t/p/original/1g0dhYtq4i...,2021,12,15,3
1,The Batman,"In his second year of fighting crime, Batman u...",3827.658,1151,8.1,en,"Crime, Mystery, Thriller",https://image.tmdb.org/t/p/original/74xTEgt7R3...,2022,3,1,2
2,No Exit,Stranded at a rest stop in the mountains durin...,2618.087,122,6.3,en,Thriller,https://image.tmdb.org/t/p/original/vDHsLnOWKl...,2022,2,25,5
3,Encanto,"The tale of an extraordinary family, the Madri...",2402.201,5076,7.7,en,"Animation, Comedy, Family, Fantasy",https://image.tmdb.org/t/p/original/4j0PNHkMr5...,2021,11,24,3
4,The King's Man,As a collection of history's worst tyrants and...,1895.511,1793,7.0,en,"Action, Adventure, Thriller, War",https://image.tmdb.org/t/p/original/aq4Pwv5Xeu...,2021,12,22,3
...,...,...,...,...,...,...,...,...,...,...,...,...
9832,Badlands,A dramatization of the Starkweather-Fugate kil...,13.357,896,7.6,en,"Drama, Crime",https://image.tmdb.org/t/p/original/z81rBzHNgi...,1973,10,15,1
9833,Violent Delights,A female vampire falls in love with a man she ...,13.356,8,3.5,es,Horror,https://image.tmdb.org/t/p/original/4b6HY7rud6...,2020,10,1,4
9834,The Offering,When young and successful reporter Jamie finds...,13.355,94,5.0,en,"Mystery, Thriller, Horror",https://image.tmdb.org/t/p/original/h4uMM1wOhz...,2016,5,6,5
9835,The United States vs. Billie Holiday,Billie Holiday spent much of her career being ...,13.354,152,6.7,en,"Music, Drama, History",https://image.tmdb.org/t/p/original/vEzkxuE2sJ...,2021,3,31,3


**Encodage des genres et des langues originales**



In [6]:
# Séparation des genres et encodage en variables booléennes
genres_split = df["Genre"].str.get_dummies(sep=", ")
df = pd.concat([df, genres_split], axis=1)
# P.S: ne pas oublier d'utiliser np.argmax() pour refaire la transition

# Suppression de la colonne générale des genres
# (information contenue dans les variables booléennes)
df = df.drop(["Genre"], axis=1)



# Encodage des langues originales en variables booléennes
langues_split = df["Original_Language"].str.get_dummies()
df = pd.concat([df, langues_split], axis=1)
# P.S: ne pas oublier d'utiliser np.argmax() pour refaire la transition

# Suppression de la colonne générale des langues
# (information contenue dans les variables booléennes)
df = df.drop(["Original_Language"], axis=1)



# Vérfication
df

Unnamed: 0,Title,Overview,Popularity,Vote_Count,Vote_Average,Poster_Url,Release_Year,Release_Month,Release_Day,Release_Weekday,...,ru,sr,sv,ta,te,th,tl,tr,uk,zh
0,Spider-Man: No Way Home,Peter Parker is unmasked and no longer able to...,5083.954,8940,8.3,https://image.tmdb.org/t/p/original/1g0dhYtq4i...,2021,12,15,3,...,0,0,0,0,0,0,0,0,0,0
1,The Batman,"In his second year of fighting crime, Batman u...",3827.658,1151,8.1,https://image.tmdb.org/t/p/original/74xTEgt7R3...,2022,3,1,2,...,0,0,0,0,0,0,0,0,0,0
2,No Exit,Stranded at a rest stop in the mountains durin...,2618.087,122,6.3,https://image.tmdb.org/t/p/original/vDHsLnOWKl...,2022,2,25,5,...,0,0,0,0,0,0,0,0,0,0
3,Encanto,"The tale of an extraordinary family, the Madri...",2402.201,5076,7.7,https://image.tmdb.org/t/p/original/4j0PNHkMr5...,2021,11,24,3,...,0,0,0,0,0,0,0,0,0,0
4,The King's Man,As a collection of history's worst tyrants and...,1895.511,1793,7.0,https://image.tmdb.org/t/p/original/aq4Pwv5Xeu...,2021,12,22,3,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9832,Badlands,A dramatization of the Starkweather-Fugate kil...,13.357,896,7.6,https://image.tmdb.org/t/p/original/z81rBzHNgi...,1973,10,15,1,...,0,0,0,0,0,0,0,0,0,0
9833,Violent Delights,A female vampire falls in love with a man she ...,13.356,8,3.5,https://image.tmdb.org/t/p/original/4b6HY7rud6...,2020,10,1,4,...,0,0,0,0,0,0,0,0,0,0
9834,The Offering,When young and successful reporter Jamie finds...,13.355,94,5.0,https://image.tmdb.org/t/p/original/h4uMM1wOhz...,2016,5,6,5,...,0,0,0,0,0,0,0,0,0,0
9835,The United States vs. Billie Holiday,Billie Holiday spent much of her career being ...,13.354,152,6.7,https://image.tmdb.org/t/p/original/vEzkxuE2sJ...,2021,3,31,3,...,0,0,0,0,0,0,0,0,0,0


#### Suppression des variables inutiles
Enfin, nous décidons de supprimer les colonnes "Overview" et "Poster_Url" du Datframes :
* la première n'apporte pas d'interprétabilité statistique (à moins de procéder à l'analyse des expressions régulières, chose que nous ne ferons pas ici)
* quant à la deuxième, elle ne contient que l'URL du poster du film, et n'est donc ps directement liée à son contenu (à moins de réaliser de l'extraction de données web et de réaliser de l'analyse d'images, or nous ne nous orienterons pas dans cette direction dans ce projet).

Nous sauvegarderons également la base de données ainsi traitée sous le nom "9000plus_1.csv" pour ne pas perdre le travail effectué.

In [7]:
# Suppression des colonnes inutiles
df = df.drop(["Overview", "Title", "Poster_Url"], axis=1)

# Sauvegarde du DataFrame modifié
df.to_csv("9000plus_1.csv")

#### Reste du pipeline :

📊 Étape 5 : Normalisation / standardisation (si besoin pour modèles)
python
Copier
Modifier
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df["Vote_Scaled"] = scaler.fit_transform(df[["Vote_Average"]])
🧱 Étape 6 : Indexation, tri, et sauvegarde
python
Copier
Modifier
df.sort_values("Release_Date", inplace=True)
df.set_index("Release_Date", inplace=True)

# Sauvegarde facultative
df.to_csv("films_preprocessed.csv")
🧪 Bonus : vérification visuelle rapide
python
Copier
Modifier
import matplotlib.pyplot as plt

# Distribution des films par année
df["Release_Year"].value_counts().sort_index().plot(kind="bar", figsize=(15,5))
plt.title("Nombre de films par année")
plt.xlabel("Année")
plt.ylabel("Nombre de films")
plt.show()

In [8]:
df

Unnamed: 0,Popularity,Vote_Count,Vote_Average,Release_Year,Release_Month,Release_Day,Release_Weekday,Action,Adventure,Animation,...,ru,sr,sv,ta,te,th,tl,tr,uk,zh
0,5083.954,8940,8.3,2021,12,15,3,1,1,0,...,0,0,0,0,0,0,0,0,0,0
1,3827.658,1151,8.1,2022,3,1,2,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2618.087,122,6.3,2022,2,25,5,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,2402.201,5076,7.7,2021,11,24,3,0,0,1,...,0,0,0,0,0,0,0,0,0,0
4,1895.511,1793,7.0,2021,12,22,3,1,1,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9832,13.357,896,7.6,1973,10,15,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9833,13.356,8,3.5,2020,10,1,4,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9834,13.355,94,5.0,2016,5,6,5,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9835,13.354,152,6.7,2021,3,31,3,0,0,0,...,0,0,0,0,0,0,0,0,0,0
