In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# on est obligé de le faire car notre dataset a pas les noms des colonnes
movie_col_name = ["Wikipedia_movie_ID",
    "Freebase_movie_ID",
    "Movie_name",
    "Movie_release_date",
    "Movie_box_office_revenue",
    "Movie_runtime",
    "Movie_languages", # Freebase ID:name tuples
    "Movie_countries", # Freebase ID:name tuples
    "Movie_genres"] # Freebase ID:name tuples

char_col_name = ["Wikipedia_movie_ID",
    "Freebase_movie_ID",
    "Movie_release_date",
    "Character_name",
    "Actor_date_of_birth",
    "Actor_gender",
    "Actor_height_m", # in meters
    "Actor_ethnicity", # Freebase ID
    "Actor_name",
    "Actor_age_at_movie_release",
    "Freebase_character_actor_map_ID",
    "Freebase_character_ID",
    "Freebase_actor_ID"]

In [3]:
df_movie = pd.read_csv('MovieSummaries/movie.metadata.tsv', delimiter = '\t', names = movie_col_name, header = None)
df_char = pd.read_csv('MovieSummaries/character.metadata.tsv', delimiter = '\t', names = char_col_name, header = None)


In [4]:
print("shape movie:", df_movie.shape)
print("shape char:", df_char.shape)

shape movie: (81741, 9)
shape char: (450669, 13)


In [5]:
print(df_movie.isnull().sum())
print('')
print(df_char.isnull().sum())

Wikipedia_movie_ID              0
Freebase_movie_ID               0
Movie_name                      0
Movie_release_date           6902
Movie_box_office_revenue    73340
Movie_runtime               20450
Movie_languages                 0
Movie_countries                 0
Movie_genres                    0
dtype: int64

Wikipedia_movie_ID                      0
Freebase_movie_ID                       0
Movie_release_date                   9995
Character_name                     257875
Actor_date_of_birth                106145
Actor_gender                        45609
Actor_height_m                     295845
Actor_ethnicity                    344611
Actor_name                           1228
Actor_age_at_movie_release         158113
Freebase_character_actor_map_ID         0
Freebase_character_ID              257865
Freebase_actor_ID                     815
dtype: int64


In [6]:
#Actor_date_of_bith : type string, 1935-08-13 AAAA-MM-DD
#Movie_release_date : type string, 2001-08-24 AAAA-MM-DD

In [7]:
common_col = set(movie_col_name) & set(char_col_name) # trois colonnes identiques
print(len(common_col))

3


In [8]:
merged_df = pd.merge(df_movie, df_char, on=['Wikipedia_movie_ID', 'Freebase_movie_ID'], how='inner', suffixes=('', '_y'))
merged_df.shape

(450669, 20)

In [9]:
merged_df['Movie_release_date'] = merged_df['Movie_release_date'].combine_first(merged_df['Movie_release_date_y'])

In [10]:
merged_df.drop('Movie_release_date_y', axis =1, inplace = True, errors='ignore')

print(merged_df.shape)
print(merged_df.columns)
print(merged_df.dtypes)


(450669, 19)
Index(['Wikipedia_movie_ID', 'Freebase_movie_ID', 'Movie_name',
       'Movie_release_date', 'Movie_box_office_revenue', 'Movie_runtime',
       'Movie_languages', 'Movie_countries', 'Movie_genres', 'Character_name',
       'Actor_date_of_birth', 'Actor_gender', 'Actor_height_m',
       'Actor_ethnicity', 'Actor_name', 'Actor_age_at_movie_release',
       'Freebase_character_actor_map_ID', 'Freebase_character_ID',
       'Freebase_actor_ID'],
      dtype='object')
Wikipedia_movie_ID                   int64
Freebase_movie_ID                   object
Movie_name                          object
Movie_release_date                  object
Movie_box_office_revenue           float64
Movie_runtime                      float64
Movie_languages                     object
Movie_countries                     object
Movie_genres                        object
Character_name                      object
Actor_date_of_birth                 object
Actor_gender                        object
Ac

In [11]:
merged_df.loc[merged_df['Actor_gender'].isnull(),'Actor_gender'] = 'Unknown'
# on remplace les données de genre par F/M et Unknown quand inconnu. 
#df.loc[mask, colonne] permet de modifier la colonne directement

In [12]:
age_mask = (merged_df['Actor_age_at_movie_release'].isnull()) & (merged_df['Movie_release_date'].notnull()) & (merged_df['Actor_date_of_birth'].notnull())
count_age_incomplete  = merged_df[age_mask].shape[0]
print(count_age_incomplete)
#il y'a 42'858 cas ou l'age est pas donné, mais calculable

42858


In [17]:
merged_df['Movie_release_date'] = pd.to_datetime(merged_df['Movie_release_date'], errors='coerce')
merged_df['Actor_date_of_birth'] = pd.to_datetime(merged_df['Actor_date_of_birth'], errors='coerce')

merged_df.loc[age_mask,'Actor_age_at_movie_release'] = (merged_df['Movie_release_date'] - merged_df['Actor_date_of_birth']).dt.days // 365
# on ajoute l'âge de l'acteur au moment de la sortie comme étant la différence entre sa date de naissance et la date de sortie du film

In [15]:
print(merged_df.isnull().sum())

Wikipedia_movie_ID                      0
Freebase_movie_ID                       0
Movie_name                              0
Movie_release_date                 176797
Movie_box_office_revenue           349641
Movie_runtime                       50470
Movie_languages                         0
Movie_countries                         0
Movie_genres                            0
Character_name                     257875
Actor_date_of_birth                120782
Actor_gender                            0
Actor_height_m                     295845
Actor_ethnicity                    344611
Actor_name                           1228
Actor_age_at_movie_release         137082
Freebase_character_actor_map_ID         0
Freebase_character_ID              257865
Freebase_actor_ID                     815
dtype: int64


# Analyse des valeurs manquantes après traitement des données

## Colonne par colonne

1. **`Movie_release_date`**  
   - Il reste encore beaucoup de valeurs manquantes (176 797), et il semble que ce soit un champ critique pour les analyses historiques.
   - Assure-toi de filtrer les films sans date de sortie pour les analyses chronologiques. Tu peux limiter les analyses de tendance dans le temps aux films avec des dates valides et existantes.
   - DONC créer un dataset avec uniquement les données avec dates de sorties.

2. **`Movie_box_office_revenue`**  
   - Bien que les valeurs manquantes aient été réduites, cette colonne reste très incomplète (349 641 valeurs manquantes).
   - Envisage de limiter l'analyse d'impact commercial (succès au box-office) aux films avec des données valides, ou d'utiliser des imputations de moyenne/médiane par genre ou décennie.
   - DONC créer un dataset avec les données nécessaires et uniquement les valeurs complètes

3. **`Movie_runtime`**  
   - Il y a encore environ 50,470 valeurs manquantes. Pour l’analyse sur la durée des films, tu peux imputer ces valeurs avec la moyenne ou la médiane par genre pour garder un maximum de films dans cette analyse.
   - A PRIORI PAS utile pour nous Potentiellement à enlever
  
4. **`Character_name`** et **`Freebase_character_ID`**  
   - Ces deux colonnes ont encore une proportion importante de valeurs manquantes, mais elles ne sont pas critiques pour les analyses de genre, de succès ou de tendances géographiques.
   - POTENTIELLEMENT à enlever
     
5. **`Actor_date_of_birth`** et **`Actor_age_at_movie_release`**  
   - Ces colonnes sont utiles pour une analyse par âge, mais ont encore une quantité notable de valeurs manquantes (120 782 et 137 082, respectivement).
   - Pour des analyses d'âge, tu peux faire des approximations par groupe d'âge ou bien te concentrer sur les enregistrements complets si l'exactitude est prioritaire.
   - PLUS utile ou peut être pour un bonus. 

6. **`Actor_gender`**  
   - Plus aucune valeur manquante ici !
   - J'ai remplacé les données NaN par Unknown. On peut techniquement faire mieux en supposant que des hommes jouent des hommes et des femmes des femmes, et donc avec le nom du personnage retrouver le genre de l'acteur (Mr. Bean, il est probable qu'il était incarné par un homme)
  

7. **`Actor_ethnicity`** et **`Actor_height_m`**  
   - Étant donné les nombreuses valeurs manquantes, les analyses basées sur ces informations (notamment l'ethnicité) risquent de ne pas être fiables avec ce dataset.
   - Mieux vaut éviter d’inclure ces colonnes dans les analyses, à moins d’accepter une marge d’erreur élevée.
   - A enlever ducoup car inutile pour nous et imcomplet 