In [1]:
import csv
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#chargement fichiers
dfa_full = pd.read_csv("AllMoviesDetailsCleaned.csv", sep=";", low_memory=False, parse_dates=["release_date"])
dfb_full = pd.read_csv("AllMoviesCastingRaw.csv", sep=";", low_memory=False)

In [2]:
#Fusion fichiers par ids communes
df_full = pd.merge(dfa_full, dfb_full, on='id')
#Création fichier avec les seules données pertinentes
df_rel = df_full[['id','director_name','release_date', 'spoken_languages','vote_count','genres']].sort_values(by='director_name',ascending=True)

In [3]:
#Les 01-01-1900 sont aussi visiblement une valeur par défaut chez TMDB, on defaulte à 01-01-1800
serie = df_rel['release_date']==pd.Timestamp('1900-01-01')
df_rel.loc[serie,'release_date']=pd.Timestamp('1800-01-01')

#on defaulte à 01-01-1800 les valeurs nulles
serie = pd.isnull(df_rel['release_date'])
df_rel.loc[serie,'release_date']=pd.Timestamp('1800-01-01')

In [4]:
#extraction de l'année et réindexation
df_rel['release_date2']=df_rel['release_date'].map(lambda x:x.year)
#On réindexe
df_rel2 = df_rel.reset_index(drop = True)

In [6]:
#calcul du temps moyen entre films
df = df_rel2
#valeurs retenues pour chaque réal: nombre de films, liste des années de sortie des films
dir_time=dict()
x = 0
#parcours de la liste de réals
while x < len(df):
    dir_name = df.loc[x,'director_name']
    dir_time[dir_name] = {'movie_nb':0,'movie_nb_inclnodate':0, 'vote_cumul':0, 'dates':[]}
    #les réals sont par ordre alphabétique, on parcourt la liste de films de chacun
    while df.loc[x,'director_name'] == dir_name :
        dir_time[dir_name]['movie_nb_inclnodate'] +=1
        dir_time[dir_name]['vote_cumul'] +=df.loc[x,'vote_count']
        if df.loc[x,'release_date2']!=1800:
            dir_time[dir_name]['movie_nb'] +=1
            #on ajoute la date à la liste si elle n'y est pas déjà
            if df.loc[x,'release_date2'] not in dir_time[dir_name]['dates']:
                dir_time[dir_name]['dates'].append(df.loc[x,'release_date2'])
            
        x += 1
        if x == len(df):
            break

#CALCUL DE LA MOYENNE
for key in dir_time:
    #valeur par défaut de 2 ans pour le 1er film
    if dir_time[key]['movie_nb']>0:
        min_date = min(dir_time[key]['dates'])
        max_date = max(dir_time[key]['dates'])
        avg=round((max_date - min_date + 2) / dir_time[key]['movie_nb'], 1)
    
    #valeur par défaut de 2 ans si les release_dates sont toutes defaultées
    else:
        min_date = 1800
        max_date = 1800
        avg=2
        
    #piste d'audit
    dir_time[key]['min_date']=min_date
    dir_time[key]['max_date']=max_date
    dir_time[key]['avg']=avg



In [7]:
with open('dir_avgtime2.csv','w',encoding='utf-8') as file:
    writer = csv.writer(file, delimiter=';', lineterminator='\n')
    writer.writerow(('director_name', 'avg_time', 'min_date', 'max_date', 'movie_nb', 'vote_cumul'))
    for director_name in dir_time:
        d = dir_time[director_name]
        writer.writerow((director_name, d["avg"], d["min_date"], d["max_date"],d["movie_nb"],d["vote_cumul"]))