In [27]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import datetime as dt
from scipy import stats
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
from plotly.subplots import make_subplots

In [28]:
lien = 'https://raw.githubusercontent.com/BerengerQueune/ABC-Data/main/Aurore/KPI/DF_FULLv20211117.csv?token=AVCI5T4RHHQ5G3SRGDDGQCDBTZFGA'
df = pd.read_csv(lien)
df.rename(columns={'PÃ©riode': 'periode'}, inplace=True)

<h1>Top 3 des réalisateurs</h1>

In [29]:
#Création d'un dataframe simplifié avec les réalisateurs connus
df_director = df[['tconst', 'averageRating', 'director', 'numVotes', 'startYear', 'periode']]
df_director= df_director[df_director['director'] != 'unknown']

In [30]:
#Calcul d'un rang par décennie pour les 3 réalisateur ayant fait le plus de film
groupedDf = df_director.groupby(['periode', 'director'] ).size()
df_final  = pd.DataFrame({'count' : groupedDf.groupby(level='periode').nlargest(3).reset_index(level=0, drop=True)})
df_final.reset_index(inplace=True)

#df_final["test"] = df_final.index
df_final['rank'] = df_final.groupby('periode')['count'].rank(method = 'first', ascending = 'False')
df_final.style.background_gradient(subset=pd.IndexSlice[:, ['rank']])

#Inversion du calcul du calcul du rang
df_final['rank2'] = np.where(df_final['rank']==1, 'A', np.where(df_final['rank']==2, 2, 'C'))
df_final['rang'] = np.where(df_final['rank2']=='A', 3, np.where(df_final['rank2']=='C', 1, 2))
df_final = df_final.sort_values(by=(['periode', 'rang']), ascending = [True, True])

In [31]:
#Enregistrement du csv pour réalisation du graphique
df_final.to_csv (r'D:\Data analyst\Wild code school\Projets\Projet 2 - Pandas\df_final_director.csv', index = False, header=True)

In [34]:
#Lecture du CSV dans Github
df_final = pd.read_csv('https://raw.githubusercontent.com/BerengerQueune/ABC-Data/main/Christophe/df_final_director.csv?token=AVCI5TY6PATH3QY4C25CC5TBT5IIA')

In [35]:
#Réalisation du graphique
fig = px.bar(df_final, x = 'count', y="rang", text ='director', color = 'director',
    title = 'Les réalisateurs qui ont fait le plus de film par décennie',
    labels = {'count':'Nombre de films','periode': 'Décennie', 'director': 'Réalisateur'},
    orientation='h',
    animation_frame="periode",
    range_x=[0,9],
    #range_y=[0,4],
    width=700, height=450)
 
fig.update_traces(textfont_size=12, textposition='outside')
fig.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 1000

fig.update_layout(showlegend=False, title_x=0.5, template='plotly_dark')

In [36]:
#Création d'un dataframe avec les 3 réalisateurs ayant réalisé le plus de film depuis 1960
df_director_nbFilm = pd.DataFrame(df_director.value_counts('director'))
df_director_nbFilm.reset_index(inplace = True)
df_director_nbFilm.columns = ['director', 'nbFilm']

#Calcul du rang
df_director_nbFilm['Rang'] = df_director_nbFilm.index + 1
df_director_nbFilm = df_director_nbFilm.head(3)

In [37]:
#Enregistrement du csv pour réalisation du graphique
df_director_nbFilm.to_csv (r'D:\Data analyst\Wild code school\Projets\Projet 2 - Pandas\df_director_nbFilm.csv', index = False, header=True)

In [38]:
#Lecture du CSV dans Github
df_director_nbFilm = pd.read_csv('https://raw.githubusercontent.com/BerengerQueune/ABC-Data/main/Christophe/df_director_nbFilm.csv?token=AVCI5T7CVK5U4UHCL66ABS3BT5INA')

In [39]:
#Réalisation du graphique
fig = px.bar(df_director_nbFilm, x = 'nbFilm', y="Rang", text ='director', color = 'director',
    title = 'Les réalisateurs qui ont fait le plus de film depuis 1960', 
    labels = {'nbFilm': 'Nombre de films', 'director': 'Réalisateur'},orientation='h', range_x=[0,30], range_y=[0,4],width=700, height=450)

fig.update_layout(showlegend=False, title_x=0.5, template='plotly_dark')