In [94]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import datetime as dt
from scipy import stats
import chart_studio.plotly as py
import plotly.express as px
import cufflinks as cf
import plotly.graph_objects as go
import seaborn as sns

In [14]:
name_df = pd.read_csv("https://datasets.imdbws.com/name.basics.tsv.gz", sep="\t")
name_df.head(1)

Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
0,nm0000001,Fred Astaire,1899,1987,"soundtrack,actor,miscellaneous","tt0050419,tt0072308,tt0031983,tt0053137"


In [3]:
akas_df = pd.read_csv("https://datasets.imdbws.com/title.akas.tsv.gz", sep="\t", dtype={"titleId": "string", "ordering": str, "title ": "string", "region ": "string", 
"language ": "string", "types ": str, "attributes ": str, "isOriginalTitle": str})
akas_df.head(1)

Unnamed: 0,titleId,ordering,title,region,language,types,attributes,isOriginalTitle
0,tt0000001,1,Карменсіта,UA,\N,imdbDisplay,\N,0


In [15]:
basics_df = pd.read_csv("https://datasets.imdbws.com/title.basics.tsv.gz", sep="\t", low_memory=False)
basics_df.head(1)

Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
0,tt0000001,short,Carmencita,Carmencita,0,1894,\N,1,"Documentary,Short"


In [None]:
crew_df = pd.read_csv("https://datasets.imdbws.com/title.crew.tsv.gz", sep="\t", low_memory=False)
crew_df.head(1)

In [None]:
episode_df = pd.read_csv("https://datasets.imdbws.com/title.episode.tsv.gz", sep="\t", low_memory=False)
episode_df.head(1)

In [16]:
principals_df = pd.read_csv("https://datasets.imdbws.com/title.principals.tsv.gz", sep="\t")
principals_df.head(1)

Unnamed: 0,tconst,ordering,nconst,category,job,characters
0,tt0000001,1,nm1588970,self,\N,"[""Self""]"


In [None]:
ratings_df = pd.read_csv("https://datasets.imdbws.com/title.ratings.tsv.gz", sep="\t", low_memory=False)
ratings_df.head(1)

# <span style="color:orange">Quels sont les pays qui produisent le plus de films ?</span> 

In [13]:
# Quels sont les pays qui produisent le plus de films ?
# étape 1 : juste un value_counts sur les régions dans la Database akas en prenant le top 15
movie_By_Region2 = akas_df["region"].value_counts().reset_index().head(15)
# je retire les régions \N
movie_By_Region3 = movie_By_Region2[movie_By_Region2['index'] != '\\N']

fig = px.bar(movie_By_Region3, x="index", y ='region', color = 'index', text ='region',
    title = 'Quels sont les pays qui produisent le plus de films ?',
    labels = {'region': 'Nombre de films', 'index': 'Pays'},
    width=800, height=600)
    
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8)

fig.update_layout(showlegend=False, title_x=0.5, yaxis={'visible': False})

# <span style="color:orange">Quels sont les acteurs les plus présents ?</span> 

In [17]:
# Quels sont les acteurs les plus présents ?
# étape 1 : nettoyage de la Database

principals_df2 = principals_df[principals_df['category'].str.contains('actor|actress')]
principals_df3 = principals_df2[principals_df2['characters'] != '\\N']
principals_df4 = principals_df3[principals_df3['characters'] != 'Narrator']
principals_df5 = principals_df4[principals_df4['characters'] != 'Various']
principals_df6 = principals_df5[principals_df5['characters'] != 'Various Characters']
principals_df7 = principals_df6[principals_df6['characters'] != 'Additional Voices']

In [18]:
# Quels sont les acteurs les plus présents ?
# étape 2 : set index puis merge
# set index on tconst for basics and principal table
basics_df2 = basics_df.set_index('tconst')
principals_df8 = principals_df7.set_index('tconst')
# Merge de la table principals et basics afin de filtrer uniquement sur les movies et les shorts
merge_basics_principals = pd.merge(basics_df2, principals_df8, how='inner', left_index=True, right_index=True)

In [19]:
# Quels sont les acteurs les plus présents ?
# étape 3 : Nettoyage pour garder uniquement les titleType movie et short
merge_basics_principals2 = merge_basics_principals[(merge_basics_principals['titleType'] == 'movie') | (merge_basics_principals['titleType'] == 'short')]

In [20]:
# Quels sont les acteurs les plus présents ?
# étape 4 : set index puis merge
# set index on nconst for Database name and Database merge_basics_principals2 to prepare a merge
name_df2 = name_df.set_index('nconst')
merge_basics_principals3 = merge_basics_principals2.set_index('nconst')
# merge to link first name with nconst
merge_basics_principals4 = pd.merge(name_df2, merge_basics_principals3, how='inner', left_index=True, right_index=True)

In [21]:
# Quels sont les acteurs les plus présents ?
# étape 5 : Nettoyage pour retirer les oeuvres très courtes comme les cartoons de quelques minutes pour lesquelles les acteurs font seulement les voix
merge_basics_principals5 = merge_basics_principals4[merge_basics_principals4['runtimeMinutes'] != '\\N']
merge_basics_principals6 = merge_basics_principals5.astype({"runtimeMinutes": int})
merge_basics_principals7 = merge_basics_principals6[merge_basics_principals6['runtimeMinutes'] > 20]

In [22]:
# Quels sont les acteurs les plus présents ?
# étape 6 : Value_counts pour trouver les acteurs les plus présents
merge_basics_principals8 = merge_basics_principals7['primaryName'].value_counts()
merge_basics_principals9 = merge_basics_principals8.head(20)

In [23]:
# Quels sont les acteurs les plus présents ?
# étape 7 : visualisation
fig = px.bar(merge_basics_principals9.reset_index(), x="primaryName", y ='index', color = 'index',
    title = 'Quels sont les acteurs les plus présents ?',
    labels = {'primaryName': 'Nombre de films', 'index': 'Acteurs'},
    width=800, height=600)

fig.update_layout(showlegend=False, title_x=0.5)

# <span style="color:orange">Quels sont les acteurs les plus présents ? A quelle période ?</span> 

In [59]:
# Quels sont les acteurs les plus présents ? A quelle période ?
# étape 1 : Nettoyage de la base de données pour retirer les titres qui n'ont pas de startYear
merge_basics_principals8 = merge_basics_principals7[merge_basics_principals7['startYear'] != "\\N"]

In [60]:
# Quels sont les acteurs les plus présents ? A quelle période ?
# étape 1 : Nettoyage de la base de données pour retirer les titres qui n'ont pas de startYear
merge_basics_principals_test = merge_basics_principals8[["primaryName", "startYear"]]
merge_basics_principals_test2 = merge_basics_principals_test.reset_index(drop=True)

In [62]:
def find_decade(year):
    decade1 = (year // 10 * 10)
    decade2 = (year // 10 * 10) + 10
    return str(decade1) + " - " + str(decade2)

print(find_decade(1934))


1930 - 1940


In [65]:
merge_basics_principals_test4 = merge_basics_principals_test2.astype({"startYear": int})
merge_basics_principals_test4["startYear"] = merge_basics_principals_test4["startYear"].apply(find_decade)

In [66]:
merge_basics_principals_test4

Unnamed: 0,primaryName,startYear
0,Fred Astaire,1930 - 1940
1,Fred Astaire,1930 - 1940
2,Fred Astaire,1930 - 1940
3,Fred Astaire,1930 - 1940
4,Fred Astaire,1930 - 1940
...,...,...
1170013,Ryan Mac Lennan,2010 - 2020
1170014,Adam French,2020 - 2030
1170015,Marcin Balcerak,2010 - 2020
1170016,Apsara Rani,2010 - 2020


In [105]:
merge_basics_principals_test5 = merge_basics_principals_test4.groupby(['startYear', 'primaryName']).size().sort_values(ascending=False)
merge_basics_principals_test6 = merge_basics_principals_test5.head(60)

startYear    primaryName              
2010 - 2020  Eric Roberts                 131
2000 - 2010  Seiji Nakamitsu              118
1980 - 1990  Mohanlal                     101
             Mammootty                     98
1970 - 1980  Cüneyt Arkin                  94
             Jamie Gillis                  81
             Ric Lutze                     79
1940 - 1950  Al St. John                   79
1970 - 1980  John Holmes                   79
1940 - 1950  Johnny Mack Brown             77
             Charles Starrett              77
1970 - 1980  Junko Miyashita               75
1980 - 1990  Mithun Chakraborty            75
1960 - 1970  Türkan Soray                  73
2000 - 2010  Kyôko Kazama                  73
1960 - 1970  Sadri Alisik                  70
1980 - 1990  Ron Jeremy                    68
1960 - 1970  Cüneyt Arkin                  68
1980 - 1990  Eric Edwards                  66
             John Leslie                   66
1930 - 1940  Bob Steele                  

In [111]:
fig = px.bar(merge_basics_principals_test6, x="primaryName", y ='startYear', color = 'startYear',
    title = 'Quels sont les acteurs les plus présents ?',
    labels = {'primaryName': 'Nombre de films', 'startYear': 'Acteurs'},
    width=800, height=600)

fig.update_layout(showlegend=False, title_x=0.5)

ValueError: Value of 'x' is not the name of a column in 'data_frame'. Expected one of [0] but received: primaryName

In [91]:
#merge_basics_principals_test5 = merge_basics_principals_test4.pivot(columns="startYear")
#merge_basics_principals_test6 = merge_basics_principals_test5.apply(pd.Series.value_counts)
#merge_basics_principals_test7 = merge_basics_principals_test6.fillna(0)




In [None]:
#merge_basics_principals_test8 = merge_basics_principals_test7.transform(np.sort)
#merge_basics_principals_test8.tail(60)

In [1]:
#quelques tests

#name_df6.loc[name_df6['primaryName'] == "Nikita"]

#name_df6.loc[name_df6['primaryName'] == "Brad Pitt"]

#principals_df.loc[(principals_df['nconst'] == "nm0000093") & (principals_df['category'] == "actor")]

#principals_df[principals_df['category'].str.contains('actor|actress')]
#principals_df['nconst'].value_counts()

#name_df.loc[name_df['nconst'] == "nm10120013"]

#principals_df2 = principals_df[principals_df['category'].str.contains('actor|actress')]

#principals_df2['nconst'].value_counts()

#principals_df.loc[principals_df['nconst'] == "nm0000093"]

# name_df6['numberOfKnownForTitles'] = name_df6['knownForTitles'].str.count("tt")
# name_df6.sort_values(by=['numberOfKnownForTitles'], ascending=False).head(15)

# name_df2 = name_df.dropna(axis=0)
# name_df3 = name_df2[name_df2['primaryProfession'] != '\\N']
# name_df4 = name_df3[name_df3['birthYear'] != '\\N']
# name_df5 = name_df4[name_df4['knownForTitles'] != '\\N']
# name_df6 = name_df5[name_df5['primaryProfession'].str.contains('actor|actress')]

#akas_df2 = akas_df[(akas_df['region'] == 'FR') & (akas_df['title'] == 'Star Wars : Épisode VII - Le Réveil de la Force')]
#akas_df2 = akas_df[akas_df['region'] == 'FR']
#akas_df2 = akas_df[(akas_df['title'] == 'Mr. & Mrs. Smith') & (akas_df['region'] == 'FR')]
#akas_df2 = akas_df[akas_df['titleId'] == 'tt0000001']
#akas_df2 = akas_df[akas_df['title'] == 'Mr. & Mrs. Smith']