# Récupération de données cinélatographiques grâce à l'API de TMDB

Nous avons décidé, pour notre projet, de nous intéresser au cinéma, et d'arriver vers un algorithme de recommendation. Pour cela nous avons alors besoin d'une base de données comportant un certain nombre de films ainsi que des informations les concernant comme leur genre, leur année de sortie... 

Pour récupérer celà, nous avons trouver un site The Movie DataBase (TMDB) proposant un API pour récupérer leurs données. C'est ce que nous avons fait dans cette partie là. Pour cela, nous avons récupérer une key pour accéder à l'API. Puis nous avons dans un premier temps récupéré les identifiants des films présents sur les 500 pages 'Popular' du site, puis une fois cette liste créée avec les identifiants de tous ces films, nous avons récupéré pour chacun des identifiants les informations correspondantes.

NB : Cette partie là n'est pas directement reproductible. En effet, en récupérant les 10 000 identifiants directement, et en récupérant les informations correspondantes en une seule fois, l'opération était trop longue et n'aboutissait pas. Nous avons donc opté pour la fractionner en 5 (en faisant 100 pages à chaque fois). Néanmoins, nous avons modifié le code ci dessous à chaque fois, au lieu de le recopier à chaque fois. Vous retrouverez donc en dessous le modèle que nous avons utilisé, exemplifié pour les 100 dernières pages.

In [2]:
import requests
import pandas as pd

In [15]:
url = "https://api.themoviedb.org/3/authentication"

headers = {
    "accept": "application/json",
    "Authorization": "Bearer eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIwNzBlMWEwNWQyNWRiMjQ5YjhjYWU4MzkxYmFkNGMwNCIsInN1YiI6IjY1NWRkMTI1N2YyZDRhMDEwYjk3ZmM4NyIsInNjb3BlcyI6WyJhcGlfcmVhZCJdLCJ2ZXJzaW9uIjoxfQ.IdjplYaSA1ipVgFDp3DhX0AjYBTly1v3T9CihJJB9U0"
}

response = requests.get(url, headers=headers)

print(response.text)

{"success":true,"status_code":1,"status_message":"Success."}


In [22]:
api_key = '070e1a05d25db249b8cae8391bad4c04'
base_url = 'https://api.themoviedb.org/3'
endpoint = '/movie/popular'

all_movie_ids = [] # On initialise une liste pour récupéré les identifiants des films


for page in range(401, 501):  # Comme précisé plus haut, nous avons directement modifié la range pour fractionner l'opération
    params = {'api_key': api_key, 'page': page}
    response = requests.get(f'{base_url}{endpoint}', params=params)

    if response.status_code == 200: # Vérifier que la requête a bien fonctionné, 
        popular_movies = response.json()['results']
        movie_ids = [movie['id'] for movie in popular_movies]
        all_movie_ids.extend(movie_ids)
    else:
        print(f'Error: {response.status_code}, {response.text}')

# On sort le nombre totale de films trouvés pour vérifier que l'opération a fonctionné
print(f'Total Movie IDs: {len(all_movie_ids)}')
print(all_movie_ids)

Total Movie IDs: 2000
[11178, 348678, 14609, 874196, 14326, 13079, 9819, 500860, 747687, 505192, 340357, 25587, 21349, 425373, 1128604, 10388, 67911, 46122, 36568, 991, 500860, 747687, 505192, 340357, 25587, 21349, 425373, 1128604, 10388, 67911, 46122, 36568, 991, 403, 882093, 97365, 4283, 1630, 37534, 1900, 12498, 110416, 525949, 9080, 135858, 434203, 13970, 41211, 575774, 121437, 691812, 401905, 455551, 199575, 533592, 738652, 829410, 19236, 318917, 73358, 73358, 10333, 1172675, 843394, 843093, 15003, 656956, 101898, 872177, 685090, 12889, 1134978, 266647, 75571, 585759, 567748, 5233, 14070, 12187, 31997, 685090, 12889, 1134978, 266647, 75571, 585759, 567748, 5233, 14070, 12187, 31997, 12699, 10683, 7006, 1105902, 359305, 1061656, 151026, 45933, 42113, 16346, 14320, 843906, 494832, 339060, 61717, 2370, 192136, 396810, 451945, 410718, 2360, 722798, 16962, 932308, 267192, 13192, 6028, 2976, 300681, 651070, 1259, 14347, 9625, 1026624, 11658, 267463, 39522, 13204, 962, 792678, 819876, 21

In [24]:
api_key = '070e1a05d25db249b8cae8391bad4c04'
base_url = 'https://api.themoviedb.org/3'
movie_ids = all_movie_ids

movie_details_list = [] # On initialise une liste qui récoltera les informations de chaque film


for movie_id in movie_ids:
    endpoint = f'/movie/{movie_id}'
    params = {'api_key': api_key}
    response = requests.get(f'{base_url}{endpoint}', params=params)
    
    if response.status_code == 200:
        movie_details = response.json()
        movie_details_list.append(movie_details)
    else:
        print(f'Error: {response.status_code}, {response.text}')

# On converti en dataframe le résultat
df = pd.DataFrame(movie_details_list)

df.to_csv('basetest5.csv', index=True) # Comme précisé plus haut nous avons pour les 5 opérations changé le nom de la base, pour récupérer 5 bases que nous avons ensuite fusioné

In [6]:
# La liste des dataframe a fusionner, nous les avons fusionnées deux par deux car quand nous avons essayé de es fusionner les 5, cela provoquait une erreur, nous avons pu voir à la fin que c'était en fait la 5ème base qui posait problème
files = ["basetest2000.csv", "basetest2.csv"] #, "basetest3.csv", "basetest4.csv", "basetest5.csv"]

dfs = [] # On initialise une liste qui récoltera les DataFrames

for file in files:
    print(f"Processing file: {file}")
    df = pd.read_csv(file)
    dfs.append(df)

# On concatène les dataframes
BaseFilms = pd.concat(dfs, ignore_index=True)
print(BaseFilms)

# Afin de pouvoir les fusionner deux par deux, nous avons enregistré la base créée en .csv à chaque fois pour la refusionner avec une autre
BaseFilms.to_csv("Base1.csv", index=False)

Processing file: basetest2000.csv
Processing file: basetest2.csv
      Unnamed: 0  adult                     backdrop_path  \
0              0  False   /zIYROrkHJPYB3VTiW1L9QVgaQO.jpg   
1              1  False  /1X7vow16X7CnCoexXh4H4F2yDJv.jpg   
2              2  False  /45zVtZx6Tzx3RKeDziK25K9geFf.jpg   
3              3  False  /9PqD3wSIjntyJDBzMNuxuKHwpUD.jpg   
4              4  False  /yOm993lsJyPmBodlYjgpPwBjXP9.jpg   
...          ...    ...                               ...   
3995        1995  False  /bTU64xL4uToTjQZwICPZzMb4yZt.jpg   
3996        1996  False  /dfNNSNVdbaFgDt4DLJf55CZsB5L.jpg   
3997        1997  False   /XhI7HcW5VTLgqq9c5Tl1xpS454.jpg   
3998        1998  False  /4Y66T9lELJqlpozIQlvBRKlk1aM.jpg   
3999        1999  False  /baE88dSR0byNAMDBk8HENkdDbt0.jpg   

                                  belongs_to_collection     budget  \
0                                                   NaN   40000000   
1                                                   NaN  20000

In [7]:
files = ["Base1.csv", "basetest3.csv"]#, "basetest4.csv", "basetest5.csv"]

dfs = []

for file in files:
    print(f"Processing file: {file}")
    df = pd.read_csv(file)
    dfs.append(df)

BaseFilms = pd.concat(dfs, ignore_index=True)
print(BaseFilms)

BaseFilms.to_csv("Base2.csv", index=False)

Processing file: Base1.csv
Processing file: basetest3.csv
      Unnamed: 0  adult                     backdrop_path  \
0              0  False   /zIYROrkHJPYB3VTiW1L9QVgaQO.jpg   
1              1  False  /1X7vow16X7CnCoexXh4H4F2yDJv.jpg   
2              2  False  /45zVtZx6Tzx3RKeDziK25K9geFf.jpg   
3              3  False  /9PqD3wSIjntyJDBzMNuxuKHwpUD.jpg   
4              4  False  /yOm993lsJyPmBodlYjgpPwBjXP9.jpg   
...          ...    ...                               ...   
5995        1995  False  /bzKzDqV7m8MLWN7G4oZdgIFDHxf.jpg   
5996        1996  False  /ttizthyI5mRIVxHsv6p6eS0GiKi.jpg   
5997        1997  False  /t0voVZuqvQ0VlM2m45rVWZO5R52.jpg   
5998        1998  False  /luUZAWrsGnPBF9MzDAujMIdlZZh.jpg   
5999        1999  False  /xUEYfFKPHQf0xJS7EFOOo1N9pmp.jpg   

                                  belongs_to_collection     budget  \
0                                                   NaN   40000000   
1                                                   NaN  200000000   

In [8]:
files = ["Base2.csv", "basetest4.csv"]# "basetest5.csv"]

dfs = []

for file in files:
    print(f"Processing file: {file}")
    df = pd.read_csv(file)
    dfs.append(df)

BaseFilms = pd.concat(dfs, ignore_index=True)
print(BaseFilms)

BaseFilms.to_csv("Base3.csv", index=False)

Processing file: Base2.csv
Processing file: basetest4.csv
      Unnamed: 0  adult                     backdrop_path  \
0              0  False   /zIYROrkHJPYB3VTiW1L9QVgaQO.jpg   
1              1  False  /1X7vow16X7CnCoexXh4H4F2yDJv.jpg   
2              2  False  /45zVtZx6Tzx3RKeDziK25K9geFf.jpg   
3              3  False  /9PqD3wSIjntyJDBzMNuxuKHwpUD.jpg   
4              4  False  /yOm993lsJyPmBodlYjgpPwBjXP9.jpg   
...          ...    ...                               ...   
7995        1995  False   /cvybPlcv87ZqLpBi1OaartRka6.jpg   
7996        1996  False  /e35lBcd1hW2ajW1wCMKl3s4IOC1.jpg   
7997        1997  False  /brLBKS5vQfP1vjiupHqa3xg1XQC.jpg   
7998        1998  False  /h7nrngTouejDkG1MuTVtExheyUy.jpg   
7999        1999  False  /7sp5M3erDuGKVN54F52tVEgm244.jpg   

                                  belongs_to_collection     budget  \
0                                                   NaN   40000000   
1                                                   NaN  200000000   

In [23]:
files = ["Base3.csv", "lastbase.csv"]

dfs = []

for file in files:
    print(f"Processing file: {file}")
    df = pd.read_csv(file, engine='python')
    dfs.append(df)

BaseFilms = pd.concat(dfs, ignore_index=True)
print(BaseFilms)

# Et nous récupérons ainsi notre base finale (ou presque) à partir de l'API
BaseFilms.to_csv("MoviesPopular.csv", index=False)

Processing file: Base3.csv
Processing file: lastbase.csv
      Unnamed: 0  adult                     backdrop_path  \
0              0  False   /zIYROrkHJPYB3VTiW1L9QVgaQO.jpg   
1              1  False  /1X7vow16X7CnCoexXh4H4F2yDJv.jpg   
2              2  False  /45zVtZx6Tzx3RKeDziK25K9geFf.jpg   
3              3  False  /9PqD3wSIjntyJDBzMNuxuKHwpUD.jpg   
4              4  False  /yOm993lsJyPmBodlYjgpPwBjXP9.jpg   
...          ...    ...                               ...   
9996        1995  False  /zklU4lWkUag3wZDYpHpgkVHTdmt.jpg   
9997        1996  False  /qVygtf2vU15L2yKS4Ke44U4oMdD.jpg   
9998        1997  False  /y66vZhDHIF6ViCutPcqDAXTAr0k.jpg   
9999        1998  False  /l83rC8rJ1HjfoY4agLTVSIslo0Y.jpg   
10000       1999  False  /3biBcohe172vLq243lFKreiEOwA.jpg   

                                   belongs_to_collection     budget  \
0                                                    NaN   40000000   
1                                                    NaN  200000000 

Nous avons donc pu récupérer notre base. Toutefois, il nous manque une information importante : le, la ou les réalisateur(ice)(s) du film. Nous allons donc retourner sur l'API pour trouver cette information.

In [4]:
df = pd.read_csv('MoviesPopular.csv')
df['id']

0         897087
1         466420
2         901362
3        1075794
4         787699
          ...   
9996      472338
9997      605116
9998       17455
9999       15045
10000        541
Name: id, Length: 10001, dtype: int64

In [6]:
api_key = '070e1a05d25db249b8cae8391bad4c04'
base_url = 'https://api.themoviedb.org/3'


movie_details_list = [] # On initialise une liste qui récoltera les informations de chaque film

df = pd.read_csv('MoviesPopular.csv')

for movie_id in df['id']:
    endpoint = f'/movie/{movie_id}'
    params = {'api_key': api_key}
    response = requests.get(f'{base_url}{endpoint}', params=params)
    
    if response.status_code == 200:
        movie_details = response.json()
        # Extract director information from the 'credits' section
        credits = movie_details.get('credits', {})
        directors = [crew['name'] for crew in credits.get('crew', []) if crew.get('job') == 'Director']
        
        # Add director information to the list
        movie_details_list.append({'id': movie_id, 'directors': directors})
        movie_details_list.append(movie_details)
    else:
        print(f'Error: {response.status_code}, {response.text}')

# On converti en dataframe le résultat
df_directors = pd.DataFrame(movie_details_list)

# Merge the director information with the original DataFrame
df_final = pd.merge(df, df_directors, on='id', how='left')


Error: 404, {"success":false,"status_code":34,"status_message":"The resource you requested could not be found."}


À reprendre