In [1]:
import json
import time
import datetime
import requests
import numpy as np
import pandas as pd
from tqdm import tqdm

with open('tmdb_api.json', 'r') as rd_f:
    tokens = json.load(rd_f)

In [2]:
#headers for url request
headers = {
    "accept": "application/json",
    "Authorization": f"Bearer {tokens['token']}"}

List of All Genres

In [3]:
#get genre ids
genres_url = "https://api.themoviedb.org/3/genre/movie/list?language=en"

#send_request to api
response = requests.get(genres_url, headers=headers)

#extract genres to api
genres_list = {genre['id']: genre['name'] for genre in response.json()['genres']}
print(genres_list)

{28: 'Action', 12: 'Adventure', 16: 'Animation', 35: 'Comedy', 80: 'Crime', 99: 'Documentary', 18: 'Drama', 10751: 'Family', 14: 'Fantasy', 36: 'History', 27: 'Horror', 10402: 'Music', 9648: 'Mystery', 10749: 'Romance', 878: 'Science Fiction', 10770: 'TV Movie', 53: 'Thriller', 10752: 'War', 37: 'Western'}


In [4]:
#url for tv shows
# tv_url = "https://api.themoviedb.org/3/discover/tv?first_air_date.gte=1990-01-01&include_adult=false&include_null_first_air_dates=false&language=en-US&page=1&sort_by=popularity.desc&with_original_language=en"

#url for movies
# movie_url = f"https://api.themoviedb.org/3/discover/movie?include_adult=false&include_video=false&language=en-US&page={page}&release_date.gte={gte}&release_date.lte={lte}&with_origin_country=US&sort_by=release_date.desc"

Page Number Cannot Be Higher than 500

In [5]:
#number of years to look back
num_years = 20
#x year increments
increment = 0.5

#year of 20 years ago
twenty_years = datetime.date.today().year - num_years

#increments for the last 20 years
twenty_years_list = [str(datetime.date(int(twenty_years + val), int(1 + 12 * (val % 1)), 1))
                     for val in np.arange(0, num_years, increment).tolist()]
print(twenty_years_list)

['2003-01-01', '2003-07-01', '2004-01-01', '2004-07-01', '2005-01-01', '2005-07-01', '2006-01-01', '2006-07-01', '2007-01-01', '2007-07-01', '2008-01-01', '2008-07-01', '2009-01-01', '2009-07-01', '2010-01-01', '2010-07-01', '2011-01-01', '2011-07-01', '2012-01-01', '2012-07-01', '2013-01-01', '2013-07-01', '2014-01-01', '2014-07-01', '2015-01-01', '2015-07-01', '2016-01-01', '2016-07-01', '2017-01-01', '2017-07-01', '2018-01-01', '2018-07-01', '2019-01-01', '2019-07-01', '2020-01-01', '2020-07-01', '2021-01-01', '2021-07-01', '2022-01-01', '2022-07-01']


In [6]:
total_movies = []
failed = []

#iterate through all time ranges and pages
for i in range(len(twenty_years_list)):
    #set api filters
    if i == len(twenty_years_list) - 1:
        page, gte, lte = 1, twenty_years_list[i], str(datetime.date.today())
    else:
        page, gte, lte = 1, twenty_years_list[i], twenty_years_list[i+1]
    #add one day to greater than date
    gte = f"{gte[:-1]}{int(gte[-1]) + 1}"
    
    #format url for api call
    url = f"https://api.themoviedb.org/3/discover/movie?include_adult=false&include_video=false&language=en-US&page={page}&release_date.gte={gte}&release_date.lte={lte}&with_origin_country=US&sort_by=release_date.desc"
    
    #send_request to api
    response = requests.get(url, headers=headers)

    #extract total pages
    total_pages = response.json()['total_pages']
    print(f"Range: ({gte}, {lte}) | Total pages: {total_pages:,}")
    
    for x in tqdm(range(1, total_pages if total_pages < 501 else 500)):
        try:
            #format url for api call
            url = f"https://api.themoviedb.org/3/discover/movie?include_adult=false&include_video=false&language=en-US&page={x}&release_date.gte={gte}&release_date.lte={lte}&with_origin_country=US&sort_by=release_date.asc"
            #send request to api
            response = requests.get(url, headers=headers)
            #append results to overall list
            total_movies += response.json()['results']
        except:
            failed.append(f"Range: ({gte}, {lte}) | Page: {x:,}")

Range: (2003-01-02, 2003-07-01) | Total pages: 122


100%|████████████████████████████████████████████████████████████████████████████████| 121/121 [00:35<00:00,  3.44it/s]


Range: (2003-07-02, 2004-01-01) | Total pages: 198


100%|████████████████████████████████████████████████████████████████████████████████| 197/197 [01:18<00:00,  2.51it/s]


Range: (2004-01-02, 2004-07-01) | Total pages: 131


100%|████████████████████████████████████████████████████████████████████████████████| 130/130 [00:13<00:00,  9.64it/s]


Range: (2004-07-02, 2005-01-01) | Total pages: 213


100%|████████████████████████████████████████████████████████████████████████████████| 212/212 [00:35<00:00,  5.90it/s]


Range: (2005-01-02, 2005-07-01) | Total pages: 148


100%|████████████████████████████████████████████████████████████████████████████████| 147/147 [00:23<00:00,  6.17it/s]


Range: (2005-07-02, 2006-01-01) | Total pages: 240


100%|████████████████████████████████████████████████████████████████████████████████| 239/239 [01:45<00:00,  2.27it/s]


Range: (2006-01-02, 2006-07-01) | Total pages: 160


100%|████████████████████████████████████████████████████████████████████████████████| 159/159 [00:29<00:00,  5.47it/s]


Range: (2006-07-02, 2007-01-01) | Total pages: 245


100%|████████████████████████████████████████████████████████████████████████████████| 244/244 [01:06<00:00,  3.66it/s]


Range: (2007-01-02, 2007-07-01) | Total pages: 167


100%|████████████████████████████████████████████████████████████████████████████████| 166/166 [00:48<00:00,  3.45it/s]


Range: (2007-07-02, 2008-01-01) | Total pages: 253


100%|████████████████████████████████████████████████████████████████████████████████| 252/252 [01:25<00:00,  2.94it/s]


Range: (2008-01-02, 2008-07-01) | Total pages: 175


100%|████████████████████████████████████████████████████████████████████████████████| 174/174 [01:10<00:00,  2.47it/s]


Range: (2008-07-02, 2009-01-01) | Total pages: 276


100%|████████████████████████████████████████████████████████████████████████████████| 275/275 [01:10<00:00,  3.89it/s]


Range: (2009-01-02, 2009-07-01) | Total pages: 189


100%|████████████████████████████████████████████████████████████████████████████████| 188/188 [00:58<00:00,  3.20it/s]


Range: (2009-07-02, 2010-01-01) | Total pages: 284


100%|████████████████████████████████████████████████████████████████████████████████| 283/283 [01:14<00:00,  3.79it/s]


Range: (2010-01-02, 2010-07-01) | Total pages: 190


100%|████████████████████████████████████████████████████████████████████████████████| 189/189 [00:52<00:00,  3.62it/s]


Range: (2010-07-02, 2011-01-01) | Total pages: 284


100%|████████████████████████████████████████████████████████████████████████████████| 283/283 [01:13<00:00,  3.84it/s]


Range: (2011-01-02, 2011-07-01) | Total pages: 210


100%|████████████████████████████████████████████████████████████████████████████████| 209/209 [01:17<00:00,  2.69it/s]


Range: (2011-07-02, 2012-01-01) | Total pages: 308


100%|████████████████████████████████████████████████████████████████████████████████| 307/307 [01:40<00:00,  3.05it/s]


Range: (2012-01-02, 2012-07-01) | Total pages: 236


100%|████████████████████████████████████████████████████████████████████████████████| 235/235 [00:45<00:00,  5.18it/s]


Range: (2012-07-02, 2013-01-01) | Total pages: 331


100%|████████████████████████████████████████████████████████████████████████████████| 330/330 [01:06<00:00,  4.98it/s]


Range: (2013-01-02, 2013-07-01) | Total pages: 260


100%|████████████████████████████████████████████████████████████████████████████████| 259/259 [01:14<00:00,  3.48it/s]


Range: (2013-07-02, 2014-01-01) | Total pages: 381


100%|████████████████████████████████████████████████████████████████████████████████| 380/380 [02:16<00:00,  2.79it/s]


Range: (2014-01-02, 2014-07-01) | Total pages: 284


100%|████████████████████████████████████████████████████████████████████████████████| 283/283 [02:55<00:00,  1.61it/s]


Range: (2014-07-02, 2015-01-01) | Total pages: 378


100%|████████████████████████████████████████████████████████████████████████████████| 377/377 [03:02<00:00,  2.06it/s]


Range: (2015-01-02, 2015-07-01) | Total pages: 307


100%|████████████████████████████████████████████████████████████████████████████████| 306/306 [01:38<00:00,  3.10it/s]


Range: (2015-07-02, 2016-01-01) | Total pages: 369


100%|████████████████████████████████████████████████████████████████████████████████| 368/368 [01:14<00:00,  4.94it/s]


Range: (2016-01-02, 2016-07-01) | Total pages: 320


100%|████████████████████████████████████████████████████████████████████████████████| 319/319 [01:00<00:00,  5.32it/s]


Range: (2016-07-02, 2017-01-01) | Total pages: 391


100%|████████████████████████████████████████████████████████████████████████████████| 390/390 [01:14<00:00,  5.27it/s]


Range: (2017-01-02, 2017-07-01) | Total pages: 350


100%|████████████████████████████████████████████████████████████████████████████████| 349/349 [02:19<00:00,  2.51it/s]


Range: (2017-07-02, 2018-01-01) | Total pages: 411


100%|████████████████████████████████████████████████████████████████████████████████| 410/410 [07:20<00:00,  1.07s/it]


Range: (2018-01-02, 2018-07-01) | Total pages: 359


100%|████████████████████████████████████████████████████████████████████████████████| 358/358 [06:17<00:00,  1.06s/it]


Range: (2018-07-02, 2019-01-01) | Total pages: 439


100%|████████████████████████████████████████████████████████████████████████████████| 438/438 [01:27<00:00,  5.01it/s]


Range: (2019-01-02, 2019-07-01) | Total pages: 398


100%|████████████████████████████████████████████████████████████████████████████████| 397/397 [01:43<00:00,  3.85it/s]


Range: (2019-07-02, 2020-01-01) | Total pages: 480


100%|████████████████████████████████████████████████████████████████████████████████| 479/479 [01:33<00:00,  5.13it/s]


Range: (2020-01-02, 2020-07-01) | Total pages: 410


100%|████████████████████████████████████████████████████████████████████████████████| 409/409 [02:18<00:00,  2.95it/s]


Range: (2020-07-02, 2021-01-01) | Total pages: 559


100%|████████████████████████████████████████████████████████████████████████████████| 499/499 [02:20<00:00,  3.56it/s]


Range: (2021-01-02, 2021-07-01) | Total pages: 454


100%|████████████████████████████████████████████████████████████████████████████████| 453/453 [03:52<00:00,  1.95it/s]


Range: (2021-07-02, 2022-01-01) | Total pages: 546


100%|████████████████████████████████████████████████████████████████████████████████| 499/499 [02:55<00:00,  2.84it/s]


Range: (2022-01-02, 2022-07-01) | Total pages: 385


100%|████████████████████████████████████████████████████████████████████████████████| 384/384 [01:28<00:00,  4.32it/s]


Range: (2022-07-02, 2023-12-06) | Total pages: 1,014


100%|████████████████████████████████████████████████████████████████████████████████| 499/499 [01:44<00:00,  4.79it/s]


In [7]:
#turn into dataframe
total_movies = pd.DataFrame(total_movies)

#remove any duplicates
total_movies = total_movies.drop_duplicates('title', keep='first').reset_index(drop=True)

#return to original format
total_movies = total_movies.to_dict(orient='records')

#remove movies with no poster path
total_movies = [movie for movie in total_movies if movie['poster_path'] is not None]

In [8]:
#map genre ids to genre text and complete poster path
for i in tqdm(range(len(total_movies))):
    total_movies[i]['genres'] = [genres_list[id_] for id_ in total_movies[i]['genre_ids']]
    total_movies[i]['poster_path'] = f"https://image.tmdb.org/t/p/w500/{total_movies[i]['poster_path']}"
    
print(f"Total Movies: {len(total_movies):,}")

100%|██████████████████████████████████████████████████████████████████████| 134938/134938 [00:00<00:00, 197172.28it/s]

Total Movies: 134,938





In [9]:
with open('../movies_database.json', 'w') as wt_f:
    json.dump(total_movies, wt_f)