In [1]:
import pandas as pd
import requests

In [7]:
def extraer_datos(anio_inicial, anio_final, genero , tipo , key):
    pelis = {}
    anio_distinto = False

    print(f"--- Extrayendo datos ---")
    print(" ")

    for anio in range(anio_inicial, anio_final+1): 

        print(f"Iterando por el año {anio}:")
        
        for pag in range(1, 51): # Itera por un rango determinado de páginas, ya que por cada página sólo se puede obtener un máximo de 50 entradas
            if anio_distinto: # Condición para que detenga el bucle si el año de lanzamiento es distinto al solicitado (variable = True)
                break

            url = "https://moviesdatabase.p.rapidapi.com/titles"
            querystring = {"genre": genero, "year": anio, "page": pag, 'sort': 'year.incr' , 'titleType' : tipo} # Parámetros de la URL (versión 1, si no funciona o devuelve menos resultados de lo esperado >>> reemplazar por versión 2)
            #(versión 2: querystring = {"genre": genero, "startYear": anio, "endYear": anio, "page": pag, 'titleType' : tipo})
            headers = {"X-RapidAPI-Key": key, "X-RapidAPI-Host": "moviesdatabase.p.rapidapi.com"}
            response = requests.get(url, headers=headers, params=querystring)
            response = response.json()

            try: # Intenta acceder al diccionario
                response['results']

            except: # Si no puede acceder significa que la url ha devuelto otra cosa y que, probablemente, se haya llegado al máximo de solicituds permitidas por hora
                print(f"Se ha llegado al límite de solicitudes. Deteniendo la iteración")
                break # Si se ha llegado al límite de solicitudes, detiene el bucle para que este no dé error

            # Revisa si la página que ha devuelto la API coincide con la página solicitada (se ha detectado que en el caso de no encontrar una página, la API devuelve la 1 por defecto y eso provocaba repeticiones de datos). 
            if response.get('page') != str(pag):
                print(f"La página {pag} no existe. Deteniendo la iteración.")
                break # Si los datos no coinciden, detiene el bucle

            # Revisa si no encuentra más entradas y en caso afirmativo detiene el bucle
            if len(response['results']) == 0:
                print(f"Ya no hay más resultados. Deteniendo la iteración")
                break
            
            # Itera por cada película/serie/elemento dentro de la lista de resultados
            for pelicula in response['results']:
                release_year = pelicula.get('releaseYear') # Asigna el valor de releaseYear a una variable

                # Revisa si el valor de releaseYear no es un None (es decir, existe) y si es distinto al año solicitado. En caso de que así sea, detiene el bucle
                if release_year is not None and pelicula['releaseYear']['year'] != anio:
                    print(f"Se ha detectado un año diferente a {anio}. Deteniendo la iteración")
                    anio_distinto = True  # Asigna el valor True a la variable anio_distinto para que sirva como parada del primer bucle for
                    break

            # Añade los resultados encontrados si ninguna de las anteriores condiciones para detener el bucle se ha cumplido y continúa con la búsqueda
            pelis[(anio, pag)] = response['results']

        print(" ")

    print(f"--- Extracción de datos finalizada ---")
    
    return pelis

In [8]:
anio_inicial = 2000
anio_final = 2004
genero = "Drama"
tipo = "movie"
key = "b38cd0a830msh149cd093d780ffcp1fa141jsnc85ccd4fb846" # Cambiar por la key personal

pelis_drama = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2020:
 
Iterando por el año 2021:
 
Iterando por el año 2022:
 
Iterando por el año 2023:
 
--- Extracción de datos finalizada ---


In [75]:
anio_inicial = 2000
anio_final = 2004
genero = "Drama"
tipo = "short"
key = "22f73ac8d3msh933da10d160edbcp19332ajsndd3d7103a397" # Cambiar por la key personal

cortos_drama = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2000:
 
Iterando por el año 2001:
 
Iterando por el año 2002:
 
Iterando por el año 2003:
 
Iterando por el año 2004:
 
--- Extracción de datos finalizada ---


In [82]:
anio_inicial = 2000
anio_final = 2004
genero = "Comedy"
tipo = "movie"
key = "22f73ac8d3msh933da10d160edbcp19332ajsndd3d7103a397" # Cambiar por la key personal

pelis_comedia = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2000:
 
Iterando por el año 2001:
 
Iterando por el año 2002:
 
Iterando por el año 2003:
 
Iterando por el año 2004:
 
--- Extracción de datos finalizada ---


In [91]:
anio_inicial = 2000
anio_final = 2004
genero = "Comedy"
tipo = "short"
key = "22f73ac8d3msh933da10d160edbcp19332ajsndd3d7103a397" # Cambiar por la key personal

cortos_comedia = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2000:
 
Iterando por el año 2001:
 
Iterando por el año 2002:
 
Iterando por el año 2003:
 
Iterando por el año 2004:
 
--- Extracción de datos finalizada ---


In [94]:
anio_inicial = 2000
anio_final = 2004
genero = "Action"
tipo = "movie"
key = "22f73ac8d3msh933da10d160edbcp19332ajsndd3d7103a397" # Cambiar por la key personal

pelis_accion = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2000:
 
Iterando por el año 2001:
 
Iterando por el año 2002:
 
Iterando por el año 2003:
 
Iterando por el año 2004:
 
--- Extracción de datos finalizada ---


In [95]:
anio_inicial = 2000
anio_final = 2004
genero = "Action"
tipo = "short"
key = "b38cd0a830msh149cd093d780ffcp1fa141jsnc85ccd4fb846" # Cambiar por la key personal

cortos_accion = extraer_datos(anio_inicial , anio_final , genero , tipo , key)

--- Extrayendo datos ---
 
Iterando por el año 2000:
Ya no hay más resultados. Deteniendo la iteración
 
Iterando por el año 2001:
Ya no hay más resultados. Deteniendo la iteración
 
Iterando por el año 2002:
Ya no hay más resultados. Deteniendo la iteración
 
Iterando por el año 2003:
Ya no hay más resultados. Deteniendo la iteración
 
Iterando por el año 2004:
Ya no hay más resultados. Deteniendo la iteración
 
--- Extracción de datos finalizada ---


In [9]:
def limpiar_datos(dict_json):
    
    peliculas = []
    
    # Itera por cada clave del diccionario, es decir: Va entrando en 2000, 1 > 2000 , 2 ... 
    for anio_pagina in dict_json:
        
        # Itera por cada uno de los valores que hay por página y año
        for elemento in dict_json[anio_pagina]:
                
            if elemento['titleType']['id'] == 'movie':
                
                tipo = 'Pelicula'
                
            elif elemento['titleType']['id'] == 'short':
                
                tipo = 'Cortometraje'
        
            nombre = elemento['titleText']['text'] # Agrega el título de la película o el cortometraje
            anio_estreno = elemento['releaseYear']['year'] # Agrega el año de estreno
            id_pelicula = elemento['id'] # Agrega el valor de la ID
            release_date = elemento.get('releaseDate') # Asigna el valor de releaseDate a una variable 
            
            if release_date is not None: # Revisa que el valor de release_date no sea un None
                mes_estreno = elemento['releaseDate']['month']  # Si no es un None, agrega el mes de estreno
                
            else:
                mes_estreno = "-" # Si el valor de release_date es un None, agrega "-" ya que no tenemos el dato del mes
            
            pelicula_corto = (tipo , nombre , anio_estreno , mes_estreno , id_pelicula) # Crea una tupla con todos los elementos de la película o el cortometraje
            peliculas.append(pelicula_corto) # Añade la tupla a la lista de tuplas
    
    return peliculas

In [10]:
pelis_drama_limpio = limpiar_datos(pelis_drama)

In [101]:
cortos_drama_limpio = limpiar_datos(cortos_drama)

In [102]:
pelis_comedia_limpio = limpiar_datos(pelis_comedia)

In [103]:
cortos_comedia_limpio = limpiar_datos(cortos_comedia)

In [104]:
pelis_accion_limpio = limpiar_datos(pelis_accion)

In [105]:
cortos_accion_limpio = limpiar_datos(cortos_accion)

In [11]:
def guardar_csv (dict_json):
    
    df_dict_json = pd.DataFrame(dict_json)
    
    df_dict_json.to_csv(input("Indica el nombre del archivo. Recuerda poner .csv al final"))

In [12]:
guardar_csv(pelis_drama_limpio) # Ejemplo de input: pelis_drama_2000_2004.csv

In [81]:
guardar_csv(cortos_drama_limpio) # Ejemplo de input: cortos_drama_2000_2004.csv

In [86]:
guardar_csv(pelis_comedia_limpio) 

In [93]:
guardar_csv(cortos_comedia_limpio)

In [98]:
guardar_csv(pelis_accion_limpio)

In [99]:
guardar_csv(cortos_accion_limpio)

In [8]:
import random

ultimo_descanso = 0

for i in range (0 , 2500):
    
    # Condición para asegurar que una vez que se haya hecho un descanso, no se repita hasta pasado un mínimo de iteraciones
    if i >= ultimo_descanso + 200:
        descanso = random.randint(5, 20) # Escoge un número random y lo asigna a la variable descanso
        
        # Si el número de iteración es divisible por el número de descanso, se para durante una cantidad de segundos aleatoria
        if i != 0 and i % descanso == 0:
            tiempo_descanso = random.randint(30 , 330)
            ultimo_descanso = i 
            print(f"En la iteración número {i} me he ido a por un cafecito ☕. Volveré en {round(tiempo_descanso/60 , 1)} minutos")
            print(f"¡Ya estoy de vuelta! Sigo con lo mío 💫")
            print(' ')

En la iteración número 228 me he ido a por un cafecito ☕. Volveré en 3.2 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 441 me he ido a por un cafecito ☕. Volveré en 1.9 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 660 me he ido a por un cafecito ☕. Volveré en 2.9 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 860 me he ido a por un cafecito ☕. Volveré en 3.0 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 1070 me he ido a por un cafecito ☕. Volveré en 1.8 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 1288 me he ido a por un cafecito ☕. Volveré en 3.0 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 1496 me he ido a por un cafecito ☕. Volveré en 4.6 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración número 1701 me he ido a por un cafecito ☕. Volveré en 0.6 minutos
¡Ya estoy de vuelta! Sigo con lo mío 💫
 
En la iteración núme