# FASE #1 Extracción de API

In [1]:
# importamos las librerías que necesitamos

# Tratamiento de datos
import pandas as pd

# Uso de API's
import requests

# Importar librerías para procesamiento de texto
import re

# Configuración
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames=(tablas de excel)

In [2]:
#función establecida para validara la API

def llamar_api(url, headers, querystring):
   
    llamada = requests.get(url, headers=headers, params=querystring)  # Realiza una solicitud GET a la URL proporcionada y almacena la respuesta en 'llamada'.
    print(f"La llamada a la API nos ha dado una respuesta de tipo: {llamada.status_code}")  # Imprime el código de estado de la respuesta.

    if llamada.status_code != 200:  # Comprueba si la respuesta no fue exitosa (código de estado distinto de 200).
        print(f"El motivo por el que la llamada falló es {llamada.reason}")  # Imprime la razón de la falla.
    else:
        return llamada.json()  # Si la llamada fue exitosa, devuelve los datos de respuesta en formato JSON.


In [3]:
key_movies = ''
url_movies = 'https://moviesdatabase.p.rapidapi.com/titles'

# Tomamos tres parametros porque es lo principal
def obtener_peliculas(generos, startYear, endYear):
    listado_peliculas = []  # Lista para almacenar las películas como tuplas
    
    for genero in generos: # Recorremos la lista de géneros que queremos buscar.
        print(f"Obteniendo películas del género {genero}...")
        
        for paginas in range(1, 15):  # Recorrer has las páginas que le indique
            print(f"    Página {paginas}...")
            
            try:               
                # Lo que nos interesa de acuerdo a la API 
                querystring = {"genre": genero, "startYear": str(startYear), "endYear": str(endYear), "page": paginas, "limit": 50, 'sort':'year.incr'}
                headers = {
                    "X-RapidAPI-Key": key_movies,
                    "X-RapidAPI-Host": "moviesdatabase.p.rapidapi.com"
                }
                # Llamamos a la API que ya nos dío un 200 antes
                response = llamar_api(url_movies, headers, querystring)
                
                # Verifica si response contiene datos y si la clave "results" está presente en el diccionario response.
                if response and "results" in response:
                    peliculas_pagina = response["results"] # Guardamos la respuesta en la variable  
                    
                    for pelicula in peliculas_pagina: # Iteramos sobre cada película en la lista 
                        
                        # Verificar si la película es del tipo "movie" o "short"
                        # Utilizamos .get() para acceder de manera segura, evitando errores si la clave no está. 
                        if pelicula.get('titleType', {}).get('id') in ["movie", "short"]:
                            # Extraer los datos relevantes de la película
                            nombre = pelicula.get('titleText', {}).get('text')
                            año = pelicula.get('releaseYear', {}).get('year')
                            mes = pelicula.get('releaseDate', {}).get('month')
                            id_pelicula = pelicula.get('id')
                            tipo_pelicula = pelicula.get('titleType', {}).get('id')
                            
                            # Crear la tupla y agregarla a la lista
                            tupla_pelicula = (tipo_pelicula, nombre, año, mes, id_pelicula, genero)
                            listado_peliculas.append(tupla_pelicula)
                            
                            # Imprimir el tipo de película
                            #print(f"Tipo de película: {tipo_pelicula}, Nombre: {nombre}, Año: {año}, Mes: {mes}, ID: {id_pelicula}, Género: {genero}")
            except:
                pass
            
    return listado_peliculas

# Definir los géneros y el rango de años
generos = ["Drama", "Comedy", "Action", "Fantasy", "Horror", "Mystery", "Romance", "Thriller"]
startYear = 2015
endYear = 2020

# Para llamar a la función y guardar la info en una variable, ejemplo: listado_completo = obtener_peliculas(generos, startYear, endYear)


In [None]:
# Para sacar la información por cada año con sus detalles llamando a la función
año_2015 = obtener_peliculas(generos, 2015, 2015)
año_2016 = obtener_peliculas(generos, 2016, 2016)
año_2017 = obtener_peliculas(generos, 2017, 2017)
año_2018 = obtener_peliculas(generos, 2018, 2018)
año_2019 = obtener_peliculas(generos, 2019, 2019)
año_2020 = obtener_peliculas(generos, 2020, 2020)

In [10]:
# Volverlo un cuadro de excel - DataFrame
peliculas_2015 = pd.DataFrame(año_2015, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])
peliculas_2016 = pd.DataFrame(año_2016, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])
peliculas_2017 = pd.DataFrame(año_2017, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])
peliculas_2018 = pd.DataFrame(año_2018, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])
peliculas_2019 = pd.DataFrame(año_2019, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])
peliculas_2020 = pd.DataFrame(año_2020, columns=['Tipo', 'Nombre', 'Año', 'Mes', 'Id_pelicula','Genero'])

In [33]:
# Para descargar el CSV de cada año lo hacemos asi:
peliculas_2015.to_csv('datos_2015.csv', index=False)
peliculas_2016.to_csv('datos_2016.csv', index=False)
peliculas_2017.to_csv('datos_2017.csv', index=False)
peliculas_2018.to_csv('datos_2018.csv', index=False)
peliculas_2019.to_csv('datos_2019.csv', index=False)
peliculas_2020.to_csv('datos_2020.csv', index=False)

In [47]:
#Tener todos los años en una solo variable de tuplas
tuplas_todos_los_años = [año_2020, año_2019, año_2018, año_2017, año_2016, año_2015]