# PRACTICA OBLIGATORIA: SQL

La práctica obligatoria de esta unidad consiste en extraer datos de películas de dos fuentes diferentes y cruzarlos, para una fuente tiraremos de Scraping y para la otra de API, y luego practicarás con pandas un poco. Descarga este notebook en tu ordenador y trabaja en local. Ten en cuenta que tendrás que descar los directorios de imágenes y datos adicionales, si los hubiera.
* Recuerda que debes subirla a tu repositorio personal antes de la sesión en vivo para que puntúe adecuadamente.
* Recuerda también que no es necesario que esté perfecta, sólo es necesario que se vea el esfuerzo.
* Esta práctica se resolverá en la sesión en vivo correspondiente y la solución se publicará en el repo del curso.

### Objetivo
El objetivo final es tener un DataFrame con una serie de películas de 2023, sus datos más destacados (titulo, año de lanzamiento, director, guionistas, actores, género(s), coste de producción budget y recaudación a nivel USA y a nivel mundial). Para ello tendrás que acceder a dos fuentes de información y unir los datos, además cada fuente con un método diferente. Al final tendrás que contestar a unas preguntas sencillas.

### #0
Como siempre, haz aquí todos los imports que necesites:

In [5]:
import pandas as pd
import lxml
import requests
from bs4 import BeautifulSoup

### 1.1
Investiga en la página de documentación detallada del endpoint de "Discover" e identifica los parámetros que tenemos que pasar a la API para obtener las 20 películas americanas y las 20 españolas de 2023 más populares.

Nota: Las respuestas de esta API están paginadas, y cada página contiene 20 respuestas, si quisieramos más tendríamos que incluir el parámetro page con su número en peticiones diferentes, por eso para esta práctica lo vamos a limitar a 20 respuestas, para que no haya que jugar con el paginado).

In [8]:
# Configuración con TU API Key (la clave proporcionada)
API_KEY = "eb305eed2936051ab555d2014e0b1f9f"  # Usamos la clave
BASE_URL = "https://api.themoviedb.org/3"

In [9]:
def get_popular_movies(params):
    url = "https://api.themoviedb.org/3/discover/movie"
    response = requests.get(url, params=params)
    return response.json()["results"] if response.status_code == 200 else []

# Parámetros para EE.UU. y España
params_usa = {
    "api_key": "eb305eed2936051ab555d2014e0b1f9f",
    "primary_release_year": 2023,
    "region": "US",
    "sort_by": "popularity.desc",
    "page": 1
}

params_spain = {
    "api_key": "eb305eed2936051ab555d2014e0b1f9f",
    "primary_release_year": 2023,
    "region": "ES",
    "sort_by": "popularity.desc",
    "page": 1
}

# Obtener películas
movies_usa = get_popular_movies(params_usa)
movies_spain = get_popular_movies(params_spain)

# Mostrar títulos
print("Películas populares de EE.UU. (2023):")
for movie in movies_usa:
    print(movie["title"])

print("\nPelículas populares de España (2023):")
for movie in movies_spain:
    print(movie["title"])

Películas populares de EE.UU. (2023):
Cosmic Chaos
The Vigilante
My Fault
Fast X
John Wick: Chapter 4
Spider-Man: Across the Spider-Verse
The X-Treme Riders
Oppenheimer
The Island
Barbie
The Super Mario Bros. Movie
Migration
Transformers: Rise of the Beasts
Mission: Impossible - Dead Reckoning Part One
Flies
Five Nights at Freddy's
The Boy and the Heron
Godzilla Minus One
Elemental
Poor Things

Películas populares de España (2023):
Cosmic Chaos
The Vigilante
My Fault
Fast X
John Wick: Chapter 4
Spider-Man: Across the Spider-Verse
The Island
The X-Treme Riders
Oppenheimer
Barbie
The Super Mario Bros. Movie
Transformers: Rise of the Beasts
Migration
Mission: Impossible - Dead Reckoning Part One
Five Nights at Freddy's
The Boy and the Heron
Elemental
Guardians of the Galaxy Vol. 3
Godzilla Minus One
Flies


## 1.2  
Para poder hacer la llamada a la API con endpoint "Discover" necesitamos pasarle una serie de parámetros como los anteriores y la API_Key. Hay dos formas de hacerlo, mediante la querystring en la url o mediante el argumento params de request. Como tenemos que hacer una consulta para las películas estadounidenses y otra para las españolas, vamos a utilizar los dos métodos.

En este ejercicio se pide usar el método de incluir todos los parámetros en la url mediante la sintaxis ?<parametro>=<valor>&... para obtener las 20 películas norteamericanas más populares de 2023, según TMDb. Para ello crea una variable url_usa a partir de la siguiente guía:

url_usa = base_url + end_point + "?<parametro1>=<valor1>&<parametros2>=<valor2>..."

Donde tendrá que incluir los parámetros "api_key" con valor tu api_key para TMDb y el resto de parámetros que necesites con sus valores para obtener los datos pedidos (utiliza year para el año). Luego utiliza el metodo request adecuado y vuelca la salida en respuesta_usa

Ojo el valor del nombre de Estados Unidos en este caso no es USA, pero casi.

EXTRA: Hay una forma de que te devuelva los datos en español cuando corresponda, a ver si lo logras.

In [10]:
# Configuración básica
base_url = "https://api.themoviedb.org/3"
end_point = "/discover/movie"
api_key = "eb305eed2936051ab555d2014e0b1f9f"  # Tu API key

# Construcción de la URL para películas norteamericanas
url_usa = (
    base_url + end_point + 
    "?api_key=" + api_key +
    "&year=2023" +
    "&region=US" +  # Código para Estados Unidos
    "&sort_by=popularity.desc" +
    "&page=1" +
    "&language=es-ES"  # Opcional: para obtener datos en español
)

# Realizar la petición
respuesta_usa = requests.get(url_usa)

# Verificar la respuesta
if respuesta_usa.status_code == 200:
    peliculas_usa = respuesta_usa.json()["results"]
    print("Películas norteamericanas más populares de 2023:")
    for pelicula in peliculas_usa:
        print(pelicula["title"])
else:
    print(f"Error al obtener datos: {respuesta_usa.status_code}")

Películas norteamericanas más populares de 2023:
Relatos Fantásticos
Frogman
Mar.IA
El último disparo
Culpa mía
El padrino
Blade Runner 2049
Top Gun: Maverick
Avatar
Fast & Furious X
Harry Potter y la piedra filosofal
El caballero oscuro
Spider-Man: No Way Home
Titanic
El castillo ambulante
Matrix
John Wick 4
Spider-Man: Cruzando el Multiverso
Harry Potter y el cáliz de fuego
El señor de los anillos: El retorno del rey


### 1.3
Escribe el código de respuesta y su explicación. Vuelca los datos de la respuesta en una variable datos_usa (es decir el resultado del metodo json). Muestra los campos del json de respuesta y decide cuál es el que vamos a usar para extrarer los datos. Muestra los valores para ese campo y luego asignalo a la variable pelis_usa.

In [11]:
# Construcción de URL con parámetros en querystring
url_usa = (f"{base_url}{end_point}?api_key={api_key}&year=2023&region=US"
          f"&sort_by=popularity.desc&page=1&language=es-ES")

# Realizar petición
respuesta_usa = requests.get(url_usa)
datos_usa = respuesta_usa.json()  # Volcado completo de la respuesta JSON

# 1. Mostrar campos disponibles en el JSON
print("Campos disponibles en la respuesta:")
print(datos_usa.keys())

# 2. Campo que contiene las películas (results)
print("\nPrimeras 2 películas en 'results':")
for pelicula in datos_usa['results'][:2]:
    print("\nTítulo:", pelicula['title'])
    print("ID:", pelicula['id'])
    print("Popularidad:", pelicula['popularity'])
    print("Fecha de lanzamiento:", pelicula['release_date'])
    print("Géneros (IDs):", pelicula['genre_ids'])
    print("---")

# 3. Asignar solo las películas a pelis_usa
pelis_usa = datos_usa['results']

# Verificación
print(f"\nTotal de películas obtenidas: {len(pelis_usa)}")
print("Primer título en pelis_usa:", pelis_usa[0]['title'])

Campos disponibles en la respuesta:
dict_keys(['page', 'results', 'total_pages', 'total_results'])

Primeras 2 películas en 'results':

Título: Relatos Fantásticos
ID: 1165067
Popularidad: 260.8825
Fecha de lanzamiento: 2023-08-03
Géneros (IDs): [53, 878]
---

Título: Frogman
ID: 1139937
Popularidad: 70.508
Fecha de lanzamiento: 2023-08-19
Géneros (IDs): [27, 14]
---

Total de películas obtenidas: 20
Primer título en pelis_usa: Relatos Fantásticos


## 1.4
Convierte los resultados a un DataFrame aprovechando que es una lista de diccionarios con la misma estructura. Asigna lo a "df_movies". Muestra sus primeras filas y la info general.

In [16]:
# Convertir la lista de películas a DataFrame
df_movies = pd.DataFrame(pelis_usa)
df_movies

# Mostrar las primeras 5 filas
print("Primeras 5 películas:")
print(df_movies.head())

# Mostrar información general del DataFrame
print("\nInformación del DataFrame:")
print(df_movies.info())

# Mostrar estadísticas descriptivas de las columnas numéricas
print("\nEstadísticas descriptivas:")
print(df_movies.describe())

Primeras 5 películas:
   adult                     backdrop_path      genre_ids       id  \
0  False  /m2mzlsJjE3UAqeUB5fLUkpWg4Iq.jpg      [53, 878]  1165067   
1  False  /99XoA625Gl9Q5tBKGX1nf2g11yJ.jpg       [27, 14]  1139937   
2  False  /jheQytrDFQGlXtnwWyHPXbP3swS.jpg  [27, 53, 878]   912032   
3  False  /nYQJYdfoy7Tkx6bPzUpmCMmyJ4y.jpg       [53, 28]  1151470   
4  False  /oz4U9eA6ilYf1tyiVuGmkftdLac.jpg    [10749, 18]  1010581   

  original_language original_title  \
0                en   Cosmic Chaos   
1                en        Frogman   
2                es         Mar.IA   
3                en  The Vigilante   
4                es      Culpa mía   

                                            overview  popularity  \
0  Batallas en realidad virtual, supervivencia en...    260.8825   
1                                                        70.5080   
2  Alina es la sonidista de una película erótica....     65.2138   
3  Al regresar de Afganistán, Jessica, una marine...    

### 1.5
De las columnas que tenemos realmente nos interesan unas pocas. Yo me voy a quedar con las siguientes:

col_seleccionadas = ["id","genre_ids","original_title","title","overview","vote_average"]
Añade alguna más si quieres, pero manten las anteriores siempre. Construye un nuevo DataFrame, "df_pop_usa", que contenga sólo las columnas seleccionadas

In [18]:
# Columnas que nos interesan (las obligatorias + añado algunas relevantes)
col_seleccionadas = [
    "id",
    "genre_ids",
    "original_title",
    "title",
    "overview",
    "vote_average",
    "release_date",  # Añadida: fecha de lanzamiento
    "popularity"     # Añadida: score de popularidad en TMDb
]

# Crear nuevo DataFrame con las columnas seleccionadas
df_pop_usa = df_movies[col_seleccionadas].copy()  

# Mostrar las primeras filas del nuevo DataFrame
print("DataFrame reducido con columnas seleccionadas:")
print(df_pop_usa.head())

# Mostrar información del nuevo DataFrame
print("\nInformación del DataFrame reducido:")
print(df_pop_usa.info())

DataFrame reducido con columnas seleccionadas:
        id      genre_ids original_title                title  \
0  1165067      [53, 878]   Cosmic Chaos  Relatos Fantásticos   
1  1139937       [27, 14]        Frogman              Frogman   
2   912032  [27, 53, 878]         Mar.IA               Mar.IA   
3  1151470       [53, 28]  The Vigilante    El último disparo   
4  1010581    [10749, 18]      Culpa mía            Culpa mía   

                                            overview  vote_average  \
0  Batallas en realidad virtual, supervivencia en...         6.900   
1                                                            5.000   
2  Alina es la sonidista de una película erótica....         0.000   
3  Al regresar de Afganistán, Jessica, una marine...         5.900   
4  Noah debe dejar su ciudad, novio y amigos para...         7.823   

  release_date  popularity  
0   2023-08-03    260.8825  
1   2023-08-19     70.5080  
2   2024-06-13     65.2138  
3   2023-09-08     63.903

### 1.6
Guardamos ese dataframe para luego, ahora vamos a buscar las películas españolas. Para ello vamos a probar el otro método, ahora crea un diccionario siguiendo esta estructura:

querystring = {
    "api_key": "PON AQUI TU API-KEY",
    "parametro1": "valor1",
    ...
}

In [19]:
# Configuración
base_url = "https://api.themoviedb.org/3"
endpoint = "/discover/movie"

# Diccionario de parámetros (querystring)
querystring = {
    "api_key": "eb305eed2936051ab555d2014e0b1f9f",  # Tu API Key
    "year": 2023,
    "region": "ES",  # Código para España
    "sort_by": "popularity.desc",
    "page": 1,
    "language": "es-ES",  # Para datos en español
    "with_original_language": "es"  # Filtra por idioma original español (opcional)
}

# Realizar la petición
respuesta_es = requests.get(base_url + endpoint, params=querystring)
datos_es = respuesta_es.json()

# Extraer solo las películas
pelis_es = datos_es.get('results', [])

# Convertir a DataFrame (con las mismas columnas que el anterior)
df_pop_es = pd.DataFrame(pelis_es)[col_seleccionadas].copy()

# Mostrar resultados
print(f"\nTotal de películas españolas obtenidas: {len(df_pop_es)}")
print("\nPrimeras 3 películas españolas:")
print(df_pop_es.head(3))


Total de películas españolas obtenidas: 20

Primeras 3 películas españolas:
        id      genre_ids original_title      title  \
0   912032  [27, 53, 878]         Mar.IA     Mar.IA   
1  1010581    [10749, 18]      Culpa mía  Culpa mía   
2  1177908           [53]         Moscas     Moscas   

                                            overview  vote_average  \
0  Alina es la sonidista de una película erótica....         0.000   
1  Noah debe dejar su ciudad, novio y amigos para...         7.823   
2  El señor Machi es un empresario aficionado a l...         6.500   

  release_date  popularity  
0   2023-10-12     65.2138  
1   2023-06-08     56.6213  
2   2023-10-06     18.3869  


### 1.7
Ahora construye la url_spain, pero ten en cuenta que ya sólo necesitas la url base y el endpoint

In [20]:
# Construcción de la URL básica (sin parámetros)
url_spain = f"{base_url}{endpoint}"

# Verificación
print("URL para películas españolas (sin parámetros):")
print(url_spain)

URL para películas españolas (sin parámetros):
https://api.themoviedb.org/3/discover/movie


### 1.8
Lanza la petición usando el método adecuado y con argumentos url_spain para la url y el diccionario creado en #1.6 para el argumento "params" (que es como se envían parametros fuera de la url, hay otra forma a través del parámetro data, pero lo iremos viendo a lo largo del curso). Asigna la respuesta a respuesta_spain, y muestra su "status_code" y su "reason".

In [21]:
# Lanzar la petición con el diccionario de parámetros
respuesta_spain = requests.get(url_spain, params=querystring)

# Mostrar información de la respuesta
print("Estado de la respuesta:")
print(f"Código de estado (status_code): {respuesta_spain.status_code}")
print(f"Razón (reason): {respuesta_spain.reason}")

# Verificación adicional (opcional)
if respuesta_spain.status_code == 200:
    print("\n¡Petición exitosa! Se encontraron películas españolas.")
else:
    print("\nError en la petición. Revisa los parámetros o la API Key.")

Estado de la respuesta:
Código de estado (status_code): 200
Razón (reason): OK

¡Petición exitosa! Se encontraron películas españolas.


### 1.9
Repite todo el proceso que hicimos para las películas norteamericanas hasta obtener un dataframe similar (con las mismas columnas), llámalo df_pop_spain. Si no tienes el API-Key o no has sabido obtener los datos de la API, utiliza los datos que hay en "./data/spain_movies.json"

In [22]:
# 1. Configuración
base_url = "https://api.themoviedb.org/3"
endpoint = "/discover/movie"
api_key = "eb305eed2936051ab555d2014e0b1f9f"  # Reemplaza si es necesario

# 2. Parámetros para películas españolas
querystring = {
    "api_key": api_key,
    "year": 2023,
    "region": "ES",
    "sort_by": "popularity.desc",
    "page": 1,
    "language": "es-ES"
}

# 3. Realizar petición
respuesta_spain = requests.get(f"{base_url}{endpoint}", params=querystring)

if respuesta_spain.status_code == 200:
    # 4. Procesar datos
    datos_spain = respuesta_spain.json()
    pelis_es = datos_spain.get('results', [])
    
    # 5. Crear DataFrame (mismas columnas que df_pop_usa)
    columnas_seleccionadas = [
        "id", "genre_ids", "original_title", "title", 
        "overview", "vote_average", "release_date", "popularity"
    ]
    df_pop_spain = pd.DataFrame(pelis_es)[columnas_seleccionadas].copy()
    
    print("DataFrame de películas españolas creado correctamente!")
    print(f"Número de películas: {len(df_pop_spain)}")
    print(df_pop_spain.head())
else:
    print(f"Error al obtener datos: {respuesta_spain.status_code} - {respuesta_spain.reason}")

DataFrame de películas españolas creado correctamente!
Número de películas: 20
        id      genre_ids original_title                title  \
0  1165067      [53, 878]   Cosmic Chaos  Relatos Fantásticos   
1  1139937       [27, 14]        Frogman              Frogman   
2   912032  [27, 53, 878]         Mar.IA               Mar.IA   
3  1151470       [53, 28]  The Vigilante    El último disparo   
4  1010581    [10749, 18]      Culpa mía            Culpa mía   

                                            overview  vote_average  \
0  Batallas en realidad virtual, supervivencia en...         6.900   
1                                                            5.000   
2  Alina es la sonidista de una película erótica....         0.000   
3  Al regresar de Afganistán, Jessica, una marine...         5.900   
4  Noah debe dejar su ciudad, novio y amigos para...         7.823   

  release_date  popularity  
0   2023-08-03    260.8825  
1   2024-09-26     70.5080  
2   2023-10-12     65.

### 1.10
Para concluir esta parte, junta los dos dataframes en uno solo, df_base_movies, usando el método pd.concat de pandas. Luego convierte la columna id en su índice.

In [23]:
import pandas as pd

# 1. Combinar los DataFrames verticalmente
df_base_movies = pd.concat(
    [df_pop_usa, df_pop_spain],
    axis=0,          # Concatenar verticalmente (filas)
    ignore_index=False # Mantener índices originales (importante para el paso siguiente)
)

# 2. Convertir la columna 'id' en índice
df_base_movies.set_index('id', inplace=True)

# 3. Verificar el resultado
print("DataFrame combinado - Primeras filas:")
print(df_base_movies.head())
print("\nDataFrame combinado - Últimas filas:")
print(df_base_movies.tail())
print("\nInformación del DataFrame:")
print(df_base_movies.info())

DataFrame combinado - Primeras filas:
             genre_ids original_title                title  \
id                                                           
1165067      [53, 878]   Cosmic Chaos  Relatos Fantásticos   
1139937       [27, 14]        Frogman              Frogman   
912032   [27, 53, 878]         Mar.IA               Mar.IA   
1151470       [53, 28]  The Vigilante    El último disparo   
1010581    [10749, 18]      Culpa mía            Culpa mía   

                                                  overview  vote_average  \
id                                                                         
1165067  Batallas en realidad virtual, supervivencia en...         6.900   
1139937                                                            5.000   
912032   Alina es la sonidista de una película erótica....         0.000   
1151470  Al regresar de Afganistán, Jessica, una marine...         5.900   
1010581  Noah debe dejar su ciudad, novio y amigos para...         7.82