# Ejercicio 1. Creación de una base de datos de pelícuals extraídas de una API

En este ejercicio vamos a poner en práctica lo que hemos aprendido sobre la extracción de contenido de
APIs y la creación de una base de datos con sus tablas. Siguiendo las fases propuestas, conseguiremos
extraer datos de películas, almacenarlos en un DataFrame y finalmente crear una base de datos con la
estructura adecuada.

## Fase 1: Extracción de datos de películas

Nuestro primer objetivo es extraer los datos de películas de la API. En Adalab nos hemos creado un API
muy sencilla que contiene la siguiente información:

Datos a extraer:
- Título
- Año de lanzamiento
- Duración (en minutos)
- Género
- Contenido para adultos (sí o no)

El objetivo es extraer 100 películas de esta API utilizando el siguiente endpoint:
https://beta.adalab.es/resources/apis/pelis/pelis.json

In [3]:
# Importamos primero las librerías requests y pandas:
import requests
import pandas as pd

In [4]:
url = "https://beta.adalab.es/resources/apis/pelis/pelis.json"

In [5]:
llamada = requests.get(url) # Relizamos la solicitud get al link proporcionado.
if llamada.status_code == 200:
    datos = llamada.json()
    print(datos)
else:
    print (f"Error --> {llamada.status_code}")

[{'id': 1, 'titulo': 'The Godfather', 'año': 1972, 'duracion': 175, 'genero': 'Crimen', 'adultos': False, 'subtitulos': ['es', 'en']}, {'id': 2, 'titulo': 'The Godfather Part II', 'año': 1974, 'duracion': 202, 'genero': 'Crimen', 'adultos': False, 'subtitulos': ['es', 'en']}, {'id': 3, 'titulo': 'Pulp Fiction', 'año': 1994, 'duracion': 154, 'genero': 'Crimen', 'adultos': True, 'subtitulos': ['es', 'en']}, {'id': 4, 'titulo': 'Forrest Gump', 'año': 1994, 'duracion': 142, 'genero': 'Drama', 'adultos': False, 'subtitulos': ['es', 'en', 'fr']}, {'id': 5, 'titulo': 'The Dark Knight', 'año': 2008, 'duracion': 152, 'genero': 'Acción', 'adultos': False, 'subtitulos': ['es', 'en']}, {'id': 6, 'titulo': 'Fight Club', 'año': 1999, 'duracion': 139, 'genero': 'Drama', 'adultos': True, 'subtitulos': ['es', 'en']}, {'id': 7, 'titulo': 'Inception', 'año': 2010, 'duracion': 148, 'genero': 'Ciencia ficción', 'adultos': False, 'subtitulos': ['es', 'en', 'de']}, {'id': 8, 'titulo': 'The Matrix', 'año': 19

In [6]:
datos

[{'id': 1,
  'titulo': 'The Godfather',
  'año': 1972,
  'duracion': 175,
  'genero': 'Crimen',
  'adultos': False,
  'subtitulos': ['es', 'en']},
 {'id': 2,
  'titulo': 'The Godfather Part II',
  'año': 1974,
  'duracion': 202,
  'genero': 'Crimen',
  'adultos': False,
  'subtitulos': ['es', 'en']},
 {'id': 3,
  'titulo': 'Pulp Fiction',
  'año': 1994,
  'duracion': 154,
  'genero': 'Crimen',
  'adultos': True,
  'subtitulos': ['es', 'en']},
 {'id': 4,
  'titulo': 'Forrest Gump',
  'año': 1994,
  'duracion': 142,
  'genero': 'Drama',
  'adultos': False,
  'subtitulos': ['es', 'en', 'fr']},
 {'id': 5,
  'titulo': 'The Dark Knight',
  'año': 2008,
  'duracion': 152,
  'genero': 'Acción',
  'adultos': False,
  'subtitulos': ['es', 'en']},
 {'id': 6,
  'titulo': 'Fight Club',
  'año': 1999,
  'duracion': 139,
  'genero': 'Drama',
  'adultos': True,
  'subtitulos': ['es', 'en']},
 {'id': 7,
  'titulo': 'Inception',
  'año': 2010,
  'duracion': 148,
  'genero': 'Ciencia ficción',
  'adultos

In [7]:
datos_insercion_peliculas = []

for pelicula in datos:
    datos_insercion_peliculas.append(tuple(pelicula.values()))
print(datos_insercion_peliculas)

[(1, 'The Godfather', 1972, 175, 'Crimen', False, ['es', 'en']), (2, 'The Godfather Part II', 1974, 202, 'Crimen', False, ['es', 'en']), (3, 'Pulp Fiction', 1994, 154, 'Crimen', True, ['es', 'en']), (4, 'Forrest Gump', 1994, 142, 'Drama', False, ['es', 'en', 'fr']), (5, 'The Dark Knight', 2008, 152, 'Acción', False, ['es', 'en']), (6, 'Fight Club', 1999, 139, 'Drama', True, ['es', 'en']), (7, 'Inception', 2010, 148, 'Ciencia ficción', False, ['es', 'en', 'de']), (8, 'The Matrix', 1999, 136, 'Ciencia ficción', False, ['es', 'en']), (9, 'The Shawshank Redemption', 1994, 142, 'Drama', False, ['es', 'en']), (10, 'Interstellar', 2014, 169, 'Ciencia ficción', False, ['es', 'en']), (11, 'Gladiator', 2000, 155, 'Acción', False, ['es', 'en']), (12, 'Titanic', 1997, 195, 'Romance', False, ['es', 'en', 'fr']), (13, 'Avatar', 2009, 162, 'Ciencia ficción', False, ['es', 'en']), (14, 'Saving Private Ryan', 1998, 169, 'Bélico', True, ['es', 'en']), (15, 'The Silence of the Lambs', 1991, 118, 'Thrille

In [8]:
datos_insercion_peliculas #claro, pero aqui todavia nos sale el id, y los subtitutlos, que no los queremos.

[(1, 'The Godfather', 1972, 175, 'Crimen', False, ['es', 'en']),
 (2, 'The Godfather Part II', 1974, 202, 'Crimen', False, ['es', 'en']),
 (3, 'Pulp Fiction', 1994, 154, 'Crimen', True, ['es', 'en']),
 (4, 'Forrest Gump', 1994, 142, 'Drama', False, ['es', 'en', 'fr']),
 (5, 'The Dark Knight', 2008, 152, 'Acción', False, ['es', 'en']),
 (6, 'Fight Club', 1999, 139, 'Drama', True, ['es', 'en']),
 (7, 'Inception', 2010, 148, 'Ciencia ficción', False, ['es', 'en', 'de']),
 (8, 'The Matrix', 1999, 136, 'Ciencia ficción', False, ['es', 'en']),
 (9, 'The Shawshank Redemption', 1994, 142, 'Drama', False, ['es', 'en']),
 (10, 'Interstellar', 2014, 169, 'Ciencia ficción', False, ['es', 'en']),
 (11, 'Gladiator', 2000, 155, 'Acción', False, ['es', 'en']),
 (12, 'Titanic', 1997, 195, 'Romance', False, ['es', 'en', 'fr']),
 (13, 'Avatar', 2009, 162, 'Ciencia ficción', False, ['es', 'en']),
 (14, 'Saving Private Ryan', 1998, 169, 'Bélico', True, ['es', 'en']),
 (15, 'The Silence of the Lambs', 1991,

In [9]:
datos_insercion_sql = [] #aqui quito la informacion que no quiero (como el id o los subtitulos), y lo guardo en una tupla

for pelicula in datos:
    fila = (pelicula['titulo'],
            pelicula['año'],
            pelicula['duracion'],
            pelicula['genero'],
            pelicula['adultos'])

    datos_insercion_sql.append(fila)
datos_insercion_sql

[('The Godfather', 1972, 175, 'Crimen', False),
 ('The Godfather Part II', 1974, 202, 'Crimen', False),
 ('Pulp Fiction', 1994, 154, 'Crimen', True),
 ('Forrest Gump', 1994, 142, 'Drama', False),
 ('The Dark Knight', 2008, 152, 'Acción', False),
 ('Fight Club', 1999, 139, 'Drama', True),
 ('Inception', 2010, 148, 'Ciencia ficción', False),
 ('The Matrix', 1999, 136, 'Ciencia ficción', False),
 ('The Shawshank Redemption', 1994, 142, 'Drama', False),
 ('Interstellar', 2014, 169, 'Ciencia ficción', False),
 ('Gladiator', 2000, 155, 'Acción', False),
 ('Titanic', 1997, 195, 'Romance', False),
 ('Avatar', 2009, 162, 'Ciencia ficción', False),
 ('Saving Private Ryan', 1998, 169, 'Bélico', True),
 ('The Silence of the Lambs', 1991, 118, 'Thriller', True),
 ('Se7en', 1995, 127, 'Thriller', True),
 ('Goodfellas', 1990, 146, 'Crimen', True),
 ('The Departed', 2006, 151, 'Crimen', True),
 ('Whiplash', 2014, 106, 'Drama', False),
 ('La La Land', 2016, 128, 'Musical', False),
 ('The Lord of the Ri

In [10]:
# Creamos el data frame para ver los datos que insertaremos en SQL.
df_peliculas = pd.DataFrame(datos_insercion_sql, columns = ['Título', 'Año', 'Duración', 'Género', 'Adultos'] )
df_peliculas

Unnamed: 0,Título,Año,Duración,Género,Adultos
0,The Godfather,1972,175,Crimen,False
1,The Godfather Part II,1974,202,Crimen,False
2,Pulp Fiction,1994,154,Crimen,True
3,Forrest Gump,1994,142,Drama,False
4,The Dark Knight,2008,152,Acción,False
...,...,...,...,...,...
95,La vita è bella,1997,116,Drama,False
96,Requiem for a Dream,2000,102,Drama,True
97,Memento,2000,113,Thriller,True
98,Eternal Sunshine of the Spotless Mind,2004,108,Drama,False


In [11]:
# Para ver qué géneros tenemos:
genero = []
for pelicula in datos:
    tipo_genero = pelicula['genero']
    if tipo_genero not in genero:
        genero.append(tipo_genero)
genero

['Crimen',
 'Drama',
 'Acción',
 'Ciencia ficción',
 'Romance',
 'Bélico',
 'Thriller',
 'Musical',
 'Fantasía',
 'Aventura',
 'Animación',
 'Biografía',
 'Terror',
 'Suspense',
 'Comedia',
 'Western']

## Fase 2: Creación de la Base de Datos

Creamos la base de datos usando Python.



In [2]:
import mysql.connector
from mysql.connector import errorcode

In [25]:
# Hacemos la conexión con el servidor:
cnx = mysql.connector.connect(
    user='eva5f',
    password='1006',
    host='127.0.0.1',
    auth_plugin = 'mysql_native_password'
)
# Imprimimos el objeto de conexión para verificar
print(cnx)

<mysql.connector.connection_cext.CMySQLConnection object at 0x118276310>


In [26]:
mycursor = cnx.cursor() # Iniciamos el cursor

mycursor.execute("CREATE SCHEMA IF NOT EXISTS peliculas;") # creamos el esquema en SQL

In [27]:
mycursor.close()
cnx.close() # cerramos la conexión

## Fase 3: Inserción de los Datos en la Base de Datos

In [None]:
# Creo las dos tablas en SQL en el esquema "peliculas" ya creado con Python. 

# He introducido los generos en la tabla generos para ver qué IDs le ha dado SQL. El resultado es: 
    #'1','Crimen'
    #'2','Drama'
    #'3','Acción'
    #'4','Ciencia ficción'
    #'5','Romance'
    #'6','Bélico'
    #'7','Thriller'
    #'8','Musical'
    #'9','Fantasía'
    #'10','Aventura'
    #'11','Animación'
    #'12','Biografía'
    #'13','Terror'
    #'14','Suspense'
    #'15','Comedia'
    #'16','Western'

In [13]:
# ASIGNO CADA GÉNERO AL ID_GENERO USANDO UN BUCLE FOR:
datos_insercion_sql_final = [] 

for pelicula in datos:
    nombre_genero = pelicula["genero"]
    if nombre_genero == "Crimen":
        id_genero = 1
    elif nombre_genero == "Drama":
        id_genero = 2
    elif nombre_genero == "Acción":
        id_genero = 3
    elif nombre_genero == "Ciencia ficción":
        id_genero = 4
    elif nombre_genero == "Romance":
        id_genero = 5 
    elif nombre_genero == "Bélico":
        id_genero = 6
    elif nombre_genero == "Thriller":
        id_genero = 7
    elif nombre_genero == "Musical":
        id_genero = 8 
    elif nombre_genero == "Fantasía":
        id_genero = 9
    elif nombre_genero == "Aventura":
        id_genero = 10
    elif nombre_genero == "Animación":
        id_genero = 11
    elif nombre_genero == "Biografía":
        id_genero = 12
    elif nombre_genero == "Terror":
        id_genero = 13
    elif nombre_genero == "Suspense":
        id_genero = 14
    elif nombre_genero == "Comedia":
        id_genero = 15
    elif nombre_genero == "Western":
        id_genero = 16

    fila = (pelicula['titulo'],
            pelicula['año'],
            pelicula['duracion'],
            pelicula['adultos'],
            id_genero)

    datos_insercion_sql_final.append(fila)
datos_insercion_sql_final #este resultado va a ser lo que voy a copiar y pegar en SQL para introducir los valores en la tabla "peliculas".

[('The Godfather', 1972, 175, False, 1),
 ('The Godfather Part II', 1974, 202, False, 1),
 ('Pulp Fiction', 1994, 154, True, 1),
 ('Forrest Gump', 1994, 142, False, 2),
 ('The Dark Knight', 2008, 152, False, 3),
 ('Fight Club', 1999, 139, True, 2),
 ('Inception', 2010, 148, False, 4),
 ('The Matrix', 1999, 136, False, 4),
 ('The Shawshank Redemption', 1994, 142, False, 2),
 ('Interstellar', 2014, 169, False, 4),
 ('Gladiator', 2000, 155, False, 3),
 ('Titanic', 1997, 195, False, 5),
 ('Avatar', 2009, 162, False, 4),
 ('Saving Private Ryan', 1998, 169, True, 6),
 ('The Silence of the Lambs', 1991, 118, True, 7),
 ('Se7en', 1995, 127, True, 7),
 ('Goodfellas', 1990, 146, True, 1),
 ('The Departed', 2006, 151, True, 1),
 ('Whiplash', 2014, 106, False, 2),
 ('La La Land', 2016, 128, False, 8),
 ('The Lord of the Rings: The Fellowship of the Ring', 2001, 178, False, 9),
 ('The Lord of the Rings: The Two Towers', 2002, 179, False, 9),
 ('The Lord of the Rings: The Return of the King', 2003, 