1.2. Extracción de Detalles de Películas con Selenium
Una vez que tengan una lista de películas de la API, el siguiente paso es obtener información más detallada sobre ellas. Utilizarás la herramienta de automatización web Selenium para navegar a sitios web de reseñas de películas, en este caso IMDB, y extraer detalles como calificaciones, actores y directores.

Necesitamos la siguiente información:

Puntuación de IMDB (en caso de que la tenga).

Dirección (director/a o directores/as de cada película).

Guionistas (de cada película).

Argumento.

Nombre de la película.

Id de la película.

Bonus: También puedes extraer la siguiente información:

Duración de la película.

Puntuación de Rotten Tomatoes.

In [1]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) 

En mi caso, me sale ventana emergente para elegir buscador predetermiando.HE intentando de diferentes formas que le código seleccione opción y siga con la web pero no consigo que ejecute nada.

In [10]:
#Inicializamos el navegador.
driver = webdriver.Chrome()

sleep(2)

#Maximizamos pantalla.
driver.maximize_window()
print("Maximizando la web.")

sleep(2)

#Navegamos a la página web "https://www.imdb.com/".
driver.get("https://www.imdb.com/")
print("Accediendo a la web.")

sleep(2)

#Aceptamos cookies.
driver.find_element("css selector", "#__next > div > div > div.sc-jrcTuL.bPmWiM > div > button.icb-btn.sc-bcXHqe.sc-dkrFOg.sc-iBYQkv.dcvrLS.ddtuHe.dRCGjd").click()
print("Cookies aceptadas.")

sleep(2)

#Buscamos película. Creamos input para que el usuario decida la pelñicula que quiere buscar.
nombre_pelicula = input("Introduce el nombre de la película que deseas buscar: ")

buscar_pelicula = driver.find_element("css selector", "#suggestion-search")
sleep(2)
buscar_pelicula.send_keys(nombre_pelicula)
#.submit() nos abre listado de resultados. Actúa como un enter.
buscar_pelicula.submit()
print("Accediendo a la película")


sleep(2)

#Seleccionamos la película en los resultados.
first_result = driver.find_element("css selector", "#__next > main > div.ipc-page-content-container.ipc-page-content-container--full.sc-d5064298-0.eMaGVc > div.ipc-page-content-container.ipc-page-content-container--center > section > div > div.ipc-page-grid__item.ipc-page-grid__item--span-2 > section:nth-child(4) > div.sc-e8e4ce7-2.gdpdyr > ul > li:nth-child(1)").click()
print("Película encontrada")

sleep(2)

Maximizando la web.
Accediendo a la web.
Cookies aceptadas.
Accediendo a la película
Película encontrada


In [11]:
#Ahora estamos dentro de la info de la película. Vamos a sacar los datos que se nos piden:

#Nombre de la película.
titulo_pelicula = driver.find_element("css selector", "h1").text
print("Nombre de la película:", titulo_pelicula)

#Puntuación de IMDb.
try:
    puntuacion_pelicula = driver.find_element("css selector", "#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > section > div:nth-child(5) > section > section > div.sc-491663c0-4.ILcwq > div.sc-491663c0-6.bvzCJs > div.sc-491663c0-11.hFWIYv > div.sc-3a4309f8-0.jJkxPn.sc-1f50b7c-5.dSyyea > div > div:nth-child(1) > a > span > div > div.sc-eb51e184-0.ghvwpw > div.sc-eb51e184-2.fAhXAe > span.sc-eb51e184-1.ljxVSS").text
except:
    puntuacion_pelicula = "No disponible"
print("Puntuación de IMDb:", puntuacion_pelicula)

#Info dirección.
try:
    directores = driver.find_elements("css selector", "#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > section > div:nth-child(5) > section > section > div.sc-491663c0-4.ILcwq > div.sc-491663c0-6.bvzCJs > div.sc-491663c0-11.hFWIYv > div.sc-1f50b7c-2.cpicUu > div > ul > li:nth-child(1) > div > ul > li > a")
    nombres_directores = [director.text.strip() for director in directores]
    print("Dirección:", ", ".join(nombres_directores))
except:
    print("No se pudo encontrar la información de los directores.")

#Info guionistas.
try:
    guionistas = driver.find_elements("css selector", "#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > section > div:nth-child(5) > section > section > div.sc-491663c0-4.ILcwq > div.sc-491663c0-6.bvzCJs > div.sc-491663c0-11.hFWIYv > div.sc-1f50b7c-2.cpicUu > div > ul > li:nth-child(3) > div")
    nombre_guionistas = [guionista.text.strip() for guionista in guionistas]
    print("Guionistas:", ", ".join(nombre_guionistas)) #lo uso para separar nombres con comas pero no consigo que funcione
except:
    print("No se pudo encontrar la información de los guionistas.")

#Info argumento.
try:
    argumento_pelicula = driver.find_element("css selector", "#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > section > div:nth-child(5) > section > section > div.sc-491663c0-4.ILcwq > div.sc-491663c0-6.bvzCJs > div.sc-491663c0-10.tkbDg > section > p > span.sc-2d37a7c7-0.ftDfUj").text
except:
    argumento_pelicula = "No disponible"
print("Argumento:", argumento_pelicula)

# ID de la película (sacarlo de la URL)
id_pelicula = driver.current_url.split('/')[4]
print("ID de la película:", id_pelicula)

sleep(4)

# Cerrar el navegador
driver.quit()

Nombre de la película: Alien: Romulus
Puntuación de IMDb: 7,4
Dirección: Fede Alvarez
Guionistas: Cailee SpaenyDavid JonssonArchie Renaux
Argumento: Los jóvenes de un mundo lejano deben enfrentarse a la forma de vida más aterradora del universo.
ID de la película: tt18412256
