# Fase 2: Extracción de Detalles de Películas con Selenium
Una vez que tengan una lista de películas de la API, el siguiente paso es obtener información más detallada sobre ellas. Utilizaras la herramienta de automatización web Selenium para navegar a sitios web de reseñas de películas (IMDB y Rotten Tomatoes) y extraer detalles como calificaciones, actores y directores. En concreto deberás extraer información sobre:
- Puntuacion de IMDB (en caso de que la tenga).
- Puntuación de Rotten Tomatoes (Tomatometer).
- Dirección (director/a o directore/as de cada película).
- Guionistas (de cada película).
- Argumento.
- Duración (en minutos).
- Nombre de la película
NOTA: La información de la API deberá ser almacenada en una lista de tuplas. Cada tupla corresponderá a una película. Siguiendo el siguiente ejemplo:

[(7.7, 77,  "Richard Donner", ["Chris ColumbusSteven", "Spielberg"], "Los Goonies son un grupo de amigos que viven en Goon Docks, Astoria, pero sus casas han sido compradas y van a ser demolidas. Sin embargo, vivirán su última aventura en busca de un tesoro que pueda salvar el barrio.", "Aventura", "1h 54min", "Los Gonnies"),  ...]

In [1]:
!pip install beautifulsoup4

!pip install selenium
!pip install webdriver-manager

!pip install openpyxl



In [2]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

import re

import openpyxl



In [7]:
file = pd.read_excel('peliculasmisterio.xlsx')
df = pd.DataFrame(file)


In [9]:
#Abrimos el Chrome
driver=webdriver.Chrome()

# Maximizar la ventana del navegador
driver.maximize_window()

lista_info_pelis_final = []

#Introducimos id_peli y se busca
for id_peli in df[5]:

    # Navegar a la página web de IMDB 
    driver.get("https://www.imdb.com")

    #Quitamos lo de la cuenta

    try:
        cuenta=driver.find_element('css selector','#imdbHeader > div.ipc-page-content-container.ipc-page-content-container--center.navbar__inner > div.nav__userMenu.navbar__user.sc-jfTVlA.esWGB > div > div > div > div > div.sc-cOxWqc.bNDQpU > button > svg').click()
        #id_peli='tt0075259' #Ejemplo, luego habrá que hacer bucles for :( 
    except:
        pass
    lista_info_peli = []

    busqueda_peli=driver.find_element('css selector', '#suggestion-search').send_keys(id_peli, Keys.ENTER)

    puntuacion_imdb=driver.find_element('css selector','#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-3.jJsEuz > div.sc-3a4309f8-0.fjtZsE.sc-dffc6c81-1.fJrHDo > div > div:nth-child(1) > a > span > div > div.sc-bde20123-0.gtEgaf > div.sc-bde20123-2.gYgHoj > span.sc-bde20123-1.iZlgcd').text
    print(puntuacion_imdb)
    sleep(3)
    direccion=driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > div > section > div > div.sc-9178d6fe-1.kFxVZc.ipc-page-grid__item.ipc-page-grid__item--span-2 > section.ipc-page-section.ipc-page-section--base.sc-bfec09a1-0.gmonkL.title-cast.title-cast--movie.celwidget > ul > li:nth-child(1) > div > ul').text
    direccion.split("\n")
                                                  
    guion=driver.find_element('css selector','#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > div > section > div > div.sc-9178d6fe-1.kFxVZc.ipc-page-grid__item.ipc-page-grid__item--span-2 > section.ipc-page-section.ipc-page-section--base.sc-bfec09a1-0.gmonkL.title-cast.title-cast--movie.celwidget > ul > li:nth-child(2) > div > ul').text
    print(guion)

    argumento=driver.find_element('xpath','//*[@id="__next"]/main/div/section[1]/section/div[3]/section/section/div[3]/div[2]/div[1]/section/p/span[3]').text
    print(argumento)

    try:
        duracion=driver.find_element('css selector','#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-3.jJsEuz > div.sc-dffc6c81-0.iwmAVw > ul > li:nth-child(3)').text
    except:
        duracion=driver.find_element('css selector','#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-3.jJsEuz > div.sc-dffc6c81-0.iwmAVw > ul > li:nth-child(2)').text
    print(duracion)

    sleep(2)

    #Podemos cogerlo también del dataFrame, igual que el id
    titulo=driver.find_element('css selector','#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-3.jJsEuz > div.sc-dffc6c81-0.iwmAVw > h1').text
    print(titulo)

    sleep(2)
    # Navegar a la página web de en Rottentomatoes 
    driver.get("https://www.rottentomatoes.com/")

    #Cerrar cookies
    try:
        cookies=driver.find_element('css selector','#onetrust-accept-btn-handler').click()
    except:
        pass

    #Buscar peli 
    #titulo_peli='Star Wars: Episode VII - The Force Awakens' #Ejemplo, luego habrá que hacer bucles for :( 
    busqueda_peli_tomates=driver.find_element('css selector', '#header-main > search-algolia > search-algolia-controls > input').send_keys(titulo, Keys.ENTER)

    driver.execute_script('window.scrollTo(0,300)')

    sleep(3)
    #Capturar la url de la peli
    url_peli = driver.find_element("css selector", '#search-results > search-page-result:nth-child(3) > ul > search-page-media-row > a:nth-child(2)').get_attribute("href")
    #Entrar en la peli
    entrar_peli=driver.find_element('css selector','#search-results > search-page-result:nth-child(3) > ul > search-page-media-row:nth-child(1) > a:nth-child(2)').click()
    sleep(2)
    #Beautifulsoup de la peli
    respues_peli = requests.get(url_peli)

    respues_peli.status_code

    sopa_peli = BeautifulSoup(respues_peli.content,"html.parser")

    try:
        tomate = str(sopa_peli.findAll('score-board-deprecated')[0])
        #Regex para capturar tomatometerscore
        tomatometer_score = re.findall('tomatometerscore="\d+', tomate)
        #Regex para capturar el valor
        puntuacion_tomate = re.findall("\d+", tomatometer_score[0])

    except:
        puntuacion_tomate = "None"
    print(puntuacion_tomate)
    lista_info_peli.append(puntuacion_imdb)
    lista_info_peli.append(puntuacion_tomate[0])
    lista_info_peli.append(direccion)
    lista_info_peli.append(guion)
    lista_info_peli.append(argumento)
    lista_info_peli.append(duracion)
    lista_info_peli.append(titulo)

    lista_info_pelis_final.append(tuple(lista_info_peli))

driver.close()

print(lista_info_pelis_final)


5,9
Len Deighton
A British spy is framed, so he must evade the KGB, the CIA and the British Intelligence to reach the the heart of the conspiracy in Arctic.
1h 43min
Spy Story
None
4,3
Jeff Kahn
A European woman living in Greenwich Village sees her life starting to come apart. She's broke, seems to be hallucinating and seeing people she dreams about appear in her real life, and on top of that finds herself accused of a pair of murders.
1h 33min
Alucinación


NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"#search-results > search-page-result:nth-child(3) > ul > search-page-media-row > a:nth-child(2)"}
  (Session info: chrome=119.0.6045.105); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
0   chromedriver                        0x000000010452ad28 chromedriver + 4795688
1   chromedriver                        0x00000001045222b3 chromedriver + 4760243
2   chromedriver                        0x00000001040fb88d chromedriver + 407693
3   chromedriver                        0x000000010414a3d9 chromedriver + 730073
4   chromedriver                        0x000000010414a591 chromedriver + 730513
5   chromedriver                        0x00000001041907e4 chromedriver + 1017828
6   chromedriver                        0x0000000104171ccd chromedriver + 892109
7   chromedriver                        0x000000010418db2b chromedriver + 1006379
8   chromedriver                        0x0000000104171a73 chromedriver + 891507
9   chromedriver                        0x000000010413c143 chromedriver + 672067
10  chromedriver                        0x000000010413d31e chromedriver + 676638
11  chromedriver                        0x00000001044eb795 chromedriver + 4536213
12  chromedriver                        0x00000001044f0853 chromedriver + 4556883
13  chromedriver                        0x00000001044d1001 chromedriver + 4427777
14  chromedriver                        0x00000001044f159d chromedriver + 4560285
15  chromedriver                        0x00000001044c248c chromedriver + 4367500
16  chromedriver                        0x00000001045110e8 chromedriver + 4690152
17  chromedriver                        0x000000010451129e chromedriver + 4690590
18  chromedriver                        0x0000000104521eee chromedriver + 4759278
19  libsystem_pthread.dylib             0x00007ff81b5114e1 _pthread_start + 125
20  libsystem_pthread.dylib             0x00007ff81b50cf6b thread_start + 15


In [6]:
file = pd.read_excel('peliculasmisterio.xlsx')
df = pd.DataFrame(file)
df[5]

for id in df[5]:
    id


0      tt0075259
1      tt0092589
2      tt0094997
3      tt0096177
4      tt0097573
         ...    
117    tt5790428
118    tt6244888
119    tt6788638
120    tt8422674
121    tt8119162
Name: 5, Length: 122, dtype: object