In [1]:
import pandas as pd  
import numpy as np
import re
import random
from unidecode import unidecode 

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.support.ui import Select 

from time import sleep  

# Si no deja importar alguna de las librerÃ­as, probar a ejecutar el comando pertinente en la terminal:
#----- pip install pandas
#----- pip install numpy
#----- pip install regex
#----- pip install unidecode
#----- pip install selenium
#----- pip install webdriver-manager

In [2]:
def puntuacion_tomatoes (archivo_csv = 'Ruta o nombre del archivo.csv', columna1 = 'Nombre columna tÃ­tulos', columna2 = 'Nombre columna aÃ±os'):
    
    """
    Obtiene la puntuaciÃ³n de las pelÃ­culas en Rotten Tomatoes a partir de un archivo CSV de pelÃ­culas.

    ParÃ¡metros:
    archivo_csv (str): La ruta o nombre del archivo CSV que contiene los datos de las pelÃ­culas.
    columna1 (str): El nombre de la columna que contiene los tÃ­tulos de las pelÃ­culas en el archivo CSV.
    columna2 (str): El nombre de la columna que contiene los aÃ±os de las pelÃ­culas en el archivo CSV.

    Returns:
    pelis_con_puntuacion (lista): Una lista de tuplas que contiene el nombre de la pelÃ­cula, el aÃ±o y su puntuaciÃ³n en Rotten Tomatoes (o NaN si no se encuentra la puntuaciÃ³n o '-' si no hay puntuaciÃ³n disponible).

    """
    
    #! -------------------------------------------------------------------------------------- Apertura del archivo csv
    
    # Abre el archivo csv
    pelis_origen = pd.read_csv(f"{archivo_csv}")
    
    # Revisa cuÃ¡l es el total de filas del archivo
    ultimo_elemento = pelis_origen.shape[0]
    
    # Crea una lista de tuplas que contiene el tÃ­tulo de la pelÃ­cula a buscar y su aÃ±o
    pelis_buscar = [(pelis_origen.at[i, f'{columna1}'] , pelis_origen.at[i, f'{columna2}']) for i in range (0, ultimo_elemento)] # Se agrega a la lista una tupla con el nombre , aÃ±o de la peli por cada Ã­ndice dentro del rango 0 , ultimo elemento de pelis_drama_2000_2004

    #! -------------------------------------------------------------------------------------- ExtracciÃ³n de datos con Selenium

    driver = webdriver.Chrome()

    driver.get("https://www.google.com/")

    # AmplÃ­a la ventana a tamaÃ±o completo
    driver.maximize_window()

    sleep(3)

    ultimo_rango = len(pelis_buscar)

    # Rechaza las cookies en caso de haberlas
    try:
        driver.find_element("css selector" , "#W0wltc").click()
        
    except:
        pass

    pelis_con_puntuacion = []
    
    ultimo_descanso = 0
    
    print('--- Empieza la extracciÃ³n de datos ---')
    print(' ')

    # Itera por rango, utilizando como delimitador el total de elementos de la lista de pelis a buscar
    for i in range (0 , ultimo_rango):
        
        # CondiciÃ³n para asegurar que una vez que se haya hecho un descanso, no se repita hasta pasado un mÃ­nimo de iteraciones (entre 190 y 200, en este caso)
        if i >= ultimo_descanso + random.randint(390 , 410): 
            descanso = random.randint(5, 20) # Escoge un nÃºmero random y lo asigna a la variable descanso
            
            # Si el nÃºmero de iteraciÃ³n es divisible por el nÃºmero de descanso, se para durante una cantidad de segundos aleatoria
            if i != 0 and i % descanso == 0:
                tiempo_descanso = random.randint(5 , 20)
                ultimo_descanso = i 
                print(f"En la iteraciÃ³n nÃºmero {i} me he ido a por un cafecito â˜•. VolverÃ© en {round(tiempo_descanso/60 , 1)} minutos")
                sleep(tiempo_descanso)
                print(f"Â¡Ya estoy de vuelta! Sigo con lo mÃ­o ðŸ’«")
                print(' ')
            
        nombre_peli = f'{pelis_buscar[i][0]}' # Saca el tÃ­tulo de la pelÃ­cula
        anio_peli = int(f'{pelis_buscar[i][1]}') # Saca el aÃ±o de la pelÃ­cula
        string_buscar = f"{nombre_peli}, {anio_peli} valoraciÃ³n rotten tomatoes" # Define la frase que se buscarÃ¡. Ejemplo: Istota, 2000 valoraciÃ³n rotten tomatoes
        puntuacion = np.nan # Define la variable puntuacion como NaN para que en caso de que no se encuentren resultados de la pelÃ­cula, se le asigne eso
        
        try:
            
            # Accede a la barra de bÃºsqueda e introduce la frase
            driver.find_element("css selector", "#APjFqb").send_keys(string_buscar, Keys.ENTER)
            
            # Itera por los primeros 5 resultados de la primera pÃ¡gina
            for resultado in range (1 , 5): 
                               
                try:
                    datos_resultado = driver.find_element('css selector', f'#rso > div:nth-child({resultado}) > div > div').text.split("\n") # Obtiene los datos del resultado de bÃºsqueda segÃºn rango
                    
                    # CondiciÃ³n para verificar si en el segundo elemento de los resultados de bÃºsqueda aparece 'rotten tomatoes' (asÃ­ sabemos que la informaciÃ³n estÃ¡ sacada de su pÃ¡gina)
                    if datos_resultado[1].lower() == 'rotten tomatoes':
                        
                        titulo = datos_resultado[0] # Asigna el nombre de la pelÃ­cula segÃºn el resultado del buscador a la variable tÃ­tulo
                        
                        # CondiciÃ³n para comprobar si el tÃ­tulo del buscador coincide con el nombre de la pelÃ­cula que estamos buscando
                        if unidecode(titulo).lower().strip() == unidecode(nombre_peli).lower().strip():
                            
                            # Si los nombres coinciden, itera por los elementos del resultado para encontrar la valoraciÃ³n
                            for elemento in datos_resultado:
                                
                                if 'valoracion' in unidecode(elemento).lower().strip(): 
                                    valoracion = elemento
                                    puntuacion = re.search('(\d+)%' , valoracion).group(1)
                                    puntuacion = int(puntuacion.replace("%" , "")) # Si encuentra la valoraciÃ³n, asigna su valor a la variable
                                    break 
                                
                                else:
                                    puntuacion = "-" # Si no encuentra la valoraciÃ³n, le asigna '-' por defecto

                            break
                            
                except:
                    pass
            
        except:
            sleep(3)
            pass
            
        sleep(random.randint(1, 3))           
        tupla = (nombre_peli , anio_peli , puntuacion) # Genera una tupla con el nombre de la pelÃ­cula, el aÃ±o y la puntuaciÃ³n que tiene en rotten tomatoes (valor, si la encuentra Â· nan, si no la encuentra Â· '-', si la encuentra, pero no tiene puntuaciÃ³n)
        pelis_con_puntuacion.append(tupla) # AÃ±ade la tupla a la lista
        
        try: 
            # Limpia la barra de bÃºsqueda
            driver.find_element("css selector" , "#tsf > div:nth-child(1) > div.A8SBwf > div.RNNXgb > div > div.dRYYxd > div.BKRPef > div").click()
        except:
            sleep(5)
            driver.find_element("css selector" , "#tsf > div:nth-child(1) > div.A8SBwf > div.RNNXgb > div > div.dRYYxd > div.BKRPef > div").click()
    
    print('--- ExtracciÃ³n de datos completada ðŸ™Œ ---')
    return pelis_con_puntuacion       

In [None]:
tomatoes_drama_2000_2004 = puntuacion_tomatoes('Drama/pelis_drama_2000_2004.csv' , '1' , '2')

# SI DA ERROR: 
# ------------ Si el archivo no se encuentra en la misma ubicaciÃ³n que este jupyter, tendremos que darle la ruta. P.e: en lugar de 'pelis_drama_2000_2004.csv' >>> 'Drama/pelis_drama_2000_2004.csv'
# ------------ Hay que sustituir '1' y '2' por el nombre de las columnas en las que aparezca el tÃ­tulo de la pelÃ­cula y el aÃ±o
# ------------ Por ejemplo: '1' >>> 'nombre' y '2' >>> 'aÃƒÂ±o estreno'
# ------------ Podemos saber el nombre de las columnas abriendo el archivo csv en un excel y mirando en la celda A1

In [44]:
def guardar_csv (dict_json):
    
    df_dict_json = pd.DataFrame(dict_json)
    
    df_dict_json.to_csv(input("Indica el nombre o ruta del archivo. Recuerda poner .csv al final"))

In [51]:
guardar_csv(tomatoes_drama_2000_2004) # Ejemplo de input usando ruta del archivo: Drama/tomatoes_pelis_drama_2000_2004.csv