In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import requests
import random


from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------

pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


In [2]:
def from_csv_to_lists(csv):
  """
    Esta función toma una archivo csv y los pasa a lista de tuplas.
    
    Args:
    - csv: archivo csv.

    Returns:
    - list(df.itertuples(index=False, name=None)): lisat de tuplas
    """
  #lee el csv y lo pasa  a dataframe
  df = pd.read_csv(csv)
  try:
    df = df.drop('Unnamed: 0', axis=1)
  except:
    pass
  #devuelve lisat de tuplas
  return list(df.itertuples(index=False, name=None))

In [3]:
# ACTORES únicos:
def actores_unicos(lista_tupla_actores):
    """
    Esta función toma una lista de tuplas de (id pelicula y 10 actores principales de la pelicula) y devuelve una lista de actores únicos.
    
    Args:
    - lista_tupla_actores: lista de tuplas de 10 actores principlaes de una peli (id pelicula, actor1-actor10) depues de pasar por la funcion datos_imdb().

    Returns:
    - set(actores): un ser de todos los actores únicos. 
    """
    actores=[]
    for tupla in lista_tupla_actores:
        for actor in tupla[1:]:
            actores.append(actor)
    return set(actores)

In [9]:
#Informacion actores
def datos_actores(lista_actores):
    """
    Esta función toma una lista de actores y busca información de cada actor en imdb.

    Args:
    - lista_actores: lista de actores (lista de actores que viene de pasar por la funcion datos_imdb() y actores_unicos()

    Returns:
    - detalles_actores: lista de datos de cada actor en una tupla (nombre actor, año nacimiento, conocido por, que hace, premios oscar)
    """

    driver = webdriver.Chrome()

    detalles_actores = []
    detalles_actor = []

    num = 1
    for actor in lista_actores[:1001]:

        driver.maximize_window()
        driver.get("https://www.imdb.com/")

        sleep(0.5)
        print(f"{num}. {actor}")
        try:
            #Escribe el nombre del actor en el buscador
            driver.find_element("css selector", "#suggestion-search").send_keys(actor, Keys.ENTER)
        except:
            driver.get("https://www.imdb.com/")
            driver.find_element("css selector", "#suggestion-search").send_keys(actor, Keys.ENTER)
        
        sleep(0.5)
        try:
            try:
                try:
                    try:
                        driver.find_element("css selector", '#__next > main > div.ipc-page-content-container.ipc-page-content-container--full.sc-383f2ac5-0.bfcGjo > div.ipc-page-content-container.ipc-page-content-container--center > section > div > div.ipc-page-grid__item.ipc-page-grid__item--span-2 > section:nth-child(3) > div.sc-17bafbdb-2.ffAEHI > ul > li:nth-child(1) > div.ipc-metadata-list-summary-item__c > div > a').click()
                    except:
                        driver.find_element("css selector", 'li.find-name-result:nth-child(1) > div:nth-child(2) > div:nth-child(1) > a:nth-child(1)').click()
                except:
                    driver.find_element("css selector", '.find-name-result > div:nth-child(2) > div:nth-child(1) > a:nth-child(1)').click()
            except:
                driver.find_element("css selector", '#__next > main > div.ipc-page-content-container.ipc-page-content-container--full.sc-872d7ac7-0.fqEQWL > div.ipc-page-content-container.ipc-page-content-container--center > section > div > div.ipc-page-grid__item.ipc-page-grid__item--span-2 > section:nth-child(4) > div.sc-17bafbdb-2.iUyFfD > ul > li:nth-child(1) > div.ipc-metadata-list-summary-item__c > div > a').click()
        except: 
                pass   
        try:     
            try:
                que_hace = driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-3.jJsEuz > div > ul').text
                que_hace = que_hace.split('\n')
            
            except:
                que_hace = driver.find_element("css selector", '.sc-7f1a92f5-4').text
                que_hace = que_hace.split('\n')
        except:
            que_hace = 'No data'  
        print(f"que hace: {que_hace}")
            
        try:
            try:
                try:    
                    try:    
                        try:
                            conocido = driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > div > section > div > div.sc-9178d6fe-1.kFxVZc.ipc-page-grid__item.ipc-page-grid__item--span-2 > div.celwidget > section:nth-child(1) > div.sc-a6d4b6c0-0.jGufEe').text
                            conocido = conocido.split('\n')[0::4]
                        except:
                            conocido = driver.find_element("css selector", '.ipc-sub-grid--page-span-2').text
                            conocido = conocido.split('\n')[0::4]
                    except:
                        conocido = driver.find_element("xpath", '/html/body/div[2]/main/div/section[1]/div/section/div/div[1]/div[3]/section[1]/div[2]/div/div[2]').text
                        conocido = conocido.split('\n')[0::4]
                except:
                    conocido = driver.find_element("xpath", '/html/body/div[2]/main/div/section[1]/div/section/div/div[1]/div[4]/section[1]/div[2]/div/div[2]').text
                    conocido = conocido.split('\n')[0::4]
            except:
                conocido = driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.fSJiHR > div > section > div > div.sc-9178d6fe-1.fqVKQb.ipc-page-grid__item.ipc-page-grid__item--span-2 > div.celwidget > section:nth-child(1) > div.sc-a6d4b6c0-0.bBRhdF > div > div.ipc-sub-grid.ipc-sub-grid--page-span-2.ipc-sub-grid--wraps-at-above-l.ipc-shoveler__grid').text
                conocido = conocido.split('\n')[0::4]                   
                  
        except:
            conocido = 'No data'
        print(f"conocido: {conocido}")

        try:
            try:
                año = driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > section > div:nth-child(4) > section > section > div.sc-e226b0e3-4.ecgcFy > div.sc-e226b0e3-6.hfusNC > div.sc-e226b0e3-11.jSQoAO > section > aside > div > span:nth-child(2)').text.split(' ')[-1]
            
            except:
                año = driver.find_element("css selector", 'aside.sc-dec7a8b-0:nth-child(1) > div:nth-child(1) > span:nth-child(2)').text.split(' ')[-1]
        except:
            año = 'No data'
        print(f"año: {año}")    

        try:
            try:
                premios = driver.find_element("css selector", '#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-304f99f6-0.eaRXHu > div > section > div > div.sc-9178d6fe-1.kFxVZc.ipc-page-grid__item.ipc-page-grid__item--span-2 > section:nth-child(3) > div > ul > li > a.ipc-metadata-list-item__label.ipc-metadata-list-item__label--link').text
                if premios == 'Premios':
                    premios = 'Sin Oscar'
            except:
                premios = driver.find_element("css selector", 'ul.ipc-metadata-list:nth-child(2) > li:nth-child(1) > a:nth-child(1)').text
                if premios == 'Premios':
                    premios = 'Sin Oscar'
        except:
            premios = 'Sin oscar'
        print(f"premios: {premios}")
        #nombre actor, año nacimiento, conocido por, que hace, premios oscar
        detalles_actor = (actor, año, conocido, que_hace, premios)

        detalles_actores.append(detalles_actor)
        num += 1
    return detalles_actores    

In [7]:
#csv de los actores desde las peliculas buscadas en imdb a lista de actores únicos
actores_peliculas_2009_1000 = from_csv_to_lists('actores_peliculas_2009_1000.csv')
lista_actores_imdb_2009_1000 = actores_unicos(actores_peliculas_2009_1000)
lista_actores_imdb_2009_1000 = list(lista_actores_imdb_2009_1000)
lista_actores_imdb_2009_1000

['Rachel Bell',
 'Bjørn Sundquist',
 'Yejin Jeong',
 'Chengwei Ren',
 'Manabu Oshio',
 'Lynette Curran',
 'Jhilmil Hazrika',
 'Uttar Kumar',
 'Geoff Falk',
 'Shalim Ortiz',
 'Moa Silén',
 'Leon Seidel',
 'Xango Henry',
 'Deneb Catalan',
 'David Proval',
 'Deb Mukherjee',
 'Jason Schwartzman',
 'Rhys Thomas',
 'Alejandro de la Madrid',
 'Kostas Koronaios',
 'Marco Serralta',
 'Marc Blucas',
 'Nicolette Doke',
 'Kathleen Munroe',
 'Brendan Miller',
 'Kestie Morassi',
 'Gary Beadle',
 'Don Hahn',
 'Luke Treadaway',
 'Trevor Richardson',
 'Nebojsa Milovanovic',
 'Sofia Vassilieva',
 'Juno Temple',
 'Melia Renee',
 'Catherine Dyer',
 'Francis Renaud',
 'Ariel Gade',
 'Eric Allan Kramer',
 'Driss Roukhe',
 'Sneha',
 'Ric Maddox',
 'Marylouise Burke',
 'Juli Alexandrov',
 'Jean-Pierre Léaud',
 'Frederick Weller',
 'Brad Kranich',
 'Rhonda Aldrich',
 'Leah Grimsson',
 'Edica Casanova',
 'Maria Ribera',
 'Michael Teigen',
 'October Moore',
 'Trish Egan',
 'Jack Kyle',
 'Jill K. Allen',
 'Zen Le

In [10]:
#busca datos actores, lista de los datos de los actores a df y de df a csv
lista_datos_actores_2009_1000_1000 = datos_actores(lista_actores_imdb_2009_1000)
df_datos_actores_2009_1000_1000 = pd.DataFrame(lista_datos_actores_2009_1000_1000)
df_datos_actores_2009_1000_1000.to_csv('lista_actores_2009_1000_1000.csv', index=False)

df_datos_actores_2009_1000_1000

1. Rachel Bell
que hace: ['Reparto']
conocido: ['The Darling Buds of May', '1991–1993 • 16 episodios', 'Priscilla P.', 'Serie de TV', '7,1']
año: 1950
premios: Sin oscar
2. Bjørn Sundquist
que hace: ['Reparto', 'Música']
conocido: ['']
año: 1948
premios: Sin Oscar
3. Yejin Jeong
que hace: ['Reparto']
conocido: ['Una vida nueva']
año: No data
premios: Sin oscar
4. Chengwei Ren
que hace: ['Reparto', 'Dirección']
conocido: ['You ni cai you jia', 'Da Xue Wu Hen', 'Ke ai de Zhong Guo', '7,2']
año: No data
premios: Sin Oscar
5. Manabu Oshio
que hace: ['Reparto']
conocido: ['Yamato nadeshiko', '2000 • 11 episodios', '2005', '2009', '2001 • 11 episodios']
año: 1978
premios: Sin oscar
6. Lynette Curran
que hace: ['Reparto']
conocido: ['']
año: 1945
premios: Sin Oscar
7. Jhilmil Hazrika
que hace: ['Reparto']
conocido: ['Aamir', 'Noi', '5,1']
año: No data
premios: Sin oscar
8. Uttar Kumar
que hace: ['Reparto', 'Dirección', 'Guion']
conocido: ['']
año: 1973
premios: Sin oscar
9. Geoff Falk
que hac

Unnamed: 0,0,1,2,3,4
0,Rachel Bell,1950,"[The Darling Buds of May, 1991–1993 • 16 episo...",[Reparto],Sin oscar
1,Bjørn Sundquist,1948,[],"[Reparto, Música]",Sin Oscar
2,Yejin Jeong,No data,[Una vida nueva],[Reparto],Sin oscar
3,Chengwei Ren,No data,"[You ni cai you jia, Da Xue Wu Hen, Ke ai de Z...","[Reparto, Dirección]",Sin Oscar
4,Manabu Oshio,1978,"[Yamato nadeshiko, 2000 • 11 episodios, 2005, ...",[Reparto],Sin oscar
...,...,...,...,...,...
996,Rei Dan,1971,"[El catador de venenos, Kâbê, Kansen rettô, Ni...",[Reparto],Sin Oscar
997,Frankie Faison,1949,[],"[Reparto, Banda sonora]",Sin Oscar
998,Kerrie Hayes,1986,[],[Reparto],Nominado a 1 premio BAFTA
999,Henry Dittman,diciembre,[],"[Reparto, Producción, Guion]",Sin Oscar
