In [4]:
# Importamos las librerías.
import time
import requests
import pandas as pd
from tqdm import tqdm  # Importar tqdm para las barras de progreso.
import requests
from selenium import webdriver  
from webdriver_manager.chrome import ChromeDriverManager  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.support.ui import Select
import time  
from time import sleep
import csv 
pd.set_option('display.max_columns', None)

## Extracción API

In [None]:
def peliculas_por_genero(generos_lista, rango_anios):
    # Lista vacía para almacenar las películas.
    lista_peliculas = []
    
    # Iteramos por cada género con barra de progreso.
    for genero in tqdm(generos_lista, desc="Procesando géneros"):
        # Iteramos por cada año en el rango con barra de progreso.
        for year in tqdm(rango_anios, desc=f"Año {genero}", leave=False):
            url_genero = f"https://dev.adalab.es/api/cinema/movies?year={year}&genre={genero}"
            
            try:
                # Llamada a la API.
                llamada = requests.get(url_genero)
                # Pausa para evitar sobrecargar la API.
                time.sleep(3)

                # Verificamos que la llamada fue exitosa (código 200).
                if llamada.status_code == 200:
                    # Convertimos la respuesta a formato JSON.
                    datos_peliculas = llamada.json()

                    # Iteramos por película para obtener los datos relevantes.
                    for pelicula in datos_peliculas.get('results', []):
                        titulo = pelicula.get("title")
                        identificacion = pelicula.get('idOwner')
                        tipo = pelicula.get('type')
                        anio = pelicula.get('year')
                        genero_pelicula = pelicula.get('genre')

                        # Agregamos los datos de la película a la lista.
                        pelicula_tupla = (titulo, identificacion, tipo, anio, genero_pelicula)
                        lista_peliculas.append(pelicula_tupla)
                else:
                    print(f"Error {llamada.status_code}: No se pudo obtener datos para el año {year} y género {genero}")

            except Exception as e:
                # Captura cualquier error que ocurra durante la llamada o procesamiento.
                print(f"Error al procesar el año {year} y género {genero}: {str(e)}")
    
    # Retornamos la lista de películas.
    return lista_peliculas

# Lista de géneros.
generos_lista = ["Drama", "Comedy", "Action", "Fantasy", "Horror", "Mystery", "Romance", "Thriller"]

# Rango de años.
rango_anios = range(2000, 2016)

# Obtener la lista de películas por género y año.
lista_peliculas = peliculas_por_genero(generos_lista, rango_anios)

# Convertir a DataFrame.
df_peliculas = pd.DataFrame(lista_peliculas, columns=['Titulo', 'ID', 'Tipo', 'Año', 'Genero'])

# Guardar el DataFrame en un archivo CSV.
df_peliculas.to_csv("peliculas_generos.csv", index=False)

print("Extracción completa. Los datos han sido guardados en 'peliculas_generos.csv'.")

Utilización de csv para Selenium

In [10]:
# Open the CSV file

with open('peliculas_generos.csv', mode='r', newline='') as file:
    # Create a CSV reader object
    doc_csv = csv.reader(file)
    # Read and print each row in the CSV file
    for row in doc_csv:

        print(row)

['Titulo', 'ID', 'Tipo', 'Año', 'Genero']
['Istota', 'tt0102362', 'Movie', '2000', 'Drama']
['Gensomaden Saiyuki', 'tt0111056', 'TV Series', '2000', 'Drama']
['For the Cause', 'tt0113092', 'Movie', '2000', 'Drama']
['Florentino y el diablo', 'tt0113086', 'Movie', '2000', 'Drama']
['Karobaar: The Business of Love', 'tt0116748', 'Movie', '2000', 'Drama']
['Chateaubriand - Cabeça de Paraíba', 'tt0115874', 'Short', '2000', 'Drama']
['Gang', 'tt0116391', 'Movie', '2000', 'Drama']
['Consequence', 'tt0115937', 'Movie', '2000', 'Drama']
['Fa yeung nin wah', 'tt0118694', 'Movie', '2000', 'Drama']
['Dumped', 'tt0119027', 'Video', '2000', 'Drama']
['November 1828', 'tt0079644', 'Movie', '2001', 'Drama']
['The Killing Seasons', 'tt0113545', 'Short', '2001', 'Drama']
['Albela', 'tt0118578', 'Movie', '2001', 'Drama']
["Don's Plum", 'tt0119004', 'Movie', '2001', 'Drama']
['Glitter', 'tt0118589', 'Movie', '2001', 'Drama']
['Camarate', 'tt0120624', 'Movie', '2001', 'Drama']
['Berlin Diaries, 1940-45', 

Limpieza registros tipo Movie

In [28]:

# Leer el archivo CSV y extraer solo los registros "Movie"
df = pd.read_csv('/Users/andreagonzalez/Documents/Adalab/Proyectos_Andrea/Proyecto_2/peliculas_generos.csv',index_col = 0)

df

Unnamed: 0,Titulo,ID,Tipo,Año,Genero
0,Istota,tt0102362,Movie,2000,Drama
1,Gensomaden Saiyuki,tt0111056,TV Series,2000,Drama
2,For the Cause,tt0113092,Movie,2000,Drama
3,Florentino y el diablo,tt0113086,Movie,2000,Drama
4,Karobaar: The Business of Love,tt0116748,Movie,2000,Drama
...,...,...,...,...,...
820,The Grind,tt0906013,Movie,2012,Thriller
821,Freaky Deaky,tt0938305,Movie,2012,Thriller
822,Devil's Knot,tt0804463,Movie,2013,Thriller
823,N.Y.C. Underground,tt0907625,Video,2013,Thriller


In [None]:
# Filtrar los registros donde el tipo sea 'Movie'.
df_movies = df[df['Tipo'] == 'Movie']

print(len(df_movies))


In [12]:
df_movies 

Unnamed: 0_level_0,ID,Tipo,Año,Genero
Titulo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Istota,tt0102362,Movie,2000,Drama
For the Cause,tt0113092,Movie,2000,Drama
Florentino y el diablo,tt0113086,Movie,2000,Drama
Karobaar: The Business of Love,tt0116748,Movie,2000,Drama
Gang,tt0116391,Movie,2000,Drama
...,...,...,...,...
Dark Blood,tt0293069,Movie,2012,Thriller
The Yellow Wallpaper,tt0790788,Movie,2012,Thriller
The Grind,tt0906013,Movie,2012,Thriller
Freaky Deaky,tt0938305,Movie,2012,Thriller


## Extracción info películas IMBD

In [None]:
# Iniciar el navegador.
driver = webdriver.Chrome()
print("Abriendo Google.📩")

time.sleep(5)
# Maximizar la ventana del navegador.
driver.maximize_window()
print("Pantalla maximizada.💻")
time.sleep(3)

# Abrir página web de IMDb.
driver.get("https://www.imdb.com/")
print("Accediendo a la web.🔄")
time.sleep(3)

# Aceptar cookies.
driver.find_element("css selector", "#__next > div > div > div.sc-jrcTuL.bPmWiM > div > button.icb-btn.sc-bcXHqe.sc-dkrFOg.sc-iBYQkv.dcvrLS.ddtuHe.dRCGjd").click()
print("Cookies aceptadas.🍪")
time.sleep(5)

datos_imbd = []

# Iterar sobre un rango específico de filas (0 a 359) del DataFrame.
for index, row in df_IMDB.iloc[360:720].iterrows():
    # Buscar la película por su id en IMDb.
    url_pelicula = f"https://www.imdb.com/title/{row['ID']}/"
    driver.get(url_pelicula)
    time.sleep(5)

    try:
        # Extraer puntuación.
        try:
            puntuacion = driver.find_element("css selector", "span.sc-eb51e184-1.ljxVSS").text
        except Exception as e:
            puntuacion = "Desconocido"
        print(f"Puntuación: {puntuacion}")

        # Extraer dirección.
        try:
            direccion = driver.find_element("css selector", "div.sc-491663c0-10.iaQXlA ul:nth-child(1)").text
        except Exception as e:
            direccion = "Desconocido"
        print(f"Dirección: {direccion}")

        # Extraer guionista.
        try:
            guionista = driver.find_element("xpath", '//*[@id="__next"]/main/div/section[1]/section/div[3]/section/section/div[3]/div[2]/div[1]/section/div[2]/div/ul/li[2]/div').text
        except Exception as e:
            guionista = "Desconocido"
        print(f"Guionista: {guionista}")

        # Extraer sinopsis.
        try:
            argumento = driver.find_element("css selector", "span.sc-2d37a7c7-2.ggeRnl").text
        except Exception as e:
            argumento = "Desconocido"
        print(f"Argumento: {argumento}")

        # Extraer nombre de la película y género
        nombre_pelicula = index  # Esto toma el índice del DataFrame como el nombre de la película
        genero = row['Genero']
        print(f"Nombre: {nombre_pelicula}")
        print(f"Genero: {genero}")

        # Guardar la tupla con los datos.
        datos_imdb.append((puntuacion, direccion, guionista, argumento, nombre_pelicula, row['ID'], genero))

    except Exception as e:
        print(f"Error al procesar la película con ID {row['ID']}: {e}")
        continue

# Cerrar el navegador.
driver.quit()

In [None]:
# Ver los datos extraídos.
for pelicula in datos_imdb:
    print(pelicula)

In [None]:
# Convertimos los archivos en Data Frame
df_pelis = pd.DataFrame(datos_imdb)

df_pelis

In [None]:
# Guardar los datos en un archivo CSV.
with open('peliculas_imdb1.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    # Escribir el encabezado.
    writer.writerow(['Puntuación', 'Dirección', 'Guionista', 'Argumento', 'Nombre de la película', 'ID de la película', 'Genero'])
    
    # Escribir los datos.
    writer.writerows(datos_imdb)

print("Datos guardados en peliculas_imdb.csv")

Limpieza del DataFrame.

In [None]:
import pandas as pd
import re

# Cargar el archivo CSV.
df = pd.read_csv('/Users/mariaie/Desktop/Adalab/proyecto/Modulo-2/peliculas_imdb3.csv')

# Función para limpiar la columna Dirección.
def limpiar_direccion(direccion):

    # Verificar si la dirección es 'Desconocido' y dejarla igual.
    if "Desconocido" in direccion:
        return direccion
    
    # Eliminar Director del inicio/
    cleaned = re.sub(r"^Director[s]?:?\s*", "", direccion)
    #cleaned = re.sub(r"Director[s]?:?\s*([^,]*)\s*(,?\s*(Writers|Guion|Guión)?.*)?$", r"\1", direccion).strip()     #MEJOR
    #return cleaned
    #cleaned = re.sub(r"(Director[s]?)\s*([^WritersGuion]*)\s*(Writers|Guion|Guión)?.*", r"\2", direccion).strip()
    #return cleaned

    # Separar el apellido del resto del texto si está pegado.
    cleaned = re.sub(r"(\w)([A-Z])", r"\1 \2", cleaned)
    
    # Eliminar todo desde la palabra 'Writer', 'Writers', 'Guión', o 'Guion' en adelante, incluyendo esas palabras.
    cleaned = re.sub(r"(Writer[s]?|Guión|Guion|Stars).*", "", cleaned, flags=re.IGNORECASE).strip()
    return cleaned

# Función para limpiar la columna Guionista (separar nombres pegados con una coma).
def limpiar_guionistas(guionistas):
    # Insertar una coma entre nombres pegados (mayúscula seguida de otra mayúscula sin espacio.
    cleaned = re.sub(r"([a-z])([A-Z])", r"\1, \2", guionistas)
    return cleaned

# Aplicar las funciones de limpieza.
df['Dirección'] = df['Dirección'].apply(limpiar_direccion)
df['Guionista'] = df['Guionista'].apply(limpiar_guionistas)

# Guardar el archivo limpio.
df.to_csv('peliculas_imdb3_limpio.csv', index=False)
print("Limpieza completada. Archivo guardado como 'peliculas_imdb_concat_limpio.csv'.")

## Extracción información actores IMDB

In [79]:
# Leer el archivo CSV y extraer solo la columna 'id'.
# df_IMDB = pd.read_csv('/Users/andreagonzalez/Documents/Adalab/Proyectos_Andrea/Proyecto_2/peliculas_imdb1.csv',index_col = 0)
df_IMBD = pd.read_csv('/Users/elena/Desktop/adalab_curso_data_analytics/proyectos/proyecto2/elena_indv/peliculas_imdb_concat.csv',index_col = 0)

In [80]:
# Leer el archivo CSV y extraer solo la columna 'id'.
df_IMDB1 = pd.read_csv('/Users/elena/Desktop/adalab_curso_data_analytics/proyectos/proyecto2/elena_indv/peliculas_imdb_concat.csv')

# Filtrar los registros donde el tipo sea 'Movie'.
df_IMDB1 

Unnamed: 0,Puntuación,Dirección,Guionista,Argumento,Nombre de la película,ID de la película,Genero
0,6.3,DirectorAndrzej CzarneckiWriterMikhail Shelekh...,Mikhail Shelekhov,,Istota,tt0102362,Drama
1,3.4,DirectorsDavid DouglasTim DouglasWritersDavid ...,David DouglasChristopher Salazar,Earth is in a state of constant war and two co...,For the Cause,tt0113092,Drama
2,7.0,Desconocido,Desconocido,"Florentino is a young horseman and singer, a f...",Florentino y el diablo,tt0113086,Drama
3,3.7,DirectorRakesh RoshanWritersSachin BhowmickRav...,Sachin BhowmickRavi KapoorSagar Sarhadi,Wealthy Rajiv Sinha and middle-classed Amar Sa...,Karobaar: The Business of Love,tt0116748,Drama
4,6.3,DirectorMazhar KhanStarsJackie ShroffNana Pate...,Jackie ShroffNana PatekarKumar Gaurav,"After falling prey to underworld, four friends...",Gang,tt0116391,Drama
...,...,...,...,...,...,...,...
607,63,Dirección\nGeorge Sluizer\nGuión\nJim BartonSo...,Jim BartonSophie Dix,"La vida de Boy, un joven viudo que vive en el ...",Dark Blood,tt0293069,Thriller
608,56,Desconocido,Aric CushingCharlotte Perkins GilmanLogan Thomas,"After a devastating fire, Charlotte and John r...",The Yellow Wallpaper,tt0790788,Thriller
609,29,Dirección\nRishi Opel\nGuión\nRishi Opel\nRepa...,Rishi Opel,British crime drama in which the diverging for...,The Grind,tt0906013,Thriller
610,57,Desconocido,Elmore LeonardCharles Matthau,"Set in 1974, a pair of '60s radicals rely on t...",Freaky Deaky,tt0938305,Thriller


In [105]:
# Iniciar el navegador.
driver = webdriver.Chrome()
print("Abriendo Google.📩")

time.sleep(5)

# Abrir página web de IMDb.
driver.get("https://www.imdb.com/")
print("Accediendo a la web.🔄")

time.sleep(3)

# Maximizar la ventana del navegador.
driver.maximize_window()
print("Pantalla maximizada.💻")

time.sleep(3)

# Aceptar cookies.
driver.find_element("css selector", "#__next > div > div > div.sc-jrcTuL.bPmWiM > div > button.icb-btn.sc-bcXHqe.sc-dkrFOg.sc-iBYQkv.dcvrLS.ddtuHe.dRCGjd").click()
print("Cookies aceptadas.🍪")
time.sleep(5)


datos_actores_imdb = []


# Iterar sobre un rango específico de filas 0-310 del DataFrame.
for index, row in df_IMDB1.iloc[135:176].iterrows():

    # Buscar la película por su id en IMDb.
    url_pelicula = f"https://www.imdb.com/title/{row['ID de la película']}/"
    driver.get(url_pelicula)
    time.sleep(5)
    print('Entrando a pelicula')

    actores_movie= []
    actores_url={}

    time.sleep(5)

    for i in range(1, 10):
        
        try:
            
            actor_selector = f"#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > div > section > div > div.sc-4b498b6e-1.jDpRYv.ipc-page-grid__item.ipc-page-grid__item--span-2 > section.ipc-page-section.ipc-page-section--base.sc-bfec09a1-0.dGyVLT.title-cast.title-cast--movie.celwidget > div.ipc-shoveler.ipc-shoveler--base.ipc-shoveler--page0.title-cast__grid > div.ipc-sub-grid.ipc-sub-grid--page-span-2.ipc-sub-grid--wraps-at-above-l.ipc-shoveler__grid > div:nth-child({i}) > div.sc-bfec09a1-7.kSFMrr > a"
            actor_element = driver.find_element('css selector', actor_selector)
            nombre_actor = actor_element.text
            print('Se ha identificado nombre')
            url_actor = actor_element.get_attribute("href")
            print('Se ha identificado url')
            
            time.sleep(5)


            actores_url[nombre_actor] = url_actor
            print('Se ha agregado actor y URL')
            actores_movie.append({"Nombre": nombre_actor, "id_pelicula": row['ID de la película'], "id_actor": index})
            print('Se ha agregado actor a lista')


             # Verificar si el actor ya está en datos_actores_imdb
            if not any(actor['Nombre'] == nombre_actor for actor in datos_actores_imdb):
                datos_actores_imdb.append({"Nombre": nombre_actor, "id_actor": index})


        except:
            print(f"Error al encontrar los 10 primeros actores de la pelicula {row['ID de la película']}")

    
    time.sleep(7)

    for nombre_actor,url in actores_url.items():
        try:  
        
            url_actor = driver.get(url)
            print(f'Acceso a pagina del actor {nombre_actor}')

            # Año nacimiento.
            try:
                nacimiento_imbd = driver.find_element("xpath", "//*[@id='__next']/main/div/section[1]/section/div[3]/section/section/div[3]/div[2]/div[2]/section/aside/div/span[2]").text
                print (f'Se ha agregado la fecha de nacimiento{nacimiento_imbd}')

            except:
                nacimiento_imbd = "Desconocido"    
                print(f"Año nacimiento: {nacimiento_imbd}")    

            time.sleep(7)
            
            # ¿Por qué es conocid@? (Obras)
            try:   
                selector_meta = driver.find_element("css selector", "head > meta:nth-child(13)")
                contenido = selector_meta.get_attribute("content")
                obras_imbd = contenido
                
                print(contenido)
                        
            except: 
                obras_imbd = "Desconocido"
                print(f'No se encontró la obra {obras_imbd}') 
                        

            time.sleep(5)

            # ¿Qué hace?
            try:
                roles_imbd = driver.find_element("xpath", '//*[@id="__next"]/main/div/section[1]/section/div[3]/section/section/div[2]/div/ul').text                
                print(f'Roles {roles_imbd}')
                        
            except:
                roles_imbd = "Desconocido"
                print(f"Roles: {roles_imbd}")    

            time.sleep(5)

            # Premios.
            try:
                premios = driver.find_element("css selector", "#__next > main > div > section.ipc-page-background.ipc-page-background--base.sc-afa4bed1-0.iMxoKo > div > section > div > div.sc-4b498b6e-1.jDpRYv.ipc-page-grid__item.ipc-page-grid__item--span-2 > section:nth-child(3) > div > ul").text
                print(f'Premios {premios}')
            except:
                premios = "Desconocido"
                print(f"Premios: {premios}")
            
            
            time.sleep(5)
        
        
            # Extraer nombre de la película y género.
            nombre_pelicula = row['Nombre de la película']
            genero = row['Genero']
            print(f"Nombre de la película: {nombre_pelicula}")
            print(f"Género: {genero}")

            # Guardar los datos del actor en `datos_actores_imdb`.
            datos_actores_imdb.append((nombre_actor, nacimiento_imbd, obras_imbd, roles_imbd, premios, nombre_pelicula, row['ID de la película'], genero))
            print(f"Se ha agregado información del actor {nombre_actor} a datos_actores_imdb.")
            
        except:
            print (f"Error al procesar la página del {nombre_actor}")     
    

# Cerramos el navegador.
driver.close()

Abriendo Google.📩
Accediendo a la web.🔄
Pantalla maximizada.💻
Cookies aceptadas.🍪
Entrando a pelicula
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agregado actor y URL
Se ha agregado actor a lista
Se ha identificado nombre
Se ha identificado url
Se ha agr

In [106]:
datos_actores_imdb

[{'Nombre': 'David Burden', 'id_actor': 135},
 {'Nombre': 'Kathryn Carner', 'id_actor': 135},
 {'Nombre': 'Jerry Gelb', 'id_actor': 135},
 {'Nombre': 'Kirsten Hill', 'id_actor': 135},
 {'Nombre': 'Kevin P. Kern', 'id_actor': 135},
 {'Nombre': 'Marlena Markonovich', 'id_actor': 135},
 {'Nombre': 'Tamara Pennington', 'id_actor': 135},
 {'Nombre': 'Ron Pisaturo', 'id_actor': 135},
 {'Nombre': 'Ruben Pla', 'id_actor': 135},
 ('David Burden',
  'Desconocido',
  'Known for: Blue Heart, Teddy Bears, Monster in a Box',
  'Actor\nProducer\nSecond Unit or Assistant Director',
  'Desconocido',
  "A Night at Sophie's",
  'tt0169084',
  'Comedy'),
 ('Kathryn Carner',
  'Desconocido',
  "Known for: A Foreign Exchange Love, Finding Red Cloud, A Night at Sophie's",
  'Actress\nProducer\nDirector',
  'Desconocido',
  "A Night at Sophie's",
  'tt0169084',
  'Comedy'),
 ('Jerry Gelb',
  'Desconocido',
  'Known for: Cowboy Bebop: The Movie, Six-String Samurai, Black Thunder',
  'Actor\nCasting Department\

In [107]:
# Convertimos los archivos en Data Frame
df_actores = pd.DataFrame(datos_actores_imdb[9:])

In [108]:
df_actores

Unnamed: 0,0,1,2,3,4,5,6,7
0,David Burden,Desconocido,"Known for: Blue Heart, Teddy Bears, Monster in...",Actor\nProducer\nSecond Unit or Assistant Dire...,Desconocido,A Night at Sophie's,tt0169084,Comedy
1,Kathryn Carner,Desconocido,"Known for: A Foreign Exchange Love, Finding Re...",Actress\nProducer\nDirector,Desconocido,A Night at Sophie's,tt0169084,Comedy
2,Jerry Gelb,Desconocido,"Known for: Cowboy Bebop: The Movie, Six-String...",Actor\nCasting Department\nAdditional Crew,Desconocido,A Night at Sophie's,tt0169084,Comedy
3,Kirsten Hill,Desconocido,"Known for: Next, Here Comes the Boom, Zookeeper",Actress\nAdditional Crew\nProducer,Desconocido,A Night at Sophie's,tt0169084,Comedy
4,Kevin P. Kern,Desconocido,"Known for: Chatterbox, A Night at Sophie's, Be...",Actor,Desconocido,A Night at Sophie's,tt0169084,Comedy
...,...,...,...,...,...,...,...,...
339,Jaime Pressly,"July 30, 1977","Known for: My Name Is Earl, Not Another Teen M...",Actress\nProducer\nSoundtrack,Won 1 Primetime Emmy\n6 wins & 14 nominations ...,Venus & Vegas,tt0423474,Comedy
340,Molly Sims,"May 25, 1973","Known for: Fired Up!, Yes Man, The Benchwarmers",Actress\nProducer\nExecutive,Awards\n1 nomination,Venus & Vegas,tt0423474,Comedy
341,Roselyn Sanchez,"April 2, 1973","Known for: Act of Valour, Rush Hour 2, The Gam...",Actress\nProducer\nWriter,Awards\n1 win & 13 nominations,Venus & Vegas,tt0423474,Comedy
342,Florence Henderson,"February 14, 1934","Known for: The Brady Bunch, The Brady Bunch Va...",Actress\nProducer\nWriter,Awards\n3 wins & 5 nominations,Venus & Vegas,tt0423474,Comedy


In [109]:
# Guardar el archivo para luego poder abrirlo sin la columna del indice, renombrar las columnas y volver a guardarlo con los cambios.
df_actores.to_csv('actores_imdb1b_columnassj.csv', index=False)
print("Archivo guardado como 'actores_imdb1b_columnassj.csv'.")

Archivo guardado como 'actores_imdb1b_columnassj.csv'.


In [129]:
df_actores = pd.read_csv("actores_imdb3b.csv")

In [130]:
df_actores = df_actores.rename(columns={
    '0': 'Nombre',
    '1': 'Nacimiento',
    '2': 'Otras_Obras',
    '3': 'Roles',
    '4': 'Premios',
    '5': 'Pelicula',
    '6': 'ID_Pelicula',
    '7': 'Genero_Pelicula'
})

In [131]:
df_actores

Unnamed: 0,Nombre,Nacimiento,Otras_Obras,Roles,Premios,Pelicula,ID_Pelicula,Genero_Pelicula
0,Govinda,"December 21, 1963","Known for: Coolie No. 1, Partner, Holiday","Actor, Music Department, Producer",16.0,Shikari,tt0120117,Thriller
1,Tabu,"November 4, 1970","Known for: Andhadhun, Drishyam, Haider","Actress, Music Department",42.0,Shikari,tt0120117,Thriller
2,Karisma Kapoor,"June 25, 1974","Known for: Dil to Pagal Hai, Zubeidaa, Fiza","Actress, Music Department",23.0,Shikari,tt0120117,Thriller
3,Shweta Menon,"April 23, 1974",Known for: Paleri Manikyam: Oru Pathirakolapat...,"Actress, Music Department, Soundtrack",5.0,Shikari,tt0120117,Thriller
4,Nirmal Pandey,"August 10, 1962","Known for: Pyaar Kiya To Darna Kya, Bandit Que...","Actor, Music Department",,Shikari,tt0120117,Thriller
...,...,...,...,...,...,...,...,...
298,Seth Meriwether,"April 20, 1995","Known for: Terminator Genisys, Trouble with th...",Actor,,Devil's Knot,tt0804463,Thriller
299,Kristopher Higgins,"March 16, 1987","Known for: Devil's Knot, In Time, The Watch","Actor, Producer",,Devil's Knot,tt0804463,Thriller
300,Amy Ryan,"May 3, 1968","Known for: Gone Baby Gone, Birdman or (The Une...","Actress, Producer, Soundtrack",40.0,Devil's Knot,tt0804463,Thriller
301,Robert Baker,"October 15, 1979",Known for: Indiana Jones and the Kingdom of th...,"Actor, Writer, Producer",,Devil's Knot,tt0804463,Thriller


In [132]:
# LIMPIEZA ACTORES

import pandas as pd
import re

# Función para eliminar "Known for:" con regex
def limpiar_known_for(df_actores):
    # Iteramos sobre la columna que contiene los datos con "Known for:" y los limpiamos
    df_actores['Otras_Obras'] = df_actores['Otras_Obras'].apply(lambda x: re.sub(r'Known for:\s*', '', str(x)))
    return df_actores

df_actores = limpiar_known_for(df_actores)  # Eliminación de "Known for:" en la columna de índice 5

df_actores

Unnamed: 0,Nombre,Nacimiento,Otras_Obras,Roles,Premios,Pelicula,ID_Pelicula,Genero_Pelicula
0,Govinda,"December 21, 1963","Coolie No. 1, Partner, Holiday","Actor, Music Department, Producer",16.0,Shikari,tt0120117,Thriller
1,Tabu,"November 4, 1970","Andhadhun, Drishyam, Haider","Actress, Music Department",42.0,Shikari,tt0120117,Thriller
2,Karisma Kapoor,"June 25, 1974","Dil to Pagal Hai, Zubeidaa, Fiza","Actress, Music Department",23.0,Shikari,tt0120117,Thriller
3,Shweta Menon,"April 23, 1974",Paleri Manikyam: Oru Pathirakolapathakathinte ...,"Actress, Music Department, Soundtrack",5.0,Shikari,tt0120117,Thriller
4,Nirmal Pandey,"August 10, 1962","Pyaar Kiya To Darna Kya, Bandit Queen, Auzaar","Actor, Music Department",,Shikari,tt0120117,Thriller
...,...,...,...,...,...,...,...,...
298,Seth Meriwether,"April 20, 1995","Terminator Genisys, Trouble with the Curve, Th...",Actor,,Devil's Knot,tt0804463,Thriller
299,Kristopher Higgins,"March 16, 1987","Devil's Knot, In Time, The Watch","Actor, Producer",,Devil's Knot,tt0804463,Thriller
300,Amy Ryan,"May 3, 1968","Gone Baby Gone, Birdman or (The Unexpected Vir...","Actress, Producer, Soundtrack",40.0,Devil's Knot,tt0804463,Thriller
301,Robert Baker,"October 15, 1979",Indiana Jones and the Kingdom of the Crystal S...,"Actor, Writer, Producer",,Devil's Knot,tt0804463,Thriller


In [None]:
# LIMPIEZA ACTORES

import pandas pd
import re

# Función para limpiar la cuarta y quinta columna y sustituir '\n' por ', '
def limpiar_columnas(df_actores):
  # Reemplazamos los saltos de línea por comas y eliminamos espacios en blanco.
  df_actores['Roles'] = df_actores['Roles'].str.replace('\n', ', ').str.strip()
  df_actores['Premios'] = df_actores['Premios'].str.replace('\n', ', ').str.strip()
  return df_actores

# Función para eliminar "Known for:" con regex
def limpiar_known_for(df_actores):
    # Iteramos sobre la columna que contiene los datos con "Known for:" y los limpiamos
    df_actores['Otras_Obras'] = df_actores['Otras_Obras'].apply(lambda x: re.sub(r'Known for:\s*', '', str(x)))
    return df_actores

# Función para extraer solo el número delante de "wins"
def extraer_numero_wins(df_actores):
    # Usamos una expresión regular que busca el número seguido de "wins"
    df_actores['Premios'] = df_actores['Premios'].apply(lambda x: re.search(r'(\d+)\s*wins', str(x)).group(1) if re.search(r'(\d+)\s*wins', str(x)) else '')
    return df_actores

# Ejemplo de uso con un DataFrame ya cargado
def limpiar_df_actores(df_actores):
    # Aplicamos las tres funciones de limpieza
    df_actores = limpiar_columnas(df_actores) # Limpieza de la cuarta columna (índice 3)
    df_actores = limpiar_known_for(df_actores)  # Eliminación de "Known for:" en la columna de índice 5
    df_actores = extraer_numero_wins(df_actores)  # Extraer el número de "wins" en la columna de índice 1
    return df_actores

# Aquí llamarías a la función para limpiar tu DataFrame completo
df_actores_limpio3 = limpiar_df_actores(df_actores)

# Mostrar el DataFrame limpio
df_actores_limpio3

In [133]:
# Guardar el archivo con las columnas renombradas
df_actores.to_csv('actores_imdb3b_limpio.csv', index=False)
print("Columnas renombradas. Archivo guardado como 'actores_imdb3b_limpio.csv'.")

Columnas renombradas. Archivo guardado como 'actores_imdb3b_limpio.csv'.


In [5]:
def unir_csvs(csv1, csv1b, csv2, csv3, csv3b):
    # Cargar todos los CSV.
    df1 = pd.read_csv(csv1)
    df1b = pd.read_csv(csv1b)
    df2 = pd.read_csv(csv2)
    df3 = pd.read_csv(csv3)
    df3b = pd.read_csv(csv3b)
    columnas = ['Nombre', 'Nacimiento', 'Otras_Obras', 'Roles', 'Premios', 'Pelicula', 'ID_Pelicula', 'Genero_Pelicula']
    df1 = df1[columnas]
    df1b = df1b[columnas]
    df2 = df2[columnas]
    df3 = df3[columnas]
    df3b = df3b[columnas]

    # Concatenar todos los DataFrames.
    df_concatenado = pd.concat([df1, df1b, df2, df3, df3b])
    df_concatenado.to_csv("datos_actores_imdb.csv", index=False)
unir_csvs("actores_imdb1_limpio.csv", "actores_imdb1b_limpio.csv", "actores_imdb2_limpio.csv", "actores_imdb3_limpio.csv", "actores_imdb3b_limpio.csv")