In [1]:
import pandas as pd
import IMDB_API as imdb

# Extraer información películas

En este notebook vamos a extraer toda la información que podamos de las películas. Para ello, vamos a ir a sus páginas en IMDB y descargaremos la información que haya en las fichas de las películas.

## Obtener los links de IMDB

En esta parte obtenemos los links de las películas que vamos a utilizar en el experimento.

In [2]:
# Cargamos el dataset de los links a IMDB
movies_links_DF = pd.read_csv('data/original_dataset/ml-latest-small/links.csv')
movies_links_DF.head()

Unnamed: 0,movieId,imdbId,tmdbId
0,1,114709,862.0
1,2,113497,8844.0
2,3,113228,15602.0
3,4,114885,31357.0
4,5,113041,11862.0


In [3]:
# Cargamos las películas seleccionadas para el experimento
ratings_DF = pd.read_csv('data/experiment_data/ratings.csv')
ratings_DF.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,6,10,3.0,845553253
1,6,32,4.0,845553426
2,6,34,4.0,845553354
3,6,47,4.0,845553317
4,6,50,1.0,845553381


In [4]:
# Filtramos los links de las películas del experimento
movies_id = ratings_DF.groupby('movieId').count().index.values
movies_links_DF = movies_links_DF[movies_links_DF['movieId'].isin(movies_id)]

## Descargar datos

Completamos los datos de las películas.

In [5]:
# Obtenemos la información de las películas
movies_info = imdb.get_all_movies_data(movies_links_DF)

100%|██████████| 100/100 [01:37<00:00,  1.09s/it]


In [16]:
# Creamos un dataset con la información de las películas
movies_DF = pd.DataFrame(movies_info)

# Ordenamos las columnas
cols = ['id', 'title', 'year', 'genres', 'director', 'stars', 'writers', 'companies', 'keywords']
movies_DF = movies_DF[cols]

# Las columnas con listas de elementos las convertimos a Strings separados con |
def modifyCSV(row, column):
    """
        Formatear texto item1|item2|...
    """
    return '|'.join(row[column])
    
movies_DF['companies'] = movies_DF.apply (lambda row: modifyCSV(row, 'companies'), axis=1)
movies_DF['genres'] = movies_DF.apply (lambda row: modifyCSV(row, 'genres'), axis=1)
movies_DF['keywords'] = movies_DF.apply (lambda row: modifyCSV(row, 'keywords'), axis=1)
movies_DF['stars'] = movies_DF.apply (lambda row: modifyCSV(row, 'stars'), axis=1)
movies_DF['writers'] = movies_DF.apply (lambda row: modifyCSV(row, 'writers'), axis=1)
movies_DF.head()

Unnamed: 0,id,title,year,genres,director,stars,writers,companies,keywords
0,1,Toy Story,1995,Adventure|Family|Fantasy|Comedy|Animation,John Lasseter,Tim Allen|Don Rickles|Tom Hanks,Pete Docter|John Lasseter,Pixar Animation Studios|Walt Disney Pictures,cgi animation|cowboy|rivalry|toy|claw crane
1,10,GoldenEye,1995,Thriller|Adventure|Action,Martin Campbell,Sean Bean|Pierce Brosnan|Izabella Scorupco,Michael France|Ian Fleming,United Artists|Eon Productions,james bond character|official james bond serie...
2,32,Doce monos,1995,Thriller|Sci-Fi|Mystery,Terry Gilliam,Brad Pitt|Bruce Willis|Madeleine Stowe,Chris Marker|David Webb Peoples,Classico|Atlas Entertainment|Universal Pictures,psychiatrist|mental institution|time travel|vi...
3,34,"Babe, el cerdito valiente",1995,Family|Comedy|Drama,Chris Noonan,Christine Cavanaugh|James Cromwell|Magda Szuba...,Dick King-Smith|George Miller,Universal Pictures|Kennedy Miller Productions,farmer|farm|sheep|pig|sheepdog
4,47,Seven,1995,Thriller|Drama|Crime|Mystery,David Fincher,Kevin Spacey|Brad Pitt|Morgan Freeman,Andrew Kevin Walker,Juno Pix|New Line Cinema|Cecchi Gori Pictures,psychological torture|serial murder|human mons...


In [17]:
# Guardamos el dataframe en CSV
movies_DF.to_csv('data/experiment_data/movies.csv', index=False)

### Siguiente Notebook

Ya tenemos toda la información de las películas del experimento. A continuación, convertiremos la información de las películas en vectores binarios. Para ello, ejecute el notebook `vectores_binarios_peliculas.ipynb`.