In [1]:
import pandas as pd
import IMDB_API as imdb

# Extraer información películas

En este notebook vamos a extraer toda la información que podamos de las películas. Para ello, vamos a ir a sus páginas en IMDB y descargaremos la información que haya en las fichas de las películas.

## Obtener los links de IMDB

En esta parte obtenemos los links de las películas que vamos a utilizar en el experimento.

In [2]:
# Cargamos el dataset de los links a IMDB
movies_links_DF = pd.read_csv('data/original_dataset/ml-latest-small/links.csv')
movies_links_DF.head()

Unnamed: 0,movieId,imdbId,tmdbId
0,1,114709,862.0
1,2,113497,8844.0
2,3,113228,15602.0
3,4,114885,31357.0
4,5,113041,11862.0


In [3]:
# Cargamos las películas seleccionadas para el experimento
ratings_DF = pd.read_csv('data/experiment_data/ratings.csv')
ratings_DF.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,6,4.0,964982224
2,1,47,5.0,964983815
3,1,50,5.0,964982931
4,1,110,4.0,964982176


In [4]:
# Filtramos los links de las películas del experimento
movies_id = ratings_DF.groupby('movieId').count().index.values
movies_links_DF = movies_links_DF[movies_links_DF['movieId'].isin(movies_id)]

## Descargar datos

Completamos los datos de las películas.

In [5]:
# Obtenemos la información de las películas
movies_info = imdb.get_all_movies_data(movies_links_DF)

100%|██████████| 300/300 [05:12<00:00,  1.07s/it]


In [6]:
# Creamos un dataset con la información de las películas
movies_DF = pd.DataFrame(movies_info)

# Ordenamos las columnas
cols = ['id', 'title', 'year', 'genres', 'director', 'stars', 'writers', 'companies', 'keywords']
movies_DF = movies_DF[cols]

# Las columnas con listas de elementos las convertimos a Strings separados con |
def modifyCSV(row, column):
    """
        Formatear texto item1|item2|...
    """
    return '|'.join(row[column])
    
movies_DF['companies'] = movies_DF.apply (lambda row: modifyCSV(row, 'companies'), axis=1)
movies_DF['genres'] = movies_DF.apply (lambda row: modifyCSV(row, 'genres'), axis=1)
movies_DF['keywords'] = movies_DF.apply (lambda row: modifyCSV(row, 'keywords'), axis=1)
movies_DF['stars'] = movies_DF.apply (lambda row: modifyCSV(row, 'stars'), axis=1)
movies_DF['writers'] = movies_DF.apply (lambda row: modifyCSV(row, 'writers'), axis=1)
movies_DF.head()

Unnamed: 0,id,title,year,genres,director,stars,writers,companies,keywords
0,1,Toy Story,1995,Animation|Adventure|Fantasy|Comedy|Family,John Lasseter,Don Rickles|Tim Allen|Tom Hanks,John Lasseter|Pete Docter,Pixar Animation Studios|Walt Disney Pictures,claw crane|toy|cowboy|cgi animation|rivalry
1,2,Jumanji,1995,Adventure|Family|Fantasy,Joe Johnston,Bonnie Hunt|Kirsten Dunst|Robin Williams,Greg Taylor|Jonathan Hensleigh,Interscope Communications|Teitler Film|TriStar...,woodland|lush|board game|board|wood
2,6,Heat,1995,Crime|Thriller|Drama,Michael Mann,Val Kilmer|Robert De Niro|Al Pacino,Michael Mann,Forward Pass|Warner Bros.|Regency Enterprises,gun battle|child in jeopardy|armored car robbe...
3,10,GoldenEye,1995,Adventure|Action|Thriller,Martin Campbell,Sean Bean|Pierce Brosnan|Izabella Scorupco,Michael France|Ian Fleming,Eon Productions|United Artists,official james bond series|james bond characte...
4,11,El presidente y Miss Wade,1995,Romance|Drama|Comedy,Rob Reiner,Martin Sheen|Michael Douglas|Annette Bening,Aaron Sorkin,Universal Pictures|Wildwood Enterprises|Castle...,reference to martin van buren|president|americ...


In [7]:
# Guardamos el dataframe en CSV
movies_DF.to_csv('data/experiment_data/movies.csv', index=False)

### Siguiente Notebook

Ya tenemos toda la información de las películas del experimento. A continuación, convertiremos la información de las películas en vectores binarios. Para ello, ejecute el notebook `vectores_binarios_peliculas.ipynb`.