# Entrada LightFM   
En este notebook obtengo los dataframe que el modelo utilizará a partir de los conjuntos de datos

In [1]:
# Importar todo lo necesario
import os
import pandas as pd

## MovieLens

In [2]:
# Obtención del path de los archivos
ml_data_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Movielens', 'ml_data.csv')
ml_users_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Movielens', 'ml_users.csv')
ml_items_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Movielens', 'ml_items.csv')

In [3]:
# Obtención del dataframe de datos
ml_data_df = pd.read_csv(ml_data_path, delim_whitespace=True, names=['Id Usuario','Id Película','Valoración','Fecha'])
ml_data_df.sort_values(['Id Usuario', 'Id Película'], inplace=True)

# Obtención del dataframe de usuarios
ml_users_df = pd.read_csv(ml_users_path, sep='|', names=['Id Usuario', 'Edad', 'Género', 'Ocupación', 'Código Postal'])

# Obtención del dataframe de items
ml_items_df = pd.read_csv(ml_items_path, sep='|',
    names=['Id Película','Título','Fecha de estreno','Fecha DVD','iMDB','Género desconocido','Acción','Aventura',
           'Animación','Infantil','Comedia', 'Crimen','Docuemntal','Drama','Fantasía','Cine negro',
           'Horror','Musical','Misterio','Romance','Ciencia ficción','Thriller','Bélico','Western'],
    encoding='latin-1')

In [4]:
# Guardo los dataframe para obtener los modelos en ModeloLightFM
%store ml_data_df
%store ml_users_df
%store ml_items_df

Stored 'ml_data_df' (DataFrame)
Stored 'ml_users_df' (DataFrame)
Stored 'ml_items_df' (DataFrame)


## Anime

In [5]:
# Obtención del path de los archivos
anime_items_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Anime', 'anime.csv')
anime_data_1_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Anime', 'ratings1.csv')
anime_data_2_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Anime', 'ratings2.csv')
anime_data_3_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Anime', 'ratings3.csv')
anime_data_4_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Anime', 'ratings4.csv')

In [6]:
# Obtención del dataframe de items
anime_items_df = pd.read_csv(anime_items_path, sep=',', 
                             names=['Id Anime', 'Título', 'Género', 'Tipo', 'Episodios', 'Valoración Media', 'Miembros'])
anime_items_df.sort_values(['Id Anime'], inplace=True)

# Obtención del dataframe de datos
anime_data_1_df = pd.read_csv(anime_data_1_path, sep=',', names=['Id Usuario', 'Id Anime', 'Valoración'], low_memory=False)
anime_data_2_df = pd.read_csv(anime_data_2_path, sep=',', names=['Id Usuario', 'Id Anime', 'Valoración'], low_memory=False)
anime_data_3_df = pd.read_csv(anime_data_3_path, sep=',', names=['Id Usuario', 'Id Anime', 'Valoración'], low_memory=False)
anime_data_4_df = pd.read_csv(anime_data_4_path, sep=',', names=['Id Usuario', 'Id Anime', 'Valoración'], low_memory=False)
anime_data_df = pd.concat([anime_data_1_df, anime_data_2_df, anime_data_3_df, anime_data_4_df])

In [7]:
# Guardo los dataframe para obtener los modelos en ModeloLightFM
%store anime_data_df
%store anime_items_df

Stored 'anime_data_df' (DataFrame)
Stored 'anime_items_df' (DataFrame)


## Book-Crossing

In [8]:
# Obtención del path de los archivos
bc_data_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Book-Crossing', 'BX-Book-Ratings.csv')
bc_users_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Book-Crossing', 'BX-Users.csv')
bc_items_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Book-Crossing', 'BX-Books.csv')

In [9]:
# Obtención del dataframe de datos
bc_data_df = pd.read_csv(bc_data_path, sep=';', names=['Id Usuario','ISBN','Valoración'], encoding='cp1252', low_memory=False)
bc_data_df.sort_values(['Id Usuario'], inplace=True)

# Obtención del dataframe de usuarios
bc_users_df = pd.read_csv(bc_users_path, sep=';', names=['Id Usuario', 'Residencia', 'Edad'], encoding='cp1252')
bc_users_df = bc_users_df.fillna(0)

# Obtención del dataframe de items
bc_items_df = pd.read_csv(bc_items_path, sep=';', 
                          names=['ISBN','Título','Autor','Fecha de publicación','Editorial','URL S','URL M','URL L'], 
                          encoding='cp1252', low_memory=False)

In [10]:
# Guardo los dataframe para obtener los modelos en ModeloLightFM
%store bc_data_df
%store bc_users_df
%store bc_items_df

Stored 'bc_data_df' (DataFrame)
Stored 'bc_users_df' (DataFrame)
Stored 'bc_items_df' (DataFrame)


## LastFM

In [29]:
# Obtención del path de los archivos
lf_data_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Last.FM', 'user_artists.csv')
lf_users_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Last.FM', 'user_friends.csv')
lf_artists_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Last.FM', 'artists.csv')
lf_generos_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'Last.FM', 
                               'user_taggedartists-timestamps.csv')

In [30]:
# Obtención del dataframe de datos
lf_data_df = pd.read_csv(lf_data_path, sep='\t', names=['Id Usuario','Id Artista','Veces escuchado'])

# Obtención del dataframe de usuarios
lf_users_df = pd.read_csv(lf_users_path, sep='\t', names=['Id Usuario', 'Id Amigo'])

# Obtención del dataframe de items
lf_artists_df = pd.read_csv(lf_artists_path, sep='\t', names=['Id Artista','Nombre','URL','URL Foto'])
lf_artists_df = lf_artists_df.drop(['URL', 'URL Foto'], axis=1)
lf_generos_df = pd.read_csv(lf_generos_path, sep='\t', names=['Id Usuario','Id Artista','Id Genero','Timestamp'])
lf_generos_df = lf_generos_df.drop(['Id Usuario', 'Timestamp'], axis=1)
lf_items_df = lf_artists_df.merge(lf_generos_df, left_on='Id Artista', right_on='Id Artista') 

In [34]:
# Guardo los dataframe para obtener los modelos en ModeloLightFM
%store lf_data_df
%store lf_users_df
%store lf_items_df

Stored 'lf_data_df' (DataFrame)
Stored 'lf_users_df' (DataFrame)
Stored 'lf_items_df' (DataFrame)


## Dating Agency

In [35]:
# Obtención del path de los archivos
dating_data_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'DatingAgency', 'ratings.csv')
dating_users_path = os.path.join(os.path.expanduser('~'), 'Downloads', 'DatasetsTFG', 'DatingAgency', 'gender.csv')

In [36]:
# Obtención del dataframe de datos
dating_data_df = pd.read_csv(dating_data_path, sep=',', names=['Id Usuario', 'Id Match', 'Valoración'], engine='python')

# Obtención del dataframe de usuarios/items
dating_users_df = pd.read_csv(dating_users_path, sep=',', names=['Id Usuario', 'Género'], engine='python')

In [38]:
# Guardo los dataframe para obtener los modelos en ModeloLightFM
%store dating_data_df
%store dating_users_df

Stored 'dating_data_df' (DataFrame)
Stored 'dating_users_df' (DataFrame)
