### Valoraciones ordenadas de mayor a menor para cada usuario
Este notebook calcula y almacena de en un fichero externo una tabla con las valoraciones de los usuarios ordenadas, para cada uno de ellos de mayor a menor puntuación. Esta tabla es utilizada por el sistema para saber en qué películas fijarse para recomendar a un determinado usuarios y es actualizada en dicho sistema cuando un asuario agrega una nueva valoración.

Además, en el notebook se realiza un mapeo entre los identificadores de usuario y diferentes nombres generados con la librería "names", que permite en la conversación usar un usuario con muchas valoraciones en el sistema y recibir recomendaciones de calidad (sin tener que añadir muchas valoraciones nosotros a un nuevo usuario para empezar a comprobar la calidad del sistema). Por ejemplo, si un ID de usuario con 100 valoraciones se mapea a "Albert Russell", si en una conversación con el sistema le decimos que nos llamamos Albert Russell, se basará en esas 100 valoraciones para recomendarnos contenido (además de las que podamos añadirle adicionalmente).

Importamos las librerías necesarias

In [1]:
import numpy as np
import pandas as pd
import names
import pickle

Cargamos el dataset de valoraciones quedándonos sólo con las 3 columnas que nos interesan

In [6]:
userRatings = pd.read_csv("ratings.csv")[['userId', 'rating', 'movieId']]
userRatings

Unnamed: 0,userId,rating,movieId
0,1,1.0,110
1,1,4.5,147
2,1,5.0,858
3,1,5.0,1221
4,1,5.0,1246
...,...,...,...
26024284,270896,5.0,58559
26024285,270896,5.0,60069
26024286,270896,4.5,63082
26024287,270896,4.5,64957


Ordenamos el Dataframe primero por la clave del identificador de usuario y luego por la puntuación (en orden descendente). De esta forma tendremos para cada usuario ordenadas sus valoraciones de mayor a menor. almacenamos los datos en el fichero externo "ratings_ordered.csv"

In [8]:
userRatingsOrdered = userRatings.sort_values(by=['userId', 'rating'], ascending=False)[:50000]
userRatingsOrdered.to_csv("ratings_ordered.csv")

Cargamos el fichero que acabamos de crear y mostramos el dataset para comprobar que es correcto

In [9]:
userRatingsOrdered = pd.read_csv("ratings_ordered.csv")
userRatingsOrdered

Unnamed: 0.1,Unnamed: 0,userId,rating,movieId
0,26024034,270896,5.0,32
1,26024037,270896,5.0,47
2,26024038,270896,5.0,50
3,26024040,270896,5.0,110
4,26024041,270896,5.0,111
...,...,...,...,...
49995,25974290,270365,5.0,329
49996,25974292,270365,5.0,349
49997,25974293,270365,5.0,380
49998,25974294,270365,5.0,434


Mostramos el número de usuarios únicos con valoraciones que tenemos

In [11]:
usersIds = userRatingsOrdered["userId"].unique()
print("Usuario únicos con valoraciones", len(usersIds))

Usuario únicos con valoraciones 532


Construimos un diccionario que tenga como claves tantos nombres (generados con la biblioteca names) como usuarios diferentes hay en el sistema, y como valores los IDs de estos. Es decir, que mapee nombres de usuario ficticios a IDs de usuario.

In [14]:
nameIDTable = {}
for userId in usersIds:
    nameIDTable[names.get_full_name()] = userId
nameIDTable

{'Charles Allen': 270896,
 'Juan House': 270895,
 'Nelly Alegre': 270894,
 'Melissa Dyer': 270893,
 'Mary Sharp': 270892,
 'Peter Potter': 270891,
 'Gloria Brown': 270890,
 'Michael Thomas': 270889,
 'Jason Glass': 270888,
 'Theresa Lowry': 270887,
 'Barbara Martinez': 270886,
 'Tony Franklin': 270885,
 'Dorothy Reynolds': 270884,
 'Spencer Lutwin': 270883,
 'Matthew Bras': 270882,
 'Melva Bryant': 270881,
 'Leonard Chadwick': 270880,
 'Joan Hensley': 270879,
 'Patty Alcala': 270878,
 'Jason West': 270877,
 'Jennifer Jackson': 270876,
 'Colleen Slayton': 270875,
 'Pauline Mckee': 270874,
 'Jayson Peduto': 270873,
 'Dorthea Barner': 270872,
 'Alberta Warren': 270871,
 'Jeffrey Dicamillo': 270870,
 'Carlos Joiner': 270869,
 'Eugene Carr': 270868,
 'William Hullihen': 270867,
 'Jason Stewart': 270866,
 'William Smith': 270865,
 'Katy Lee': 270864,
 'Mildred Cooper': 270863,
 'Michelle Uziel': 270862,
 'Rosalind Blackmon': 270861,
 'Kathy Caple': 270860,
 'Leonard Green': 270859,
 'Joe Noa

Guardamos el mapeo de nombres de usuario a identificador en el fichero externo "nameIDTable.pkl"

In [15]:
fileTable = open("nameIDTable.pkl", "wb")
pickle.dump(nameIDTable, fileTable)
fileTable.close()