Copyright (C) 2023 Pablo Castells y Alejandro Bellogín

El código que contiene este notebook se ha implementado para la realización de las prácticas de la asignatura "Búsqueda y minería de información" de 4º del Grado en Ingeniería Informática, impartido en la Escuela Politécnica Superior de la Universidad Autónoma de Madrid. El fin del mismo, así como su uso, se ciñe a las actividades docentes de dicha asignatura.

### **Búsqueda y Minería de Información 2022-23**
### Universidad Autónoma de Madrid, Escuela Politécnica Superior
### Grado en Ingeniería Informática, 4º curso

# Bloque 1 &ndash; Sistemas de recomendación

Fechas:

* Comienzo: martes 28 / jueves 30 de marzo
* Entrega: lunes 8 de mayo, 23:59

## Objetivos

Este primer bloque de la práctica tiene por objetivo la implementación y evaluación eficiente de sistemas de recomendación. En este bloque se desarrollarán:

* Estructuras para el manejo de datos de interacción entre usuarios e items ("ratings" para simplificar).
* Algoritmos de recomendación basada en filtrado colaborativo.
* Métricas de evaluación de sistemas de recomendación.

## Material proporcionado

Se proporcionan software y datos para la realización de la práctica:

* Un esqueleto de clases y funciones donde el estudiante desarrollará sus implementaciones. 
  - De modo similar a las prácticas anteriores, se proporciona una celda de prueba al final de este notebook que deberá funcionar con las implementaciones del estudiante.
  - Junto a la celda de prueba en este mismo notebook, se muestra como referencia un ejemplo de salida generada con una implementación de los profesores.
* Los siguientes conjuntos de datos de ratings por usuarios a items:
  - Dos conjuntos de juguete para prueba y depuración: <ins>toy1.csv</ins> (se genera en Matrices.ipynb) y <ins>toy2.csv</ins> (proporcionado en el curso Moodle) con ratings ficticios.
  - Un conjunto de datos reales de ratings a películas: *ml-1m.zip* disponible en la Web de [MovieLens](https://grouplens.org/datasets/movielens/1m). De los archivos disponibles, se utilizará sólamente <ins>ratings.dat</ins>, añadiéndole una cabecera `u::i::r::t`.
  
Los esqueletos de código que se proporcionan aquí son a modo de guía: el estudiante puede modificarlo todo libremente, siempre que la celda de prueba funcione correctamente **sin cambios**.

## Calificación

El peso de esta práctica (recomendación + redes sociales) en la nota final de prácticas es del **40%**.

La calificación se basará en el **número** de ejercicios realizados y la **calidad** de los mismos. La puntuación que se indica en cada apartado es orientativa, en principio se aplicará tal cual se refleja pero podrá matizarse por criterios de buen sentido si se da el caso.

Para dar por válida la realización de un ejercicio, el código deberá funcionar (a la primera) integrado con las clases que se facilitan. El profesor comprobará este aspecto ejecutando la celda de prueba y otras adicionales.

La corrección de las implementaciones se observará por la **coherencia de los resultados** (por ejemplo, las métricas sobre los algoritmos de recomendación), y se valorará la eficiencia en tiempo de ejecución.

## Entrega

La entrega consistirá en dos ficheros tipo *notebook* (uno para recomendación y otro para redes sociales) donde se incluirán todas las **implementaciones** solicitadas en cada ejercicio, así como una explicación de cada uno a modo de **memoria**.

## Indicaciones

La realización de los ejercicios conducirá en muchos casos a la implementación de funciones y/o clases adicionales a las que se indican en el enunciado. Algunas vendrán dadas por su aparición en los propias celdas de prueba, y otras por conveniencia a criterio del estudiante.

Igual que en prácticas anteriores, no deberán editarse las celdas de prueba. Estas celdas deberán ejecutar sin errores a la primera con el código entregado por el estudiante (naturalmente con salvedad de los ejercicios que no se hayan implementado.

## Autores

Xu Chen Xu <br>
Ana Martínez Sabiote

## Ejercicio 1: Estructuras de datos y recomendación simple (2pt)

#### 1.1 &nbsp; Estructuras de datos

Implementar las clases necesarias para manejar **datos de entrada y prueba** (ratings) para los algoritmos de recomendación. La funcionalidad se implementará en una clase Ratings, que permitirá leer los datos de un fichero de texto, así como un método que genere dos particiones aleatorias de entrenamiento y test, para evaluar y comparar la efectividad de diferentes algoritmos de recomendación.

In [5]:
import numpy as np
import pandas as pd

class Ratings:
    def __init__(self, file=None, sep=',', df=None):
        # Código aquí...
        if file is not None:
            self.ratings_df=pd.read_csv(filepath_or_buffer=file, sep = sep)
        elif df is not None:
            self.ratings_df=df
        else:
            raise Exception("No se ha especificado un fichero ni un dataframe")

        self.uids=self.ratings_df.u.unique()
        self.iids=self.ratings_df.i.unique()
        matrix = self.ratings_df.pivot(index='u', columns='i', values='r')
        matrix = matrix.fillna(0)
        self.m = matrix.to_numpy()

        self.uidx_to_uid_dict = np.sort(self.ratings_df.u.unique())
        self.iidx_to_iid_dict = np.sort(self.ratings_df.i.unique())
        self.uid_to_uidx_dict = {u:j for j, u in enumerate(self.uidx_to_uid_dict)}
        self.iid_to_iidx_dict = {i:j for j, i in enumerate(self.iidx_to_iid_dict)}

    def matrix(self):
        # Código aquí...
        return self.m

    def nusers(self):
        return self.m.shape[0]

    def nitems(self):
        # Código aquí...
        return self.m.shape[1]

    # uidx can be an int or an array-like of ints.
    def uidx_to_uid(self, uidx):
        # Código aquí...
        return self.uidx_to_uid_dict[uidx]

    # iidx can be an int or an array-like of ints.
    def iidx_to_iid(self, iidx):
        # Código aquí...
        return self.iidx_to_iid_dict[iidx]

    # uid can be an int or an array-like of ints.
    def uid_to_uidx(self, uid):
        # Código aquí...
        return self.uid_to_uidx_dict[uid]

    # iid can be an int or an array-like of ints.
    def iid_to_iidx(self, iid):
        # Código aquí...
        return self.iid_to_iidx_dict[iid]

    def iidx_rated_by(self, uidx):
        # Código aquí...
        # Distintos de cero por filas
        positions = np.where(self.m[uidx,:]!=0)
        return positions

    def uidx_who_rated(self, iidx):
        # Código aquí...
        # Distintos de cero por columnas
        positions = np.where(self.m[:,iidx]!=0)
        return positions


    def random_split(self, ratio):
        # Código aquí...
        # Devuelve dos objetos ratings
        # Usar pandas.DataFrame.Sample sobre self.ratings_df para obtener los dataframes 
        # train y test y crear un objeto Ratings a partir de esos dataframes. 

        # Dividimos el dataframe en dos partes
        df1 = self.ratings_df.sample(frac=ratio)
        df2 = self.ratings_df.loc[~self.ratings_df.index.isin(df1.index)]

        # Creamos los objetos Ratings
        ratings1 = Ratings(df=df1)
        ratings2 = Ratings(df=df2)

        return ratings1, ratings2

    #
    # The remaining functions are just for debugging purposes
    #

    def rating(self, uid, iid):
        # Código aquí...
        uidx=self.uid_to_uidx(uid)
        iidx=self.iid_to_iidx(iid)
        return self.m[uidx,iidx]

    def items_rated_by(self, uid):
        # Código aquí...
        uidx=self.uid_to_uidx(uid)
        return self.iidx_to_iid(self.iidx_rated_by(uidx))

    def users_who_rated(self, iid):
        # Código aquí...
        iidx=self.iid_to_iidx(iid)
        return self.uidx_to_uid(self.uidx_who_rated(iidx))

    def user_ratings(self, uid):
        # Código aquí...
        return self.m[self.uid_to_uidx(uid),:]

    def item_ratings(self, iid):
        # Código aquí...
        return self.m[:,self.iid_to_iidx(iid)]

    def nratings(self):
        # Código aquí...
        return np.count_nonzero(self.m)

    # To inspect random data splits.
    def save(self, file):
        df = pd.DataFrame(columns=self.iids, index=self.uids, data=self.m).unstack().reset_index(name='r')
        df.columns = ['i', 'u', 'r']
        df = df[df.r>0][['u', 'i', 'r']].sort_values(by=['u', 'i'])
        df.to_csv(file, index=False)

# Just for pretty-printing numbers.
def fround(x, n=20):
    r = round(x)
    rn = round(x, n)
    return r if rn == r else rn

#### 1.2 &nbsp;  Recomendaciones: métodos simples no personalizados

La **salida** de un recomendador consistirá en un diccionario con un ránking por usuario. 

Implementar un primer **recomendador simple** por rating promedio en una clase `AverageRecommender`. El recomendador sólo recomendará items que tengan un mínimo número de ratings, que se indicará como parámetro en el constructor (con ello se mejora el acierto de la recomendación). Se proporciona una clase `MajorityRecommender` a modo de ejemplo en el que el estudiante podrá basarse, así como `RandomRecommender`, que se utiliza en ocasiones como referencia en experimentos. 

**Importante**: recordar que no deben recomendarse los items que los usuarios ya hayan puntuado.

In [6]:
# Ejemplos míos para entender las funciones de la celda siguiente.

def top_positions_per_row(m, k):
    return np.sort(np.argpartition(m, -k)[:, -k:], axis=1)[:, ::-1]

def get_elements(m, indices, cutoff=np.inf):
    return np.array([s[t[0:min(cutoff, len(t))]] for s, t in zip(m, indices)])

matrix = np.array([[1, 2, 3, 4, 5],[3,4,5,6,7], [5,6,7,8,9]])

print(top_positions_per_row(matrix, 3))

print(get_elements(matrix, [[0,2],[0,2]]))

aux = np.array([[0,4],[0,2]])

print(get_elements(matrix, aux))

[[4 3 2]
 [4 3 2]
 [4 3 2]]
[[1 3]
 [3 5]]
[[1 5]
 [3 5]]


In [7]:
# Suggestion: compute the scores in the recommenders' constructor.

from itertools import islice

# Given a matrix, returns a matrix of positions of top k values per row.
def top_positions_per_row(m, k):
    return np.sort(np.argpartition(m, -k)[:, -k:], axis=1)[:, ::-1]

# Given a matrix and a set of indices per rows, returns the matrix values for the indices. 
# This function is used in the Recommender class and metrics classes.
def get_elements(m, indices, cutoff=np.inf):
    return np.array([s[t[0:min(cutoff, len(t))]] for s, t in zip(m, indices)])

class Recommendation:
    def __init__(self, scores, n, training):
        # Código aquí...
        # Indicación: generar aquí los ránkings de scores, de iidx's y de iids.
        self.scores = scores

        top_iidx = top_positions_per_row(scores, n)
        # Sort because top_positions_per_row returns the top unsorted.
        self.ranked_iidx = get_elements(top_iidx, np.argsort(get_elements(scores, top_iidx))[:, ::-1])

        # And now get the ranked uids and scores.
        ranked_iids = training.iidx_to_iid(self.ranked_iidx)
        rank_scores = get_elements(scores, self.ranked_iidx)

        self._recommendation = {uid : [(iid, score) for iid, score in zip(ranked_iids[uidx], rank_scores[uidx]) if score > 0]
                for uidx, uid in enumerate(training.uidx_to_uid_dict)}

    def ranked_iidx(self):
        # Código aquí...
        return self.ranked_iidx

    def recommendation(self, uid):
        # Código aquí...
        return self._recommendation[uid]

    # Format the recommendation as a string for the first n users. Trim scores to 4 decimal digits.
    def display(self, n):
        r = ''
        for uid in islice(self._recommendation, n):
            r += f'    User {uid} -> <' 
            for iid, score in self.recommendation(uid): 
                r += f'{iid}:' + str(fround(score, 4)) + ' '
            r = (r[:-1] + '>\n') if len(self.recommendation(uid)) > 0 else r + 'empty>\n'
        return r[:-1]

class Recommender():
    def __init__(self, training):
        self.training = training

    def __repr__(self):
        return type(self).__name__

    def recommend(self, n):
        return Recommendation(self.scores, n, self.training)

class RandomRecommender(Recommender):
    def __init__(self, training):
        super().__init__(training)
        self.scores = np.random.random(training.matrix().shape)

class MajorityRecommender(Recommender):
    def __init__(self, training, threshold=0):
        super().__init__(training)
        # training.matrix() >= threshold creates a mask with 'True' on relevant ratings and 'False' anywhere
        # else. Thus 'pop' is an array with the counts of relevant ratings of each item.

        pop = np.sum(training.matrix() >= threshold, axis=0)

        # This product by a vector of ones (of user-row length) creates a matrix where the pop vector gets
        # copied on all rows; the recommendation is not personalized and ranking is the same for all users 
        # -- except of course in the end different training items will be filtered out for different users.
        self.scores = np.outer(np.ones(training.nusers()), pop)

class AverageRecommender(Recommender):
    def __init__(self, training, minr=0):
        super().__init__(training)
        self.minr = minr

        not_rated_mask = (training.matrix() == 0)

        # Calculamos la suma de los ratings para cada item
        sum_ratings = training.matrix().sum(axis=0)

        # Calculamos el número de ratings de cada item
        n_ratings = (training.matrix() > 0).sum(axis=0)

        # Creamos un vector con la media de los ratings de cada item
        # si tiene por lo menos minr ratings. Si tiene menos, la media es 0.
        mean_ratings = np.where(n_ratings >= minr, sum_ratings / n_ratings, 0)

        # Creamos la matriz de scores donde cada score es la media de los ratings
        self.scores = np.outer(np.ones(training.nusers()), mean_ratings)

        # Nos quedamos solo con los scores de los items que no han sido valorados por cada usuario
        self.scores = self.scores * not_rated_mask

In [28]:
# Celda de testing
ratings = Ratings('recsys-data/toy1.csv', sep=',')

ratings.matrix()

# Create df from np array
display(pd.DataFrame(ratings.matrix(), index=ratings.uidx_to_uid_dict, columns=ratings.iidx_to_iid_dict))

# Create AverageRecommender
mr = AverageRecommender(ratings, 2)

display(pd.DataFrame(mr.scores, index=ratings.uidx_to_uid_dict, columns=ratings.iidx_to_iid_dict))


Unnamed: 0,a,b,c,d,e
v,0.0,4.0,5.0,3.0,0.0
x,5.0,2.0,0.0,0.0,4.0
y,1.0,4.0,4.0,0.0,0.0
z,0.0,0.0,3.0,5.0,0.0


Unnamed: 0,a,b,c,d,e
v,3.0,0.0,0.0,0.0,0.0
x,0.0,0.0,4.0,4.0,0.0
y,0.0,0.0,0.0,4.0,0.0
z,3.0,3.333333,0.0,0.0,0.0


In [9]:
# Celda de testing
ratings = Ratings('recsys-data/toy1.csv', sep=',')

rec = RandomRecommender(ratings)
rec = rec.recommend(3)
display(rec.ranked_iidx)
display(rec._recommendation)
print(rec.display(3))

array([[3, 2, 4],
       [4, 2, 1],
       [4, 1, 3],
       [2, 3, 1]], dtype=int64)

{'v': [('d', 0.969634061485059),
  ('c', 0.8632169729979542),
  ('e', 0.6495218840231644)],
 'x': [('e', 0.7206037240618579),
  ('c', 0.7153579903872503),
  ('b', 0.6643376468886553)],
 'y': [('e', 0.5993897954640276),
  ('b', 0.2810325486529527),
  ('d', 0.2256671744712152)],
 'z': [('c', 0.9790901822335992),
  ('d', 0.752389973691331),
  ('b', 0.4166318617716136)]}

    User v -> <d:0.9696 c:0.8632 e:0.6495>
    User x -> <e:0.7206 c:0.7154 b:0.6643>
    User y -> <e:0.5994 b:0.281 d:0.2257>


### Ejercicio 1 &ndash; Explicación/documentación

(por hacer)

## Ejercicio 2: Filtrado colaborativo kNN (2pt)

Implementar un algoritmo de filtrado colaborativo mediante vecinos próximos orientado a usuarios por *similitud coseno* (sin normalizar por la suma de similitudes). 

In [10]:
class CosineUserSimilarity:
    def __init__(self, training):
        self.training = training
        ratings_matrix = training.matrix()

        dots = ratings_matrix @ ratings_matrix.T
        mods = np.sqrt(dots.diagonal())

        # To avoid 0/0 later if some row is all zeros (and hence the row modulus is zero).
        mods[mods==0] = 1

        # Vamos ahora a dividir por los modulos
        # Dividimos cada fila de dots por cada elemento de mods
        # Es decir, primera fila de mods por primer elemento de mods,...
        self.sim = dots/mods[:, None]

        # Dividimos cada columna de sim por cada elemento de mods.
        # Es decir, primera columna de sim por primer elemento de mods,...
        self.sim = self.sim/mods

        # Ponemos a 0 la diagonal porque no queremos que un usuario sea similar a si mismo
        np.fill_diagonal(self.sim,0)

    def similarity_matrix(self):
        return self.sim

class UserKNNRecommender(Recommender):
    def __init__(self, training, sim, k):
        super().__init__(training)
        self.sim = sim
        self.k = k

        not_rated_mask = (training.matrix() == 0)

        # Indices de los k usuarios mas similares a cada usuario
        uidx = top_positions_per_row(sim.similarity_matrix(), k)

        # Mascara con 1s en las posiciones de los k usuarios mas similares a cada usuario
        # y 0s en el resto
        top_similar_mask = np.zeros_like(sim.similarity_matrix())
        top_similar_mask[np.arange(top_similar_mask.shape[0]), uidx.T] = 1

        # Matriz de similitudes entre los k usuarios mas similares a cada usuario.
        # El resto es 0.
        knn_sim = sim.similarity_matrix() * top_similar_mask

        # Creamos la matriz de scores donde cada score es la media ponderada (segun la similitud entre usuarios)
        # de los ratings de los k usuarios mas similares
        self.scores = knn_sim @ training.matrix()

        # Nos quedamos solo con los scores de los items que no han sido valorados por cada usuario
        self.scores = self.scores * not_rated_mask

In [22]:
# Celda de testing (aún no he mirado que este bien)
# Ana: confirmo que comparándolo con el ejemplo de P3-Matrices.ipynb SÍ funciona correctamente
rec = UserKNNRecommender(ratings, CosineUserSimilarity(ratings), 2)
recommendation = rec.recommend(3)

display(recommendation._recommendation)

recommendation.recommendation('x')

{'v': [('a', 0.8862587350511957)],
 'x': [('c', 2.1926722125915408), ('d', 0.5059644256269407)],
 'y': [('d', 4.450020507233184)],
 'z': [('b', 4.343422942099672), ('a', 0.35824886041591925)]}

[('c', 2.1926722125915408), ('d', 0.5059644256269407)]

In [25]:
mask_cutoff=(recommendation._recommendation>4)
mask_test=(test==0)
scores=recommendation*mask_cutoff*mask_test
print(scores)

TypeError: '>' not supported between instances of 'dict' and 'int'

### Ejercicio 2 &ndash; Explicación/documentación

(por hacer)

## Ejercicio 3: Evaluación (1pt)

Se desarrollarán clases que permitan calcular métricas para evaluar y comparar el acierto de los recomendadores: se implementarán **precisión** y **recall**. 

Como resumen de este bloque, se incluirá una *tabla con los valores de las métricas* (dos columnas) más el tiempo de ejecución (una columna más) sobre todos los algoritmos implementados (filas), al menos para el conjunto de datos de <ins>MovieLens 1M</ins>. En el caso de ser capaces de procesar un conjunto de datos más grande, se documentará el tamaño en RAM de la matriz de ratings.

<!-- Opcionalmente, se podrán implementar otras métricas a elección del estudiante (nDCG, etc.), cuya prueba se incluirá en la función `student_test()` del ejercicio 4 ("ampliaciones"). -->

In [None]:
class Metric():
    def __init__(self, test, cutoff):
        # Objeto raitings que contiene la partición de test
        self.test = test
        self.cutoff = cutoff

    def __repr__(self):
        return type(self).__name__ + ('@' + str(self.cutoff) if self.cutoff != np.inf else '')

class Precision(Metric):
    def __init__(self, test, cutoff=np.inf, threshold=1):
        super().__init__(test, cutoff)
        # Código aquí...
        # threshold debe ser el umbral de relevancia
        self.threshold=threshold
        # no sé si el umbral será cutoff o threshold
        

    def compute(self, recommendation):
        # Código aquí...  NO FUNCIONA PORQUE RECOMMENDATION ES UN DICCIONARIO, NECESITAMOS TRABAJAR CON MATRICES AHORA
        # Nos quedamos con los relevantes
        mask_cutoff=(recommendation>self.threshold)
        # Tenemos en cuenta los relevantes del test
        mask_test=(test>self.threshold)
        scores=recommendation*mask_cutoff*mask_test
        pk=[]
        # FALTA HACER QUE SCORES SEA UNA MATRIZ DE 0 Y 1
        # Vamos sumando las filas y dividiendo por k
        for i in range(scores.shape[1]):
            pk.append(np.sum(scores[:,i],axis=1)/i)
        # Sumamos por columnas y dividimos por el número de filas, es decir, de usuarios    
        result=np.sum(pk,axis=0)/scores.shape[1]
        return result
        
        
class Recall(Metric):
    def __init__(self, test, cutoff=np.inf, threshold=1):
        super().__init__(test, cutoff)
        # Código aquí...
        self.threshold=threshold

    def compute(self, recommendation):
        # Código aquí...
        # Nos quedamos con los relevantes
        mask_cutoff=(recommendation>self.threshold)
        # Tenemos en cuenta los relevantes del test
        mask_test=(test>self.threshold)
        scores=recommendation*mask_cutoff*mask_test
        relevantes=np.sum(scores,axis=1)
        pk=[]
        # FALTA HACER QUE SCORES SEA UNA MATRIZ DE 0 Y 1
        # Vamos sumando las filas y dividiendo por número de relevantes de cada fila
        for i in range(scores.shape[1]):
            pk.append(np.sum(scores[:,i],axis=1)/relevantes[i])
        # Sumamos por columnas y dividimos por el número de filas, es decir, de usuarios    
        result=np.sum(pk,axis=0)/scores.shape[1]
        return result

### Ejercicio 3 &ndash; Explicación/documentación

(por hacer)

Ejemplo de tabla de resumen:

||Precision@K|Recall@K|Tiempo de ejecución
|-|:-:|:-:|:-:
|Algoritmo 1|...|...|...
|Algoritmo 2|...|...|...
|...|...|...|...
|Algoritmo n|...|...|...

## Ejercicio 4: Ampliaciones (1pt)

Elegir uno de los siguientes ejercicios:

* Implementar dos variantes de kNN a elección del estudiante, por ejemplo: kNN normalizado, vecinos próximos orientado a item, similitud de Pearson, kNN centrado en la media. Indicación: para kNN normalizado el algoritmo exigirá un mínimo de ratings de vecinos para aceptar recomendar un item (con ello se mejora el acierto de la recomendación, de forma similar a la recomendación por rating promedio).
* Implementar filtrado colaborativo mediante factorización de matrices.
* Crear una implementación de las estructuras de ratings con matrices dispersas, de forma que sea posible generar recomendaciones sobre conjuntos de datos más grandes, tales como [MovieLens 10M](https://grouplens.org/datasets/movielens/10m) y [MovieLens 25M](https://grouplens.org/datasets/movielens/25m).

Para probar las implementaciones deberá completarse la función `student_test()` para ilustrar la ejecución de las variantes adicionales, y se incluirán las filas que correspondan en la tabla del apartado anterior.

In [None]:
# Código aquí: clases, funciones...

def student_test():
    # Código de prueba aquí...

### Ejercicio 4 &ndash; Explicación/documentación

(por hacer)

In [15]:
pip install termcolor

Collecting termcolor
  Downloading termcolor-2.3.0-py3-none-any.whl (6.9 kB)
Installing collected packages: termcolor
Successfully installed termcolor-2.3.0
Note: you may need to restart the kernel to use updated packages.


## Celda de prueba

Descarga los ficheros de datos y coloca sus contenidos en una carpeta **recsys-data** en el mismo directorio que este *notebook*.

In [19]:
import datetime
import time

# Test data structures and algorithms on a dataset.
def test(ratings_file, example_user, example_item, k, minr, topn=np.inf, cutoff=np.inf, threshold=1, sep=','):
    print(colored(f'Reading the data at ' + time.strftime('%X...'), 'blue'))
    start = time.time()
    ratings = Ratings(ratings_file, sep)
    print(f'Ratings matrix takes {round(10 * ratings.matrix().nbytes / 1024 / 1024) / 10:,} MB in RAM')
    timer(start)

    # Test Ratings class on the dataset.
    test_data(ratings, example_user, example_item)
    
    # Produce a rating split and test a set of recommenders. 
    train, test = ratings.random_split(0.8)
    #metrics = [Precision(test, cutoff=cutoff, threshold=threshold), Recall(test, cutoff=cutoff, threshold=threshold)]
    metrics=[]
    run_recommenders(train, metrics, k, minr, topn)

# Test the rating data handling code (Ratings class).
def test_data(ratings, example_user, example_item):
    print('-------------------------\nTesting the ratings data structures')
    print(f'{ratings.nratings():,} ratings by {ratings.nusers():,} users on {ratings.nitems():,} items')
    print(f'Ratings of user {example_user}: {ratings.user_ratings(example_user)}')
    print(f'Ratings of item {example_item}: {ratings.item_ratings(example_item)}')

# Run some recommenders on the some rating data as input - no evaluation.
def run_recommenders(train, metrics, k, minr, topn):
    print('-------------------------')
    start = time.time()
    run_recommender(RandomRecommender(train), metrics, topn)
    start = timer(start)
    
    print('-------------------------')
    run_recommender(MajorityRecommender(train, threshold=4), metrics, topn)
    start = timer(start)
    
    print('-------------------------')
    run_recommender(AverageRecommender(train, minr), metrics, topn)
    start = timer(start)
    
    print('-------------------------')
    print('Creating user cosine similarity')
    sim = CosineUserSimilarity(train)
    start = timer(start)
    # print('-------------------------')
    print('Creating kNN recommender')
    knn = UserKNNRecommender(train, sim, k)
    start = timer(start)
    run_recommender(knn, metrics, topn)
    timer(start)
    
    # print('-------------------------')
    # start = time.time()
    # print('Creating MF recommender')
    # mf = MF(train, dim=20, lrate=.0001, reg=.005, nepochs=50)
    # timer(start)
    # start = time.time()
    # run_recommender(mf, metrics, topn)
    # timer(start)

# Run a recommender and evaluate a list of metrics on its output.
def run_recommender(recommender, metrics, topn):
    print(f'Testing {recommender} (top {topn})')
    recommendation = recommender.recommend(topn)
    print('Four example recommendations:\n' + recommendation.display(4))
    for metric in metrics:
        print(metric, '=', metric.compute(recommendation))

from termcolor import colored
def timer(start):
    print(colored(f'--> elapsed time: {datetime.timedelta(seconds=round(time.time() - start))} <--', 'blue'))
    return time.time()
    
np.random.seed(0)
print('=========================\nTesting toy 1 dataset')
test('recsys-data/toy1.csv', example_user='v', example_item='b', k=4, minr=2, topn=4, cutoff=4)
print('=========================\nTesting toy 2 dataset')
test('recsys-data/toy2.csv', example_user=1, example_item=2, k=4, minr=2, topn=4, cutoff=4)
print('=========================\nTesting MovieLens \'1 million\' dataset')
test('recsys-data/ratings-1m.dat', example_user=200, example_item=1000, k=10, minr=3, topn=10, cutoff=10, threshold=4, sep='::')
print('=========================\nDone.')

# Additional testing?
student_test()

Testing toy 1 dataset
Reading the data at 17:43:39...
Ratings matrix takes 0.0 MB in RAM
--> elapsed time: 0:00:00 <--
-------------------------
Testing the ratings data structures
11 ratings by 4 users on 5 items
Ratings of user v: [0. 4. 5. 3. 0.]
Ratings of item b: [4. 2. 4. 0.]
-------------------------
Testing RandomRecommender (top 4)
Four example recommendations:
    User v -> <d:0.4777 a:0.2975 c:0.2727 b:0.0567>
    User x -> <d:0.8361 a:0.8122 b:0.48 c:0.3928>
    User y -> <d:0.9572 b:0.6482 c:0.3682 a:0.3374>
    User z -> <b:0.8701 d:0.8009 c:0.4736 a:0.1404>
--> elapsed time: 0:00:00 <--
-------------------------
Testing MajorityRecommender (top 4)
Four example recommendations:
    User v -> <c:2 a:1 b:1 d:1>
    User x -> <c:2 a:1 b:1 d:1>
    User y -> <c:2 a:1 b:1 d:1>
    User z -> <c:2 a:1 b:1 d:1>
--> elapsed time: 0:00:00 <--
-------------------------
Testing AverageRecommender (top 4)
Four example recommendations:
    User v -> <a:3 b:3>
    User x -> <c:4 d:4>
  

NameError: name 'student_test' is not defined

### Salida obtenida por el estudiante

*(por hacer)*