# Sistema de recomendación de anime
### Luisa Fernanda Cotte Sánchez - Cristian Giovanny Sánchez Pineda

In [1]:
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd 
from sklearn.neighbors import NearestNeighbors

El objetivo es aplicar todo lo que hemos aprendido hasta el momento, especialmente sobre gradiente descendiente. Para esto desarrollaremos un sistema de recomendación usando factorización de matrices.

En esta entrega se darán todos elementos necesarios para desarrollar un sistema de recomendación de amines, el objetivo es que usted entienda como funciona y desarrolle una solución.

Si desea conocer mas sobre el dataset que usaremos puede revisar acá: https://www.kaggle.com/CooperUnion/anime-recommendations-database

1- Cargue las bases de datos de calificaciones, usuarios y animes. Puede usar para este objetivo la biblioteca pandas. Genere el conjunto de entrenamiento usando los usuarios cómo filas y los animes cómo columnas. Tenga en cuenta que para el algoritmo es necesario que los -1 sean cero, sin embargo, para la recomendación si debe tener en cuenta dichos valores.

In [2]:
ratings_df = pd.read_csv('rating.csv')
ratings_matrix = np.array(ratings_df)

T_Matrix = np.zeros((73516,12294),dtype=np.int8)
T_Matrix_zeros = np.zeros((73516,12294), dtype=np.int8)
i_limit,_ = T_Matrix.shape
for i in range(i_limit):
    j = ratings_matrix[i,1]-1
    u = ratings_matrix[i,0]-1
    r = ratings_matrix[i,2]
    if j < 12294:
        T_Matrix[u,j] = r
        if r !=-1:
            T_Matrix_zeros[u,j] = r
            

2- Agregue la función donde se ejecuta el algoritmo de factorización de matrices. Puede basarse en el algoritmo compartido en las dispositivas. No debe de gastar todas las interaciones. 

In [3]:
def do_matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02, error=0.05):
    Q = Q.T
    i_limit, j_limit = R.shape
    counter = 0
    for step in range(steps):
        for i in range(i_limit):
            for j in range(j_limit):
                if R[i,j] > 0:
                    eij = R[i,j] - P[i,:].dot(Q[:,j])
                    for k in range(K):
                        P[i,k] = P[i,k] + alpha * (2 * eij * Q[k,j] - beta * P[i,k])
                        Q[k,j] = Q[k,j] + alpha * (2 * eij * P[i,k] - beta * Q[k,j])
        eR = P.dot(Q)
        e = 0
        for i in range(i_limit):
            for j in range(j_limit):
                if R[i,j] > 0:
                    e = e + pow(R[i,j] - P[i,:].dot(Q[:,j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * (pow(P[i,k],2) + pow(Q[k,j],2))
        if e <= error:
            break
        counter += 1
    return P, Q.T, counter



3- Programe una función para generar $\hat{R}$. Recuerde que para generar $\hat{R}$ debe realizar los siguiente pasos:

    - Generar R usando el algoritmo de vecinos más cercanos.
    - Defina K.
    - Defina P y Q.
    - Generar R prima.


In [4]:
model = NearestNeighbors(n_neighbors=10).fit(T_Matrix_zeros)#Retorna una matriz dependiendo del algoritmo


In [36]:
def get_R_prime(client, neighbors, k):
    aux_r = model.kneighbors(X = [client],n_neighbors=neighbors, return_distance=False)#Vector PARA ARMAR R
    R = np.zeros((neighbors,len(T_Matrix_zeros[0])), dtype=np.int8)
    for i in range(neighbors):
        R[i] = T_Matrix_zeros[aux_r[0,i]]
    #R = np.array(l)
    print(R)
    np.random.seed(3)
    P = np.random.rand(len(T_Matrix_zeros), k).astype(dtype=np.int8)
    Q = np.random.rand(len(T_Matrix_zeros), k).astype(dtype=np.int8)
    P, Q, counter = do_matrix_factorization(R, P, Q, k, steps=10000, alpha=0.002, beta=0.02, error=0.3)
    R_Prime = P.dot(Q)
    return R_Prime, counter

4- Realice las siguiente recomendaciones (animes que no ha visto con calificación 10):

    1- Usuario de id 51, películas.
    2- Usuario de id 510, animes con menos de 31 episodios.
    3- Usuario de id 17000, animes con rankins mayores o iguales a 9.
    4- Usuario de id 27005, animes de comedia y aventura.
    5- Usuario de id 37502, TV.
    6- Usuario de id 57502, películas y OVAS.
    7- Usuario de id 67501.

Cada recomendación debe tener como respuesta, número de iteraciones, número de recomendaciones y nombre de los animes,

In [37]:
R_Prime_51,counter1 = get_R_prime(client=T_Matrix_zeros[50], neighbors=5, k=2, steps=4000)
print(R_Prime_51,counter1)

[[10  0  0 ...  0  0  0]
 [ 9  0  0 ...  0  0  0]
 [10  0  0 ...  0  0  0]
 ...
 [10  0  0 ...  0  0  0]
 [ 0  0  0 ...  0  0  0]
 [ 8  0  0 ...  0  0  0]]


MemoryError: Unable to allocate 40.3 GiB for an array with shape (73516, 73516) and data type int64

In [None]:
R_Prime_510,counter2 = get_R_prime(T_Matrix_zeros[509],10,3)
print(R_Prime_510,counter2)

In [None]:
R_Prime_17000,counter3 = get_R_prime(T_Matrix_zeros[16999],10,3)
print(R_Prime_17000,counter3)

In [None]:
R_Prime_27005,counter4 = get_R_prime(T_Matrix_zeros[27004],10,3)
print(R_Prime_27005,counter3)

In [None]:
R_Prime_37502,counter5 = get_R_prime(T_Matrix_zeros[37501],10,3)
print(R_Prime_37502,counter5)

In [None]:
R_Prime_57502,counter6 = get_R_prime(T_Matrix_zeros[57501],10,3)
print(R_Prime_57502,counter6)

In [None]:
R_Prime_67501,counter7 = get_R_prime(T_Matrix_zeros[67500],10,3)
print(R_Prime_67501,counter7)