# Sistema de recomendación de anime

In [None]:
import numpy as np
from matplotlib import pyplot as plt
import pandas as pd 
from sklearn.neighbors import NearestNeighbors

#Barra de progreso
import time
from tqdm import tqdm

El objetivo es aplicar todo lo que hemos aprendido hasta el momento, especialmente sobre gradiente descendiente. Para esto desarrollaremos un sistema de recomendación usando factorización de matrices.

En esta entrega se darán todos elementos necesarios para desarrollar un sistema de recomendación de amines, el objetivo es que usted entienda como funciona y desarrolle una solución.

Si desea conocer mas sobre el dataset que usaremos puede revisar acá: https://www.kaggle.com/CooperUnion/anime-recommendations-database

1- Cargue las bases de datos de calificaciones, usuarios y animes. Puede usar para este objetivo la biblioteca pandas. Genere el conjunto de entrenamiento usando los usuarios cómo filas y los animes cómo columnas. Tenga en cuenta que para el algoritmo es necesario que los -1 sean cero, sin embargo, para la recomendación si debe tener en cuenta dichos valores.

In [None]:
#Obtener Listado .CSV
def cargarAnimes():
    df = pd.read_csv('anime.csv', delimiter=',', parse_dates=[6], header=0,index_col=False, squeeze=False)
    return np.array(df)

#Números globales cantidad animes y usuarios
cantAnimes=12294
cantUsers=73516

#Crear R a partir del archivo csv
def crearR():
    uf = pd.read_csv('rating.csv', delimiter=',', parse_dates=[2], header=0,index_col=False, squeeze=False)
    u=np.array(uf)
    
    #Crear R

    R = np.zeros((cantUsers,cantAnimes), dtype = np.int8)
    for i in u:
        if i[1] <= cantAnimes:
            R[i[0]-1,i[1]-1] = int(i[2])
      
    return R 


2- Agregue la función donde se ejecuta el algoritmo de factorización de matrices. Puede basarse en el algoritmo compartido en las dispositivas. No debe de gastar todas las iteraciones. 

In [None]:
def matrix_factorization(R, P, Q, K, steps=100, alpha=0.0002, beta=0.02):
    Q = Q.T
    for step in tqdm(range(steps)):
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    eij = R[i][j] - np.dot(P[i,:],Q[:,j])
                    for k in range(K):
                        P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])
                        Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])
        eR = np.dot(P,Q)
        e = 0
        for i in range(len(R)):
            for j in range(len(R[i])):
                if R[i][j] > 0:
                    e = e + pow(R[i][j] - np.dot(P[i,:],Q[:,j]), 2)
                    for k in range(K):
                        e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))
        if e < 0.9:
            break
    return P, Q.T

3- Programe una función para generar $\hat{R}$. Recuerde que para generar $\hat{R}$ debe realizar los siguiente pasos:

    - Generar R usando el algoritmo de vecinos más cercanos.
    - Defina K.
    - Defina P y Q.
    - Generar R prima.


In [None]:
def generateRandomPQ(k):
    Q = np.random.randint(1, 10, (cantAnimes, k))
    P = np.random.randint(1, 10, (cantUsers, k))
    return P,Q

def generateR(usuario, vecinos):
    R = crearR()
    RSelected = np.empty([vecinos,cantAnimes])
    distances,indices=knn(True,usuario,vecinos,R)
    print(distances,indices)
    for i in range(0, len(indices[0])-1, 1):
        RSelected[i] = R[indices[0,i]]
    del R
    return np.where(RSelected == -1, 0, RSelected)

def knn(cargar,usuario,vecinos,R):
    if not(cargar):
        nbrs = NearestNeighbors(n_neighbors=vecinos, algorithm='auto', n_jobs=-1).fit(R)
        distances, indices = nbrs.kneighbors(R[usuario-1].reshape((1, -1)))
        return distances,indices
    else:
        if vecinos>30:
            vecinos=30
        if usuario in [51,510,17000,27005,37502,57502,67501]:
            distances=np.loadtxt('distances'+str(usuario)+'.txt')
            indices=np.loadtxt('indices'+str(usuario)+'.txt')
            return distances[:vecinos].reshape(1,vecinos),indices[:vecinos].reshape(1,vecinos).astype(int)
        else:
            distances=np.loadtxt('distances.txt')
            indices=np.loadtxt('indices.txt')
            return distances.reshape(1,vecinos),indices.reshape(1,vecinos).astype(int)
        
def optimizarMatriz(R,indices,distances):
    userIguales=np.array([]).reshape(0,2)
    cont=0
    pos=-1
    Raux=np.zeros((len(R),len(R[0])),dtype=np.int8)
    for i in tqdm(range(len(indices))):
        for j in range(len(indices[0])):
            if int(distances[i,j]) == 0:
                index=int(indices[i,j])
                aux1=np.where(userIguales[:,1]==i)
                if i != index:
                    aux2=np.where(userIguales[:,1]==index)
                    if len(aux1[0]) == 0:
                        if len(aux2[0]) == 0:
                            pos=pos+1
                            userIguales=np.insert(userIguales, userIguales.shape[0], np.array([pos,i]), 0)
                            userIguales=np.insert(userIguales, userIguales.shape[0], np.array([pos,index]), 0)
                            Raux[cont]=R[i]
                            cont=cont+1
                        else:
                            userIguales=np.insert(userIguales,aux2[0][-1]+1, np.array([userIguales[aux2[0][-1],0],i]), 0)
                    else:
                        if len(aux2[0]) == 0:
                            userIguales=np.insert(userIguales,aux1[0][-1]+1, np.array([userIguales[aux1[0][-1],0],index]), 0)                  
                else:
                    if len(aux1[0]) == 0:
                        pos=pos+1
                        userIguales=np.insert(userIguales, userIguales.shape[0], np.array([pos,i]), 0)
                        Raux[cont]=R[i]
                        cont=cont+1
    return Raux[:cont,:], userIguales

def generateRPrime(k, usuario, vecinos):
    P,Q = generateRandomPQ(k)
    RSelected = generateR(usuario, vecinos)
    P,Q = matrix_factorization(RSelected, P, Q, k)
    return RSelected, np.dot(P, Q.T)

4- Realice las siguiente recomendaciones (animes que no ha visto con calificación 10):

    1- Usuario de id 51, películas.
    2- Usuario de id 510, animes con menos de 31 episodios.
    3- Usuario de id 17000, animes con rankins mayores o iguales a 9.
    4- Usuario de id 27005, animes de comedia y aventura.
    5- Usuario de id 37502, TV.
    6- Usuario de id 57502, películas y OVAS.
    7- Usuario de id 67501.

Cada recomendación debe tener como respuesta, número de iteraciones, número de recomendaciones y nombre de los animes,

In [None]:
def recomendar(RpSelected,RSelected,d,minRating,idUser,genre,tipo,episodios,ranking,members):  
    recomendacion=np.array([]).reshape(0,len(d[0]))  
    for i in tqdm(range(len(d))):
        if RpSelected[i]>=recomRating and RSelected[i]!=-1:
            boolean=True
            if genre!=None and not(genre in d[i,2]):
                boolean=False
            if boolean and tipo!=None and not(tipo == d[i,3]):
                boolean=False  
            if boolean and episodios!=None and not(episodios >= d[i,4]):
                boolean=False
            if boolean and rating!=None and not(ranking <= d[i,5]):
                boolean=False  
            if boolean and members!=None and not(members <= d[i,5]):
                boolean=False 
            if boolean:
                recomendacion=np.insert(recomendacion, recomendacion.shape[0], d[i], 0)                
    return recomendacion

#PRUEBA DE PREDICCIÓN
Rl, Rp = generateRPrime(2, 510, 30)
print(Rl[0,19])
print("-----------------")
print(Rp[0,19])

In [None]:
print(Rl)
print(Rp)


In [None]:
np.savetxt('Rp510FIRST.txt',Rp[0,:])