# **Anime recommendation**

+ Alexander Sanchez Sanchez
+ Juan David Cruz Garcia
+ Juan Sebastian Perez Camacho
+ Kennet Santiago Sanchez Roldan

### El objetivo de este proyecto es construir un modelo de inteligencia artificial que sea capaz de recomendar animes a usuarios segun que animes hayan visto estos previamente y la calificacion dada.
### La informacion utilizada aqui es extraida de Kaggle desde el enlace: https://www.kaggle.com/datasets/CooperUnion/anime-recommendations-database

## Carga de librerias

In [1]:
import matplotlib.pyplot as plt    #Importamos pyplot de librería matplotlib. Lo vamos a utilizar para graficar.
import seaborn as sns              #Importamos la librería Seaborn. La vamos a utilizar para graficar.
import numpy as np                 #Importamos la librería numpy para manipular arreglos.
import pandas as pd
import os
import warnings

from pathlib import Path
from sklearn.model_selection import train_test_split #Útil para dividir los conjuntos de datos. 
from sklearn.preprocessing import MinMaxScaler       #Útil para escalar los atributos de entrada.

from copy import deepcopy                            #Permite hacer copias profundas. 

from sklearn.cluster import KMeans                   #Clase que implementa k-means.
from sklearn.metrics import silhouette_samples       #Útil para calcular el valor de la silueta de una observación. 
from sklearn.metrics import silhouette_score         #Útil para calcular el valor de la silueta de todas las observaciones.
from sklearn.metrics import calinski_harabasz_score  #Útil para calcular el valor del índice Calinski Harabasz (CH).
from sklearn.metrics import confusion_matrix         #Permite extraer la matriz de confusión.
from sklearn import neighbors                        #Permite utilizar el algoritmo de vecinos más cercanos.

#!pip install yellowbrick --upgrade                  #Instala y actualiza la librería yellowbrick (la versión por defecto en Google Colab está desactualizada).
from yellowbrick.cluster import KElbowVisualizer     #Permite obtener la gráfica del codo para tres métricas diferentes (distorsión, silueta, CH).
from yellowbrick.cluster import SilhouetteVisualizer 
from pandas.core.common import SettingWithCopyWarning

warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)
warnings.simplefilter(action="ignore", category=FutureWarning)

## **Carga de datos**

In [2]:
#Anime.csv
path = Path(os.getcwd())
path = str(path.parent.absolute())
path = path+"/datos/anime.csv"
dfAnime = pd.read_csv(path,na_values='?')   
dfAnime.info()

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\User\\Desktop\\AI-anime-recomendation/datos/anime.csv'

In [None]:
#rating.csv
path2 = Path(os.getcwd())
path2 = str(path2.parent.absolute())
path2 = path2+"/datos/rating.csv"
dfRating = pd.read_csv(path2,na_values='?')   
dfRating.info()

## **Tipos de dato adecuados**

**Definimos tipos para cada columna del dataframe que tenga como tipo "object"**

In [None]:
#anime.csv
dfAnime['name'] = dfAnime['name'].astype("string")
dfAnime['genre'] = dfAnime['genre'].astype("string")
dfAnime['type'] = dfAnime['type'].astype("string")
dfAnime['episodes']=pd.to_numeric(dfAnime.episodes, errors='coerce').dropna().astype(int)
dfAnime.info()

 **rating.csv ya tenia los tipos de datos adecuados**

## **Busqueda y eliminacion de valores nulos o duplicados**

**Vamos a buscar los valores nulos de los dataframes**

In [None]:
# anime.csv
print("La cantidad de datos nulos es:")
dfAnime.isna().sum().to_frame().T.style.set_properties(**{"background-color": "#2a9d8f","color":"white","border": "1.5px  solid black"})

In [None]:
# Rating.csv
print("La cantidad de datos nulos es:")
dfRating.isna().sum().to_frame().T.style.set_properties(**{"background-color": "#2a9d8f","color":"white","border": "1.5px  solid black"})

+ **La cantidad de datos con valores nulos no es tan grande en comparacion al total asi que podemos borrarlos.**
+ **Eliminamos tambien los valores innecesarios. (En el caso de rating.csv, los rating con -1 son inutiles para nuestro problema puesto que simbolizan que el usuario no ha calificado el anime)**

In [None]:
dfAnime=dfAnime.dropna()
dfRating = dfRating[dfRating.rating != -1]

**Ahora buscamos el numero de datos duplicados y eliminamos en caso de que existan**

In [None]:
# Anime.csv
duplicados = dfAnime[dfAnime.duplicated()].shape[0]
print("Numero de datos duplicados ",duplicados)

In [None]:
# Rating.csv
duplicados = dfRating[dfRating.duplicated()].shape[0]
print("Numero de datos duplicados ",duplicados)

In [None]:
# Rating.csv
dfRating.drop_duplicates(keep='first',inplace=True)
duplicados = dfRating[dfRating.duplicated()].shape[0]
print("Numero de datos duplicados ",duplicados)

## Ajustes para el dataframe anime.csv

+ **Convertimos "episodes" en una variable de numeros enteros para poder realizar adecuadamente el conteo**
+ **Convertimos "type" en una variable de tipo categoria para poder realizar analisis sobre este**

In [None]:
dfAnime['episodes'] = dfAnime['episodes'].astype(int)
dfAnime=dfAnime.replace({'Movie': '0', 'TV': '1','OVA':'2','ONA':'2','Special':'3','Music':'4'})
dfAnime['type'] = dfAnime['type'].astype("category")

**Se debe tener en cuenta que el dataframe cuenta con animes de todo tipo incluyendo peliculas, esto significa que muchos de los datos se veran alterados por esto, por ejemplo, la cantidad de episodios tiende a ser 1 si el anime es del tipo pelicula mientras que las series pueden llegar incluso a 100 episodios.**

**Por ello, es apropiado partir el dataframe en 2, uno para series de anime normales y otro para peliculas, ovas, etc.
Para evitar un problema demasiado complejo, solo trabajaremos con el dataframe de series. Eliminamos la columna "type" puesto que ya no sera de utilidad**

In [None]:
df_series = dfAnime.loc[dfAnime['type'] == '1']
df_series = df_series.drop('type',axis=1)

**El dataframe tiene todos los generos de un anime en una sola columna, para que esta informacion sea util, debemos clasificarla**

**Primero observemos que categorias son las mas populares**

In [None]:
genreCount = df_series[["genre"]]
genreCount["genre"] = genreCount["genre"].str.split(", | , | ,")
genreCount = genreCount.explode("genre")
genreCount["genre"] = genreCount["genre"].str.title()

print(f'Total unique genres are {len(genreCount["genre"].unique())}')
print(f'Occurances of unique genres :')
genreCount["genre"].value_counts().to_frame().T.style.set_properties(**{"background-color": "#2a9d8f","color":"white","border": "1.5px  solid black"})

**Ahora, creemos una columna para cada uno de las 15 generos mas populares y eliminemos la columna genres**

In [None]:
def createNewColumn(colname):
    df_series[colname] = np.where(df_series.genre.str.contains(colname),1,0)
    df_series[colname] = df_series[colname].astype(int)

In [None]:
def containsGenre(dfInfo,word):  
    if str(df_series["genre"]).find(word):
        return 1
    return 0

In [None]:
#Ciclo que se encarga de crear 15 columnas de los generos mas populares
for i in range(15):
    createNewColumn(genreCount["genre"].value_counts().index.tolist()[i])


**Finalmente tenemos el siguiente dataframe**

In [None]:
df_series = df_series.drop('genre',axis=1)
df_series.head(3)

## Ajustes para el dataframe rating.csv

**Para tener certeza de que a un usuario le gusto o no un anime debemos extraer el promedio de sus calificaciones. Si la calificacion dada es mayor o igual a la media, significa que el usuario disfruto del anime, en caso contrario, se considerara una opinion negativa**

In [None]:
dfRating['ratingMean']=dfRating["rating"].mean()
dfRating['Liked']=np.where(dfRating.rating >= dfRating.ratingMean ,1,0)
dfRating.head()

## **Eliminacion de outliers**

**Dada la naturaleza de las variables involucradas, solo tiene sentido analizar los outliers de los episodios y los miembros**

In [None]:
q_low = df_series["episodes"].quantile(0.25)
q_hi  = df_series["episodes"].quantile(0.75)
iqr = q_hi - q_low

lower = q_low - (1.5*iqr)
high = q_hi + (1.5*iqr)

df_series = df_series[(df_series["episodes"] < high) & (df_series["episodes"] > lower)]

In [None]:
q_low = df_series["members"].quantile(0.25)
q_hi  = df_series["members"].quantile(0.75)
iqr = q_hi - q_low

lower = q_low - (1.5*iqr)
high = q_hi + (1.5*iqr)

df_series = df_series[(df_series["members"] < high) & (df_series["members"] > lower)]

In [None]:
atr = 'episodes'
sns.set_theme(style="whitegrid")
ax = sns.boxplot(x=df_series[atr])

In [None]:
atr = 'members'
sns.set_theme(style="whitegrid")
ax = sns.boxplot(x=df_series[atr])

## Resolucion del problema

**Para resolver nuestro problema de recomendacion de anime necesitaremos dos cosas, en primer lugar, unas categorias que clasifiquen adecuadamente los animes del dataframe, una vez hecho esto, usaremos un modelo de clasificacion para adecuar los datos las clasificaciones previamente creadas**

## Construccion del modelo de clustering

**La Variable "Slice Of Life genera errores por lo que procedemos a eliminarla**

In [None]:
df_series = df_series.drop('Slice Of Life',axis=1)

**Ahora procedemos a observar las correlaciones entre los generos**

In [None]:
correlacionEntre = list(set(df_series.columns) - set(["anime_id","name","episodes","rating","members"]))
ax = sns.heatmap(df_series[correlacionEntre].corr(),annot=True,cmap='RdYlGn')

**Si bien las correlaciones no son muy altas entre si, teniendo en cuenta el contexto de los generos, podemos eliminar algunos generos que pueden ser descritos por otros.**

In [None]:
df_series = df_series.drop('Mecha',axis=1)
df_series = df_series.drop('Shoujo',axis=1)
df_series = df_series.drop('School',axis=1)

**Para construir un modelo adecuado, decidimos utilizar los generos mas populares y descartar las variables que no seran de demasiada utilidad. Ademas, normalizaremos los datos**

In [None]:
features = list(set(df_series.columns) - set(["anime_id","name","episodes"]))

rango_de_salida_de_las_variables_escaladas = (0,1)  #Tupla con el siguiente formato: (mínimo deseado, máximo deseado).
scaler = MinMaxScaler(feature_range=rango_de_salida_de_las_variables_escaladas)  #Instanciamos el objeto para escalar los datos. 

df_series_norm = deepcopy(df_series[features])  #Inicializamos este objeto con una copia profunda del las columnas de entrada de interés del dataframe.
df_series_norm[features] = scaler.fit_transform(df_series_norm) #Ajustamos y transformamos los datos.


In [None]:
#-------------------------------------------------------------------------------
#-------------------------------------------------------------------------------
# HYPERPARÁMETROS DEL MODELO
#-------------------------------------------------------------------------------
#-------------------------------------------------------------------------------

kmin              = 1          #Límite inferior para explorar el número de grupos.
kmax              = 20          #Límite superior para explorar el número de grupos.
init              ='k-means++'  #Se define el método de inicialización. Otra opción válida es 'random'.
n_init            = 10          #Número de inicializaciones aleatorias. Al final scikit learn escoge aquel con la menor inercia 
                                #(i.e.: suma de cuadrados de distancias de cada punto a su centroide respectivo dentro de cada grupo, para todos los puntos). 
                                #https://scikit-learn.org/stable/modules/clustering.html
max_iter          = 300         #Número MÁXIMO de iteraciones para una sola ejecución.
random_seed       = 76          #Semilla aleatoria. Permite obtener los mismos resultados en cada ejecución.


In [None]:
df_x_norm = df_series_norm
# Vamos a dividir los datos en un conjunto de entrenamiento y un conjunto de pruebas.
mezclar_los_datos       = True #Vamos a mezclar de forma aleatoria los datos antes de particionarlos. 
valor_semilla_aleatoria = 76   #Esto es útil si se quiere garantizar la repetibilidad 
                               #de la partición de datos en ejecuciones sucesivas de su notebook o script.
particion_para_pruebas = 0.2

#Hacemos la partición para obtener el conjunto de pruebas y el "resto" (i.e.: entrenamiento y desarrollo).
df_x_train, df_x_test = train_test_split(df_x_norm,                                         
                                        test_size=particion_para_pruebas, 
                                        random_state=valor_semilla_aleatoria, 
                                        shuffle=mezclar_los_datos)

**Para tener certeza, observemos el metodo de las siluetas**

In [None]:
#Revisemos los resultados del método de la silueta para algunos valores
#"tentativos" para k:
silhouette_score_list        = []

for k in [2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20]:
    model3 = KMeans(n_clusters=k,         #Se define el número de grupos.
                  init=init,            #Se define el método de inicialización. Otra opción es 'random'
                  n_init=n_init,        #Número de inicializaciones aleatorias. Al final se escoge aquel con la menor inercia: sum( (x_i-centroide(x_i))^2 ) 
                  max_iter=max_iter,    #Número MÁXIMO de iteraciones para una sola ejecución.
                  random_state=random_seed)
    model3.fit(df_x_train)
    sc = silhouette_score(df_x_train.values, model3.labels_)
    silhouette_score_list.append(sc)
    print(
        "For k clusters =",
        k,
        "The average silhouette_score is :",
        sc,
    )
    plt.figure(figsize=(10,3))  #Tamaño de la figura (ancho, alto).
    visualizer5 = SilhouetteVisualizer(estimator=model3, colors='yellowbrick')
    visualizer5.fit(df_x_train)
    visualizer5.show() 

**Observemos graficas que describen los 3 indicadores para KMeans**

In [None]:
model2 = KMeans(init=init,              #Se define el método de inicialización. 
               n_init=n_init,           #Número de inicializaciones aleatorias. Al final se escoge aquel con la menor inercia: sum( (x_i-centroide(x_i))^2 ). 
               max_iter=max_iter,       #Número MÁXIMO de iteraciones para una sola ejecución.
               random_state=random_seed)

for metric in ["distortion", "silhouette", "calinski_harabasz"]:  #Itere sobre las métricas que soporta KElbowVisualizer.
  
  #Este condicional permite adaptar el flujo pues dos de las métricas requieren al menos 2 grupos para que se puedan calcular.
  if metric=="silhouette" or metric=="calinski_harabasz":  
    kmin_ = max(2,kmin)
  else:
    kmin_ = kmin
  
  plt.figure(figsize=(10,5))   #Tamaño de la figura (ancho, alto).
  visualizer2 = KElbowVisualizer(estimator=model2, 
                                  k=(kmin_,kmax+1),     #Permite explorar valores de k entre [kmin_,kmax].
                                  metric=metric,        #Opciones:  "distortion", "silhouette", "calinski_harabasz"
                                  timings=False,          
                                  locate_elbow=True)   #Si esta opción se activa, ubica el codo con una línea punteada.
  visualizer2.fit(df_x_train)   #Ajusta los datos al visualizador.
  visualizer2.show()

**Los indicadores obtenidos no encuentran un punto de decision para determinar cual valor es el mejor para K, sin embargo, como determinamos un numero de generos, es deseable que los animes se incluyan de una u otra manera en estos.**

**Inicialmente teniamos 15 generos pero como observamos, 3 de estos podian ser perfectamente descritos por otros. Por tanto, utilizaremos como valor de K el numero 12**

In [None]:
#K-means
#-------------------------------------------------------------------------------
k = 12  #Número de grupos que se escogió después del análisis previo.

#Ahora se instancia el objeto para utilizar el agrupamiento con k-means.
#Para ver todas los opciones del constructor, consulte: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html
#Nota: el algoritmo de k-means disponible en scikit-learn funciona únicamente con la distancia euclidiana.
#Si requiere aplicar k-means con otras métricas de distancia, puede consultar la librería PyClustering: https://github.com/annoviko/pyclustering
kmeans = KMeans(n_clusters   = k,            #Se define el número de grupos.
                init         = init,         #Se define el método de inicialización. Otra opción es 'random'
                n_init       = n_init,       #Número de inicializaciones aleatorias. 
                max_iter     = max_iter,     #Número MÁXIMO de iteraciones para una sola ejecución.
                random_state = random_seed)

#Hagamos el ajuste (i.e.: encontremos los centroides).
kmeans.fit(df_x_train)
predict = kmeans.predict(df_series_norm)

df_series['Classification'] = pd.Series(predict, index=df_series_norm.index)

**Finalmente el dataframe con el que usaremos la clasificacion es el siguiente:**

In [None]:
df_final = pd.merge(df_series, dfRating, how='inner', left_on = 'anime_id', right_on = 'anime_id')
df_final.head(100)

## Probando el filtro de recomendacion

In [None]:
##Eliminamos los valores liked=0 ya que no son necesarios en las recomendaciones
df_depured=df_final[df_final.Liked != 0]

### Separamos del dataframe, los valores que no fueron del agrado de los usuarios, marcados con liked=0


In [None]:
##Eliminamos las columnas innecesarias
df_prepared=df_depured.iloc[:,1:16]
df_prepared = df_prepared.drop('episodes', axis=1)

## Al fusionar los valores de estos dos animes se debe mantener los valores 1 en las casillas correspondientes.

In [None]:
def fusion(name1,name2):
    

### Quitamos las columnas que no nos sirven para generar la información respectiva de la unión de dos animes

In [None]:
df_depured=df_fusion[df_final.name == "Uchuu Majin Daikengou"]
df_depured

Aqui vemos este anime de ejemplo 

In [None]:
df_depured2=df_fusion[df_final.name == "Zenmai Zamurai"]
df_depured2

Además de este otro anime de ejemplo

### Así obtenemos las columnas donde el valor es 1, de esta forma permitiendonos categorizar de una manera más sencilla. Además de obtener un promedio de miembros y rating 

## Construccion del modelo de clasificacion

**Ahora buscamos clasificar las variables, usaremos el algoritmo de KNN (K Nearest Neighbors). Teniendo en cuenta que clasificaremos segun lo obtenido por el modelo de clustering, es logico usar el mismo K obtenido**

### División del conjunto de datos

In [None]:
input_attr = features
target_attr = 'Classification'

input_attr.remove('rating') 

print(input_attr)

df_x_knn = deepcopy(df_final[input_attr])
df_y_knn = deepcopy(df_final[target_attr])


In [None]:
mix = True
seed = 13

train_set = 0.6
dev_set = 0.2

train_dev_set = train_set + dev_set
test_set = 1 - train_dev_set

df_x_rest_knn, df_x_test_knn, df_y_rest_knn, df_y_test_knn = train_test_split(df_x_knn, df_y_knn, test_size=test_set, random_state=seed, shuffle=mix)

df_x_train_knn, df_x_val_knn, df_y_train_knn, df_y_val_knn = train_test_split(df_x_rest_knn, df_y_rest_knn, test_size=dev_set/train_dev_set, random_state=seed, shuffle= not mix)

### Modelo

In [None]:
k = 12

knn = neighbors.KNeighborsClassifier(n_neighbors=k)
knn.fit(df_x_train_knn, df_y_train_knn)

In [None]:
y_predicted_test_knn = knn.predict(df_x_test_knn)

In [None]:
from sklearn import metrics 

cm_knn = metrics.confusion_matrix(df_y_test_knn,y_predicted_test_knn)
disp = metrics.ConfusionMatrixDisplay(confusion_matrix = cm_knn)
disp.plot()
plt.show()

### Precisión del modelo

#### Precisión en el conjunto de prueba

In [None]:
acc_test = metrics.accuracy_score(df_y_test_knn,y_predicted_test_knn)
print('Accuracy on test data: %.4f'% acc_test)

#### Precisión en el conjunto de entrenamiento y validación

In [None]:
y_predicted_train_knn = knn.predict(df_x_train_knn)
y_predicted_val_knn = knn.predict(df_x_val_knn)
acc_train = metrics.accuracy_score(df_y_train_knn,y_predicted_train_knn)
print('Accuracy on training data: %.4f'% acc_train)
acc_val = metrics.accuracy_score(df_y_val_knn,y_predicted_val_knn)
print('Accuracy on validation data: %.4f'% acc_val)

#### Ejemplos de predicciones

In [None]:
predicted_value = knn.predict(df_depured[input_attr])

print('El valor de clasificación para el dataframe depurado 1 es ',predicted_value)

In [None]:
predicted_value = knn.predict(df_depured2[input_attr])

print('El valor de clasificación para el dataframe depurado 2 es ',predicted_value)

In [None]:
predicted_df_fusion = knn.predict(df_fusion[input_attr])

print('El valor de clasificación para el dataframe fusionado es ',predicted_df_fusion)
predicted_df_fusion.shape

#### Dataframe por valor de Clasificación 7

In [None]:
df_series_by_7 = df_series[df_series['Classification'] == 7]
df_series_by_7

#### Los 5 animes más famosos

##### Por rating 

In [None]:
rating_df_series_by_7 = df_series_by_7.sort_values(by='rating', ascending=False)
rating_df_series_by_7.head(5)

##### Por miembros

In [None]:
members_df_series_by_7 = df_series_by_7.sort_values(by='members', ascending=False)
members_df_series_by_7.head(5)

##### Por rating y miembros

In [None]:
members_rating_df_series_by_7 = df_series_by_7.sort_values(by=['rating','members'], ascending=False)
members_rating_df_series_by_7.head(5)

#### Dataframe por valor de Clasificación 8

In [None]:
df_series_by_8 = df_series[df_series['Classification'] == 8]
df_series_by_8

#### Los 5 animes más famosos

##### Por rating 

In [None]:
rating_df_series_by_8 = df_series_by_8.sort_values(by='rating', ascending=False)
rating_df_series_by_8.head(5)

##### Por miembros

In [None]:
members_df_series_by_8 = df_series_by_8.sort_values(by='members', ascending=False)
members_df_series_by_8.head(5)

##### Por rating y miembros

In [None]:
members_rating_df_series_by_8 = df_series_by_8.sort_values(by=['rating','members'], ascending=False)
members_rating_df_series_by_8.head(5)