# Proyecto Mineria de Datos

## Integrantes

- Ignacio Basualto
- Raimundo Vicente
- Renato Cerda
- Sebastián Bustos	
- Diego Olguín

# Tabla de contenidos

1. [Eleccion de base de datos](#1)
2. [Motivación](#2)
3. [Exploración de datos](#3)

    3.1. [Preprocesamiento](#3.1)

# Elección de base de datos <a class="anchor" id="1"></a>
## Caracterizar series de anime
### El dataset utilizado se encuentra en https://www.kaggle.com/azathoth42/myanimelist

# Motivación <a class="anchor" id="2"></a>

Hoy en dia el anime forma gran parte de la cultura occidental, ha tenido un impacto grande en la sociedad; 
no solo dentro de japón si no que ha llegado a ser tendencia en todo el mundo. Como ejemplo de lo anterior se encuentra
Shingeki no Kyojin / Attack On Tittan que es un anime que actualmente se encuentra en emisión que ha tenido de los ratings y recepeciones más altos dentro de la
televisión y medios de comunicación. Por lo mismo el anime ha empezado a tener un efecto economico importante en la sociedad y por tal motivo es de interes poder comprender relaciones entre usuarios y los animes.

Dado lo anterior podría ser de interes estudiar este dataset para comprender 

- La demografía de los auditores de anime.
- El cambio que ha tenido el anime a lo largo de los años.
- Estudiar el efecto que tienen ciertos productores o personas en el exito del anime 
- Ser capaz de hacer recomendaciones a usuarios sobre posibles animes que pueden interesarles dado sus gustos

# Exploración de datos <a class="anchor" id="3"></a>

La base de datos presentada tiene tres versiones, cada una más preprocesada que la anterior. Estas son:

1. Sin procesamiento
2. Se eliminaron los usarios que tienen atributos faltantes dentro de las siguientes categorias
    * Fecha de Nacimiento
    * Lugar de Residencia
    * Identidad de Genero
3. Dado la base de datos filtrada en 2. se arreglan valores que no tienen sentido (por ejemplo hay usuarios que no se han unido en 1900 años)

Por esta razón se va a utilizar la verison de 3.

# Imports

In [1]:
import pandas as pd
import numpy as np
import ast

# Funciones

In [2]:
def nanValues(df,col):
    print('Hay NaN values: '+str(df[col].isnull().values.any()))

def cantidadNanValues(df,col):
    print('Cantidad de NaN values: '+str(animeList[col].isnull().values.sum()))

# Preprocesamiento

In [3]:
animeList = pd.read_csv("Datos/anime_cleaned.csv")

In [4]:
animeList.head()

Unnamed: 0,anime_id,title,title_english,title_japanese,title_synonyms,image_url,type,source,episodes,status,...,broadcast,related,producer,licensor,studio,genre,opening_theme,ending_theme,duration_min,aired_from_year
0,11013,Inu x Boku SS,Inu X Boku Secret Service,妖狐×僕SS,Youko x Boku SS,https://myanimelist.cdn-dena.com/images/anime/...,TV,Manga,12,Finished Airing,...,Fridays at Unknown,"{'Adaptation': [{'mal_id': 17207, 'type': 'man...","Aniplex, Square Enix, Mainichi Broadcasting Sy...",Sentai Filmworks,David Production,"Comedy, Supernatural, Romance, Shounen","['""Nirvana"" by MUCC']","['#1: ""Nirvana"" by MUCC (eps 1, 11-12)', '#2: ...",24.0,2012.0
1,2104,Seto no Hanayome,My Bride is a Mermaid,瀬戸の花嫁,The Inland Sea Bride,https://myanimelist.cdn-dena.com/images/anime/...,TV,Manga,26,Finished Airing,...,Unknown,"{'Adaptation': [{'mal_id': 759, 'type': 'manga...","TV Tokyo, AIC, Square Enix, Sotsu",Funimation,Gonzo,"Comedy, Parody, Romance, School, Shounen","['""Romantic summer"" by SUN&LUNAR']","['#1: ""Ashita e no Hikari (明日への光)"" by Asuka Hi...",24.0,2007.0
2,5262,Shugo Chara!! Doki,Shugo Chara!! Doki,しゅごキャラ！！どきっ,"Shugo Chara Ninenme, Shugo Chara! Second Year",https://myanimelist.cdn-dena.com/images/anime/...,TV,Manga,51,Finished Airing,...,Unknown,"{'Adaptation': [{'mal_id': 101, 'type': 'manga...","TV Tokyo, Sotsu",,Satelight,"Comedy, Magic, School, Shoujo","['#1: ""Minna no Tamago (みんなのたまご)"" by Shugo Cha...","['#1: ""Rottara Rottara (ロッタラ ロッタラ)"" by Buono! ...",24.0,2008.0
3,721,Princess Tutu,Princess Tutu,プリンセスチュチュ,,https://myanimelist.cdn-dena.com/images/anime/...,TV,Original,38,Finished Airing,...,Fridays at Unknown,"{'Adaptation': [{'mal_id': 1581, 'type': 'mang...","Memory-Tech, GANSIS, Marvelous AQL",ADV Films,Hal Film Maker,"Comedy, Drama, Magic, Romance, Fantasy","['""Morning Grace"" by Ritsuko Okazaki']","['""Watashi No Ai Wa Chiisaikeredo"" by Ritsuko ...",16.0,2002.0
4,12365,Bakuman. 3rd Season,Bakuman.,バクマン。,Bakuman Season 3,https://myanimelist.cdn-dena.com/images/anime/...,TV,Manga,25,Finished Airing,...,Unknown,"{'Adaptation': [{'mal_id': 9711, 'type': 'mang...","NHK, Shueisha",,J.C.Staff,"Comedy, Drama, Romance, Shounen","['#1: ""Moshimo no Hanashi (もしもの話)"" by nano.RIP...","['#1: ""Pride on Everyday"" by Sphere (eps 1-13)...",24.0,2012.0


### Anime List

Notemos que esta lista tiene las siguientes columnas

In [7]:
animeList.columns

Index(['anime_id', 'title', 'title_english', 'title_japanese',
       'title_synonyms', 'image_url', 'type', 'source', 'episodes', 'status',
       'airing', 'aired_string', 'aired', 'duration', 'rating', 'score',
       'scored_by', 'rank', 'popularity', 'members', 'favorites', 'background',
       'premiered', 'broadcast', 'related', 'producer', 'licensor', 'studio',
       'genre', 'opening_theme', 'ending_theme', 'duration_min',
       'aired_from_year'],
      dtype='object')

Eliminemos las columnas que no entregan información o no son relevantes para nuestros objetivos

En primer lugar notemos que tenemos cuatro columnas para titulo 

- title
- title_english
- title_japanese
- title_synonyms

Por esto solo vamos a quedarnos con el valor de "title".

En segundo lugar "image_url" es un link para la imagen promocional del anime, por tanto se decide eliminarlo.

En tercer lugar "status" y "airing" entregan la misma información "status" tiene dos valores "Finished Airing" y "Currently Airing" mientras que "airing" representa lo mismo con "True" y "False", por tanto vamos a elminiar "status".

En cuarto lugar tenemos las columnas "aired_string" y "aired" que indican las fechas entre los cuales ha sido emitido el anime. La segunda esta representada como un diccionario mientras que la primera es un texto. Por tanto nos quedaremos con la segunda.

En el siguiente lugar esta "duration" y "duration_min" que entregan el tiempo de duración por episodio, "duration" lo hace con forma de string, mientras que "duration_min" como entero. Por esto se va a borrar la columna "duration".

Por otro lado "score" es la clasificación que le han dado los usuarios mientras que "rank" representa el ranking asociado a dichas clasificación por tanto eliminaremos la columna "rank".

También se encuentra "popularity" y "members" que cumplen la misma relación que antes popularity es un ranking que considera cuanta gente tiene agregado un dicho anime mientras que members indica solo la cantidad, por tanto eliminaremos "popularity"

A continuación se encuentra "background", esta columna informa detalles sobre cada anime. Solo se tienen 813 valores con información de 6668 (es decir un 12\% ) de la información luego se decidio eliminar esta columna.

La siguiente columna es "premiered" la cual dice cuando se estreno el anime, esta columna tiene 3702 valores NAN por lo tanto se decide ignorarla, pero aun asi no se pierde información pues existe la columna "aired_from_year" que indica el año de estreno del anime (cabe destacar esta ultima columna no tiene valores NAN)

La columna "boradcast" indica los dias en que el anime era emitido, también se decide eliminar la columna pues tiene 3688 valores NAN.

La columna "producer" indica los productores asociados al anime, se tiene que hay 2266 valores NAN y por tanto se decide eliminar.

Al igual que las ultimas columnas la columna "licensor" tiene un alto valor de NAN (3881) por tanto se decide eliminar.

Por ultimo se decide eliminar las columnas "opening_theme" y "ending_theme" pues no se cree que generen información relevante para el estudio.

In [8]:
animeList = animeList.drop(columns=['title_english','title_japanese','title_synonyms',
                                   'image_url',
                                    'status',
                                    'aired_string',
                                    'duration',
                                    'rank',
                                    'popularity',
                                    'background',
                                    'premiered',
                                    'broadcast',
                                    'producer',
                                    'licensor',
                                    'opening_theme',
                                    'ending_theme'])


Las columnas acutalmente presentes en animeList son:

In [9]:
animeList.columns

Index(['anime_id', 'title', 'type', 'source', 'episodes', 'airing', 'aired',
       'rating', 'score', 'scored_by', 'members', 'favorites', 'related',
       'studio', 'genre', 'duration_min', 'aired_from_year'],
      dtype='object')

Donde las columnas significan

* anime_id : Una identificación para saber cual es el anime en cuestión
* title: El titulo del anime
* type: El tipo de anime que es (de televisión, una pelicula, entre otros)
* source: De donde nacio el anime (es original de tv, de un manga, otro tipo)
* episodes: Cantidad de episodios
* airing: Si esta actualmente en emisión
* aired: Un diccionario con la fecha de inició de la emsisión a la fecha de termino de la emisión (de exsitir una)
* rating: La clasificación del anime (PG, PG-13,...)
* score: La clasificación otorgada por los usuarios 1 a 10
* scored_by: Cantidad de gente que clasifico
* members: La cantidad de usuarios que tienen el anime en su lista
* favorites: La cantidad de usuarios que tienen el anime como favorito
* related: Diccionarios de los anime que estan relacionados
* studio: Estudio que hizo el anime
* genre: Genero del anime
* duration_min: Tiempo de duración de los animes en minutos
* aired_from_year: Año de inicio de emisión del anime

Ahora buscaremos columnas nan o inconsistentes para rellenar o quitar dependiendo de la situación.

In [10]:
for col in animeList.columns:
    print("Columna: "+str(col))
    nanValues(animeList,col)
    cantidadNanValues(animeList,col)
    print("")

Columna: anime_id
Hay NaN values: False
Cantidad de NaN values: 0

Columna: title
Hay NaN values: False
Cantidad de NaN values: 0

Columna: type
Hay NaN values: False
Cantidad de NaN values: 0

Columna: source
Hay NaN values: False
Cantidad de NaN values: 0

Columna: episodes
Hay NaN values: False
Cantidad de NaN values: 0

Columna: airing
Hay NaN values: False
Cantidad de NaN values: 0

Columna: aired
Hay NaN values: False
Cantidad de NaN values: 0

Columna: rating
Hay NaN values: False
Cantidad de NaN values: 0

Columna: score
Hay NaN values: False
Cantidad de NaN values: 0

Columna: scored_by
Hay NaN values: False
Cantidad de NaN values: 0

Columna: members
Hay NaN values: False
Cantidad de NaN values: 0

Columna: favorites
Hay NaN values: False
Cantidad de NaN values: 0

Columna: related
Hay NaN values: False
Cantidad de NaN values: 0

Columna: studio
Hay NaN values: False
Cantidad de NaN values: 0

Columna: genre
Hay NaN values: True
Cantidad de NaN values: 4

Columna: duration_mi

Notamos que solo tenemos nan en "genre" y solo son 4 valores asi que los eliminaremos.

In [11]:
animeList.dropna(subset = ["genre"], inplace=True)

In [12]:
animeList

Unnamed: 0,anime_id,title,type,source,episodes,airing,aired,rating,score,scored_by,members,favorites,related,studio,genre,duration_min,aired_from_year
0,11013,Inu x Boku SS,TV,Manga,12,False,"{'from': '2012-01-13', 'to': '2012-03-30'}",PG-13 - Teens 13 or older,7.63,139250,283882,2809,"{'Adaptation': [{'mal_id': 17207, 'type': 'man...",David Production,"Comedy, Supernatural, Romance, Shounen",24.0,2012.0
1,2104,Seto no Hanayome,TV,Manga,26,False,"{'from': '2007-04-02', 'to': '2007-10-01'}",PG-13 - Teens 13 or older,7.89,91206,204003,2579,"{'Adaptation': [{'mal_id': 759, 'type': 'manga...",Gonzo,"Comedy, Parody, Romance, School, Shounen",24.0,2007.0
2,5262,Shugo Chara!! Doki,TV,Manga,51,False,"{'from': '2008-10-04', 'to': '2009-09-25'}",PG - Children,7.55,37129,70127,802,"{'Adaptation': [{'mal_id': 101, 'type': 'manga...",Satelight,"Comedy, Magic, School, Shoujo",24.0,2008.0
3,721,Princess Tutu,TV,Original,38,False,"{'from': '2002-08-16', 'to': '2003-05-23'}",PG-13 - Teens 13 or older,8.21,36501,93312,3344,"{'Adaptation': [{'mal_id': 1581, 'type': 'mang...",Hal Film Maker,"Comedy, Drama, Magic, Romance, Fantasy",16.0,2002.0
4,12365,Bakuman. 3rd Season,TV,Manga,25,False,"{'from': '2012-10-06', 'to': '2013-03-30'}",PG-13 - Teens 13 or older,8.67,107767,182765,2082,"{'Adaptation': [{'mal_id': 9711, 'type': 'mang...",J.C.Staff,"Comedy, Drama, Romance, Shounen",24.0,2012.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6663,37405,Dokidoki Little Ooyasan,OVA,Other,0,True,"{'from': '2018-05-25', 'to': None}",Rx - Hentai,9.52,33,357,21,[],Collaboration Works,Hentai,30.0,2018.0
6664,37886,Wo Shi Jiang Xiaobai (2018),ONA,Original,1,False,"{'from': '2018-05-25', 'to': '2018-05-25'}",PG-13 - Teens 13 or older,0.00,0,384,1,"{'Prequel': [{'mal_id': 36775, 'type': 'anime'...",2:10 Animation,"Slice of Life, Drama, Romance",0.0,2018.0
6665,37255,Genki Genki Non-tan: Obake Mura Meiro,OVA,Original,1,False,"{'from': '2015-06-03', 'to': '2015-06-03'}",G - All Ages,4.20,5,37,0,"{'Prequel': [{'mal_id': 25619, 'type': 'anime'...",Polygon Pictures,"Music, Kids",35.0,2015.0
6666,35229,Mr. Men Little Miss,ONA,Picture book,0,True,"{'from': '2013-11-29', 'to': None}",G - All Ages,4.57,7,49,1,[],Sanrio,Kids,2.0,2013.0


Ahora busquemos valores que no tengan la estructura usual a los valores. Nos enfocaremos en las columnas que en el dataframe impreso anteriormente se ven valores extraños.

* episodes: Numeros enteros, si existen animes con 0 epsiodios lo eliminaremos.
* aired: Que todos los valores sean dicionarios de la forma {'from':fecha,'to':fecha}
* rating: Que las clasificaciones existan, si no tienen lo eliminaremos.
* score: Que sean numeros float entre 1 y 10, si no estan en el rango lo eliminaremos.
* related: Que los valores sean diccionarios, los que son [] se transformaran a  {}
* duration_min: Que sea un numero mayor estricto a cero. Si existen animes con valores de tiempo 0 se eliminaran

In [13]:
# episodes

# Quitamos los animes con 0 episodios
listZeroEpisodesAnimes = animeList['episodes'] == 0 

animeList = animeList[~listZeroEpisodesAnimes]

In [14]:
# aired
for dicc in animeList['aired'].tolist():
    if(not('from' in dicc and 'to' in dicc)):
        print("No es diccionario de la forma usual")

In [15]:
# rating
print(animeList['rating'].unique().tolist()) # Valores unicos en rating

#Eliminamos los none
listNoneRating = animeList['rating'] == 'None'
animeList = animeList[~listNoneRating]

['PG-13 - Teens 13 or older', 'PG - Children', 'G - All Ages', 'R+ - Mild Nudity', 'R - 17+ (violence & profanity)', 'None', 'Rx - Hentai']


In [16]:
#score
listZeroScoreAnime = animeList['score'] == 0.0
animeList = animeList[~listZeroScoreAnime]

In [17]:
#related
auxList = animeList['related'].tolist()
for i in range(len(auxList)):
    if(auxList[i] == []):
        auxList[i] = {}
        
animeList['related'] = auxList

In [18]:
#duration_min
listZeroDuration = animeList['duration_min'] == 0.0

animeList = animeList[~listZeroDuration]

In [19]:
animeList

Unnamed: 0,anime_id,title,type,source,episodes,airing,aired,rating,score,scored_by,members,favorites,related,studio,genre,duration_min,aired_from_year
0,11013,Inu x Boku SS,TV,Manga,12,False,"{'from': '2012-01-13', 'to': '2012-03-30'}",PG-13 - Teens 13 or older,7.63,139250,283882,2809,"{'Adaptation': [{'mal_id': 17207, 'type': 'man...",David Production,"Comedy, Supernatural, Romance, Shounen",24.0,2012.0
1,2104,Seto no Hanayome,TV,Manga,26,False,"{'from': '2007-04-02', 'to': '2007-10-01'}",PG-13 - Teens 13 or older,7.89,91206,204003,2579,"{'Adaptation': [{'mal_id': 759, 'type': 'manga...",Gonzo,"Comedy, Parody, Romance, School, Shounen",24.0,2007.0
2,5262,Shugo Chara!! Doki,TV,Manga,51,False,"{'from': '2008-10-04', 'to': '2009-09-25'}",PG - Children,7.55,37129,70127,802,"{'Adaptation': [{'mal_id': 101, 'type': 'manga...",Satelight,"Comedy, Magic, School, Shoujo",24.0,2008.0
3,721,Princess Tutu,TV,Original,38,False,"{'from': '2002-08-16', 'to': '2003-05-23'}",PG-13 - Teens 13 or older,8.21,36501,93312,3344,"{'Adaptation': [{'mal_id': 1581, 'type': 'mang...",Hal Film Maker,"Comedy, Drama, Magic, Romance, Fantasy",16.0,2002.0
4,12365,Bakuman. 3rd Season,TV,Manga,25,False,"{'from': '2012-10-06', 'to': '2013-03-30'}",PG-13 - Teens 13 or older,8.67,107767,182765,2082,"{'Adaptation': [{'mal_id': 9711, 'type': 'mang...",J.C.Staff,"Comedy, Drama, Romance, Shounen",24.0,2012.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6657,37090,Hitori no Shita: The Outcast Recap,Special,Manga,1,False,"{'from': '2018-01-10', 'to': '2018-01-10'}",R - 17+ (violence & profanity),6.04,181,1013,2,"{'Prequel': [{'mal_id': 33421, 'type': 'anime'...",Haoliners Animation League,"Action, Super Power, Supernatural",24.0,2018.0
6658,36913,Inazuma Eleven x Kaitou Gru no Tsuki Dorobou,Special,Original,4,False,"{'from': '2018-02-25', 'to': '2018-03-25'}",G - All Ages,5.87,128,560,4,"{'Character': [{'mal_id': 5231, 'type': 'anime...",OLM,Comedy,0.2,2018.0
6662,37894,Ling Yu 4th Season,ONA,Novel,12,False,"{'from': '2016-12-08', 'to': '2017-02-23'}",PG-13 - Teens 13 or older,7.53,17,126,0,"{'Prequel': [{'mal_id': 36791, 'type': 'anime'...",Haoliners Animation League,Fantasy,13.0,2016.0
6665,37255,Genki Genki Non-tan: Obake Mura Meiro,OVA,Original,1,False,"{'from': '2015-06-03', 'to': '2015-06-03'}",G - All Ages,4.20,5,37,0,"{'Prequel': [{'mal_id': 25619, 'type': 'anime'...",Polygon Pictures,"Music, Kids",35.0,2015.0


Pasamos de 6668 a 6421 lo cual sigue siendo un numero considerable.

Ahora notamos que existen animes que en aired parten en None y terminan en None siendo que tienen fecha de inicio de emisión. Para soluciónar esto consideraremos las fechas de emisiones por año. Asi las columnas

* "aired" 
* "aired_from_year"

las cambiaremos a

* "aired_initial_year"
* "aired_final_year"

y en caso de que "aired" diga {'from': None,'to': None} utilizaremos su valor de "aired_from_year". En caso que 'to' diga None (sigue en emsión) dejaremos None.

In [20]:
airedList = animeList['aired'].tolist()
airedFromYearList = animeList['aired_from_year'].tolist()

animeList = animeList.drop(columns=['aired','aired_from_year'])

aired_initial_yearList = []
aired_final_year = []

for index in range(len(airedList)):
    dicc = ast.literal_eval(airedList[index])
    initialYear = dicc['from']
    lastYear = dicc['to']
    airedYear = airedFromYearList[index]
    
    if(initialYear == None):
        aired_initial_yearList.append(int(airedYear))
        aired_final_year.append(int(airedYear))
    else:
        aired_initial_yearList.append(initialYear.split('-')[0])
        if(lastYear != None):
            aired_final_year.append(lastYear.split('-')[0])
        else:
            aired_final_year.append('None')
        
animeList["aired_initial_year"] = aired_initial_yearList
animeList["aired_final_year"] = aired_final_year

In [21]:
animeList

Unnamed: 0,anime_id,title,type,source,episodes,airing,rating,score,scored_by,members,favorites,related,studio,genre,duration_min,aired_initial_year,aired_final_year
0,11013,Inu x Boku SS,TV,Manga,12,False,PG-13 - Teens 13 or older,7.63,139250,283882,2809,"{'Adaptation': [{'mal_id': 17207, 'type': 'man...",David Production,"Comedy, Supernatural, Romance, Shounen",24.0,2012,2012
1,2104,Seto no Hanayome,TV,Manga,26,False,PG-13 - Teens 13 or older,7.89,91206,204003,2579,"{'Adaptation': [{'mal_id': 759, 'type': 'manga...",Gonzo,"Comedy, Parody, Romance, School, Shounen",24.0,2007,2007
2,5262,Shugo Chara!! Doki,TV,Manga,51,False,PG - Children,7.55,37129,70127,802,"{'Adaptation': [{'mal_id': 101, 'type': 'manga...",Satelight,"Comedy, Magic, School, Shoujo",24.0,2008,2009
3,721,Princess Tutu,TV,Original,38,False,PG-13 - Teens 13 or older,8.21,36501,93312,3344,"{'Adaptation': [{'mal_id': 1581, 'type': 'mang...",Hal Film Maker,"Comedy, Drama, Magic, Romance, Fantasy",16.0,2002,2003
4,12365,Bakuman. 3rd Season,TV,Manga,25,False,PG-13 - Teens 13 or older,8.67,107767,182765,2082,"{'Adaptation': [{'mal_id': 9711, 'type': 'mang...",J.C.Staff,"Comedy, Drama, Romance, Shounen",24.0,2012,2013
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6657,37090,Hitori no Shita: The Outcast Recap,Special,Manga,1,False,R - 17+ (violence & profanity),6.04,181,1013,2,"{'Prequel': [{'mal_id': 33421, 'type': 'anime'...",Haoliners Animation League,"Action, Super Power, Supernatural",24.0,2018,2018
6658,36913,Inazuma Eleven x Kaitou Gru no Tsuki Dorobou,Special,Original,4,False,G - All Ages,5.87,128,560,4,"{'Character': [{'mal_id': 5231, 'type': 'anime...",OLM,Comedy,0.2,2018,2018
6662,37894,Ling Yu 4th Season,ONA,Novel,12,False,PG-13 - Teens 13 or older,7.53,17,126,0,"{'Prequel': [{'mal_id': 36791, 'type': 'anime'...",Haoliners Animation League,Fantasy,13.0,2016,2017
6665,37255,Genki Genki Non-tan: Obake Mura Meiro,OVA,Original,1,False,G - All Ages,4.20,5,37,0,"{'Prequel': [{'mal_id': 25619, 'type': 'anime'...",Polygon Pictures,"Music, Kids",35.0,2015,2015


Ahora quitaremos las explicaciones de los ratings y solo dejaremos la nomenclatura, es deicr "PG", "PG-13" etc..

In [22]:
ratingList = animeList['rating'].tolist()

for index in range(len(ratingList)):
    ratingList[index] = ratingList[index].split(" - ")[0]

animeList['rating'] = ratingList

Ahora modificaremos la columna "related" cambiaremos el formato acutal a {Tipo de relacion:[Lista de los mal_id]}

In [23]:
relatedList = animeList['related'].tolist()

newList = []
for index in range(len(relatedList)):
    related = ast.literal_eval(relatedList[index])
    dicc = {}
    for key in related:
        dicc[key] = []
        for anime in related[key]:
            dicc[key].append(anime['mal_id'])
    newList.append(dicc)
    
animeList['related'] = newList

Para el genero crearemos una columna por cada genero existente pondremos 1 si es que dicho anime presenta el genero 0 si no.

In [24]:
genreList = animeList['genre'].tolist()

genereListAsString = []

uniqueGenereList = []

for genere in genreList:
    genereListAnime = genere.replace(" ", "").split(',')
    newValue = []
    for genereAnime in genereListAnime:
        newValue.append(genereAnime)
        if(not genereAnime in uniqueGenereList):
            uniqueGenereList.append(genereAnime)
    genereListAsString.append(newValue)

for index in range(len(uniqueGenereList)):
    genere = uniqueGenereList[index]
    newValues = []
    for newIndex in range(len(genereListAsString)):
        lista = genereListAsString[newIndex]
        if(genere in lista):
            newValues.append(1)
        else:
            newValues.append(0)
    animeList[genere] = newValues

In [26]:
animeList = animeList.drop(columns=['genre'])

In [29]:
animeList

Unnamed: 0,anime_id,title,type,source,episodes,airing,rating,score,scored_by,members,...,Space,Samurai,Thriller,Hentai,Yaoi,ShoujoAi,Police,Cars,Dementia,Yuri
0,11013,Inu x Boku SS,TV,Manga,12,False,PG-13,7.63,139250,283882,...,0,0,0,0,0,0,0,0,0,0
1,2104,Seto no Hanayome,TV,Manga,26,False,PG-13,7.89,91206,204003,...,0,0,0,0,0,0,0,0,0,0
2,5262,Shugo Chara!! Doki,TV,Manga,51,False,PG,7.55,37129,70127,...,0,0,0,0,0,0,0,0,0,0
3,721,Princess Tutu,TV,Original,38,False,PG-13,8.21,36501,93312,...,0,0,0,0,0,0,0,0,0,0
4,12365,Bakuman. 3rd Season,TV,Manga,25,False,PG-13,8.67,107767,182765,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6657,37090,Hitori no Shita: The Outcast Recap,Special,Manga,1,False,R,6.04,181,1013,...,0,0,0,0,0,0,0,0,0,0
6658,36913,Inazuma Eleven x Kaitou Gru no Tsuki Dorobou,Special,Original,4,False,G,5.87,128,560,...,0,0,0,0,0,0,0,0,0,0
6662,37894,Ling Yu 4th Season,ONA,Novel,12,False,PG-13,7.53,17,126,...,0,0,0,0,0,0,0,0,0,0
6665,37255,Genki Genki Non-tan: Obake Mura Meiro,OVA,Original,1,False,G,4.20,5,37,...,0,0,0,0,0,0,0,0,0,0


In [28]:
animeList.to_csv(r"Datos/animeListPreprocesada.csv",index = False, header=True)

### User Anime List

In [None]:
#userAnimeList = pd.read_csv("Datos/animelists_cleaned.csv")

### User List

In [None]:
userList = pd.read_csv("Datos/users_cleaned.csv")