# ANIME DATABASE
### ~ Hito 1 ~
Grupo 15:

-Álvaro Morales

-Iván Larraín

-Ignacio Ancatripai

-Felipe Araya

## Introducción y motivación
En este proyecto, se explorarán los datos y estadisticas presentados en la siguiente [Base de datos de MyAnimeList](https://www.kaggle.com/CooperUnion/anime-recommendations-database).



### ¿Qué es MyAnimeList?
[MyAnimeList](https://myanimelist.net) es una comunidad virtual de catalogación y red social de anime y manga. Al menos en occidente es la más utilizada de su tipo. Proporciona a sus usuarios un sistema basado en listas para organizar y puntuar anime y manga que hayan visto. Contiene una base de datos muy amplia de anime y manga, permite a usuarios añadir a su lista animes y mangas que hayan visto o leido, puntuarlos y contactar a otros usuarios con gustos similares.

Ha existido desde el 2005, puesta en marcha por Garrett Gyssler, y recive cerca de 120 millones de visitantes al mes.

### Sobre éste dataset...

La siguiente base de datos contiene información sobre Anime y los usuarios que los ven, sacada de MyAnimeList (actualizada hasta el 2018). Según nuestra fuente, kaggle, toda esta información es pública.

Estos datos son interesantes, ya que contemplan una amplio rango de tiempo, géneros y usuarios; incluyendo información de ratings y popularidad, relativo a diversos factores tanto de los anime en sí, como de los usuarios. Nuestra esperanza es poder encontrar patrones y otros datos interesantes en cómo se relacionan ciertos géneros y series con respecto a los usuarios que los ven y en qué época.

### Detalles del dataset (por sus autores)
Lo siguiente fue sacado direcamente de kaggle:

AnimeList.csv contiene una lista de anime, con título, sinónimos del título, género, estudio, licencor, productor, duración, calificación, puntuación, fecha de emisión, episodios, fuente (manga, novela ligera, etc.) y muchos otros datos importantes sobre el anime individual que proporciona suficiente información sobre las tendencias en el tiempo sobre los aspectos importantes del anime. El rango está en formato flotante en csv, pero sólo contiene valores enteros. Esto se debe a los valores NaN y su representación en pandas.

UserList.csv contiene información sobre los usuarios que ven anime, concretamente el nombre de usuario, la fecha de registro (join_date), la última fecha de conexión, la fecha de nacimiento, el sexo, la ubicación y muchos valores agregados de sus listas de anime.

UserAnimeList.csv contiene listas de anime de todos los usuarios. Por cada registro, aquí está el nombre de usuario, el ID del anime, la puntuación, el estado y la fecha de la última actualización de este registro. Este archivo es muy grande, así que no lo tocaremos por ahora (al menos no su versión raw).

Este dataset raw contiene:

- 302 675 usuarios únicos (302 573 de ellos con algunos datos demográficos)
- 80 076 112 registros en listas de anime
- 46 358 322 de ellos tienen valoraciones
- 14 478 animes únicos

Además se incluye una versión filtrada en anime_filtered.csv, animelists_filtered.csv y users_filtered.csv. Consiste en usuarios que tienen la fecha de nacimiento, la ubicación y el género rellenados. Por lo tanto, contiene muchos menos datos de animelists.

Pero todas las características importantes, como la media y la variación de la puntuación, o los géneros en las listas de animación, no cambian cuando se omiten los usuarios con algunos datos que faltan, por lo que incluso con los datos filtrados deberíamos obtener la misma información.

Estos contienen:

- 116 133 usuarios únicos con datos demográficos
- 35 802 010 registros en listas de anime
- 20 726 794 de ellos tienen valoraciones
- 14 474 animes únicos

Por último, también se incluyen datos "limpios" en anime_cleaned.csv, animelists_cleaned.csv y users_cleaned.csv. Esta versión limpiada ha truncado a todos los usuarios con un número ridículamente grande de episodios en animes que obviamente no tienen tantos episodios, los episodios vistos más grandes que el número de episodios en un anime individual fueron arreglados y los episodios vistos y el watchtime fue recalculado en consecuencia. Para algunos usuarios, la última vez que se conectaron fue en el año 1900, u otros valores extraños, por lo que su última actividad se dedujo de su última marca de tiempo de actualización de la lista de animes.

Muchos usuarios rellenaron incorrectamente el número de episodios repetidos. En el caso de los animes en los que se han visto más episodios de los que tiene el anime, los episodios vistos se han reescrito como número de episodios de ese anime. El tiempo de visionado y el número de episodios vistos se han corregido en consecuencia.
Los usuarios demasiado jóvenes y demasiado viejos, obviamente, se han truncado también.

Habían 6 usuarios con sospechosamente muchos episodios vistos. Fueron truncados, son muy pocos usuarios para afectar a las estadísticas.

### Verifiquemos algunas de estas aseveraciones.

A continuación, comprobaremos algunas de las cosas que asegura el análisis hecho por los autores de este dataset.

UserAnimeList.csv pesa >5GB, y sus versiones filtradas >2GB c/u. Por esto, ignoraremos las versiones raw y filtered. Compararemos las otras para verificar el análisis hecho por los autores.

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
# Raw, unfiltered data ~5GB
#user_animelist = pd.read_csv('database/UserAnimeList.csv') -> This takes up a ridiculous amount of space (>5GB), so we're skipping them
user_list = pd.read_csv('database/UserList.csv')
anime_list = pd.read_csv('database/AnimeList.csv')

# Filtered data ~2GB
#animelists_filtered = pd.read_csv('database/animelists_filtered.csv') -> no point keeping this one + too big
users_filtered = pd.read_csv('database/users_filtered.csv')
anime_filtered = pd.read_csv('database/anime_filtered.csv')

# Cleaned data ~2GB
animelists_cleaned = pd.read_csv('database/animelists_cleaned.csv')
users_cleaned = pd.read_csv('database/users_cleaned.csv')
anime_cleaned = pd.read_csv('database/anime_cleaned.csv')

In [24]:
# tamaños
print("fyi: (rows, columns)")
print(f"user_list: {user_list.shape}")
print(f"anime_list: {anime_list.shape}")
print()
print(f"users_filtered: {users_filtered.shape}")
print(f"anime_filtered: {anime_filtered.shape}")
print()
print(f"animelists_cleaned: {animelists_cleaned.shape}")
print(f"users_cleaned: {users_cleaned.shape}")
print(f"anime_cleaned: {anime_cleaned.shape}")

fyi: (rows, columns)
user_list: (302675, 17)
anime_list: (14478, 31)

users_filtered: (116133, 17)
anime_filtered: (14474, 31)

animelists_cleaned: (31284030, 11)
users_cleaned: (108711, 17)
anime_cleaned: (6668, 33)


In [8]:
animelists_cleaned.info() # listas de anime de los usuarios

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31284030 entries, 0 to 31284029
Data columns (total 11 columns):
 #   Column               Dtype  
---  ------               -----  
 0   username             object 
 1   anime_id             int64  
 2   my_watched_episodes  int64  
 3   my_start_date        object 
 4   my_finish_date       object 
 5   my_score             int64  
 6   my_status            int64  
 7   my_rewatching        float64
 8   my_rewatching_ep     int64  
 9   my_last_updated      object 
 10  my_tags              object 
dtypes: float64(1), int64(5), object(5)
memory usage: 2.6+ GB


In [16]:
users_cleaned.info() # info de los usuarios

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108711 entries, 0 to 108710
Data columns (total 17 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   username                  108710 non-null  object 
 1   user_id                   108711 non-null  int64  
 2   user_watching             108711 non-null  int64  
 3   user_completed            108711 non-null  int64  
 4   user_onhold               108711 non-null  int64  
 5   user_dropped              108711 non-null  int64  
 6   user_plantowatch          108711 non-null  int64  
 7   user_days_spent_watching  108711 non-null  float64
 8   gender                    108711 non-null  object 
 9   location                  108706 non-null  object 
 10  birth_date                108711 non-null  object 
 11  access_rank               0 non-null       float64
 12  join_date                 108711 non-null  object 
 13  last_online               108711 non-null  o

In [20]:
# ^^^ como todos los campos son exactamente la cantidad de filas (con algunas excepciones), parece que la limpieza fue bien hecha.
# interesantenemte, hay un usuario con nombre null:
users_cleaned[users_cleaned["username"].isnull()]

Unnamed: 0,username,user_id,user_watching,user_completed,user_onhold,user_dropped,user_plantowatch,user_days_spent_watching,gender,location,birth_date,access_rank,join_date,last_online,stats_mean_score,stats_rewatched,stats_episodes
51311,,300142,12,158,8,21,62,39.304167,Male,Serbia,1996-12-30 00:00:00,,2010-03-01 00:00:00,2018-05-20 04:06:06,6.58,30.0,2524


Pudimos encontrar a este usuario con la siguiente URL incluyendo su id: [https://myanimelist.net/comments.php?id=300142](https://myanimelist.net/comments.php?id=300142). Su nombre, efectivamente es [null](https://myanimelist.net/profile/null). Este usuario rompió el dataset.

In [25]:
# son muchas columnas como para hacer anime_cleaned.info()
anime_cleaned.columns # info de los animes

Index(['anime_id', 'title', 'title_english', 'title_japanese',
       'title_synonyms', 'image_url', 'type', 'source', 'episodes', 'status',
       'airing', 'aired_string', 'aired', 'duration', 'rating', 'score',
       'scored_by', 'rank', 'popularity', 'members', 'favorites', 'background',
       'premiered', 'broadcast', 'related', 'producer', 'licensor', 'studio',
       'genre', 'opening_theme', 'ending_theme', 'duration_min',
       'aired_from_year'],
      dtype='object')