# Proyecto final: Clustering de usuarios de MyAnimeList: Hallando patrones y tendencias por comunidad

## Contexto y motivación

En cualquier afición o actividad de interés con cierto nivel de popularidad, tienden a generarse
comunidades muy distintas que comparten el mismo pasatiempo en común. A fin de cuentas, los
humanos somos diferentes a lo largo del mundo, y existen hobbies de tan nivel de amplitud y variedad
que pueden coexistir múltiples razones para que sean atrayentes, pero... ¿cuáles son dichas razones?
¿Cuán heterogéneo resulta ser el universo interesado en cierto tema arbitrario? En este proyecto,
principalmente se tratará de identificar las diversas comunidades presentes en aquellos fans de la
animación japonesa.

La industria del anime moderno nació alrededor de la década de 1960, y desde entonces cada vez ha
gozado de una mayor popularidad. Según ciertas estadísticas (Ferjan, 2023), alrededor de más de un
tercio de la población mundial ve anime, lo que equivale a 2,88 mil millones de personas. Además, la
base de datos de artes multimedia japonesas cuenta con más de 136.700 obras bajo la categoría de
anime en sus registros. En los Estados Unidos, se estima que más del 50% de la generación Z ve anime
(Ferjan, 2023), y se proyecta que conforme avance el tiempo el reconocimiento de esta industria
ciertamente será mayor en nuestras vidas. En un ámbito más local, según un análisis de Google Trends,
se vio que Chile es el quinto país en el cual el anime es más popular (Ferjan, 2023).
Por otro lado, se procederá a dar un poco de contexto respecto a lo que es MyAnimeList. Es un sitio
web fundado en 2004 por el estadounidense Garrett Gyssler, que tiene como propósito primario el ser
una herramienta para que sus usuarios puedan registrar el anime y manga que han visto,
inscribiéndose en el concepto de **comunidad virtual de catalogación**; término que Urban Dictionary
define de la siguiente manera:

* *"Un subconjunto de los medios sociales, un sitio web o aplicación web que permite a los
usuarios catalogar digitalmente las cosas que les preocupan -música, libros, películas,
arte, gastronomía, artesanía, bricolaje, etc-, mientras que al mismo tiempo pueden
compartir su contenido en una comunidad en línea".* (Urban Dictionary, 2011)

Hoy en día, MyAnimeList es una compañía de bolsa, operada por el grupo Media Do desde 2019. La
creación de una cuenta de usuario con cerca de todas las funcionalidades asociadas es gratis, mas
también se ofrece un servicio mensual de 2,99 dólares para ser un “seguidor de MAL”; que ofrece los
beneficios de eliminación de anuncios de la página junto a la posibilidad de una mayor personalización
del perfil propio. Como grupo, creemos que estos beneficios que se obtienen por pagar mensualmente
son escasos y no valen mucho la pena, por lo que, frente a esta problemática, planteamos una factible
posible solución. Ella consiste en que se ofrezcan como funcionalidades pagadas el que sitio web le
permita al usuario saber al respecto sobre en cuál comunidad probablemente se identifique más; qué
serie, en base a lo anterior, le parezca mejor y sea recomendado que vea, entre un sinfín de otras
estadísticas personalizadas que se podrían obtener trabajando correctamente el enorme banco de
datos que sustenta MyAnimeList. Nótese que, muy recientemente, el sitio web ha implementado una
[página](https://myanimelist.net/profile/Xinil/statistics) de estadísticas personalizada para cada usuario, que justamente recoge la idea de que si se
desean saber todos los datos o gráficos sea necesario pagar. El inconveniente con ello es que aún
esas estadísticas que se ofrecen son muy simples a nuestro parecer; no siendo lo suficientemente
interesantes o con un trabajo serio por detrás; y es debido a ello que nos interesó la posibilidad de
ampliar masivamente la cantidad de información valiosa que podría estar ahí. Básicamente, el único
tipo de estadísticas que brinda MyAnimeList son del carácter descriptivo elemental, como cantidad de
animes visualizados (entre muchas otras cosas), promedios, distribuciones de calificaciones o
desviaciones estándar; medidas que cualquier persona podría fácilmente calcular o graficar con el
suficiente tiempo.

En síntesis, observamos una oportunidad actualmente malgastada en MyAnimeList, que podría
significar una importante ganancia económica para Media Do si es implementada correctamente, y
para ello es indispensable utilizar las herramientas y el conocimiento de Ciencia de Datos. A partir de
lo anterior, resulta evidente señalar a los trabajadores de Media Do como el público objetivo de este
proyecto, pues sin lugar a duda serían los mayores beneficiarios al ser ellos quienes lograrían mejorar
la rentabilidad de su compañía tomando como base las ideas desarrolladas por este trabajo. Como
comentario aparte, nótese que ello es coherente con las aspiraciones financieras de Media Do, dado
que un antecedente existente en 2019 (Ressler, 2019) da cuenta que dicha compañía tiene intenciones
de fortalecer MyAnimeList; mejorando las funcionalidades del sitio como una plataforma de marketing
y distribuidora de libros electrónicos. De manera indirecta, débase decirse que este proyecto tiene
como público a todas aquellas personas que les gustaría saber y estudiar las diversas comunidades y
sus características, que existen, como mínimo, entre los actuales usuarios de MyAnimeList (cerca de
15.106.951 cuentas bajo un registro del 9 de octubre de 2023 (MyAnimeList, 2023)).


No siendo una cuestión menos relevante, débase decirse que la inspiración inicial para escoger este
proyecto proviene de enterarse del proyecto hecho por el profesor Hernán Valdivieso, que
vigentemente realiza clases de Programación Avanzada y Visualización de Información en la Pontificia
Universidad Católica de Chile. Su proyecto consistió en, primeramente, armar un enorme dataset de
MyAnimeList, que recopiló en el siguiente [repositorio](https://github.com/Hernan4444/MyAnimeList-Database?tab=readme-ov-file#myanimelist-database-2020) de GitHub, titulado: “MyAnimeList-Database”.
Este repositorio cuenta con la información de la lista de animes de 325.772 usuarios diferentes, y
también con la información de 17.562 animes distintos. Nótese que dichos datos fueron extraídos en
parte (las preferencias de los usuarios) con la [Jikan API](https://jikan.docs.apiary.io/), entre
el 26 de febrero y el 20 de marzo de 2020. 

Sin embargo, para nuestro proyecto usaremos la [MyAnimeList API](https://myanimelist.net/apiconfig/references/api/v2), dado que es la oficial del
sitio web; siendo la Jikan una API no oficial. Ello tiene coherencia dado que la API oficial no estaba
disponible para su utilización en el momento donde el profesor hizo su dataset, puesto que en 2020
recién se habilitó desde el 6 de julio, según lo mencionado en el siguiente [post](https://myanimelist.net/forum/?topicid=1849732). A modo de abreviar,
considérese que escribir MAL es equivalente a escribir MyAnimeList.


Otro comentario importante que vale la pena destacar es la cuestión de la procedencia de las etiquetas.
Como contexto, cada entrada de anime en MAL cuenta con dos elementos cuya intención es resumir
lo fundamental o estilo de cada serie: géneros y temas. El problema con estos apartados es que
resultaría realmente difícil trabajar con ellos puesto que se requeriría realizar primero la labor previa
de comprobar la verdadera importancia de cada uno; además de que complejizaría innecesariamente
a posteriori un adecuado clustering. Para paliar dicha situación, el docente nos informó de que otro
sitio web, similar en funcionalidad a MAL, llamado [Anime-Planet](https://www.anime-planet.com/), cuenta con un sistema mejor de
etiquetación de sus animes. En este, existe un único apartado llamado -tags-, que podría decirse
que combina los géneros y temas que coloca MAL; y además suelen existir más (lo cual genera que se
pueda reconocer con una mayor facilidad las temáticas y “esencia” de la serie; característica
sumamente positiva para nuestra idea de proyecto). Se verá este aspecto inmediatamente a
continuación con un ejemplo (Welcome to the NHK!) del cual se tiene el conocimiento para aseverar
si es notoria la mejora de este apartado en Anime-Planet en comparación a MyAnimeList.
Géneros de Welcome to the NHK! en MAL: Comedy, Drama, Romance.


Temas de Welcome to the NHK! en MAL: Adult Cast, Otaku Culture, Psychological

Tags de Welcome to the NHK! en Anime-Planet: Comedy, Drama, Slice of Life, Dark Comedy, Loneliness,
Mental Illness, NEET, Otaku Culture, Parody, Psychological, Satire, Based on a Light Novel.

Se verifica exitosamente que son los tags de Anime-Planet los cuales captan de la forma más completa
y fiel lo tratado en la obra audiovisual.

A partir de dicho trabajo realizado, nos dimos cuenta de que podría ser muy interesante el
cumplimiento de ciertos objetivos; que en la posterior sección se explayarán.

Como documentación de los múltiples tags con los que cuenta Anime-Planet, en la siguiente [página](https://www.anime-planet.com/anime/tags?page=1)
se describe cada uno.


## Preguntas objetivo

## Datos

## Análisis exploratorio de datos

## Análisis de datos:

## Resumen de los resultados

## ¿Qué podría salir mal?

### Data insuficiente

Al momento de recolectar los usuarios de MAL, si bien se recolectó una amplia cantidad de usuarios,
puede que no haya sido lo suficiente para poder realizar un buen modelo de clustering. Ello puede
deberse a que se cree que igualmente existe una gran variedad en los gustos y estadísticas de los
usuarios de MAL, por lo que se necesitaría una cantidad de usuarios mucho mayor para el poder
identificar realmente todos los grupos o comunidades que existn en MAL. 