# Hito 1 Minería de Datos (CC5205)

Integrantes: 
- Matías Torres N.
- Andrea Trigo D.
- Tomás Araya.
- Alvaro Garrido.
- Sebastián Morales C.  
![Portada de Anime](anime_portada.jpg)

## Índice
- [Introducción](#introducción)
- [Limpieza de los datasets](#limpieza-de-los-datasets)
  - [Dataset `anime_cleaned.csv`](#dataset-anime_cleanedcsv)
  - [Dataset `users_cleaned.csv`](#dataset-users_cleanedcsv)
  - [Dataset `animelists_cleaned.csv`](#dataset-animelists_cleanedcsv)
- [Exploración de datos](#exploración-de-datos)
  - [Dataset Animelists](#dataset-animelists)
  - [Dataset Anime](#dataset-anime)
  - [Dataset Users](#dataset-users)
- [Preguntas y problemas](#preguntas-y-problemas)
  - [Consulta 1](#consulta-1-top-20-animes-mejor-y-peor-evaluados)
  - [Consulta 2](#consulta-2-dispersión-de-las-edades-de-usuarios-en-un-género-de-anime-específico)
  - [Consulta 3](#consulta-3-más-animes-mos-droppeados)
  - [Consulta 4](#consulta-4-estudios-más-populares-en-el-top-100)
  - [Consulta 5](#consulta-5-top-animes-con-más-capitulos)
- [Conclusión](#conclusión)
- [Bibliografía](#bibliografía)

## Introducción
El mundo del anime es una de las industrias de entretenimiento más grandes en todo el mundo. Su
popularidad ha crecido de forma estrepitosa en los últimos años, lo que ha llevado a que cada vez
haya más series de anime y usuarios que consumen estos. Además, hay una gran cantidad de datos
disponibles sobre los animes, desde información básica como los títulos y las fechas de lanzamiento,
hasta otras más específicas como las horas vistas y la información demográfica, entre otros.

El contexto general del tema de estudio se centra en el análisis de un conjunto de datos sobre animes
y los “otakus” (fanáticos de la cultura japonesa) que visualizan este contenido. Este conjunto de
datos es una muestra representativa de la comunidad otaku en Internet, y su objetivo es analizar la
demografía y las tendencias dentro de este grupo. Contiene información sobre los usuarios (género,
ubicación, fecha de nacimiento, etc.), sobre los animes (fecha de emisión, géneros, productores,
etc.) y las listas de animes que los usuarios han creado en MyAnimeList, incluyendo su estado de
visualización (plan para ver, completado, viendo, abandonado, etc.) y la puntuación que le han
dado en una escala del 1 al 10.

Estudiar estos datos es interesante por varias razones. Primeramente, para generar un análisis
demográfico y comprender la composición demográfica de la comunidad otaku, como la distribución
por género, edad y ubicación geográfica, lo que nos puede proporcionar información valiosa sobre
los intereses y preferencias de este grupo según atributos en común. Además, podemos ver las
tendencias y patrones de consumo, donde, al analizar las listas de animes y las calificaciones de
los usuarios, es posible identificar tendencias y patrones en el consumo de animes. Esto puede
ayudar a descubrir qué tipos de animes son más o menos populares, cuáles tienen una mayor tasa
de finalización y cuáles son más propensos a ser abandonados, lo que nos permite además, poder
investigar cómo influyen las características de un anime (género, productor, fecha de emisión, etc.)
en su popularidad y calificación, lo que nos puede proporcionar información útil para los creadores
de contenido y los estudios de producción de animes.

## Limpieza de los datasets

A continuación se explica el contenido de cada dataset, que representa cada una de sus columnas y el porqué decidimos eliminar parte de la información en cada uno:

### Dataset ```anime_cleaned.csv```
- ```anime_id```: un identificador único asignado a cada anime en el dataset.
- ```title```: el título del anime en su idioma original (no necesariamente en japonés).
- ```title_english```: el título del anime en inglés (si está disponible)
- ```title_japanese```: el título del anime en japonés (si está disponible).
- ```title_synonyms```: otros títulos alternativos o sinónimos para el anime (si están disponibles).
- ```image_url```: la URL de una imagen relacionada con el anime (como un póster o una captura de pantalla).
- ```type```: el tipo de anime (por ejemplo, TV, OVA, película, etc.).
- ```source```: la fuente original del anime (por ejemplo, manga, novela ligera, etc.).
- ```episodes```: el número total de episodios del anime.
- ```status```: el estado actual del anime (por ejemplo, en emisión, finalizado, cancelado, etc.).
- ```airing```: indica si el anime está actualmente en emisión o no.
- ```aired_string```: la fecha de emisión del anime en un formato de texto legible por humanos.
- ```aired```: la fecha de emisión del anime en formato de fecha.
- ```duration```: la duración promedio de cada episodio del anime.
- ```rating```: la clasificación de edad recomendada para el anime.
- ```score```: la puntuación del anime según los usuarios del sitio web MyAnimeList en escala 1 a 10.
- ```scored_by```: la cantidad de usuarios que han puntuado el anime.
- ```rank```: la posición del anime en el ranking de popularidad de MyAnimeList.
- ```popularity```: la popularidad del anime según los usuarios del sitio web MyAnimeList.
- ```members```: la cantidad de usuarios que han agregado el anime a su lista en MyAnimeList.
- ```favorites```: la cantidad de usuarios que han marcado el anime como uno de sus favoritos en MyAnimeList.
- ```background```: información adicional o curiosidades sobre el anime.
- ```premiered```: la fecha de estreno del anime en Japón.
- ```broadcast```: el día y horario de emisión del anime en Japón.
- ```related```: información sobre otros animes relacionados con este.
- ```producer```: la compañía que produjo el anime.

Realizando un analisis, se decidió por omitir las siguientes columnas `image_url`, `background`, `related`, `premiered`, `broadcast`,`opening_theme`, `ending_theme`, `title_english`, `title_japanese`, `title_synonyms`,`airing`, `aired_string`.

Las columnas `image_url`, `background`, `related`, `opening_theme` y `ending_theme` contienen información que no es necesariamente relevante para un análisis general del anime. La URL de la imagen y la información de fondo son datos auxiliares que no influyen en las características principales del anime. La información relacionada puede ser útil, pero puede ser redundante o generar una gran cantidad de datos duplicados.

Las columnas `title_english`, `title_japanese` y `title_synonyms` son redundantes porque todas ellas proporcionan información sobre el título del anime en diferentes idiomas. Para un análisis general, es suficiente con tener una sola columna con el título.

La columna `airing` solo indica si el anime está en emisión o no, lo cual ya está incluido en la columna `status`. La columna `aired_string` proporciona la fecha de emisión de cada episodio en formato de texto, pero esta información también se puede obtener a partir de la columna `aired` (en formato de fecha) y la columna 'duration' (en minutos).


### Dataset ```users_cleaned.csv```
- `username`: el nombre de usuario del perfil de un usuario en el sitio web de anime.
- `user_id`: un identificador único asignado a cada usuario en el sitio web de anime.
- `user_watching`: la cantidad de anime que el usuario está actualmente viendo.
- `user_completed`: la cantidad de anime que el usuario ha completado.
- `user_onhold`: la cantidad de anime que el usuario ha puesto en espera temporalmente.
- `user_dropped`: la cantidad de anime que el usuario ha abandonado antes de completar.
- `user_plantowatch`: la cantidad de anime que el usuario planea ver en el futuro.
- `user_days_spent_watching`: la cantidad de días que el usuario ha pasado viendo anime.
- `gender`: el género del usuario.location: la ubicación geográfica del usuario.
- `birth_date`: la fecha de nacimiento del usuario.
- `access_rank`: el nivel de acceso del usuario en el sitio web de anime.
- `join_date`: la fecha en que el usuario se unió al sitio web de anime.
- `last_online`: la fecha y hora en que el usuario estuvo en línea por última vez en el sitio web de anime.
- `stats_mean_score`: la puntuación media otorgada por el usuario a los animes que ha visto.
- `stats_rewatched`: la cantidad de veces que el usuario ha vuelto a ver anime que ya ha completado.
- `stats_episodes`: la cantidad total de episodios de anime que el usuario ha visto en su vida.

Realizando un análisis se decidió eliminar las siguientes columnas `location`, `access_rank`.

La columna `location` se eliminó debido a que estaba muy mal formateada, contenía valores sin sentido.

La columnna `access_rank` se eliminó debido a que no contenía data importante para analizar y sacar conclusiones a partir de esta.


### Dataset `animelists_cleaned.csv`
- `username`: el nombre de usuario del usuario que completó la entrada para ese anime.
- `anime_id`: un identificador único para cada anime en el dataset.
- `my_watched_episodes`: la cantidad de episodios que el usuario ha visto del anime.
- `my_start_date`: la fecha en que el usuario comenzó a ver el anime.
- `my_finish_date`: la fecha en que el usuario terminó de ver el anime.
- `my_score`: la puntuación que el usuario dio al anime (de 1 a 10).
- `my_status`: el estado actual del anime para el usuario (en curso, completado, en espera, abandonado, etc.).
- `my_rewatching`: si el usuario está viendo el anime por segunda vez o más (1 para sí, 0 para no).
- `my_rewatching_ep`: la cantidad de episodios que el usuario ha visto en su rewatch.
- `my_last_updated`: la fecha en que el usuario actualizó su registro de anime para este anime.
- `my_tags`: las etiquetas que el usuario ha asociado con este anime (por ejemplo, “acción”, “comedia”, “romance”, “favoritos”, etc.).


Realizando un análisis de este dataset se decidió eliminar las siguientes columnas: `my_start_date`, `my_finish_date`, `my_tags`, `my_last_updated`.

Se eliminó las columnas `my_start_date` y `my_finish_date` debido a que el análisis no depende del tiempo que los usuarios requirieron para ver un anime en específico, además de que hay muchos datos faltantes.

Se eliminó la columna `my_tags` debido a que ya está presente en otro dataset.

Se eliminó la columna `my_last_updated` debido a que no aporta información relevante para el análisis.



### Exploración de datos

Mencionado lo anterior, se procede a calcular las dimensiones de cada dataframe, los tipos de los datos de cada columna y las estadisticas (promedio, moda, mediana, cuartiles, …) de las columnas de tipo numerico. Además, se filtran las columnas que presentan una cantidad considerable de nulos.

In [1]:
# importación de pandas para gráfico de tablas y seaborn para mapa de calor de correlación
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# definimos que pandas imprima todas las columnas al mostrar un dataframe
pd.set_option('display.max_columns', None)


In [None]:
# importanción de anime y users (tablas relativamente cortas)
anime = pd.read_csv('data/anime_cleaned.csv')
users = pd.read_csv('data/users_cleaned.csv')


In [None]:
# la imporanción de animelists es un poco más lenta
# por lo que se realiza en otra celda
animelists = pd.read_csv('data/animelists_cleaned.csv')


### Dataset Animelists

In [None]:
# ordenamos los usuarios por nombre de usuario alfabéticamente
animelists = animelists.sort_values(by='username')

In [None]:
# eliminamos los usuarios que no tienen nombre de usuario
animelists = animelists.dropna(subset=['username'])

In [None]:
# eliminamos las columnas que no nos interesan (explicado anteriormente)
animelists = animelists.drop(columns=[
    'my_start_date', 'my_finish_date', 'my_tags', 'my_last_updated'
    ])

In [None]:
# mostramos las columnas del dataframe final
animelists.info()

In [None]:
# mostramos las características generales del dataframe
animelists.describe()

###  Dataset Anime

In [None]:
# eliminamos las columnas que no nos interesan (explicado anteriormente)
anime = anime.drop(columns=[
    'image_url', 'background', 'related', 'premiered', 'broadcast',
    'opening_theme', 'ending_theme', 'title_english', 'title_japanese', 'title_synonyms',
    'airing', 'aired_string', 'licensor'
    ])

In [None]:
# mostramos las columnas del dataframe final
anime.info()

In [None]:
# mostramos las características generales del dataframe
anime.describe()

### Dataset Users

In [None]:
# eliminamos las columnas que no nos interesan (explicado anteriormente)
users = users.drop(columns=["location", "access_rank"])

In [None]:
# generamos una nueva columna con la edad del usuario en base a su fecha de nacimiento
users['age'] = 2018 - users['birth_date'].str[:4].astype(int)

In [None]:
# mostramos las columnas del dataframe final
users.info()

In [None]:
# mostramos las características generales del dataframe
users.describe()

## Consultas sobre el dataset

Para entender mejor los datos de nuestro proyecto, generamos las siguientes consultas, de las cuales derivarán las preguntas a trabajar en los siguientes hitos.

### Consulta 1:  Top 20 animes mejor y peor evaluados

Se crean dos gráficos que muestran el top 20 animes mejor y peor evaluados. Se filtran aquellos animes que han sido evaluados menos de 24000 veces, siendo este último valor una aproximación del promedio de la cantidad de evaluaciones que reciben los animes en este dataset.

In [None]:
#Data set ordenado por popularidad

anime1 = anime[['title','score','scored_by']]
anime1 = anime1[anime1['scored_by'] > 24000] 
anime_top_asc = anime1.sort_values('score', ascending=False)
anime_top_asc = anime_top_asc.head(20)

#Grafico 20 mejor evaluados
# horizontal bar chart
anime_top_asc.plot(x='title', y='score', kind='barh')
plt.title('Top 20 mejores anime según puntaje y número de votos')
plt.xlabel('Puntaje')
plt.ylabel('Anime')
plt.show()


#Grafico 20 peor evaluados
anime_top_des = anime1.sort_values('score', ascending=True)
anime_top_des = anime_top_des.head(20) 
anime_top_des.plot(x='title', y='score', kind='barh')
plt.title('Top 20 peores anime según puntaje y número de votos')
plt.xlabel('Puntaje')
plt.ylabel('Anime')
plt.show()


### Consulta 2: Dispersión de las edades y género de usuarios en un género de anime específico.

Se filtra la lista de animes, primero por el género ```Shounen``` y luego por ```Shoujo```, para ver las características predominantes de los usuarios que consumen estos tipos de anime. El género ```Shounen``` es un término japonés que se refiere a los mangas y animes dirigidos principalmente a un público masculino joven, mientras que el género ```Shoujo``` se refiere a lo mismo, pero dirigidos a un público femenino joven. Para nuestra consulta y análisis, visualizamos los datos de cantidad de usuarios por edad que ven cada tipo de ánime y la cantidad de usuarios por género que ven cada estilo de ánime. De esta manera, podemos generar análisis y conclusiones a partir la distribución de edad e identidad de género de estos tópicos de anime en específico.

In [None]:
#Shounen
animelists2 = animelists[['username', 'anime_id', 'my_watched_episodes']]
anime_shounen = anime.dropna(subset=['genre'])
anime_shounen = anime_shounen[anime_shounen['genre'].str.contains('Shounen')]
animelists2 = animelists2.merge(anime_shounen, on='anime_id', how='inner')
animelists2 = animelists2.merge(users, on='username', how='inner')
animelists2 = animelists2[animelists2['my_watched_episodes'] > 0]

# grafico de cantidad de usuarios por edad que ven el genero shounen
animelists2['age'].value_counts().plot(kind='bar')

plt.title('Cantidad de usuarios por edad que ven el género Shounen')
plt.xlabel('Edad')
plt.ylabel('Cantidad de usuarios')
plt.show()

# grafico de cantidad de usuarios por genero que ven el genero shounen
animelists2['gender'].value_counts().plot(kind='bar')

plt.title('Cantidad de usuarios por género que ven Shounen')
plt.xlabel('Género')
plt.ylabel('Cantidad de usuarios')
plt.show()

In [None]:
#Shoujo
animelists2 = animelists[['username', 'anime_id', 'my_watched_episodes']]
anime_shoujo = anime.dropna(subset=['genre'])
anime_shoujo = anime_shoujo[anime_shoujo['genre'].str.contains('Shoujo')]
animelists2 = animelists[['username', 'anime_id', 'my_watched_episodes']]
animelists2 = animelists2.merge(anime_shoujo, on='anime_id', how='inner')
animelists2 = animelists2.merge(users, on='username', how='inner')
animelists2 = animelists2[animelists2['my_watched_episodes'] > 0]

# grafico de cantidad de usuarios por edad que ven el genero Shoujo
animelists2['age'].value_counts().plot(kind='bar')

plt.title('Cantidad de usuarios por edad que ven el género Shoujo')
plt.xlabel('Edad')
plt.ylabel('Cantidad de usuarios')
plt.show()

# grafico de cantidad de usuarios por genero que ven el genero Shoujo
animelists2['gender'].value_counts().plot(kind='bar')

plt.title('Cantidad de usuarios por género que ven el género Shoujo')
plt.xlabel('Género')
plt.ylabel('Cantidad de usuarios')
plt.show()

### Consulta 3: Animes más droppeados

Para esta consulta, nos enfocamos en encontrar los animes más droppeados y nos preguntamos si es posible predecir qué animes tienen más probabilidades de ser abandonados por los usuarios en función de sus características. Nos enfocamos específicamente en el atributo de episodios, realizando un gráfico de dispersión que muestra la relación entre las veces que los 20 animes más droppeados han sido abandonados y su cantidad de capítulos, en un rango de 0 a 500 episodios. Luego, se realiza un mapa de correlación que nos permite concluir que no existe una relación considerable entre estos atributos.

In [None]:
#Data frame con animes mas dropeados

anime_dropped = animelists[['anime_id', 'my_status']] #proyeccion sobre datos significativos
anime_dropped = anime_dropped[anime_dropped['my_status'] == 4] #se dejan solo los dropeados
count_dropped = anime_dropped['anime_id'].value_counts(dropna=True, sort=True) #se cuentan las repeticiones del id
count_dropped = count_dropped.rename_axis('anime_id').to_frame('counts') #se convierte en un dataframe
anime_names = anime[['title','anime_id','score','genre', 'episodes']]
count_dropped = count_dropped.merge(anime_names, on='anime_id', how='inner') #se obtienen los nombres a partir del id
count_dropped.head(20) #primeros 20

In [None]:
# graficamos los 10 animes más dropeados por cantidad de episodios
# en un gráfico de puntos en el rango 0-500

count_dropped.plot(x='episodes', y='counts', kind='scatter')
plt.title('Los 10 animes más dropeados por cantidad de episodios')
plt.xlabel('Cantidad de episodios')
plt.ylabel('Veces dropeado')
plt.xlim(0, 150)
plt.show()

Mapa correlación:

In [None]:
# Mapa de correlacion

f, ax = plt.subplots(figsize=(10, 8))
#corr = count_dropped[['counts', 'episodes', 'score']].corr()
corr = count_dropped[['episodes', 'score']].corr()
sns.heatmap(corr,
    cmap=sns.diverging_palette(220, 10, as_cmap=True),
    vmin=-1.0, vmax=1.0,
    square=True, ax=ax)

### Consulta 4: Estudios más populares en el top 100

Para esta consulta, nos enfocamos en encontrar los 100 animes más populares y buscar cuáles son los estudios de animación japonesa que más se repiten en ellos. Visualizamos los datos en un gráfico que muestra los estudios de los 100 animes más populares, lo que nos permitió identificar los estudios de animación japonesa que producen los animes más populares y comenzar a explorar su relación con la popularidad de los diferentes animes, donde nuestro análisis nos permite tratar de identificar ciertos patrones y tendencias en cuanto a los estudios de animación japonesa que producen los animes más populares.

In [None]:
# grafica los estudios de los 100 animes más populares

anime = anime.sort_values('popularity', ascending=False)
anime_top100 = anime.head(100)
anime_top100 = anime_top100['studio'].value_counts()
anime_top100[anime_top100 > 1].plot(kind='barh')

# Grafico de los estudios con más animes en el top 100 de popularidad

plt.title('Estudios con más animes en el top 100 por popularidad')
plt.xlabel('Cantidad de animes')
plt.ylabel('Estudio')


## Preguntas y problemas.

Después de realizar un análisis de los datasets, nos planteamos variadas preguntas relacionadas a las distintas consultas. A partir de las consultas 1 y 4, que se relacionan directamente con la popularidad y calificación de los distintos animes: 

- ¿Es posible predecir las calificaciones de un anime en función de características como género, productor y fecha de emisión?

A partir de esto, es decir, el poder predecir las calificaciones de un anime en función de sus distintas características, podría ayudar a predecir que tópicos, atributos o maneras de producción podrían tener o no éxito, teniendo en consideración además, de que un anime bien calificado no necesariamente es un anime popular, lo que permitiría orientar de mejor manera los presupuestos y producciones de animaciones, apuntando a los distintos públicos. Además, el generar relaciones entre las distinas características le permite al espectador analizar esto, para así ampliar su cartelera con nuevos títulos similares a los que sabe de antemano que son de su gusto, o por el contrario, explorar animes con características que escapan de su zona de confort.

Por otra parte, en cuanto a la consulta sobre la dispersión de las edades y género de usuarios en un género de anime específico, nos surge la duda si esto es generalizable para distintos generos, por lo que nos planteamos la siguiente pregunta:

- ¿Existen asociaciones frecuentes entre ciertos géneros de animes y características demográficas de los usuarios, como género, grupo etario?

Esta pregunta nos ayudaría entender mejor las preferencias de los usuarios según sus características, estas sean su identidad de genero o edad. Esto nos permitiría mejorar el sistema de recomendaciones, para asi personalizarlo según gustos y caracteristicas del usuario.

A partir del mapa de correlación sobre la cantidad de veces que los animes han sido droppeados, nos interesa seguir investigando sobre las posibles causas que podrían explicar el desinteres sobre algunos animes:

- ¿Es posible predecir qué animes tienen más probabilidades de ser abandonados por los usuarios en función de características como género, productor y fecha de emisión?

Saber predecir que animes tienden a ser más abandonados por los usuarios puede ser útil para diferentes fines en la industria, pues puede mejorar la calidad del anime, es decir, los productores de animes pueden saber en que áreas deben mejorar para crear un contenido de mejor calidad y mantener el interés de los espectadores. También puede ser de utilidad para los medios que deciden que animes publicar en sus medios, pues podrían evitar emitir aquellos que pueden ser más propensos a ser abandonados. Optimiza la estrategia de marketing, pues al saber que caracteristicas atraen más al público, es diseñan mejores campañas de marketing.

---------------------------------------------------------------------------------------------------------------------------------------------

## Propuesta experimental:

**¿Es posible predecir las calificaciones de un anime en función de características como género, productor y fecha de emisión?**

Dado que se quiere predecir una variable continua se decide usar el algoritmo de ‘Regresion Lineal Multiple’ el cual permite relacionar distintas variables independientes para generar una ecuación que relaciona estas variables con lo que se quiere predecir, en este caso la calificación del anime es lo que se quiere predecir  y el género, productor, fecha de emisión serían las variables independientes.

Primero tenemos que limpiar nuestro dataset, en este caso habría que eliminar todas las columnas que no se usarán, como por ejemplo:

- Anime_id 
- Tittle
- Tittle_english, tittle_japanese, tittle_synonyms
- Image_url
- Etc…

Dejando con solo las columnas importantes para nuestra regresión lineal, las cuales serían:

- Score|
- Género
- Productor
- Episodios
- Rank
- Popularity

Luego hay que limpiar el dataset:

- Eliminando los datos nulos o no existentes.
- Para columna genero y producer que contienen una lista de strings ( Ej: [Action, Drama, Fantasy, Romance, School, Supernatural], [Music, Slice of Life, Comedy, Romance, Josei], etc…), creamos una columna por cada género y productor existente en el dataset y escribimos 0 o 1 para cada fila dependiendo de si tiene ese género/productor o no.

Pasamos al entrenamiento del modelo:

- Separamos los datos en entrenamiento y test. Usamos los algoritmos 'Linear Regression', 'Decision Tree Regressor' y 'Support Vector Regression', sobre las filas antes mencionadas para predecir el score del anime. Para estos 3 algoritmos comparamos sus métricas para saber cual fue mejor, dichas métricas son Error cuadrático medio (MSE), Error absoluto medio (MAE) y coeficiente de determinación (R²)

**¿Existen asociaciones frecuentes entre ciertos géneros de animes y características demográficas de los usuarios, como género, grupo etario?**

-------
Para armar la tabla para crear los clusters: 
    - Se toma animelist y se borran todos los animes que los usuarios no hayan completado o les hayan puesto mala nota.
    - Se filtran todas las columnas menos anime_id y user_name. A esta nueva tabla se le llama "gen_clusters"
    - Para obtener el genero del anime se toma el dataset "anime" y se filtran todas las columnas menos el nombre del anime y el genero. 
    - Para agregarlas a "gen_clusters" se hace un join segun el nombre del anime.
    - Para obtener el genero y edad del usuario se hace algo parecido. Se filtran todas las columnas de user menos "user_name", "genre" y "edad" (edad no esta, pero en una consulta la habiamos calculado, ahi copiar el proceso).
    - Luego se hace un join con "gen_clusters" para obtener estas columnas

Luego se corren los algoritmos de clustering sobre "gen_clusters".

Finalmente a partir de las metricas se puede determinar si es posible armar clusters a partir de estos datos.
-------


Primeramente, deberíamos de aplicar un algoritmo de clustering, como K-means o DBSCAN, dado que estos algoritmos nos ayudarán a identificar grupos de usuarios con características similares. Elegimos algoritmos de clustering porque estamos interesados en identificar patrones o agrupaciones en nuestros datos, en lugar de predecir una variable objetivo específica. Además, el clustering es una técnica comúnmente utilizada en el análisis demográfico y de comportamiento del usuario, lo que la convierte en una buena opción para este problema en particular.

Cada cluster representará un grupo de usuarios con características demográficas y comportamiento de visualización similares. Es decir, los usuarios dentro de un mismo cluster tendrán una combinación similar de características demográficas (género, grupo etario, ubicación geográfica, etc.) y tendrán patrones de visualización similares en términos de los géneros de anime que ven.

Para evaluar los resultados de nuestros algoritmos de clustering, la herramienta que más se adecua a lo que buscamos, es el coeficiente de silueta. Esta métrica evalúa la cohesión y la separación de los clusters, lo que nos permite cuantificar la calidad de nuestras agrupaciones.

Si no encontramos resultados significativos, podemos considerar otros enfoques. Por ejemplo, podríamos aplicar técnicas de clasificación para predecir el género del anime que un usuario preferiría en función de sus características demográficas. También podríamos considerar técnicas de reducción de la dimensionalidad, para visualizar nuestros datos en un espacio de menor dimensión e intentar identificar patrones o tendencias.

**¿Es posible predecir qué animes tienen más probabilidades de ser abandonados por los usuarios en función de características como género, productor y fecha de emisión?**

● En el proyecto se tiene el dataset “anime” que contiene cada anime con sus características (como género, productor, fecha de emisión, etc) y “animelist” que incluye las relaciones entre usuarios y anime (entre estas si el usuario ha droppeado el anime). Nos interesará tener un dataset que contenga los animes con los atributos considerados relevantes para la predicción además de una columna que indique la probabilidad de ser droppeado. 

● Se le llamará “drop_prob” a este dataset. Para su construcción se filtran todas las columnas del dataset  “anime” que  no se consideren importantes. Se utilizan las mismas columnas que en la pregunta 1, utilizando la misma técnica de pre-procesamiento para los atributos género y productor.

● Además se añade a "drop_prob" la columna con las probabilidades, la cual se obtendrá a partir del join del dataset "anime" y "animelist" (según la columna que contiene el nombre del anime) de la siguiente manera: 

 - Se realiza una proyección de tal manera que solo quede el nombre del anime y la columna que indica si el anime ha sido droppeado.
 - Para cada anime se cuenta cuántas veces ha sido droppeado.
 - La probabilidad se calcula como esta cantidad dividida  por las veces que aparece el anime en la tabla.
 - Se hace una agregación con “drop_prob” para incorporar la columna.

● De esta manera se tendrá todos los datos etiquetados con su probabilidad correspondiente.

● Debido al carácter predictivo de la pregunta, se utilizará clasificación para crear un modelo que permita estimar la probabilidad a partir de distintos conjuntos de training, se probarán distintas semillas y distintas particiones entre training y validation. Para esto se ocuparán los algoritmos utilizados en la pregunta 1 debido a que ambos problemas son de la misma naturaleza.

● Para poder comparar los clasificadores y así determinan el mejor modelo para nuestro problema se utilizarán las metricas F1, recall y precission. 

---------------------------------------------------------------------------------------------------------------------------------------------

## Aplicación de la metodología para el experimento de la pregunta 1

In [2]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# dropeamos las columnas que no vamos a necesitar
anime = pd.read_csv('anime_cleaned.csv')
anime2 = anime.copy()
anime2 = anime2.drop(columns=['anime_id', 'title', 'title_english', 'title_japanese', 'title_synonyms', 'image_url', 'type', 'source', 'status', 'airing','aired_string', 'aired', 'duration', 'rating', 'scored_by','members','favorites','background','premiered','broadcast','related','studio','licensor','opening_theme','ending_theme','duration_min','aired_from_year' ])
anime2 = anime2.dropna()

# Primero buscamos todos los generos y productores que existen

generos = []
for lista in anime2['genre']:
    if type(lista) == str:
        lista = lista.split(', ')
        for genero in lista:
            if genero not in generos:
                generos.append(genero)

productores = []
for lista in anime2['producer']:
    if type(lista) == str:
        lista = lista.split(', ')
        for productor in lista:
            if productor not in productores:
                productores.append(productor)

# Creamos una columna nueva en el dataframe anime por cada gener
for genero in generos:
    if type(genero) == str:
        anime2[genero] = anime2['genre'].str.contains(genero).astype(int)

# Creamos una columna nueva en el dataframe anime por cada productor
for productor in productores:
    if type(productor) == str:
        anime2[productor] = anime2['producer'].str.contains(productor).astype(int)

anime2 = anime2.drop(columns=['genre', 'producer'])

anime2

Unnamed: 0,episodes,score,rank,popularity,Comedy,Supernatural,Romance,Shounen,Parody,School,Magic,Shoujo,Drama,Fantasy,Kids,Action,Music,Slice of Life,Josei,Harem,Shounen Ai,Adventure,Super Power,Sci-Fi,Ecchi,Seinen,Martial Arts,Game,Sports,Demons,Historical,Horror,Mystery,Vampire,Military,Space,Samurai,Psychological,Shoujo Ai,Police,Mecha,Thriller,Cars,Dementia,Aniplex,Square Enix,Mainichi Broadcasting System,Movic,Inu x Boku SS Production Partners,TV Tokyo,AIC,Sotsu,Memory-Tech,GANSIS,Marvelous AQL,NHK,Shueisha,Yomiuri Telecasting,DAX Production,WAO World,Studio Jack,Geneon Universal Entertainment,ASCII Media Works,Fuji TV,Asmik Ace Entertainment,Sony Music Entertainment,VAP,Hakusensha,Nippon Television Network,Frontier Works,Kadokawa Shoten,Romantica club !!,TBS,Half H.P Studio,Lantis,AT-X,KlockWorx,Nihon Ad Systems,Kodansha,Dentsu,TV Tokyo Music,Studio Kelmadick,Pioneer LDC,KSS,Rakuonsha,Shogakukan Productions,Kitty Films,Shogakukan,Genco,Starchild Records,Magic Capsule,Yomiuri Advertising,Sogo Vision,Pony Canyon,Marine Entertainment,Bandai Visual,Trinity Sound,Studio Pierrot,Avex Entertainment,Happinet Pictures,BIGLOBE,AG-ONE,RAY,TV Asahi,King Records,TAP,TMS Entertainment,MediaNet,Marvelous,Delfi Sound,Warner Bros.,flying DOG,Fuji Pacific Music Publishing,YTV,Nagoya TV Housou,Koei,TYO,WOWOW,BeSTACK,MAGES.,Sakura Create,Nippon Columbia,Hobby Japan,Toho,Animation Do,Magic Bus,Studio Pastoral,Tokuma Shoten,Dream Creation,Gen&#039;ei,Bandai Namco Entertainment,Ultra Super Pictures,Showgate,Shounen Gahousha,Bandai Namco Pictures,ABC Animation,Comic Umenohone,Mobcast,Enterbrain,Cammot,Banpresto,Medicos Entertainment,BS11,Sony PCL,Contents Seed,Tokyo MX,Hakuhodo DY Music &amp; Pictures,Frencel,J.C.Staff,SoftX,Kinoshita Group Holdings,Yomiko Advertising,Earth Star Entertainment,Q-Tec,Media Factory,Index,Notes,CREi,Rondo Robe,Sega,Asahi Broadcasting,Bandai Channel,Lawson,Studio Deen,Broccoli,Trigger,DIVE II Entertainment,Good Smile Company,Avex Pictures,DeNA,Ichijinsha,Youmex,Production I.G,Animate Film,Mushi Production,Donuts,Asatsu DK,Tohokushinsha Film Corporation,Infinite,Toshiba Entertainment,Tokyo Kids,Studio Hibari,Sony Music Communications,Toranoana,Kadokawa Media House,AKABEiSOFT2,Tencent Penguin Pictures,OB Planning,Tokyo Movie Shinsha,Studio Kyuuma,Shochiku,Bushiroad,Chrono Gear Creative,Bushiroad Music,Epicross,Yahoo! Japan,Beyond C.,Picante Circus,Suiseisha,Daiichikosho,Nichion,NichiNare,Saban Brands,Nitroplus,DMM.com,Mellow Head,Dream Force,Gigno Systems,Bandai Namco Games,Kyoraku Industrial Holdings,Kansai Telecasting,TOHO animation,Cygames,Victor Entertainment,Big Bang,Lawson HMV Entertainment,Toy&#039;s Factory,East Japan Marketing &amp; Communications,Kadokawa,LINE Corporation,Toshiba Digital Frontiers,Jumondo,K-Factory,Wit Studio,Sound Team Don Juan,Sanrio,Gakken,Studio Mausu,AC Create,Atelier Musa,Miracle Bus,Tasogare Otome×Amnesia Production Partners,Smiral Animation,Studio Tulip,Pink Pineapple,Emon,Bandai,Project Eureka AO,Sammy,Hakuhodo DY Media Partners,Dynamic Planning,Yuhodo,MMDGP,Studio Nue,Dear Stage inc.,Futabasha,comico,NBCUniversal Entertainment Japan,AMG MUSIC,Nintendo,Kadokawa Pictures Japan,NTT Docomo,Soft Garage,Hal Film Maker,NHK-BS2,Sakura Production,Toei Video,Audio Tanaka,Mag Garden,Glovision,My Theater D.D.,Crunchyroll SC Anime Fund,Front Line,Cosmic Ray,BEAM Entertainment,SME Visual Works,Craftar,GDH,Sotsu Music Publishing,Imagica,501st JOINT FIGHTER WING,Animax,chara-ani.com,Docomo Anime Store,Fujimi Shobo,Grooove,Studio Fantasia,Zack Promotion,Japan Home Video,BS Japan,BS Fuji,Bandai Namco Live Creative,JM Animation,Aoni Entertainment,Directions,Atlus,Ai Addiction,Houbunsha,d-rights,Primastea,Kawade Shobo Shinsha,Yamamura Animation,Inc.,Amuse,Studio Tron,CyberConnect2,Akita Shoten,Tezuka Productions,Sunrise,OLM,DandeLion Animation Studio LLC,Trans Cosmos,Production GoodBook,Asahi Shimbun,Tokyo Theatres,gimik,Slowcurve,Pazzy Entertainment,Furyu,Heewon Entertainment,Academy Productions,Cospa,T.O Entertainment,TC Entertainment,Sentai Filmworks,Teichiku Entertainment,Radio Osaka,A-Sketch,Parco,e-notion,Animatic,Marui Group,Fields,Jinnan Studio,i0+,Ajia-Do,Trans Arts,Studio Core,CBS,Tablier Communication,Bouncy,Pony Canyon Enterprise,Capcom,Fuji Creative,Kids Station,Lucent Pictures Entertainment,Viz Media,NewGin,Marza Animation Planet,m.o.e.,Gainax,Visual Art&#039;s,Group TAC,Dentsu Tec,CBC,SKY Perfect Well Think,DMM pictures,Greenwood,Brave Hearts,Tate Anime,Kanetsu Co.,LTD.,Robot Communications,DLE,Evil Line Records,bilibili,EXA International,Nihon Falcom,Drecom,HoriPro,Digital Frontier,Children&#039;s Playground Entertainment,Nippon Television Music,Hulu,Sapporo Television Broadcasting,Miyagi Television Broadcasting,Shizuoka Daiichi Television,Chukyo TV Broadcasting,Hiroshima Television,Fukuoka Broadcasting System,Flex Comix,Code,SEDIC International,Mainichi Shimbun,Asahi Production,Gree,5pb.,Actas,Four Some,ZERO-A,Tokuma Japan,Barnum Studio,Pencil,SoftBank Creative Corp.,Bulls Eye,Sony Pictures Entertainment,Omnibus Japan,Oh! Production,Universal Entertainment,Tencent Animation,Echo,Egg Firm,GYAO!,C2C,Network,Dwango,Kenji Studio,TYO Animations,Techno Sound,Shirogumi,China Literature Limited,Hoods Entertainment,Radix,Pierrot Plus,Being,Gzbrain,Cocoro Free,Tosho Printing,Toei Animation,Kinoshita Koumuten,Milky Cartoon,G-mode,Hisashishi Videos,TOMY Company,famima.com,QREAZY,Visual Vision,Rironsha,Media Do,Studio elle,BS NTV,TV Osaka,Dai Nippon Printing,HeART-BIT,Raku High Student Council,Hakuhodo,Mitsubishi,Panasonic Digital Contents,Virgin Babylon Records,Chukong Technologies,Vega Entertainment,Graphinica,Trilogy Future Studio,Kinyosha,Fuji&amp;gumi Games,Ginga Ya,Chugai Mining Co.,Ltd.,Daiichi Shokai CO.,LTD,Fujio Production,Overlap,Asgard,Toshiba EMI,iQIYI,Enoki Films,PRA,KBS,Sun TV,TV Saitama,Chiba TV,Age Global Networks,Yomiuri TV Enterprise,Tokuma Japan Communications,Kanon Sound,Studio Moriken,Production Ace,Koei Tecmo Games,KLab,Trinet Entertainment,Telecom Animation Film,Konami,Daiei,Harappa,Project Railgun,Studio Kikan,A-Line,RightTracks,I Will,Sumitomo,Studio NOIX,TAKI Corporation,Kadokawa Contents Gate,Bungeishunjuu,On The Run,Nihon Eizo,Madhouse,Idea Factory,Plum,SOEISHINSHA,LIDENFILMS,Music Ray&#039;n,INCS toenter,Yoshimoto Creative Agency,Hasbro,Shelty,Amber Film Works,Takeshobo,Twin Engine,Amino,Indeprox,Audio Highs,Miracle Robo,Kyoto Animation,Hoso Seisaku Doga,Tokai Television,JY Animation,Live Viewing Japan,Yamasa,Picture Magic,AIR AGENCY,Beat Frog,Sankyo Planning,Tokyu Recreation,Topcraft,Big West,TV Setouchi,CoMix Wave Films,ZOOM ENTERPRISE,81 Produce,Shogakukan Music &amp; Digital Entertainment,Daume,Ishimori Pro,Artmic,EMI,Hokkaido Azmacy,Hokkaido Cultural Broadcasting,Ashi Production,Ryukyu Asahi Broadcasting,Fujiko F. Fujio Pro,Triangle Staff,Nozomi Entertainment,Eye Move,Orange,Advance Syakujii,Project No Name,Top Marshal,Kimi To Boku Production Partners,Usagi Ou,Wargaming Japan,JTB Entertainment,Seikaisha,Tsuburaya Productions,D.A.S.T.,Felix Film,Moonbell,Marubeni,XFLAG,D-techno,Yellow Film,Kiyosumi High School Mahjong Club,Nikkatsu,Kokusai Eigasha,The Answer Studio,Nintendo of America,GEN Productions,Shaft,SynergySP,G&amp;G Entertainment,Shuuhei Morita,Voyager Entertainment,Dongyang Animation,Apollon,Nexon,Neft Film,BIGFACE,BS-TBS,Studio Take Off,Planet,LandQ studios,Viki,Cyclone Graphics inc,Bee Train,NTT Plala,Benesse Corporation,Age,Adores,Heroz,Rikuentai,Kadokawa Media (Taiwan),Tose,Iwatobi High School Swimming Club,BMG Japan,Image Kei,Public &amp; Basic,Studio A-CAT,On-Lead,GAGA,StudioRF Inc.,Natsuiro Kiseki Production Partners,Nomad,Diabolik Lovers MB Project,Level-5,Tatsunoko Production,Hiroshi Planning,Project IS,Pb Animation Co. Ltd.,Konami Digital Entertainment,Solid Vox,Datam Polystar,USEN,Tsukuru no Mori,UNLIMITED Partners,Peter Pan Creation,FOREST Hunting One,Studio LAN,Links,Warner Music Japan,Shizuoka Broadcasting System,NAZ,Haoliners Animation League,DJI,North Stars Pictures,Just Pro,Studio Izena,Imagin,Walt Disney Studios,Xebec,F.M.F,Bandai Namco Rights Marketing,Steve N&#039; Steven,Exit Tunes,Duckbill Entertainment,Shanghai Tiantan Culture &amp; Media,NADA Holdings,Japan Sleeve,Yoon&#039;s Color,Nippon Cultural Broadcasting,Studio CHANT,Top-Insight International Co.,Three Fat Samurai,Sol Blade,Nippon Ichi Software,Assez Finaud Fabric,TV Aichi,Studio Blanc,Madoka Partners,Annapuru,Quick Corporation,Studio Saki Makura,Anime Consortium Japan,Quaras,Casio Entertainment,Enlight Pictures,Studio Mir,Nelvana,Media Rings,Takara Tomy A.R.T.S,CyberAgent,Forecast Communications,Tencent Japan,Kujou-kun no Bonnou wo Mimamoru-kai,White Fox,NHK Enterprises,COLOPL,Soyuzmultfilm,Studio Comet,Hakoniwa Academy Student Council,Shochiku Music Publishing,Coamix,Studio GOONEYS,Audio Planning U,ONEMUSIC,WField,Kaeruotoko Shokai,Plus One,Knack Productions,Kino Production,AQUAPLUS,Walkers Company,Animatsu Entertainment,Studio Flag,Production Reed,D &amp; D Pictures,Stardust Promotion,XFLAG Pictures,Studio Gram,KENMedia,DiC Entertainment,Highlights Entertainment,Visual 80,1st PLACE,3xCube,Toppan Printing,Nelke Planning,Fujishouji,Studio G-1Neo,U-NEXT,Free-Will,Bee Media,Agent 21,C &amp; I entertainment,4Kids Entertainment,Meiji Seika,MK Pictures,Myung Films,NEC Avenue,Sunrise Music Publishing,Jidaigeki Channel,Alchemist,Meruhensha,China Animation Characters,NHN PlayArt,Ima Group,Kadokawa Daiei Studio,Studio Ghibli,Mad Box,Shingeki no Kyojin Team,AZ Creative,ensky,NOTTV,Yumeta Company,Yaoqi,Dentsu Razorfish,SUBARU,ING,Jormungand Production Partners,Right Gauge,Dwango Music Entertainment,Tele-Cartoon Japan,Design Factory,Fanworks,Digiturbo,Saban Entertainment,Sunny Side Up,Universal Pictures Japan,Lastrum Music,indigo line,Keisei Electric Railway,Sanyo Bussan,Opera House,Tavac,Grouper Productions,San-X,Quatre Stella,CIC,RCC Chugoku Broadcasting,Ki/oon Music,Shufunotomo,Aquamarine,Melonbooks,12 Diary Holders,I was a Ballerina,ILCA,Trick Block,Shanghai Jump Network Technology,Jay Zone Comic,Studio Wombat,Synergy Japan,Volks,Kyotoma,Arcturus,Sanctuary,Azumaker,Minami Machi Bugyousho,Jade Animation,RAB Aomori Broadcasting,AnimEigo,JP Room,PansonWorks,Telescreen BV,PPP,Milestone Music Publishing,Cromea,Studio Zain,Darts,Kakao Japan,Spacey Music Entertainment,A-Craft,Tohan Corporation,E&amp;G Films,Hobibox,Khara,Möbius Tone,Life Work,Hero Communication,Palm Studio,Senran Kagura Partners,Po10tial,Think Corporation,feng,I-move,Muse Communication Co.,Medicrie,TEAM Entertainment Inc.,Hipland Music Corporation,Diomedea,Walt Disney Japan,KEN ON,D.N.dreampartners,Yomiuri Shimbun,Oz,Ai ga areba Daijobu,Gakken Eigakyoku,Hobi Animation,project lights,Venus Vangard,BS-i,Shin-Ei Animation,Abema TV,Animaruya,Shinchosha,Digital Works,Aniplex of America,Zexcs,BeeWorks,Liverpool,TMS-Kyokuchi,eBooK Initiative Japan CO.,Aubec,Gentosha Comics,Universal Studios,Kobunsha,Penta Show Studios,Colored-Pencil Animation Design,SPO Entertainment,Ministry of the Navy,Remic,World Cosplay Summit,W-Toon Studio,DMM.futureworks,Polygram Japan,Nishinippon Broadcasting,CloverWorks,KDDI,Xing,The Berich,KMMJ Studios,Purple Cow Studio Japan,International Digital Artist,Lucky Paradise,tsuritama partners,Kotobukiya,Sav! The World Productions,Amgakuin,Orchid Seed,Rakuten
0,12,7.63,1274.0,231,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,26,7.89,727.0,366,1,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,51,7.55,1508.0,1173,1,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,38,8.21,307.0,916,1,0,1,0,0,0,1,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,25,8.67,50.0,426,1,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6651,24,6.75,9904.0,13444,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6653,0,6.61,10300.0,7916,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6654,12,7.50,11127.0,13848,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6660,0,7.80,11128.0,13725,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


* Algoritmo #1 - Linear Regression para predecir score de un ánime.

In [3]:
# Realizamos la regresión lineal múltiple sobre el dataframe anime2

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

X = anime2.drop(columns=['score'])
y = anime2['score']

X_train1, X_test1, y_train1, y_test1 = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
regression = LinearRegression().fit(X_train1, y_train1)
# Realizar predicciones en el conjunto de prueba
y_pred1 = regression.predict(X_test1)

# Calculamos las métricas de nuestro modelo
mse = mean_squared_error(y_test1, y_pred1)
mae = mean_absolute_error(y_test1, y_pred1)
r2 = r2_score(y_test1, y_pred1)

print("Error cuadrático medio (MSE):", mse)
print("Error absoluto medio (MAE):", mae)
print("Coeficiente de determinación (R²):", r2)

Error cuadrático medio (MSE): 0.11991456531261359
Error absoluto medio (MAE): 0.1988308764840495
Coeficiente de determinación (R²): 0.8456701813618143


* Algoritmo #2  - Decision Tree Regressor para predecir score de un ánime.


In [4]:
from sklearn.tree import DecisionTreeRegressor


# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train2, X_test2, y_train2, y_test2 = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de árbol de decisión para regresión
regressor = DecisionTreeRegressor()

# Entrenar el modelo
regressor.fit(X_train2, y_train2)

# Realizar predicciones en el conjunto de prueba
y_pred2 = regressor.predict(X_test2)

# Calculamos las métricas de nuestro modelo
mse = mean_squared_error(y_test2, y_pred2)
mae = mean_absolute_error(y_test2, y_pred2)
r2 = r2_score(y_test1, y_pred2)

print("Error cuadrado medio (MSE):", mse)
print("Error absoluto medio (MAE):", mae)
print("Coeficiente de determinación (R²):", r2)

Error cuadrado medio (MSE): 0.05845961538461538
Error absoluto medio (MAE): 0.04283653846153894
Coeficiente de determinación (R²): 0.9247625856254781


* Algoritmo #3  - SVR para predecir score de un ánime.

In [5]:
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train3, X_test3, y_train3, y_test3 = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el modelo de SVR
regressor = SVR(kernel='rbf')  

# Entrenar el modelo
regressor.fit(X_train3, y_train3)

# Realizar predicciones en el conjunto de prueba
y_pred3 = regressor.predict(X_test3)

# Calcular el error cuadrado medio (MSE) en el conjunto de prueba
mse = mean_squared_error(y_test3, y_pred3)
mae = mean_absolute_error(y_test3, y_pred3)
r2 = r2_score(y_test3, y_pred3)
print("Error cuadrado medio (MSE):", mse)
print("Error absoluto medio (MAE):", mae)
print("Coeficiente de determinación (R²):", r2)


Error cuadrado medio (MSE): 0.07399894192926053
Error absoluto medio (MAE): 0.10812668744013819
Coeficiente de determinación (R²): 0.9047635017682114


| Métricas |   LinearRegression  | DecisionTreeRegressor| SVR|
| ----------- | ----------- | ----------- | -----------|
| MSE     | 0.1199     | 0.0584     |0.0739|
| MAE     | 0.1988     | 0.0428     |0.1081|
| R2     | 0.8456     | 0.9247     |0.9047|

## Resultados 

Para comprender los resultados se da una breve explicación de las métricas de estos algoritmos de regresión:

  ● Error Cuadrático Medio (MSE): Mide el promedio de los cuadrados de los errores, es decir, la diferencia entre el valor predicho por el modelo y el valor real.

  ● Error Absoluto Medio (MAE): A diferencia del MSE, el MAE toma el valor absoluto de estos errores. En términos simples, mide el promedio de la magnitud de los errores sin considerar su dirección.

  ● Coeficiente de determinación (R²): Esta es una medida estadística que indica qué porcentaje de la variabilidad de la variable dependiente (en este caso, la calificación del anime) puede ser explicada por el modelo de regresión.

La interpretación de los resultados es la siguiente:

En los tres modelos tanto el MSE como el MAE son relativamente bajos, por lo que se puede decir que son bastante precisos en sus predicciones. Además en todos los modelos el valor de R² es relativamente alto, lo que indica que las características que se están utilizando para predecir las calificaciones de los animes (es decir, género, productor, fecha de emisión) son relevantes y tienen una correlación significativa con las calificaciones. 

Con respecto a la eficiencia de cada algoritmo, aquel modelo con mejores resultados es el Árbol de regresión. Esto debido a que es el que presenta los errores más bajos en sus predicciones (a partir de los resultados del MSE y MAE) y es el que mejor puede explicar la variabilidad del score a partir de las caracteristicas elegidas (lo que se deduce por su R² más alto). Por otro lado, el modelo con los peores resultados es la regresión lineal, esta presenta la mayor cantidad de errores y el menor R². A pesar de esto, sus métricas siguen dando muy buenos resultados, sin embargo no son tan buenos como los demás algoritmos.

## Contribución de cada integrante.


- Matías Torres N:

    - Desarrollo de la motivación.
    - Contexto de las consultas yparte de las preguntas y respuestas.
    - Consulta 4 sobre los estudios (código trabajado en conjunto)
    - Edición del video de la presentación.


- Andrea Trigo D:
    - Informe Preguntas y Problemas
    - Informe Limpieza de datos
    - Informe Exploracion de datos

- Tomás Araya:
    - Creación repositorio de github
    - Consulta 1 sobre popularidad (código en conjunto)
    - Consulta 3 sobre animes droppeados (código, con corrección en conjunto)

- Alvaro Garrido:
    - Desarrollo de la motivación.
    - Redacción "Limpieza de Datos".
    - Contexto última pregunta en sección "Preguntas y Respuestas".

- Sebastián Morales C:
    - Limpieza de datos en los dataset para eliminar columnas innecesarias y reducir la dimensionalidad de los csv.
    - Consulta 2 sobre shounen y shoujo (código).
    - Template para la presentación.
    - Índice en markdown y bibliografía.

## Bibliografía

[Matěj Račinský, “MyAnimeList Dataset.” Kaggle, 2018, doi: 10.34740/KAGGLE/DSV/45582](https://www.kaggle.com/datasets/azathoth42/myanimelist?select=anime_cleaned.csv)