# Hito 3 - Analisis de Datos de MyAnimeList. 
### Proyecto Minería de Datos.

Integrantes (Grupo "Herobrines"):
- Amaro Zurita
- Javier Facondi
- Marco Martinez
- Mario Fuentes
- Pedro Escobar

---


## 1. Introducción.

**Problema y motivación**.

  La industria del anime enfrenta grandes desafíos en la producción de nuevo contenido. Los consumidores de todo el mundo tienen una gran cantidad de géneros, estilos y temas disponibles, por ello, a medida que la popularidad del anime aumenta alrededor del mundo también aumentan y se diversifican los factores que influyen en el éxito de un anime específico. El problema está en identificar y seleccionar el conjunto de factores adecuados para un proyecto, que aseguren un éxito mínimo y minimicen el riesgo financiero.

  Con el aumento de las plataformas de Streaming y lo fácil que es acceder al anime hoy en día, entender los factores que influyen en su éxito es cada vez más relevante. La industria del anime es multimillonaria, y encontrar la “receta” que permita optimizar la producción puede tener implicaciones económicas clave. Por lo tanto, nuestro objetivo se centra en estudiar patrones y tendencias para extraer información que puede ayudar a los estudios de animación a producir contenido más atractivo e innovador asegurando el crecimiento dentro de la industria. Asimismo, ayudar también a las plataformas de Streaming a invertir en contenido que maximice la satisfacción de sus usuarios.



---


## 2. Exploración de datos.

El dataset utilizado para el estudio fue "AnimeList.csv" desde la plataforma Kaggle ([MyAnimeList Dataset](https://www.kaggle.com/datasets/azathoth42/myanimelist)), destacamos que existían tres versiones del mismo dataset, la original sin modificaciones, una "filtered" y una "cleaned", se decidió utilizar la version original ya que permitió mayor control sobre el filtrado de datos.

La exploración inicial del dataset nos permitió limpiar y preparar los datos, asegurando que sean adecuados para el análisis posterior. Sobre los nuevos datos se extrajo información sobre la distribución de puntuaciones, la popularidad de distintos géneros y la relación entre factores como la popularidad de un anime y su ranking. A continuación, se desarrollan los puntos anteriores, presentando gráficos y una explicación más detallada de lo observado. **El Código de limpieza y generación de gráficos se encuentra en el Anexo**.

* Lo primero que notamos en el dataset fue la existencia de animés inconclusos, algunos en emisión y otros que aún no se emiten ("Currently Aiming" y "Not yet aired" respectivamente), como las estadísticas de estos productos puede variar a través del tiempo, decidimos eliminarlos de nuestro análisis, ya que sus atributos pueden no ser representativos.

  A continuación se muestra el estado inicial de los animés, nosotros trabajaremos solo con los animés en estado “Finished Airing” que en español significa “Emisión Finalizada”, estos representan aproximadamente el 95.2% de datos del dataset.
  <div style="text-align: center;">
    <img src="imagenes/estados.png" alt="Estado de los animés" width="500"/>
  </div>

* También notamos que en MyAnimeList los géneros de los animés se dan según su concidencia con los mismos, por lo tanto, ningún anime pertenece a un único género. Para facilitar el manejo de los datos, seleccionamos los dos géneros de mayor concidencia, eliminamos todo lo relacionado al género “Hentai” y productos que contengan solo 1 capítulo (OVA, ONA, películas, especiales) que podían generar ruido en los resultados.

  A continuación mostramos un gráfico con las 10 combinaciones de géneros más comunes.

  Notemos que acción, comedia y aventura son los géneros que se ubican en los tres primeros puestos, lo que nos entrega un vistazo inicial de los géneros favoritos o más comerciales.
  Debemos destacar el género comedia, que se encuentra en 7 de las 10 combinaciones más comunes.

  <div style="text-align: center;">
    <img src="imagenes/generos1.png" alt="Géneros más comunes" width="600"/>
  </div>


* Complementando el gráfico anterior, se calculó la cantidad promedio de episodios por género.

  Observamos que no existe ninguna concidencia entre las 10 combinaciones de géneros con más episodios en promedio y las 10 más comunes, en un comienzo, esto podría implicar que los animés con más capítulos, no necesariamente son los más comunes o vistos, sin embargo, creemos que estas son conclusiones muy apresuradas, por lo tanto, es un punto interesante a analizar.

  <div style="text-align: center;">
    <img src="imagenes/generos2.png" alt="Cantidad promedio de episodios por género" width="600"/>
  </div>

* A continuación presentamos un histograma que nos permite visualizar como se distribuyen las puntuaciones entre los animés.

  Observamos que la mayoria de los animés tienen puntuaciones entre 5 y 8, con un pico notable entre 6 y 7. Este gráfico es clave, ya que analizar las características de los animés fuera de los rangos comunes, ya sea con puntuación bajo o arriba del promedio nos puede entregar información sobre las malas y buenas combinaciones de atributos a la hora de construir un anime.

  <div style="text-align: center;">
    <img src="imagenes/puntajes.png" alt="Distribución de puntajes" width="600"/>
  </div>

* Nuestro siguiente punto explora la relación de dos atributos, más especificamente la popularidad de una anime y su ranking (la posición 0 es la mejor), Normalmente los animés más populares tienden a recibir puntajes más altos, por lo tanto el gráfico muestra un comportamiento esperado.

  ¿Por qué decimos que es un comportamiento esperado?
    - Los animés populares tienen más audiencia y, por lo tanto, más personas que votan y califican.
    - Los animés populares a menudo tienen mayores presupuestos y mejores equipos de producción, lo que puede implicar mayor calidad visual, narrativa y técnica.

    <div style="text-align: center;">
        <img src="imagenes/popularidad.png" alt="Popularidad vs Ranking" width="600"/>
    </div>

---



## 3. Preguntas y problemas.

En busca de mejorar las preguntas planteadas anteriormente, se desarrollaron preguntas más específicas, mejor planteadas y con un objetivo más claro, estás son:
1. ¿Qué características de un anime (género, estudio de animación, número de episodios) son más predictivas de una alta puntuación (mayor a 8) en MyAnimeList? 
2. ¿Existirá la posibilidad de predecir el estudio de animación con ciertas características de un anime?
3. ¿Existen patrones temporales (meses o años) en los que se lancen más animés de alta calidad (puntuación > 8)?

Las preguntas 1 y 3 utilizan como umbral de puntuación la puntuación de 8,
la elección de de este valor como criterio de alta calidad se basa en revisar cómo se distribuyen las notas de los animés en MyAnimeList. Al analizar los datos, notamos que la distribución presenta una forma gaussiana, donde la mayoría de los animés reciben notas entre 5 y 8, mientras que un número significativamente menor obtienen puntuaciones mayores a 8. Esto sugiere que una nota de 8 o más puede considerarse un buen indicador de calidad, ya que hay muy pocos que llegan a ese nivel. Utilizar este punto de corte nos ayuda a comparar y predecir mejor qué características hacen que los usuarios consideren positivamente un anime en la plataforma.

La pregunta 2 se centra en explorar la posibilidad de predecir el estudio de animación responsable de un anime utilizando ciertas características del mismo. Esto implica investigar si atributos como el género, la duración, el número de episodios o incluso la puntuación y la popularidad del anime podrían poseer patrones sobre qué estudio de animación lo produjo. Si bien este enfoque busca comprender la influencia del estudio de animación en la calidad y recepción del anime, también debería ser posible predecir otros atributos clave en función de las carácteristicas.







---

## 4. Propuesta metodológica experimental inicial.

1. **¿Qué características de un anime (género, estudio de animación, número de episodios) son más predictivas de una alta puntuación (mayor a 8) en MyAnimeList?** :

    **Objetivos**:
    1. Identificar las características del anime que están asociadas con puntuaciones altas.
    2. Evaluar la importancia relativa de cada característica en la predicción de puntuaciones altas.
    3. Desarrollar un modelo predictivo que pueda utilizarse para anticipar la puntuación de un anime basado en sus características.

    **Metodología**:

    1. Recolección y Preprocesamiento de Datos
        - **Codificación de Variables Categóricas**: Convertir las variables categóricas (género y estudio de animación) a variables numéricas utilizando LabelEncoder.
        - **Normalizar variables**: Evaluar la necesidad de normalizar variables numéricas como el número de episodios.

    2. Selección de Características
        - **Características Seleccionadas**: Género codificado (genre_encoded), estudio de animación codificado (studio_encoded), y número de episodios (episodes).

    3. Definición de la Variable Objetivo
        - **Variable Objetivo**: Crear una variable binaria (high_score) que tome el valor de 1 si la puntuación del anime es mayor a 8, y 0 en caso contrario.

    4. Entrenamiento del Modelo
        - **Modelo Seleccionado**: Utilizar un distintos modelos (DecisionTreeClassifier, RandomForest, GradientBoosting) para la predicción.
        - **Conjunto de Entrenamiento y Prueba**: Dividir los datos en conjuntos de entrenamiento y prueba para la validación del modelo.

    5. Validación y Evaluación del Modelo
        - Cada modelo fue ajustado utilizando los datos de entrenamiento y se evaluó su desempeño viendo las medidas en los reportes de clasificación respectivos.

    6. Importancia de Características
        - **Cálculo de Importancias**: Obtener las importancias de las características del modelo utilizando el atributo feature_importances_ del DecisionTreeClassifier, RandomForest y GradientBoosting.
        - **Análisis de Resultados**: Analizar las importancias de las características para determinar cuál de ellas es más significativa en la predicción de puntuaciones altas.


2. **¿Existirá la posibilidad de predecir el estudio de animación con ciertas características de un anime?**:

    **Objetivos**:
    1. Determinar si es posible predecir el estudio de animación basado en características específicas del anime.
    2. Desarrollar un modelo predictivo para anticipar el estudio de animación de un anime basado en sus características.

    **Metodología**:
    
    1. **Recolección y Preprocesamiento de Datos**
        - Filtrado de Estudios: Filtrar los datos para incluir únicamente los top 10 estudios con más animés, para asegurar una cantidad suficiente de instancias y mejorar la precisión del modelo.
        - Transformación de Variables Categóricas: Convertir las variables categóricas en la columna 'type' a variables numéricas.
        - Conversión de Duración: Transformar la columna 'duration' de string a valores numéricos (int).
        - Codificación de la Variable Objetivo: Crear un vector que contenga los valores de la columna 'studio' y eliminar esta columna del DataFrame.

    2. **Selección de Características**
        - Características Seleccionadas: title, score, genre, type, episode, duration, scored_by, rank, popularity y members.

    3. **Definición de la Variable Objetivo**
        - Variable Objetivo: La variable "y" contendrá los valores del estudio de animación (studio).

    4. **Entrenamiento del Modelo**
        - Preparación de Datos: Generar un nuevo DataFrame con todos los valores transformados a numéricos (int).
        - Balanceo de Clases: Aplicar técnicas de oversampling en los datos de entrenamiento para balancear las clases.
        - Modelo Seleccionado: Utilizar modelos adecuados para la predicción (como DecisionTreeClassifier u otro modelo de clasificación).

    5. **Validación y Evaluación del Modelo**
        - Conjunto de Entrenamiento y Prueba: Dividir los datos en conjuntos de entrenamiento y prueba para la validación del modelo.
        - Métricas de Evaluación: Utilizar las métricas F1, recall, precision y accuracy para evaluar el rendimiento del modelo.


3. **¿Existen patrones temporales (meses o años) en los que se lancen más animés de alta calidad (puntuación > 8)?**:

    **Objetivos**:
    1. Identificar si existen patrones temporales en los lanzamientos de animés con puntuaciones mayores a 8.
    2. Evaluar la distribución de animés de alta calidad a lo largo de las diferentes temporadas y años.
    3. Utilizar técnicas de clustering para descubrir agrupamientos naturales de animés de alta calidad basados en sus fechas de lanzamiento.

    **Metodología**:

    1. Recolección y Preprocesamiento de Datos
        - **Limpieza de Datos**: Eliminar registros con puntuaciones no válidas y filtrar los animés que aún no han finalizado su emisión.
        - **Conversión de Fechas**: Convertir las fechas de lanzamiento de los animés a un formato de fecha estándar y extraer las temporadas (invierno, primavera, verano, otoño) y los años de lanzamiento.
        - **Codificación de Variables Categóricas**: Codificar las temporadas utilizando un codificador de etiquetas para convertirlas en variables numéricas.

    2. Análisis Exploratorio
        - **Distribución Temporal de animés de Alta Calidad**: Analizar la distribución de animés con puntuaciones mayores a 8 en función de las temporadas y los años. Esto incluye calcular cuántos animés de alta calidad se lanzaron en cada temporada y año.

    3. Clustering
        - **Preparación de Datos para Clustering**: Seleccionar características relevantes como la temporada codificada y el año de lanzamiento.
        - **Aplicación de distintos métodos**: Aplicar el algoritmo de clustering K-means, Agglomerative y DBSCAN para identificar grupos naturales en los datos. Estas técnica ayudarán a descubrir agrupamientos basados en las fechas de lanzamiento de los animés de alta calidad.

    4. Análisis de Resultados
        - **Interpretación de Clusters**: Analizar la composición de cada cluster para identificar patrones temporales significativos en los lanzamientos de animés de alta calidad. Esto incluye evaluar qué temporadas y años predominan en cada cluster y comparar las puntuaciones promedio dentro de cada grupo.

---
## 5. Experimentación y resultados.


## Pregunta 1:

**¿Qué características de un anime (género, estudio de animación, número de episodios) son más predictivas de una alta puntuación (mayor a 8) en MyAnimeList?**:

Primero, importamos todas las librerías y módulos necesarios para la manipulación de datos, visualización, preprocesamiento, construcción y evaluación de modelos. Utilizamos pandas para trabajar con los datos, matplotlib.pyplot para la visualización, LabelEncoder y StandardScaler para el preprocesamiento, y varios clasificadores y herramientas de evaluación de sklearn para los modelos de aprendizaje automático. (**_Código en Anexo: 1 y 6.1_**)

A continuación, preparamos los datos. Primero, creamos una copia del DataFrame original para evitar advertencias. Luego, codificamos las variables categóricas genre y studio usando LabelEncoder. Después, normalizamos la columna episodes utilizando StandardScaler. Finalmente, definimos la variable objetivo high_score como una columna binaria que indica si el score es mayor a 8. (**_Código en Anexo: 6.2_**)

Para continuar, seleccionamos las características relevantes para el modelo (genre_encoded, studio_encoded, normalized_episodes) y las almacenamos en X. La variable objetivo high_score se almacena en y. Luego, dividimos el conjunto de datos en entrenamiento y prueba con una proporción del 30% para prueba, usando train_test_split. (**_Código en Anexo: 6.3_**)

Posteriormente, entrenamos un modelo de Árbol de Decisión (DecisionTreeClassifier) usando los datos de entrenamiento y realizamos predicciones sobre los datos de prueba. Imprimimos un reporte de clasificación para evaluar el desempeño del modelo. Además, visualizamos el árbol de decisión utilizando plot_tree. Finalmente, calculamos y mostramos las importancias de las características. (**_Código en Anexo: 6.4_**)

<div style="text-align: center;">
    <img src="imagenes/decisionTree.png" alt="Géneros más comunes" width="600"/>
</div>


**Estadisticas en Test Set de DecisionTreeClassifier**

|                  | precision | recall | f1-score | support |
|------------------|-----------|--------|----------|---------|
| 0                | 0.96      | 0.95   | 0.95     | 1835    |
| 1                | 0.23      | 0.25   | 0.24     | 109     |
| accuracy         |           |        | 0.91     | 1944    |
| macro avg        | 0.59      | 0.60   | 0.59     | 1944    |
| weighted avg     | 0.91      | 0.91   | 0.91     | 1944    |

**Importancia de Características**

| Característica         | Importancia |
|------------------------|-------------|
| genre_encoded          | 0.5667      |
| studio_encoded         | 0.2846      |
| normalized_episodes    | 0.1486      |

Luego, entrenamos un modelo de Random Forest (RandomForestClassifier) y evaluamos su desempeño en los datos de prueba. Imprimimos el reporte de clasificación y calculamos las importancias de las características para el modelo de Random Forest. (**_Código en Anexo: 6.5_**)

**Estadisticas en Test Set de RandomForestClassifier**

|                  | precision | recall | f1-score | support |
|------------------|-----------|--------|----------|---------|
| 0                | 0.95      | 1.00   | 0.97     | 1835    |
| 1                | 0.61      | 0.13   | 0.21     | 109     |
| accuracy         |           |        | 0.95     | 1944    |
| macro avg        | 0.78      | 0.56   | 0.59     | 1944    |
| weighted avg     | 0.93      | 0.95   | 0.93     | 1944    |

**Importancia de Características**

| Característica         | Importancia |
|------------------------|-------------|
| genre_encoded          | 0.4986      |
| studio_encoded         | 0.3204      |
| episodes               | 0.1811      |

Finalmente, entrenamos un modelo de Gradient Boosting (GradientBoostingClassifier). Después de entrenar el modelo, realizamos predicciones en los datos de prueba y se imprime el reporte de clasificación. También obtenemos y mostramos las importancias de las características para el modelo de Gradient Boosting. (**_Código en Anexo: 6.6_**)

**Estadisticas en Test Set de GradientBoostingClassifier**

|                  | precision | recall | f1-score | support |
|------------------|-----------|--------|----------|---------|
| 0                | 0.94      | 1.00   | 0.97     | 1835    |
| 1                | 0.20      | 0.02   | 0.03     | 109     |
| accuracy         |           |        | 0.94     | 1944    |
| macro avg        | 0.57      | 0.51   | 0.50     | 1944    |
| weighted avg     | 0.90      | 0.94   | 0.92     | 1944    |




**Importancia de Características**

| Característica         | Importancia |
|------------------------|-------------|
| genre_encoded          | 0.4613      |
| studio_encoded         | 0.3093      |
| episodes               | 0.2294      |

Los modelos lograron una alta precisión en la precisión general de las predicciones, pero no fueron tan efectivos en otros aspectos importantes. El árbol de decisión destacó por su capacidad para identificar correctamente animés con puntuaciones altas (mayores a 8).

Intentamos mejorar la capacidad de los modelos para identificar estos animés utilizando una técnica llamada SMOTE, que ayuda a equilibrar las clases en los datos de entrenamiento. Sin embargo, aunque logramos mejorar la identificación de animés con altas puntuaciones, esto vino acompañado de una reducción en la precisión de las predicciones.

Esto sugiere que predecir qué animés tendrán altas puntuaciones basándose solo en las características analizadas es más complicado de lo que pensábamos. Esto podría deberse a que las preferencias de los usuarios en sitios como MyAnimeList son muy variadas y subjetivas, lo que dificulta las predicciones precisas.

A pesar de estos desafíos, al analizar qué características fueron más influyentes en los modelos, observamos un patrón consistente: el género del anime fue el factor más importante para predecir si una serie tendría una puntuación alta, seguido del estudio que la produjo y, en tercer lugar, la cantidad de episodios.

## Pregunta 2:

**¿Existirá la posibilidad de predecir el estudio de animación con ciertas características de un anime?**:

Primero nos aseguramos de importar todas las librerias que vamos a usar en la experimentación de nuestra pregunta. Luego, se cargan los datos originales del archivo AnimeList.csv y se eliminan columnas innecesarias para simplificar el dataset. (**_Código en Anexo: 7.1_**)

Se define y aplica una función para limitar los géneros de cada anime a los dos principales. Luego filtramos los datos para incluir solo animés con puntuación mayor a cero, que hayan terminado de emitirse, que tengan más de un episodio y que no pertenezcan al género 'Hentai'. (**_Código en Anexo: 1_**)

Luego, debemos limpiar los datos y/o filtrar los datos como explicamos, acá lo que hacemos es elegir el top 10 de estudios, con el fin de ver como se comporta nuestro modelo al intentar predecir los 10 estudios con más instancias, elegimos los 10 estudios porque sentimos que es un número de clases aceptable a predecir, luego transformamos las variables categóricas de la columna type a variables numéricas. (**_Código en Anexo: 7.2_**)

Para transformar a minutos las columnas de duration, creamos una funcion que ocupa expresiones regulares para detectar cuando lee "hr" operar el int como una hora y transformarlo a minutos, caso contrario cuando lee "min" simplemente opera como minutos. (**_Código en Anexo: 7.3_**)

Con esta función ya creada, debemos terminar de transformar toda la columna "duration" a variables numéricas y hacemos un drop a los nan que queden, finalmente creamos el vector Y con la columna "studio" y dropeamos "studio" del dataset X. (**_Código en Anexo: 7.4_**)

Ahora vamos a preparar los conjuntos de entrenamiento y de testing. (**_Código en Anexo: 7.5_**)

Finalmente usamos varios algoritmos de clasificación para ver como se comportan y cuales son sus métricas. (**_Código en Anexo: 7.6_**)

**Estadisticas en Test Set de DecisionTreeClassifier**

|                    | precision | recall | f1-score | support |
|--------------------|-----------|--------|----------|---------|
| J.C.Staff          | 0.28      | 0.24   | 0.26     | 42      |
| Madhouse           | 0.10      | 0.09   | 0.09     | 34      |
| Nippon Animation   | 0.25      | 0.29   | 0.27     | 31      |
| Production I.G     | 0.14      | 0.13   | 0.14     | 23      |
| Studio Deen        | 0.09      | 0.08   | 0.08     | 36      |
| Studio Pierrot     | 0.07      | 0.07   | 0.07     | 28      |
| Sunrise            | 0.30      | 0.37   | 0.33     | 52      |
| TMS Entertainment  | 0.16      | 0.15   | 0.15     | 20      |
| Tatsunoko Production | 0.06   | 0.05   | 0.05     | 21      |
| Toei Animation     | 0.28      | 0.28   | 0.28     | 58      |
| accuracy           |           |        | 0.20     | 345     |
| macro avg          | 0.17      | 0.17   | 0.17     | 345     |
| weighted avg       | 0.20      | 0.20   | 0.20     | 345     |


**Estadisticas en Test Set de KNeighbors**

|                    | precision | recall | f1-score | support |
|--------------------|-----------|--------|----------|---------|
| J.C.Staff          | 0.24      | 0.48   | 0.32     | 42      |
| Madhouse           | 0.09      | 0.12   | 0.10     | 34      |
| Nippon Animation   | 0.14      | 0.19   | 0.16     | 31      |
| Production I.G     | 0.16      | 0.17   | 0.17     | 23      |
| Studio Deen        | 0.28      | 0.22   | 0.25     | 36      |
| Studio Pierrot     | 0.15      | 0.07   | 0.10     | 28      |
| Sunrise            | 0.14      | 0.13   | 0.14     | 52      |
| TMS Entertainment  | 0.00      | 0.00   | 0.00     | 20      |
| Tatsunoko Production | 0.09   | 0.05   | 0.06     | 21      |
| Toei Animation     | 0.17      | 0.14   | 0.15     | 58      |
| accuracy           |           |        | 0.17     | 345     |
| macro avg          | 0.15      | 0.16   | 0.15     | 345     |
| weighted avg       | 0.16      | 0.17   | 0.16     | 345     |


**Estadisticas en Test Set de GaussianNB**

|                    | precision | recall | f1-score | support |
|--------------------|-----------|--------|----------|---------|
| J.C.Staff          | 0.17      | 0.19   | 0.18     | 42      |
| Madhouse           | 0.24      | 0.12   | 0.16     | 34      |
| Nippon Animation   | 0.12      | 0.74   | 0.21     | 31      |
| Production I.G     | 0.11      | 0.04   | 0.06     | 23      |
| Studio Deen        | 0.08      | 0.03   | 0.04     | 36      |
| Studio Pierrot     | 0.00      | 0.00   | 0.00     | 28      |
| Sunrise            | 0.25      | 0.02   | 0.04     | 52      |
| TMS Entertainment  | 0.00      | 0.00   | 0.00     | 20      |
| Tatsunoko Production | 0.06   | 0.05   | 0.05     | 21      |
| Toei Animation     | 0.12      | 0.09   | 0.10     | 58      |
| accuracy           |           |        | 0.13     | 345     |
| macro avg          | 0.11      | 0.13   | 0.08     | 345     |
| weighted avg       | 0.13      | 0.13   | 0.09     | 345     |


**Estadisticas en Test Set de SVC**

|                    | precision | recall | f1-score | support |
|--------------------|-----------|--------|----------|---------|
| J.C.Staff          | 0.24      | 0.40   | 0.30     | 42      |
| Madhouse           | 0.00      | 0.00   | 0.00     | 34      |
| Nippon Animation   | 0.00      | 0.00   | 0.00     | 31      |
| Production I.G     | 0.00      | 0.00   | 0.00     | 23      |
| Studio Deen        | 0.00      | 0.00   | 0.00     | 36      |
| Studio Pierrot     | 0.00      | 0.00   | 0.00     | 28      |
| Sunrise            | 0.31      | 0.08   | 0.12     | 52      |
| TMS Entertainment  | 0.00      | 0.00   | 0.00     | 20      |
| Tatsunoko Production | 0.00   | 0.00   | 0.00     | 21      |
| Toei Animation     | 0.19      | 0.86   | 0.31     | 58      |
| accuracy           |           |        | 0.21     | 345     |
| macro avg          | 0.07      | 0.13   | 0.07     | 345     |
| weighted avg       | 0.11      | 0.21   | 0.11     | 345     |


Podemos observar que en todos los algoritmos los valores de las métricas son muy bajos. Especialmente en términos de precisión (accuracy), los resultados más destacados son 0.21 para SVC y 0.20 para DecisionTree, lo cual no alcanza niveles aceptables. Concluimos que predecir los estudios de animación utilizando los atributos seleccionados es muy complicado. Sin embargo, deseamos explorar si hay alguna mejora notable al considerar los cinco estudios con más instancias.

Por lo tanto, procederemos a reciclar el código utilizado anteriormente, pero esta vez analizando únicamente los cinco estudios con más instancias. Separaremos los bloques de código sin proporcionar explicaciones detalladas, debido al reciclaje del material. (**_Código en Anexo: 7.7_**)

El bloque de código anterior se encarga de filtrar los 5 estudios con más instancias, para luego repetir el experimento inicial.

**Accuracy en Test Set de DecisionTreeClassifier:** 0.3738738738738739

| Estudio          | Precision | Recall | F1-Score | Support |
|------------------|-----------|--------|----------|---------|
| J.C.Staff        | 0.40      | 0.43   | 0.41     | 42      |
| Madhouse         | 0.21      | 0.18   | 0.19     | 34      |
| Studio Deen      | 0.28      | 0.28   | 0.28     | 36      |
| Sunrise          | 0.39      | 0.42   | 0.41     | 52      |
| Toei Animation   | 0.48      | 0.47   | 0.47     | 58      |
| **accuracy**     |           |        | 0.37     | 222     |
| **macro avg**    | 0.35      | 0.35   | 0.35     | 222     |
| **weighted avg** | 0.37      | 0.37   | 0.37     | 222     |


**Accuracy en Test Set de KNeighbors:** 0.33783783783783783

| Estudio          | Precision | Recall | F1-Score | Support |
|------------------|-----------|--------|----------|---------|
| J.C.Staff        | 0.33      | 0.48   | 0.39     | 42      |
| Madhouse         | 0.10      | 0.09   | 0.10     | 34      |
| Studio Deen      | 0.42      | 0.36   | 0.39     | 36      |
| Sunrise          | 0.33      | 0.35   | 0.34     | 52      |
| Toei Animation   | 0.45      | 0.36   | 0.40     | 58      |
| **accuracy**     |           |        | 0.34     | 222     |
| **macro avg**    | 0.33      | 0.33   | 0.32     | 222     |
| **weighted avg** | 0.34      | 0.34   | 0.34     | 222     |


**Accuracy en Test Set de GaussianNB:** 0.3108108108108108

| Estudio          | Precision | Recall | F1-Score | Support |
|------------------|-----------|--------|----------|---------|
| J.C.Staff        | 0.32      | 0.21   | 0.26     | 42      |
| Madhouse         | 0.24      | 0.12   | 0.16     | 34      |
| Studio Deen      | 0.06      | 0.03   | 0.04     | 36      |
| Sunrise          | 0.35      | 0.15   | 0.21     | 52      |
| Toei Animation   | 0.35      | 0.81   | 0.48     | 58      |
| **accuracy**     |           |        | 0.31     | 222     |
| **macro avg**    | 0.26      | 0.26   | 0.23     | 222     |
| **weighted avg** | 0.28      | 0.31   | 0.26     | 222     |


**Accuracy en Test Set de SVC:** 0.30180180180180183

| Estudio          | Precision | Recall | F1-Score | Support |
|------------------|-----------|--------|----------|---------|
| J.C.Staff        | 0.27      | 0.40   | 0.33     | 42      |
| Madhouse         | 0.00      | 0.00   | 0.00     | 34      |
| Studio Deen      | 0.00      | 0.00   | 0.00     | 36      |
| Sunrise          | 0.00      | 0.00   | 0.00     | 52      |
| Toei Animation   | 0.31      | 0.86   | 0.46     | 58      |
| **accuracy**     |           |        | 0.30     | 222     |
| **macro avg**    | 0.12      | 0.25   | 0.16     | 222     |
| **weighted avg** | 0.13      | 0.30   | 0.18     | 222     |

Después de repetir el experimento, se observa cierta mejoría, aunque no es significativa. Por lo tanto, podemos concluir definitivamente que con los atributos seleccionados no es posible predecir de manera efectiva a qué estudio de animación pertenece. Además, es notable que el SVC mostró el menor aumento en la precisión, con el algoritmo DecisionTree obteniendo la mejor puntuación de 0.37, destacando especialmente en las métricas específicas de cada estudio.


## Pregunta 3:

**¿Existen patrones temporales (meses o años) en los que se lancen más animés de alta calidad (puntuación > 8)?**:

Para comenzar la experimentación, se importan las bibliotecas necesarias para manipulación de datos, visualización y técnicas de clustering. Luego, se cargan los datos originales del archivo AnimeList.csv y se eliminan columnas innecesarias para simplificar el dataset. (**_Código en Anexo: 8.1_**)

Se define y aplica una función para limitar los géneros de cada anime a los dos principales. Luego filtramos los datos para incluir solo animés con puntuación mayor a cero, que hayan terminado de emitirse, que tengan más de un episodio y que no pertenezcan al género 'Hentai'. (**_Código en Anexo: 1_**)

El siguiente paso era obtener las fechas a analizar, para ello se creó una función que extrae la fecha de inicio de emisión de un anime a partir de una cadena de texto y luego aplica esta función al DataFrame filtrado. Luego, se extraen las características año, mes y temporada del año (invierno, primavera, verano, otoño) de emisión para cada anime. (**_Código en Anexo: 8.2_**)

Se codifican las temporadas en formato numérico utilizando LabelEncoder. Posteriormente, se filtran los animés con una puntuación mayor a 8, considerándolos de alta calidad. (**_Código en Anexo: 8.3_**)

Se seleccionan las características relevantes (score y season_encoded) para realizar clustering. Se aplican tres métodos de clustering (K-means, Agglomerative Clustering y DBSCAN) y se asignan los resultados a nuevas columnas. Luego, se evalúan los clusters utilizando el índice de silueta., que mide qué tan bien están separados los clusters. (**_Código en Anexo: 8.4_**)

Este bloque genera gráficos de dispersión para visualizar los clusters formados por los tres algoritmos de clustering en función de la puntuación y la temporada codificada. Esto permite comparar visualmente los resultados de cada método de clustering. (**_Código en Anexo: 8.5_**)

### Gráficos obtenidos

Destacamos que las temporadas están codificadas en los valores 0,1,2 y 3, estos significan:
- 0.0: Invierno
- 1.0: Primavera
- 2.0: Verano
- 3.0: Otoño

#### Composición de Clusters de K-means

<div style="text-align: center;">
    <img src="imagenes/PT-kmeans.png" alt="Géneros más comunes" width="600"/>
</div>

| kmeans_cluster | score_mean | score_std | score_count | season_encoded_mean | season_encoded_std | season_encoded_count |
|----------------|------------|-----------|-------------|---------------------|--------------------|----------------------|
| 0              | 8.357733   | 0.246278  | 75          | 0.0                 | 0.0                | 75                   |
| 1              | 8.322080   | 0.260060  | 125         | 3.0                 | 0.0                | 125                  |
| 2              | 8.298189   | 0.272797  | 127         | 1.0                 | 0.0                | 127                  |
| 3              | 8.322692   | 0.233222  | 52          | 2.0                 | 0.0                | 52                   |



#### Composición de Clusters de Agglomerative Clustering


<div style="text-align: center;">
    <img src="imagenes/PT-agglo.png" alt="Géneros más comunes" width="600"/>
</div>


| agg_cluster | score_mean | score_std | score_count | season_encoded_mean | season_encoded_std | season_encoded_count |
|-------------|------------|-----------|-------------|---------------------|--------------------|----------------------|
| 0           | 8.298189   | 0.272797  | 127         | 1.0                 | 0.0                | 127                  |
| 1           | 8.322080   | 0.260060  | 125         | 3.0                 | 0.0                | 125                  |
| 2           | 8.357733   | 0.246278  | 75          | 0.0                 | 0.0                | 75                   |
| 3           | 8.322692   | 0.233222  | 52          | 2.0                 | 0.0                | 52                   |



#### Composición de Clusters de DBSCAN

<div style="text-align: center;">
    <img src="imagenes/PT-DBS.png" alt="Géneros más comunes" width="600"/>
</div>


| dbscan_cluster | score_mean | score_std | score_count | season_encoded_mean | season_encoded_std | season_encoded_count |
|----------------|------------|-----------|-------------|---------------------|--------------------|----------------------|
| 0              | 8.322692   | 0.233222  | 52          | 2.0                 | 0.0                | 52                   |
| 1              | 8.322080   | 0.260060  | 125         | 3.0                 | 0.0                | 125                  |
| 2              | 8.298189   | 0.272797  | 127         | 1.0                 | 0.0                | 127                  |
| 3              | 8.357733   | 0.246278  | 75          | 0.0                 | 0.0                | 75                   |


Se intentaron otras maneras de realizar la clusterización, pero ninguna nos entregó información relevante.
<div style="text-align: center;">
    <img src="imagenes/PM-kmeans.png" alt="Géneros más comunes" width="600"/>
</div>

<div style="text-align: center;">
    <img src="imagenes/PA-kmeans.png" alt="Géneros más comunes" width="600"/>
</div>

<div style="text-align: center;">
    <img src="imagenes/AM-kmeans.png" alt="Géneros más comunes" width="600"/>
</div>


#### Cantidad de animés lanzados por temporada y año.
<div style="text-align: center;">
    <img src="imagenes/cantidad_temporada.png" alt="Géneros más comunes" width="600"/>
</div>

<div style="text-align: center;">
    <img src="imagenes/cantidad_por_año.png" alt="Géneros más comunes" width="600"/>
</div>



A lo largo de los años, la cantidad de animés lanzados ha aumentado significativamente. Esta disparidad en el número de lanzamientos por año afecta la capacidad de encontrar patrones confiables debido a la variabilidad en los datos.

##### Análisis de Clusters

Se aplicaron técnicas de clustering (K-means, Agglomerative Clustering y DBSCAN) para agrupar animés de alta calidad basados en puntuación, temporada, mes y año. Los resultados mostraron lo siguiente:

- **K-means Clustering**: Silhouette Score: 0.452 Visualización de clusters mostró agrupaciones moderadas en las puntuaciones y temporadas, pero sin un patrón claro.

- **Agglomerative Clustering**: Silhouette Score: 0.403 Similar al K-means, mostró agrupaciones pero sin un patrón claro.

- **DBSCAN Clustering**: No encontró suficientes clusters para calcular el índice de silueta debido a la densidad de los datos.

1. **Puntuación y Temporada**:
   - Se observaron concentraciones de animés de alta calidad en ciertas temporadas, pero los resultados no fueron concluyentes debido a la alta variabilidad de los datos.

2. **Puntuación y Mes**:
   - Algunos meses mostraron una mayor concentración de animés de alta calidad, pero esta tendencia no fue definitiva debido a la variabilidad entre años.

3. **Puntuación y Año**:
   - Aumento en la producción de animés de alta calidad en años recientes, complicando la identificación de patrones consistentes a lo largo del tiempo.

En resumen, aunque se identificaron ciertas concentraciones de animés de alta calidad en determinadas temporadas (primavera y otoño principalmente) y meses, los resultados no son concluyentes debido a la alta variabilidad en los datos. La creciente producción de animés en años recientes sugiere una mejora en la calidad general, pero también presenta desafíos adicionales para la identificación de patrones confiables.

---

## 6. Distribución del trabajo.

- **Amaro Zurita**: Desarrollo de experimentación pregunta 1 y 2, aporte en planteamiento de preguntas preliminares.
- **Javier Facondi**: Desarrollo de experimentación pregunta 3, carga y limpieza de datos.
- **Marco Martinez**: Mejora hitos anteriores, exploración de datos, y construcción del informe, aporte en planteamiento de preguntas preliminares.
- **Mario Fuentes**: Desarrollo de experimentación pregunta 3, análisis de resultados preliminares.
- **Pedro Escobar**: Desarrollo de experimentación pregunta 2, aporte en planteamiento de preguntas preliminares.

---


# Anexo

### 1. Código de limpieza y exploración de datos.

In [None]:
# Importamos las librerias correspondientes.
import pandas as pd
import matplotlib.pyplot as plt

# Se carga el dataset
anime_data = pd.read_csv('AnimeList.csv')

# Columnas a eliminar (no tendrán uso en nuestro estudio)
df = anime_data.drop(columns=['airing', 'aired', 'background', 'duration','opening_theme','ending_theme','image_url','broadcast','title_english','title_synonyms','licensor','premiered','producer'])

# Función que permite identificar los dos generos principales
def limit_genres(df):
    # Split the genres by comma and take the first two
    df['genre'] = df['genre'].apply(lambda x: ', '.join(x.split(', ')[:2]))
    return df

# Guardamos el dataset filtrado, se utilizan solo los anime con estado 'Finished Airing', con cantidad de episodios mayor a 1 y genero distinto a "Hentai".
filt_df = df[(df['score'] > 0) & (df['status'] == 'Finished Airing') & (df['episodes'] != 1) & (df['genre'] != 'Hentai')]

### 2. Gráfico con el estado de los animés.

In [None]:
count_status = df['status'].value_counts()
print(count_status)
count_status.plot(kind='bar')
plt.title('Estado de los animés')
plt.xlabel('Estado')
plt.ylabel('Cantidad de animés')
plt.show()

### 3. Gráfico con la distribución de puntajes.

In [None]:
plt.figure(figsize=(10, 6))
plt.hist(filt_df['score'].dropna(), bins=20, edgecolor='black')
plt.title('Distribución de Puntuaciones')
plt.xlabel('Puntuación')
plt.ylabel('Frecuencia')
plt.show()

### 4. Gráfico con los generos más comunes.

In [None]:
# Filtramos según generos
genres = filt_df.dropna(subset=['genre'])
df_genres = limit_genres(genres)['genre']

# Graficamos
print(df_genres.shape)
count_genres = df_genres.value_counts()
count_genres.sort_values(ascending=True)
count_genres.head(10).plot(kind='barh')
plt.title('Generos más comunes')
plt.xlabel('Cantidad de animés')
plt.ylabel('Generos')
plt.show()

### 5. Gráfico con la cantidad promedio de episodios por genero.

In [None]:
genres = filt_df.dropna(subset=['genre', 'episodes'])

# Aplicamos la función que filtra los dos generos más comunes
df_genres = limit_genres(genres)

# Agrupamos por género y calculamos la media de los episodios
average_episodes_per_genre = df_genres.groupby('genre')['episodes'].mean()

# Ordenamos los resultados
average_episodes_per_genre = average_episodes_per_genre.sort_values(ascending=False)

# Graficamos
average_episodes_per_genre.head(10).plot(kind='barh')
plt.title('Cantidad promedio de episodios por género')
plt.xlabel('Cantidad promedio de episodios')
plt.ylabel('Géneros')
plt.show()

### 6. Gráfico de Popularidad vs. Ranking

In [None]:
import numpy as np
import seaborn as sns

# Graficamos
plt.figure(figsize=(10, 6))
plt.scatter(filt_df['popularity'], filt_df['rank'], alpha=0.5)
plt.title('Popularidad vs Ranking')
sns.regplot(x='popularity', y='rank', data=filt_df, scatter=False, color='red')
plt.xlabel('Popularidad')
plt.ylabel('Ranking')
plt.show()

### 6. Código fuente experimentación pregunta 1.

#### 6.1.


In [None]:
import pandas as pd
from sklearn.tree import plot_tree
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt

#### 6.2.


In [None]:
# Crear una copia del DataFrame filtrado para evitar SettingWithCopyWarning
filt_df = filt_df.copy()

# Codificación de variables categóricas
le_genre = LabelEncoder()
le_studio = LabelEncoder()

filt_df.loc[:, 'genre_encoded'] = le_genre.fit_transform(filt_df['genre'])
filt_df.loc[:, 'studio_encoded'] = le_studio.fit_transform(filt_df['studio'])

# Normalización del número de episodios
scaler = StandardScaler()
filt_df.loc[:, 'normalized_episodes'] = scaler.fit_transform(filt_df[['episodes']])

# Variable objetivo
filt_df.loc[:, 'high_score'] = (filt_df['score'] > 8).astype(int)


#### 6.3.


In [None]:
# Selección de características
features = ['genre_encoded', 'studio_encoded', 'normalized_episodes']
X = filt_df[features]
y = filt_df['high_score']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


#### 6.4.


In [None]:
# Entrenamiento del modelo
dt = DecisionTreeClassifier()
dt.fit(X_train, y_train)

# Predicción en el conjunto de prueba
y_pred = dt.predict(X_test)
print("\nReporte de clasificación - Árbol de Decisión:")
print(classification_report(y_test, y_pred))

# Visualización del árbol de decisión
plt.figure(figsize=(20,10))
plot_tree(decision_tree=dt, feature_names=features, filled=True, class_names=['Low Score', 'High Score'], rounded=True)
plt.show()

# Evaluación del modelo usando validación cruzada
#scores = cross_val_score(dt, X, y, cv=5, scoring='accuracy')
#print(f'Precisión con validación cruzada: {scores.mean()}')

# Importancia de características
feature_importances = dt.feature_importances_
print("\nImportancia de las características - Árbol de Decisión:")
for feature, importance in zip(features, feature_importances):
    print(f'{feature}: {importance}')


#### 6.5.


In [None]:
# Entrenar el modelo de Random Forest
rf = RandomForestClassifier()
rf.fit(X_train, y_train)

# Predecir y mostrar el reporte de clasificación para Random Forest
y_pred_rf = rf.predict(X_test)
print("\nReporte de clasificación - Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Obtener la importancia de las características
importancia_rf = rf.feature_importances_

# Imprimir la importancia de las características
print("\nImportancia de las características - Random Forest:")
for feature, importance in zip(X.columns, importancia_rf):
    print(f'{feature}: {importance}')

#### 6.6.


In [None]:
# Entrenar el modelo de Gradient Boosting
gb = GradientBoostingClassifier()
gb.fit(X_train, y_train)

# Predecir y mostrar el reporte de clasificación para Gradient Boosting
y_pred_gb = gb.predict(X_test)
print("\nReporte de clasificación - Gradient Boosting:")
print(classification_report(y_test, y_pred_gb))

# Obtener la importancia de las características
importancia_gb = gb.feature_importances_

# Imprimir la importancia de las características
print("\nImportancia de las características - Gradient Boosting:")
for feature, importance in zip(X.columns, importancia_gb):
    print(f'{feature}: {importance}')

### 7. Código fuente experimentación pregunta 2.	

#### 7.1.


In [None]:
from sklearn import preprocessing
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
import pandas as pd
import matplotlib.pyplot as plt
import re
import numpy as np

%matplotlib inline

anime_data = pd.read_csv('AnimeList.csv')

df = anime_data.drop(columns=['airing', 'aired', 'background','opening_theme','ending_theme','image_url','broadcast','title_english','title_synonyms','licensor','premiered','producer'])

#### 7.2.


In [None]:
#Caracteristicas a ocupar
req_cols = ['type', 'episodes', 'duration', 'score', 'scored_by', 'rank', 'popularity', 'members',  'studio']

X = filt_df[req_cols].copy()
counts = X['studio'].value_counts()
#contamos solo los top 10 estudios y luego los imprimimos con head.
top_10_studios = counts.head(10)
X = X[X['studio'].isin(top_10_studios.index)]
#nos aseguramos de que estamos con los 10 estudios
print(X['studio'].unique())


# Convertir las variables categóricas en la columna type a variables numéricas.
le = preprocessing.LabelEncoder()
le.fit(X['type'])
print(X['type'].unique())
X['type'] = le.transform(X['type'])
#Printeamos los type
print(X['type'].unique())
#printeamos el tamanno de lo impreso anteriormente
print(len(X['type'].unique()))

#### 7.3.


In [None]:
def convert_to_minutes(duration_str):
    # Inicializamos las variables
    minutes = 0

    # Buscamos las horas y los minutos en el string
    hr_match = re.search(r'(\d+)\s*hr', duration_str)
    min_match = re.search(r'(\d+)\s*min', duration_str)

    # Si encontramos horas, las convertimos a minutos
    if hr_match:
        hours = int(hr_match.group(1))
        minutes += hours * 60

    # Si encontramos minutos, los agregamos a la variable minutes
    if min_match:
        mins = int(min_match.group(1))
        minutes += mins

    return minutes

#### 7.4.


In [None]:
# Aplicamos la función a la columna duration
X['duration'] = X['duration'].apply(convert_to_minutes)

#Codificación de la Variable Objetivo: Crear un vector y que contenga los valores de la columna studio y eliminar esta columna del DataFrame.
#Dropeamos los nan
X = X.dropna()
y = X['studio']
#Dropeamos los estudios con solo una frecuencia

X = X.drop(columns=['studio'])

#### 7.5.


In [None]:
# Genero los datos de Entrenamiento y Test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.2, random_state=37, stratify=y)

#### 7.6.


In [None]:
#Algoritmo de DecisionTreeClassifier.
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)  # Entrenamos con features X_train_resampled y clases y_train_resampled

y_pred = clf.predict(X_test)  # Predecimos con nuevos datos (los de test X_test)

print("Accuracy en test set:", accuracy_score(y_test, y_pred))  # Evaluamos la predicción comparando y_test con y_pred

print(classification_report(y_test, y_pred))

In [None]:
#Algoritmo de KNeighbors.
clf = KNeighborsClassifier()
clf.fit(X_train, y_train)  # Entrenamos con features X_train_resampled y clases y_train_resampled

y_pred = clf.predict(X_test)  # Predecimos con nuevos datos (los de test X_test)

print("Accuracy en test set:", accuracy_score(y_test, y_pred))  # Evaluamos la predicción comparando y_test con y_pred

print(classification_report(y_test, y_pred))

In [None]:
#Algoritmo de GaussianNB.
clf = GaussianNB()
clf.fit(X_train, y_train)  # Entrenamos con features X_train_resampled y clases y_train_resampled

y_pred = clf.predict(X_test)  # Predecimos con nuevos datos (los de test X_test)

print("Accuracy en test set:", accuracy_score(y_test, y_pred))  # Evaluamos la predicción comparando y_test con y_pred

print(classification_report(y_test, y_pred, zero_division=0))

In [None]:
#Algoritmo de SVC.
clf = SVC()
clf.fit(X_train, y_train)  # Entrenamos con features X_train_resampled y clases y_train_resampled

y_pred = clf.predict(X_test)  # Predecimos con nuevos datos (los de test X_test)

print("Accuracy en test set:", accuracy_score(y_test, y_pred))  # Evaluamos la predicción comparando y_test con y_pred

print(classification_report(y_test, y_pred, zero_division=0))

#### 7.7.


In [None]:
X = filt_df[req_cols].copy()
counts = X['studio'].value_counts()
#contamos solo los top 5 estudios y luego los imprimimos con head.
top_5_studios = counts.head(5)
#lo aplicamos
X = X[X['studio'].isin(top_5_studios.index)]
#nos aseguramos de que estamos con los 5 estudios
print(X['studio'].unique())


# Convertir las variables categóricas en la columna type a variables numéricas.
le = preprocessing.LabelEncoder()
le.fit(X['type'])
print(X['type'].unique())
X['type'] = le.transform(X['type'])
#Printeamos los type
print(X['type'].unique())
#printeamos el tamanno de lo impreso anteriormente
print(len(X['type'].unique()))

# Aplicamos la función a la columna duration
X['duration'] = X['duration'].apply(convert_to_minutes)

#Codificación de la Variable Objetivo: Crear un vector y que contenga los valores de la columna studio y eliminar esta columna del DataFrame.
#Dropeamos los nan
X = X.dropna()
y = X['studio']
#Dropeamos los estudios con solo una frecuencia

X = X.drop(columns=['studio'])

### 8. Código fuente experimentación pregunta 3.

#### 8.1.


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import silhouette_score
import numpy as np

# Cargar datos originales
anime_data = pd.read_csv('AnimeList.csv')

# Eliminar columnas no necesarias
df = anime_data.drop(columns=['airing', 'aired', 'background', 'duration', 'opening_theme', 'ending_theme', 'image_url', 'broadcast', 'title_english', 'title_synonyms', 'licensor', 'premiered', 'producer'])


#### 8.2.


In [None]:
# Función para extraer la fecha de inicio y determinar la temporada
def extract_start_date(aired_string):
    if pd.isna(aired_string) or 'Not available' in aired_string or '?' in aired_string:
        return np.nan
    start_date = aired_string.split(' to ')[0]
    try:
        return pd.to_datetime(start_date)
    except:
        return np.nan

# Extraer la fecha de inicio
filt_df.loc[:, 'start_date'] = filt_df['aired_string'].apply(extract_start_date)

# Extraer año, mes y temporada
filt_df.loc[:, 'year'] = filt_df['start_date'].dt.year
filt_df.loc[:, 'month'] = filt_df['start_date'].dt.month
filt_df.loc[:, 'season'] = filt_df['start_date'].dt.month % 12 // 3 + 1  # 1: Winter, 2: Spring, 3: Summer, 4: Fall


#### 8.3.


In [None]:
# Codificar las temporadas
label_encoder = LabelEncoder()
filt_df.loc[:, 'season_encoded'] = label_encoder.fit_transform(filt_df['season'])

# Filtrar animés con puntuaciones mayores a 8
high_quality_anime = filt_df[filt_df['score'] > 8]

#### 8.4.


In [None]:
# Clustering
# Seleccionar características relevantes
X = high_quality_anime[['score', 'season_encoded']].dropna()

# K-means clustering
kmeans = KMeans(n_clusters=4, random_state=42)
high_quality_anime.loc[:, 'kmeans_cluster'] = kmeans.fit_predict(X)

# Agglomerative Clustering
agg_clustering = AgglomerativeClustering(n_clusters=4)
high_quality_anime.loc[:, 'agg_cluster'] = agg_clustering.fit_predict(X)

# DBSCAN Clustering
dbscan = DBSCAN(eps=0.5, min_samples=5)  # Ajuste los parámetros de DBSCAN según sea necesario
high_quality_anime.loc[:, 'dbscan_cluster'] = dbscan.fit_predict(X)

# Evaluar los clusters usando el índice de silueta
kmeans_silhouette = silhouette_score(X, high_quality_anime['kmeans_cluster'])
agg_silhouette = silhouette_score(X, high_quality_anime['agg_cluster'])

# Verificar el número de clusters formados por DBSCAN
if len(set(high_quality_anime['dbscan_cluster'])) > 1:
    dbscan_silhouette = silhouette_score(X, high_quality_anime['dbscan_cluster'])
    print(f'DBSCAN Silhouette Score: {dbscan_silhouette}')
else:
    print('DBSCAN no encontró suficientes clusters para calcular el índice de silueta.')

print(f'K-means Silhouette Score: {kmeans_silhouette}')
print(f'Agglomerative Clustering Silhouette Score: {agg_silhouette}')


#### 8.5.


In [None]:
# Visualizar clusters por puntuación y temporada
plt.figure(figsize=(14, 7))
plt.scatter(X['score'], X['season_encoded'], c=high_quality_anime['kmeans_cluster'], cmap='viridis', label='K-means')
plt.title('Clusters de animés de Alta Calidad basados en Puntuación y Temporada (K-means)')
plt.xlabel('Puntuación')
plt.ylabel('Temporada (Codificada)')
plt.show()

plt.figure(figsize=(14, 7))
plt.scatter(X['score'], X['season_encoded'], c=high_quality_anime['agg_cluster'], cmap='viridis', label='Agglomerative')
plt.title('Clusters de animés de Alta Calidad basados en Puntuación y Temporada (Agglomerative Clustering)')
plt.xlabel('Puntuación')
plt.ylabel('Temporada (Codificada)')
plt.show()

plt.figure(figsize=(14, 7))
plt.scatter(X['score'], X['season_encoded'], c=high_quality_anime['dbscan_cluster'], cmap='viridis', label='DBSCAN')
plt.title('Clusters de animés de Alta Calidad basados en Puntuación y Temporada (DBSCAN)')
plt.xlabel('Puntuación')
plt.ylabel('Temporada (Codificada)')
plt.show()