# 1️⃣ Definición de la problemática y registro del dataset

### **Problema**
La industria del anime está en constante crecimiento, y las plataformas de streaming necesitan comprender mejor **qué factores influyen en la popularidad y éxito de un anime**.  
Actualmente, muchas decisiones se toman de manera subjetiva, sin aprovechar el potencial de los datos para anticipar tendencias o preferencias de los usuarios.  

Por ello, se propone la creación de una empresa llamada **Anime Data Studio**, especializada en **analítica y consultoría para la industria del anime**.  
Su objetivo es ayudar a estudios de animación, plataformas de streaming y distribuidores a **basar sus decisiones en datos reales**, identificando patrones de éxito, géneros más vistos y factores que determinan la popularidad de un anime.

---

### **Dataset seleccionado**
📊 **Top Anime Dataset**  
Fuente: [Top Anime Dataset en Kaggle](https://www.kaggle.com/datasets/omikumarmakadia2121/top-anime)

Este conjunto de datos recopila información detallada sobre los animes más populares, incluyendo su título, tipo, número de episodios, calificación promedio, ranking, popularidad y cantidad de miembros registrados.  

---

### **Variables relevantes**
| Variable | Descripción | Utilidad en el análisis |
|-----------|-------------|-------------------------|
| `title` | Nombre del anime | Permite identificar y clasificar los registros. |
| `type` | Tipo de anime (TV, Movie, OVA, etc.) | Sirve para analizar qué formato es más exitoso. |
| `episodes` | Número de episodios | Permite evaluar si el número de capítulos influye en la aceptación. |
| `score` | Calificación promedio | Indicador directo de la percepción de calidad. |
| `ranked` | Posición en el ranking | Mide el desempeño comparativo frente a otros animes. |
| `popularity` | Nivel de popularidad | Refleja el interés general del público. |
| `members` | Cantidad de usuarios registrados | Indica el alcance y tamaño de la audiencia. |

---

### **Justificación**
El dataset fue elegido porque ofrece información rica y estructurada sobre el comportamiento y preferencias de los fanáticos del anime.  
Con este conjunto de datos, **Anime Data Studio** podrá aplicar modelos de analítica descriptiva y predictiva para descubrir **tendencias de éxito**, **patrones de consumo** y **factores que determinan la popularidad**, aportando valor estratégico a la industria del entretenimiento japonés.


# 🧩 MODELO ENTIDAD–RELACIÓN (ERD)

![](diagrama.png)

El modelo representa el dataset Top Anime con tres entidades principales:
ANIME, que almacena los datos principales de cada anime;
GENERO, que guarda los distintos géneros disponibles;
y ANIME_GENERO, una tabla intermedia que permite la relación muchos-a-muchos entre animes y géneros.
Así, un anime puede pertenecer a varios géneros y un género puede incluir varios animes.

In [0]:
!pip install "kagglehub[pandas-datasets]>=0.3.8"

[43mNote: you may need to restart the kernel using %restart_python or dbutils.library.restartPython() to use updated packages.[0m


In [0]:
import kagglehub
import pandas as pd
import os
import zipfile

In [0]:
def download_dataset_zip(url = ""):
        print("Descargando dataset desde Kaggle...")
        dataset_path = kagglehub.dataset_download(url)
        print("Ruta al dataset:", dataset_path)
        return dataset_path
    
def extract_zip_files(dataset_path):
        zip_files = [f for f in os.listdir(dataset_path) if f.endswith('.zip')]
        if zip_files:
            zip_file = os.path.join(dataset_path, zip_files[0])
            extract_dir = os.path.join(dataset_path, "extracted")
            os.makedirs(extract_dir, exist_ok=True)
            print(f"Extrayendo {zip_file} en {extract_dir}...")
            with zipfile.ZipFile(zip_file, "r") as z:
                z.extractall(extract_dir)
            return extract_dir
        else:
            # Si no se encuentra un ZIP, se verifica si existen archivos CSV en la ruta
            csv_files = [f for f in os.listdir(dataset_path) if f.endswith('.csv')]
            if csv_files:
                print("No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.")
                return dataset_path
            else:
                raise FileNotFoundError("No se encontró ningún archivo .zip ni archivos .csv en la ruta del dataset")

def create_csv(csv_dir):
        #os.makedirs('src/static/csv', exist_ok=True)
        csv_files = [f for f in os.listdir(csv_dir) if f.endswith('.csv')]
        if not csv_files:
            raise FileNotFoundError("No se encontraron archivos CSV en el directorio extraído")

        for file in csv_files:
            file_path = os.path.join(csv_dir, file)
            print(f"Leyendo {file_path}...")
            try:
                df = pd.read_csv(file_path, encoding="latin1")
            except Exception as e:
                print(f"Error al leer {file}: {e}")
                continue
            print(f"Creando/actualizando ")
        print("cvs creado correctamente en ")
        return df

In [0]:
df = pd.DataFrame()
dataset = download_dataset_zip("omikumarmakadia2121/top-anime") 
csv_dir =extract_zip_files(dataset)
df = create_csv(csv_dir)

Descargando dataset desde Kaggle...
Downloading from https://www.kaggle.com/api/v1/datasets/download/omikumarmakadia2121/top-anime?dataset_version_number=1...


  0%|          | 0.00/1.88k [00:00<?, ?B/s]100%|██████████| 1.88k/1.88k [00:00<00:00, 3.75MB/s]

Extracting files...
Ruta al dataset: /home/spark-b619ef39-4669-47b0-8568-2b/.cache/kagglehub/datasets/omikumarmakadia2121/top-anime/versions/1
No se encontró archivo ZIP pero se detectaron archivos CSV; se asume que el dataset ya se encuentra extraído.
Leyendo /home/spark-b619ef39-4669-47b0-8568-2b/.cache/kagglehub/datasets/omikumarmakadia2121/top-anime/versions/1/top_animes (1).csv...
Creando/actualizando 
cvs creado correctamente en 





In [0]:
df.head(2)

Unnamed: 0,Rank,Title,Score
0,1,Fullmetal Alchemist: BrotherhoodTV (64 eps)Apr...,9.1
1,2,"Steins;GateTV (24 eps)Apr 2011 - Sep 20112,473...",9.07


In [0]:
spark_df = spark.createDataFrame(df)

In [0]:

spark_df.createTempView("top_anime")
display(spark_df)
     

Rank,Title,Score
1,"Fullmetal Alchemist: BrotherhoodTV (64 eps)Apr 2009 - Jul 20103,218,472 membersManga StoreVolume 1â¬4.58Preview",9.1
2,"Steins;GateTV (24 eps)Apr 2011 - Sep 20112,473,707 members",9.07
3,"Bleach: Sennen Kessen-henTV (13 eps)Oct 2022 - Dec 2022474,138 members",9.06
4,"GintamaÂ°TV (51 eps)Apr 2015 - Mar 2016605,113 members",9.06
5,"Shingeki no Kyojin Season 3 Part 2TV (10 eps)Apr 2019 - Jul 20192,146,679 membersManga StoreVolume 1â¬10.99Preview",9.05
6,"Gintama'TV (51 eps)Apr 2011 - Mar 2012534,105 members",9.04
7,"Gintama: The FinalMovie (1 eps)Jan 2021 - Jan 2021137,208 members",9.04
8,"Hunter x Hunter (2011)TV (148 eps)Oct 2011 - Sep 20142,701,154 members",9.04
9,"Kaguya-sama wa Kokurasetai: Ultra RomanticTV (13 eps)Apr 2022 - Jun 2022851,445 members",9.04
10,"Gintama': EnchousenTV (13 eps)Oct 2012 - Mar 2013313,446 members",9.03


In [0]:
spark.sql("SELECT * FROM top_anime LIMIT 5").show()


+----+--------------------+-----+
|Rank|               Title|Score|
+----+--------------------+-----+
|   1|Fullmetal Alchemi...|  9.1|
|   2|Steins;GateTV (24...| 9.07|
|   3|Bleach: Sennen Ke...| 9.06|
|   4|GintamaÂ°TV (51 e...| 9.06|
|   5|Shingeki no Kyoji...| 9.05|
+----+--------------------+-----+



El resultado muestra una vista previa de los primeros cinco registros del dataset Top Anime.
Se observan animes con las puntuaciones más altas, como Fullmetal Alchemist: Brotherhood y Steins;Gate, que destacan por su excelente recepción entre los usuarios.
Esta muestra permite confirmar que los datos se cargaron correctamente y reflejan información coherente sobre los títulos, posiciones y puntuaciones del ranking.

In [0]:
%sql
select count(*) from top_anime

count(*)
50


El resultado muestra la cantidad total de registros en el dataset, es decir, cuántos animes contiene la base de datos. Este número refleja el tamaño del conjunto de datos analizado.

In [0]:
spark_df.write.mode("overwrite").saveAsTable("top_anime")

In [0]:
%sql
DESCRIBE TABLE top_anime;

col_name,data_type,comment
Rank,bigint,
Title,string,
Score,double,


El resultado muestra la estructura de la tabla top_anime, confirmando que se creó correctamente con tres columnas:

Rank (bigint): posición del anime en el ranking.

Title (string): nombre del anime.

Score (double): puntuación promedio de los usuarios.

In [0]:
spark.sql("""
SELECT *
FROM top_anime
WHERE Score >= 9.0
LIMIT 5
""").show()


+----+--------------------+-----+
|Rank|               Title|Score|
+----+--------------------+-----+
|   1|Fullmetal Alchemi...|  9.1|
|   2|Steins;GateTV (24...| 9.07|
|   3|Bleach: Sennen Ke...| 9.06|
|   4|GintamaÂ°TV (51 e...| 9.06|
|   5|Shingeki no Kyoji...| 9.05|
+----+--------------------+-----+



El resultado presenta los animes con las calificaciones más altas del dataset, es decir, aquellos con una puntuación igual o superior a 9.0.
Títulos como Fullmetal Alchemist: Brotherhood y Steins;Gate destacan por su reconocimiento y valoración positiva entre los usuarios.
Estos resultados evidencian cuáles son las producciones mejor recibidas por la audiencia, lo que puede servir como referencia para identificar los factores asociados al éxito en la industria del anime.