# PROYECTO 1 EDA - EXPLORACIÓN

In [2]:
import sys
import os

sys.path.append(os.path.abspath(".."))

import pandas as pd
import numpy as np
import src.clean as cl

### Cargamos el dataset

In [5]:
df_anime = pd.read_csv('../data/anime-dataset-2023.csv')



### 1.1 Exploración

##### Estructura del dataset: dimensiones, columnas, tipos de datos.

In [None]:
dimensiones = df_anime.shape
tipos_datos = df_anime.dtypes
print(dimensiones)
print(tipos_datos)

(24905, 24)
anime_id         int64
Name            object
English name    object
Other name      object
Score           object
Genres          object
Synopsis        object
Type            object
Episodes        object
Aired           object
Premiered       object
Status          object
Producers       object
Licensors       object
Studios         object
Source          object
Duration        object
Rating          object
Rank            object
Popularity       int64
Favorites        int64
Scored By       object
Members          int64
Image URL       object
dtype: object


El dataset inicialmente contiene un total de 24905 filas y 24 columnas. Además, podemos observar como los tipos de las columnas son **object** y **int64**.

##### ¿Qué tipos de datos tengo? (numéricos, categóricos, fechas, texto libre...)

In [None]:
df_anime.sample(2)

Unnamed: 0,anime_id,Name,English name,Other name,Score,Genres,Synopsis,Type,Episodes,Aired,...,Studios,Source,Duration,Rating,Rank,Popularity,Favorites,Scored By,Members,Image URL
4679,6680,Doujouji,Dojoji Temple,道成寺,6.0,"Award Winning, Supernatural","Based on an ancient legend, Dojoji Temple tell...",Movie,1.0,1976,...,UNKNOWN,Other,18 min,PG-13 - Teens 13 or older,8823.0,10849,3,809.0,1896,https://cdn.myanimelist.net/images/anime/1914/...
2641,2895,Kujiratori,The Whale Hunt,くじらとり,6.07,"Adventure, Award Winning",A group of elementary school children play in ...,Movie,1.0,"Oct 1, 2001",...,Studio Ghibli,Picture book,16 min,G - All Ages,8494.0,8779,1,456.0,3818,https://cdn.myanimelist.net/images/anime/10/40...


In [None]:
df_anime.columns

Index(['anime_id', 'Name', 'English name', 'Other name', 'Score', 'Genres',
       'Synopsis', 'Type', 'Episodes', 'Aired', 'Premiered', 'Status',
       'Producers', 'Licensors', 'Studios', 'Source', 'Duration', 'Rating',
       'Rank', 'Popularity', 'Favorites', 'Scored By', 'Members', 'Image URL'],
      dtype='object')

Obvervando el tipo de datos de cada columna así como un ejemplo nos damos de los tipos de datos. Entre los tipos numéricos tendríamos valores enteros como los de *anime_id*, *Episodes*, *Rank*, *Popularity*, *Favorites*, *Scored By* y *Members*, mientras que valores como *Score* son decimales. Tenemos otras varias columnas que son texto libre como las columnas de *Name*, *English name*, *Other name*, *Synopsis*, *Duration* (por el tipo de formato) y *Image URL*. Como tipo fechas tendríamos la columna de *Aired* y ya para terminar, podemos encontrarnos variables categóricas en *Genres*, *Type*, *Premiered*, *Source*, *Status*, *Producers*, *Licensors* y *Studios*.

##### ¿Cuál es el dominio del dataset? ¿Conozco el contexto de las variables?

El dominio del dataset es el de las series de animación japonesa (animes). El fichero contiene la informacion recopilada de la plataforma MyAnimeList ([text](https://myanimelist.net/)) incluyendo datos como el titulo, emisión o valoración de los usuarios. A continuación, detallaremos cada una de las columnas:

- `anime_id`: identificador numérico único de cada anime en la base de datos.  
- `Name`: título principal del anime tal y como aparece en la web origen.  
- `English name`: título oficial en inglés (si existe).  
- `Other name`: otros títulos, principalmente en japonés.  
- `Score`: puntuación media que los usuarios han dado al anime.  
- `Genres`: lista de géneros asociados al anime.  
- `Synopsis`: resumen o descripción breve de la historia.  
- `Type`: tipo de obra (TV, Movie, OVA, ONA, Special, Music.).  
- `Episodes`: número de episodios del anime.  
- `Aired`: periodo de emisión, con fecha de inicio y fin en texto.  
- `Premiered`: temporada y año de estreno (por ejemplo, “Spring 2016”).  
- `Status`: estado de emisión (Finished Airing, Currently Airing, Not yet aired).  
- `Producers`: productoras implicadas en el proyecto.  
- `Licensors`: empresas que poseen la licencia de distribución en distintos territorios.  
- `Studios`: estudio de animación responsable de la producción.  
- `Source`: obra fuente de la que procede la historia (Manga, Light Novel, Original, Game, etc.).  
- `Duration`: duración media de cada episodio (por ejemplo, “24 min per ep”).  
- `Rating`: clasificación por edades / contenido (PG-13, R, etc.).  
- `Rank`: posición del anime en la plataforma segun **Score**.  
- `Popularity`: posición del anime al ordenar por popularidad (1 = más seguido / con más miembros).  
- `Favorites`: número de usuarios que han marcado el anime como favorito.  
- `Scored By`: número de usuarios que han puntuado el anime.  
- `Members`: número de usuarios que tienen el anime en alguna lista.  
- `Image URL`: enlace a la imagen o portada asociada al anime.  


##### ¿La fuente de datos es fiable y completa?

La plataforma **MyAnimeList** es una de las más reconocidas a la hora de puntuar, valorar y comentar animes por parte de los usuarios. Sin embargo, no deja de ser un foro y por tanto no es ninguna fuente oficial pudiendo contener errores. El dataset contiene un gran número de filas pero posiblemente falten más animes, además que en muchas de las filas tenemos numerosos nulos y faltan datos por completar.

##### ¿Los datos están agregados o son individuales (nivel de granularidad)?

En este dataset, cada fila representa un anime individual, es decir, el nivel de granularidad es por anime (registro a nivel de título concreto). No se trata de datos ya agregados por estudio, año o género.

Algunas variables, como *Score* (media de puntuaciones), *Scored By* (número de usuarios que han puntuado), *Favorites* o *Members*, son agregaciones de información a partir de muchos usuarios, pero siempre referidas a un único anime por fila.


##### ¿Hay valores perdidos? ¿Cuál es su proporción?

In [None]:
#Primero convierto los nulos al formato NaN para poder tratarlos
nulos = ["UNKNOWN", "Not available", "Unknown"]
df = cl.conversor_nulos(df_anime, nulos)

In [None]:
# Total de valores nulos en todo el dataset
total_nulos = df.isna().sum().sum()

# Total de celdas posibles (filas x columnas)
total_celdas = df.shape[0] * df.shape[1]

# Porcentaje de nulos respecto al total de celdas
porc_nulos = (total_nulos / total_celdas) * 100

print("Total nulos:", total_nulos)
print("Total celdas:", total_celdas)
print(f"Porcentaje de nulos: {porc_nulos:.2f}%")


Total nulos: 112737
Total celdas: 597720
Porcentaje de nulos: 18.86%


El dataset contiene 112737 nulos lo que corresponde a un 18,86% del total de datos.

##### ¿Existen duplicados o registros anómalos?

Registros anómalos no existe y en cuanto a los duplicados, veremos en el notebook de la limpieza como si existen unos pocos duplicados en la columna *name* que eliminaremos los que más nulos tengan.

##### ¿Las variables tienen una distribución razonable? ¿Existen outliers?

##### ¿Los formatos (fechas, categorías) están normalizados?

No, vemos como la columna *Aired* por ejemplo no está normalizada teniendo varios estilos distintos de mostrar los datos. Lo mimos ocurre por ejemplo con la columna *Duration*.

##### ¿Existen incoherencias entre columnas?

No como tal, pero si encontramos valores nulos en la columna *Premiered* y en cambio si tenemos la fecha de inicio en la columna *Aired*. Si sabemos que un anime es de julio de 2020 entonces su columna *Premierd* sera *summer 2020*. Como ya haremos en el notebook de la limpieza, completaremos una gran cantidad de datos de la columna *Premiered*.