## Análisis Exploratorio de Datos (EDA)
### Estadísticos descriptivos de las variables cuantitativas

En esta sección se calculan las principales medidas de tendencia central y dispersión
para las variables cuantitativas del conjunto de datos de MyAnimeList, con el objetivo
de comprender su distribución, variabilidad y posibles valores atípicos.


In [8]:
import pandas as pd
import numpy as np

# ==============================
# Carga del conjunto de datos
# ==============================
df = pd.read_csv("data.csv", encoding="latin1")

print("Información general del DataFrame:\n")
df.info()

# =====================================
# Selección de variables cuantitativas
# =====================================
variables_cuantitativas = [
    'Episodes',
    'Duration_Minutes',
    'Score',
    'Scored_Users',
    'Ranked',
    'Popularity',
    'Members'
]

df_num = df[variables_cuantitativas]

# Forzar conversión a valores numéricos
df_num = df_num.apply(pd.to_numeric, errors='coerce')

print("\nCantidad de valores nulos por variable:\n")
print(df_num.isnull().sum())

# Eliminación de valores nulos para el análisis descriptivo
df_num_clean = df_num.dropna()

print(f"\nNúmero de observaciones después de limpiar nulos: {df_num_clean.shape[0]}")

# ==============================
# Medidas de tendencia central
# ==============================
media = df_num_clean.mean()
mediana = df_num_clean.median()

print("\nMedia de las variables:\n")
print(media)

print("\nMediana de las variables:\n")
print(mediana)

# ==============================
# Medidas de dispersión
# ==============================
desviacion_std = df_num_clean.std()
minimos = df_num_clean.min()
maximos = df_num_clean.max()

print("\nDesviación estándar:\n")
print(desviacion_std)

print("\nValores mínimos:\n")
print(minimos)

print("\nValores máximos:\n")
print(maximos)

# ==============================
# Cuartiles e IQR
# ==============================
Q1 = df_num_clean.quantile(0.25)
Q3 = df_num_clean.quantile(0.75)
IQR = Q3 - Q1

print("\nPrimer cuartil (Q1):\n")
print(Q1)

print("\nTercer cuartil (Q3):\n")
print(Q3)

print("\nRango intercuartílico (IQR):\n")
print(IQR)


Información general del DataFrame:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21460 entries, 0 to 21459
Data columns (total 28 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID                21460 non-null  int64  
 1   Title             21460 non-null  object 
 2   Synonyms          21460 non-null  object 
 3   Japanese          21460 non-null  object 
 4   English           21460 non-null  object 
 5   Synopsis          21460 non-null  object 
 6   Type              21460 non-null  object 
 7   Episodes          20913 non-null  float64
 8   Status            21460 non-null  object 
 9   Start_Aired       21460 non-null  object 
 10  End_Aired         21460 non-null  object 
 11  Premiered         21460 non-null  object 
 12  Broadcast         21460 non-null  object 
 13  Producers         21460 non-null  object 
 14  Licensors         21460 non-null  object 
 15  Studios           21460 non-null  object 
 16  Sour

Resultados

El análisis inicial evidencia la presencia de valores faltantes en varias variables cuantitativas, particularmente en Score y Scored_Users, con 6,898 observaciones ausentes en cada una. Esta situación es coherente con la naturaleza del dataset, ya que existen animes que aún no han sido suficientemente evaluados por los usuarios. Asimismo, se identifican valores nulos en Episodes y Duration_Minutes, lo cual es esperable en obras como películas, especiales u otros formatos con información incompleta.

Tras la eliminación de registros con valores faltantes en las variables seleccionadas, el tamaño de la muestra se redujo a 13,030 observaciones, lo cual sigue representando un volumen de datos suficiente para realizar análisis estadísticos y exploratorios robustos.

La puntuación promedio (Score) presenta una media de 6.46 y una mediana de 6.47, valores muy cercanos entre sí, lo que sugiere una distribución aproximadamente simétrica y un consenso moderado entre los usuarios respecto a la calidad de los animes evaluados.

En cuanto al número de episodios, la media (12.59) es considerablemente mayor que la mediana (2), lo que indica una distribución fuertemente sesgada a la derecha. Esto refleja la coexistencia de un gran número de obras cortas junto con un número reducido de series de larga duración que influyen significativamente en el promedio.

La duración por episodio muestra una media de 25.97 minutos y una mediana de 23 minutos, valores consistentes con el formato estándar de episodios de anime, especialmente en producciones televisivas.

Variables relacionadas con la popularidad y participación de usuarios, como Scored_Users y Members, presentan diferencias marcadas entre media y mediana, lo que evidencia que la mayoría de los animes tiene un número relativamente bajo de usuarios, mientras que unos pocos títulos concentran una cantidad desproporcionadamente alta de atención.

La desviación estándar confirma una alta variabilidad en variables como Episodes, Scored_Users y Members, lo que sugiere la presencia de valores extremos. Por ejemplo, el número de episodios alcanza un máximo de 3,057, mientras que el número de miembros supera los 3.5 millones, lo que evidencia una fuerte heterogeneidad en el conjunto de datos.

Por el contrario, la puntuación (Score) presenta una desviación estándar relativamente baja (0.92), indicando que, pese a la diversidad de obras, las valoraciones tienden a concentrarse en un rango estrecho.

El análisis de cuartiles refuerza la existencia de distribuciones asimétricas:

El 50 % de los animes tiene entre 1 y 12 episodios, con un rango intercuartílico de 11 episodios.
La duración por episodio se concentra principalmente entre 6 y 26 minutos, lo que confirma la estandarización del formato.
La puntuación se encuentra mayoritariamente entre 5.83 y 7.14, con un IQR de 1.31, reflejando una variabilidad moderada.
En términos de popularidad y membresía, el IQR amplio indica que la mayoría de los animes tiene niveles bajos a medios de interacción, mientras que un subconjunto reducido alcanza niveles excepcionalmente altos.