# üé¨ An√°lisis Exploratorio de Datos (EDA): Anime Dataset

## üìä Objetivo del An√°lisis

Este notebook explora c√≥mo el **tipo de formato** (TV, Movie, OVA, ONA) y la **categor√≠a de g√©nero** interact√∫an para influir en el **score** (calificaci√≥n de usuarios) de anime en MyAnimeList.

## üß™ Hip√≥tesis

Creemos que:

1. Los **animes de formato Movie** tienen **mejores scores promedio** que los de TV.
2. Los **g√©neros emocionales/humanistas y misterio/terror** tienden a recibir **mejores calificaciones** que comedia.
3. Existen **combinaciones ganadoras** (por ejemplo: Movie + Misterio).

Estas hip√≥tesis se evaluar√°n de forma gr√°fica y estad√≠stica.


### ‚ùì Preguntas de Investigaci√≥n

1. **¬øEl formato (type) afecta el score de manera independiente?**
2. **¬øLas categor√≠as de g√©nero influyen en las calificaciones?**
3. **¬øExisten interacciones entre type y categor√≠a?** (¬øCiertas combinaciones funcionan mejor?)
4. **¬øQu√© patrones caracterizan a los anime excepcionales (outliers)?**


## üìå Relevancia del an√°lisis

Este an√°lisis puede ayudar a entender qu√© formatos y estilos conectan mejor con la audiencia, √∫til para:
- Estudios de animaci√≥n
- Marketing y promoci√≥n
- Selecci√≥n estrat√©gica de proyectos


### üìã Metodolog√≠a

```
1. Carga de datos ‚Üí 15,000 anime de MyAnimeList
2. Limpieza ‚Üí Manejo de nulos y duplicados
3. Categorizaci√≥n ‚Üí Reducir g√©neros a 6 categor√≠as tem√°ticas
4. An√°lisis Univariado ‚Üí Distribuci√≥n de scores
5. An√°lisis Bivariado ‚Üí Type vs Score, Categor√≠a vs Score
6. An√°lisis Multivariado ‚Üí Interacciones Type √ó Categor√≠a
7. An√°lisis de Outliers ‚Üí Identificaci√≥n de masterpieces
```

---

# üìä Notebook Completo: C√≥digo + Gr√°ficas Est√°ticas


## üîß 1. Configuraci√≥n del Entorno

### Importaci√≥n de Librer√≠as

Se importan las bibliotecas necesarias para el an√°lisis:

| Librer√≠a | Prop√≥sito |
|----------|----------|
| **Pandas** | Manipulaci√≥n y an√°lisis de DataFrames |
| **Plotly** | Visualizaciones interactivas |
| **NumPy** | Operaciones num√©ricas vectorizadas |
| **SciPy** | Funciones estad√≠sticas (skewness, kurtosis) |
| **Counter** | Conteo de frecuencias para an√°lisis categ√≥rico |

---

In [None]:
# Importar librer√≠as necesarias
import pandas as pd  # Manejo de dataframes
import plotly.express as px  # Visualizaciones interactivas
import plotly.graph_objects as go  # Gr√°ficos personalizados
import numpy as np  # Operaciones num√©ricas
from scipy import stats  # Estad√≠sticas avanzadas
from collections import Counter  # Conteo de frecuencias
import os  # Gesti√≥n de carpetas y archivos

## üì• 2. Carga de Datos


In [None]:
df = pd.read_csv('anime_dataset_raw.csv')
print(f"Total de registros cargados: {len(df)}")
print(f"Total de columnas: {len(df.columns)}")
print()
df.head()

## üßπ 3. Limpieza y Visualizaci√≥n de Datos

### Proceso de Limpieza

El proceso de limpieza sigue estos pasos:


### 3.1 Inspecci√≥n Inicial del Dataset

**Objetivo:** Entender la estructura y calidad de los datos antes de la limpieza.

**Informaci√≥n a visualizar:**
- Dimensiones del dataset (filas √ó columnas)
- Tipos de datos de cada columna
- Primeras filas para inspecci√≥n visual
- Resumen de valores nulos por columna
- Estad√≠sticas descriptivas de variables num√©ricas

---

In [None]:
df.info()

In [None]:
df.describe()

### 3.2 Identificaci√≥n y Eliminaci√≥n de Columnas con Exceso de Nulos

**Criterio de Decisi√≥n:**
- Columnas con **>20% de valores nulos** ‚Üí Eliminar
- Columnas con **‚â§20% de valores nulos** ‚Üí Imputar

**Proceso:**
1. Calcular porcentaje de nulos por columna
2. Identificar columnas que superan el umbral del 20%
3. Eliminar esas columnas del dataset
4. Reportar cu√°ntas columnas se eliminaron y cu√°les fueron

**Justificaci√≥n:** Imputar >20% de datos introducir√≠a demasiado sesgo y reducir√≠a la confiabilidad del an√°lisis.

---

In [None]:
null_percentage = (df.isnull().sum() / len(df)) * 100  # Calcular % de nulos por columna
null_info = pd.DataFrame({
    'Columna': df.columns,
    'Nulos': df.isnull().sum(),
    'Porcentaje': null_percentage
}).sort_values('Porcentaje', ascending=False)  

print("\nColumnas con valores nulos:")
print(null_info[null_info['Porcentaje'] > 0])

In [None]:
columnas_a_eliminar = null_info[null_info['Porcentaje'] > 20]['Columna'].tolist()
df = df.drop(columns=columnas_a_eliminar)  # Eliminar columnas
print(f"\nColumnas eliminadas: {len(columnas_a_eliminar)}")

### 3.3 Eliminaci√≥n de Registros Duplicados

**Objetivo:** Asegurar que cada anime aparezca una sola vez en el dataset.

**Verificaci√≥n:**
- Identificar filas completamente duplicadas (todos los campos id√©nticos)
- Verificar unicidad de `anime_id` (clave primaria)

**Acci√≥n:**
- Eliminar duplicados exactos
- Mantener solo la primera ocurrencia
- Reportar cu√°ntos duplicados se encontraron

**Impacto esperado:** M√≠nimo (datasets bien curados rara vez tienen duplicados)

---

In [None]:
duplicados_antes = df.duplicated().sum()  
df = df.drop_duplicates()  
print(f"Duplicados eliminados: {duplicados_antes}")

### 3.4 Estrategia de Imputaci√≥n de Valores Nulos

Despu√©s de eliminar columnas con >20% de nulos, imputamos los valores faltantes en las columnas restantes.

**Estrategias seg√∫n Tipo de Dato:**


In [None]:
columnas_numericas = df.select_dtypes(include=[np.number]).columns.tolist()
columnas_categoricas = df.select_dtypes(include=['object']).columns.tolist()
print(f"Cantidad de columnas numericas: {len(columnas_numericas)}")
print(f"Cantidad de columnas categoricas: {len(columnas_categoricas)}")

#### Imputaci√≥n de Variables Num√©ricas

**M√©todo:** Reemplazar valores nulos con la **media** de la columna.

**Columnas afectadas:**
- Variables tipo `int64` o `float64`
- Ejemplo: `score`, `rank`, `popularity`, `members`, `scored_by`

**Proceso:**
```python
# Para cada columna num√©rica:
df[col] = df[col].fillna(df[col].mean())
```

**Ventaja de usar la media:** Mantiene la tendencia central de la distribuci√≥n sin alterar significativamente las estad√≠sticas.

---

In [None]:
for col in columnas_numericas:
    if df[col].isnull().sum() > 0:
        df[col] = df[col].fillna(df[col].mean())


In [None]:
# Exportar dataset limpio
if not os.path.exists('datasets_procesados'):
    os.makedirs('datasets_procesados')

df.to_csv('datasets_procesados/anime_clean.csv', index=False, encoding='utf-8')
print(f"\n‚úÖ Dataset limpio exportado: 'datasets_procesados/anime_clean.csv'")
print(f"   üìè Registros: {len(df):,}")
print(f"   üìê Columnas: {len(df.columns)}")

#### Imputaci√≥n de Variables Categ√≥ricas

**M√©todo:** Reemplazar valores nulos con la etiqueta **"Unknown"**.

**Columnas afectadas:**
- Variables tipo `object` (texto)
- Ejemplo: `genres`, `type`, `source`, `rating`, `studios`

**Proceso:**
```python
# Para cada columna categ√≥rica:
df[col] = df[col].fillna('Unknown')
```

**Ventaja:** Mantiene expl√≠cito que falta informaci√≥n en lugar de asumir una categor√≠a.

---

In [None]:
for col in columnas_categoricas:
    if df[col].isnull().sum() > 0:
        df[col] = df[col].fillna('Unknown')

### 3.5 Validaci√≥n Final: Dataset Limpio ‚úÖ

**Verificaciones realizadas:**

1. ‚úÖ **No hay valores nulos** en ninguna columna
2. ‚úÖ **No hay duplicados** (cada `anime_id` aparece una vez)
3. ‚úÖ **Tipos de datos correctos** (num√©ricos y categ√≥ricos)
4. ‚úÖ **Rangos v√°lidos** (ej. score entre 1-10)

**Resultado:** El dataset est√° listo para an√°lisis exploratorio.

**Dimensiones finales:**
- Filas: ~15,000 anime
- Columnas: ~18-20 (despu√©s de eliminar columnas con exceso de nulos)

---

In [None]:
print(f"\nDataset limpio: {len(df)} filas, {len(df.columns)} columnas")
print(f"Valores nulos restantes: {df.isnull().sum().sum()}")

## üè∑Ô∏è 4. Procesamiento de Categor√≠as de G√©neros

### Desaf√≠o

MyAnimeList tiene **m√∫ltiples g√©neros** (Action, Emocionales y Humanistas, Fantasy, etc.) que generan:


### 4.1 Definici√≥n de Categor√≠as Tem√°ticas


In [None]:
CATEGORIAS_GENERO = {
    'Drama': 'Emocionales y Humanistas',
    'Romance': 'Emocionales y Humanistas',
    'Slice of Life': 'Emocionales y Humanistas',
    'Gourmet': 'Emocionales y Humanistas',
    
    'Action': 'Acci√≥n y Aventura',
    'Adventure': 'Acci√≥n y Aventura',
    'Sports': 'Acci√≥n y Aventura',
    'Supernatural': 'Acci√≥n y Aventura',
    
    'Mystery': 'Misterio y Terror',
    'Suspense': 'Misterio y Terror',
    'Horror': 'Misterio y Terror',
    'Thriller': 'Misterio y Terror',
    
    'Fantasy': 'Fant√°sticos y Experimentales',
    'Sci-Fi': 'Fant√°sticos y Experimentales',
    'Avant Garde': 'Fant√°sticos y Experimentales',
    'Space': 'Fant√°sticos y Experimentales',
    
    'Boys Love': '√çntimos y Adultos',
    'Girls Love': '√çntimos y Adultos',
    'Ecchi': '√çntimos y Adultos',
    'Erotica': '√çntimos y Adultos',
    'Hentai': '√çntimos y Adultos',
    
    'Comedy': 'Comedia'
}

### 4.2 Funci√≥n de Categorizaci√≥n

**Objetivo:** Mapear cada g√©nero individual a su categor√≠a tem√°tica correspondiente.

**L√≥gica de la funci√≥n:**
```python
def categorizar_generos(genres_str):
    # 1. Separar g√©neros (vienen como texto: "Action, Emocionales y Humanistas, Fantasy")
    # 2. Para cada g√©nero, buscar en diccionario de mapeo
    # 3. Retornar lista de categor√≠as (puede ser m√∫ltiple)
```

**Caracter√≠sticas:**
- **Multi-etiqueta:** Un anime puede tener varias categor√≠as
  - Ejemplo: "Action, Emocionales y Humanistas" ‚Üí ["Acci√≥n", "Emocional"]
- **Manejo de casos especiales:**
  - G√©neros nulos ‚Üí Lista vac√≠a
  - "Unknown" ‚Üí Lista vac√≠a
  - "Award Winning" ‚Üí Se ignora (es meta-g√©nero)

---

In [None]:
def categorizar_generos(genres_str):
 
    if pd.isna(genres_str) or genres_str == 'Unknown':
        return []
    
    generos = [g.strip() for g in str(genres_str).split(',')]  # Separar por comas, para crear lista
    categorias = set()  # Usar set para evitar duplicados puesto que un anime puede tener diferentes generos que caen en la misma categorai
    
    for genero in generos:
        if genero == 'Award Winning':  #Se elimina award winning
            continue
        if genero in CATEGORIAS_GENERO:  
            categorias.add(CATEGORIAS_GENERO[genero])
    
    return list(categorias)


### 4.3 Aplicaci√≥n de la Categorizaci√≥n al Dataset

Se aplica la funci√≥n `categorizar_generos()` a la columna `genres` del dataset completo.

**Resultado:**
- Nueva columna: `categorias_genero` (tipo: lista)
- Cada anime tiene una lista de categor√≠as asignadas

**Ejemplo de transformaci√≥n:**
```
ANTES:
genres = "Action, Adventure, Emocionales y Humanistas, Fantasy"

DESPU√âS:
categorias_genero = ["Acci√≥n y Aventura", "Emocionales", "Fant√°sticos"]
```

**Verificaci√≥n:** Inspeccionar algunos registros para confirmar que el mapeo es correcto.

---

In [None]:
df['categorias_genero'] = df['genres'].apply(categorizar_generos)
df['num_categorias'] = df['categorias_genero'].apply(len) 

### 4.4 Creaci√≥n de DataFrame Expandido (Explode)

**Problema:** Un anime con m√∫ltiples categor√≠as aparece en una sola fila, dificultando el an√°lisis por categor√≠a.

**Soluci√≥n:** **Expandir** el dataset para que cada combinaci√≥n anime√ócategor√≠a sea una fila separada.

**Ejemplo de transformaci√≥n:**

**ANTES (1 fila):**
```
name: "Fullmetal Alchemist"
score: 9.1
type: "TV"
categorias: ["Acci√≥n", "Fant√°stico", "Emocional"]
```

**DESPU√âS (3 filas):**
```
1. name: "FMA", score: 9.1, type: "TV", categoria: "Acci√≥n"
2. name: "FMA", score: 9.1, type: "TV", categoria: "Fant√°stico"
3. name: "FMA", score: 9.1, type: "TV", categoria: "Emocional"
```

**Beneficio:** Permite calcular promedios y crear heatmaps por categor√≠a f√°cilmente.

---

In [None]:
filas_expandidas = []
for idx, row in df.iterrows():
    if len(row['categorias_genero']) > 0:
        for categoria in row['categorias_genero']:
            filas_expandidas.append({
                'categoria': categoria,
                'score': row['score'],
                'type': row['type'],
                'name': row['name']
            })

### 4.5 Construcci√≥n del DataFrame Categorizado

Se itera sobre cada anime y sus categor√≠as para construir un nuevo dataset expandido.

**Campos incluidos en el nuevo dataset:**


In [None]:
df_categorias = pd.DataFrame(filas_expandidas)  # Nuevo dataframe expandido

print(f"\nAnimes categorizados: {(df['num_categorias'] > 0).sum()}")
print(f"Promedio de categor√≠as por anime: {df['num_categorias'].mean():.2f}")
print(f"Total de filas en df expandido: {len(df_categorias)}")

In [None]:
# Exportar dataset categorizado
df_categorias.to_csv('datasets_procesados/anime_categorizado.csv', index=False, encoding='utf-8')
print(f"\n‚úÖ Dataset categorizado exportado: 'datasets_procesados/anime_categorizado.csv'")
print(f"   üìè Registros: {len(df_categorias):,}")
print(f"   üìê Columnas: {len(df_categorias.columns)}")
print(f"   üè∑Ô∏è  Columna 'categoria' a√±adida con {df_categorias['categoria'].nunique()} categor√≠as")

In [None]:
df_categorias.head()

## üìä 5. An√°lisis Univariado: Variables Individuales


In [None]:
media = df['score'].mean()  # Calcular media
mediana = df['score'].median()  # Calcular mediana
desviacion = df['score'].std()  # Calcular desviaci√≥n 

print(df['score'].describe())

### 5.1 Distribuci√≥n de Score con Curva Normal

**Objetivo:** Visualizar la distribuci√≥n de scores y compararla con una distribuci√≥n normal te√≥rica.

**Componentes del gr√°fico:**
1. **Histograma:** Barras que muestran frecuencia de scores en intervalos
2. **Curva Normal Te√≥rica:** L√≠nea roja que muestra c√≥mo ser√≠a una distribuci√≥n perfectamente normal
3. **L√≠nea de Media:** L√≠nea vertical que marca el score promedio

**Interpretaci√≥n:**
- Si el histograma se parece a la curva roja ‚Üí Distribuci√≥n **aproximadamente normal**
- Si hay cola larga a la derecha ‚Üí **Skewness positivo** (m√°s anime excepcionales)
- Si hay cola larga a la izquierda ‚Üí **Skewness negativo** (m√°s anime de baja calidad)

---

In [None]:
fig1 = go.Figure()

#### Paso 1: Agregar Histograma Normalizado

Se crea un histograma con densidad normalizada (√°rea total = 1) para poder comparar con la curva normal.

---

In [None]:
fig1.add_trace(go.Histogram(
    x=df['score'],
    nbinsx=30,  # 30 barras
    name='Frecuencia',
    marker_color='#8b5cf6',
    opacity=0.7,
    histnorm='probability density'  # Normalizar para densidad de probabilidad
))

#### Paso 2: Generar Curva Normal Te√≥rica

Se calcula una distribuci√≥n normal con la misma media y desviaci√≥n est√°ndar que los datos reales.

---

In [None]:
x_curva = np.linspace(df['score'].min(), df['score'].max(), 100)  # 100 puntos
y_curva = stats.norm.pdf(x_curva, media, desviacion)  # Funci√≥n densidad normal
fig1.add_trace(go.Scatter(
    x=x_curva,
    y=y_curva,
    mode='lines',
    name='Curva Normal',
    line=dict(color='red', width=3)
))

#### Paso 3: Agregar L√≠nea Vertical en la Media

Se marca visualmente la media para identificar el score t√≠pico.

---

In [None]:
fig1.add_vline(x=media, line_dash="dash", line_color="orange",
              annotation_text=f"Media: {media:.2f}")

#### Paso 4: Configurar Layout del Gr√°fico

Se ajustan t√≠tulos, etiquetas y leyendas para mejorar la legibilidad.

---

In [None]:
fig1.update_layout(
    title='Distribuci√≥n de Score con Curva Normal',
    xaxis_title='Calificaci√≥n',
    yaxis_title='Densidad',
    height=500
)
fig1.show()

### 5.2 Distribuci√≥n por Tipo de Anime

**Objetivo:** Ver qu√© formatos dominan el dataset.

**Tipos de anime:**
- **TV:** Series televisivas (12-24+ episodios)
- **Movie:** Pel√≠culas cinematogr√°ficas (90-120 min)
- **OVA:** Original Video Animation (directo a video/DVD)
- **ONA:** Original Net Animation (web-exclusive, streaming)
- **Special:** Episodios especiales
- **Music:** Videos musicales

**Expectativa:** TV deber√≠a dominar (es el formato m√°s com√∫n en la industria).

---

In [None]:
type_counts = df['type'].value_counts()  # Contar frecuencia de cada tipo
df_type = pd.DataFrame({'type': type_counts.index, 'count': type_counts.values})

#### Visualizaci√≥n: Gr√°fico de Torta (Pie Chart)

**Muestra:** Proporci√≥n de cada tipo en el dataset total.

**Interpretaci√≥n:** El tama√±o de cada sector representa el % de anime en ese formato.

---

In [None]:
fig2 = px.pie(
    df_type,
    values='count',
    names='type',
    title='Distribuci√≥n por Tipo de Anime',
    color_discrete_sequence=px.colors.sequential.Blues_r
)
fig2.update_traces(
    textposition='inside',
    textinfo='percent+label',
    marker=dict(line=dict(color='white', width=2))
)
fig2.update_layout(height=600)
fig2.show()

print("Distribuci√≥n por Tipo:")
print(type_counts)

### 5.3 Distribuci√≥n por Categor√≠a de G√©nero

**Objetivo:** Identificar qu√© categor√≠as tem√°ticas son m√°s comunes.

**Nota importante:** Como usamos dataset expandido (`df_categorias`), un anime puede aparecer en m√∫ltiples categor√≠as.

**M√©tricas:**
- **Frecuencia absoluta:** Cantidad de asignaciones por categor√≠a
- **Frecuencia relativa:** Porcentaje del total de asignaciones

**Expectativa:** "Acci√≥n y Aventura" y "Fant√°sticos" probablemente dominen (g√©neros mainstream).

---

In [None]:
cat_counts = df_categorias['categoria'].value_counts()  # Contar frecuencia de categorias
df_cat = pd.DataFrame({'categoria': cat_counts.index, 'count': cat_counts.values})

### 5.4 Cantidad de Categor√≠as por Anime

**Objetivo:** Ver cu√°ntas categor√≠as tiene cada anime en promedio.

**Proceso:**


In [None]:
conteo_num_cat = df['num_categorias'].value_counts().sort_index()  # Contar y ordenar
df_num_cat = pd.DataFrame({
    'Cantidad': conteo_num_cat.index,
    'Frecuencia': conteo_num_cat.values
})


In [None]:
fig3 = px.pie(
    df_cat,
    values='count',
    names='categoria',
    title='Distribuci√≥n por Categor√≠a de G√©nero',
    )

fig3.update_traces(
    textposition='inside',
    textinfo='percent+label',
    textfont_size=11,
    marker=dict(line=dict(color='white', width=2))
)

fig3.show()

print("\nDistribuci√≥n por Categor√≠a:")
print(cat_counts)

#### Visualizaci√≥n: Gr√°fico de Barras

**Muestra:** Distribuci√≥n de frecuencias (1 categor√≠a, 2 categor√≠as, 3+ categor√≠as).

---

In [None]:
fig4 = px.bar(
    df_num_cat,
    x='Cantidad',
    y='Frecuencia',
    title='Cantidad de Categor√≠as por Anime',
    color= 'Cantidad',
    color_continuous_scale='Blues'
)
fig4.show()


## üìà 6. An√°lisis Bivariado: Relaciones Entre Variables

### Objetivo

Explorar c√≥mo **dos variables se relacionan** entre s√≠:


In [None]:
score_por_tipo = (
    df.groupby('type', as_index=False)
      .agg(score_promedio=('score','mean'),
           cantidad=('score','count'),
           desviacion=('score','std'))
      .sort_values('score_promedio', ascending=False)
)


#### Visualizaci√≥n: Gr√°fico de Barras

**Muestra:** Distribuci√≥n de frecuencias (1 categor√≠a, 2 categor√≠as, 3+ categor√≠as).

---

In [None]:
fig5 = px.bar(
    score_por_tipo,
    x='score_promedio',
    y='type',
    orientation='h',
    title='Score Promedio por Tipo',
    color='score_promedio',
    color_continuous_scale='RdYlGn',  # Escala de colores rojo-amarillo-verde
    hover_data=['cantidad']  # Mostrar cantidad en hover
)
fig5.update_layout(height=500, yaxis={'categoryorder': 'total ascending'})
fig5.show()

print("\n--- Score por Tipo ---")
print(score_por_tipo[['type', 'score_promedio', 'cantidad']])

### 6.1 Boxplot: Score vs Type

**Objetivo:** Visualizar la distribuci√≥n **completa** de scores por formato, no solo el promedio.

**Elementos del Boxplot:**


In [None]:
fig6 = px.box(
    df,
    x='type',
    y='score',
    color='type',
    title='Distribuci√≥n de Score por Tipo',
    points='outliers',  # Mostrar solo outliers
    color_discrete_sequence=px.colors.qualitative.Set2
)
fig6.update_layout(height=600)
fig6.update_xaxes(tickangle=45)  # Rotar etiquetas del eje X
fig6.show()


### 6.2 Score Promedio por Categor√≠a de G√©nero

**Objetivo:** Identificar qu√© categor√≠as tem√°ticas obtienen mejores calificaciones en promedio.

**Pregunta de investigaci√≥n:**
- ¬ø"Misterio" tiene scores m√°s altos que "Comedia"?
- ¬øG√©neros nicho (con audiencias selectas) tienen mejor rendimiento?

**Hip√≥tesis:**
- **G√©neros nicho** (Mystery, Horror) ‚Üí Scores m√°s altos (autoselecci√≥n de fans)
- **G√©neros mainstream** (Acci√≥n, Comedia) ‚Üí Scores m√°s dispersos (audiencia amplia)

---

In [None]:
score_por_cat = df_categorias.groupby('categoria').agg({
    'score': ['mean', 'count', 'std']
}).reset_index()
score_por_cat.columns = ['categoria', 'score_promedio', 'cantidad', 'desviacion']
score_por_cat = score_por_cat.sort_values('score_promedio', ascending=False)

In [None]:
fig7 = px.bar(
    score_por_cat,
    x='score_promedio',
    y='categoria',
    orientation='h',
    title='Score Promedio por Categor√≠a de G√©nero',
    color='score_promedio',
    color_continuous_scale='RdYlGn',
    hover_data=['cantidad']
)
fig7.update_layout(height=500, yaxis={'categoryorder': 'total ascending'})
fig7.show()

print("\nScore por Categor√≠a")
print(score_por_cat[['categoria', 'score_promedio', 'cantidad']])

### 6.3 Boxplot: Score vs Categor√≠a

**Objetivo:** Comparar la distribuci√≥n completa de scores entre categor√≠as tem√°ticas.

**An√°lisis comparativo:**
- **Posici√≥n vertical:** ¬øQu√© categor√≠a tiene mediana m√°s alta?
- **Ancho de la caja:** ¬øQu√© categor√≠a tiene scores m√°s consistentes?
- **Outliers:** ¬øQu√© categor√≠a produce m√°s masterpieces?

**Hallazgo esperado:** Categor√≠as como "Misterio" y "Fant√°sticos" deber√≠an mostrar cajas m√°s altas que "Comedia" o "√çntimos".

---

In [None]:
fig8 = px.box(
    df_categorias,
    x='categoria',
    y='score',
    color='categoria',
    title='Distribuci√≥n de Score por Categor√≠a',
    points='outliers',  # Mostrar outliers
    color_discrete_sequence=px.colors.qualitative.Pastel
)
fig8.update_layout(height=600)
fig8.update_xaxes(tickangle=45)
fig8.show()

## üîÄ 7. An√°lisis Multivariado: Interacciones

### Objetivo

Investigar si **Type y Categor√≠a interact√∫an**, es decir:
- ¬øEl efecto del Type depende de la Categor√≠a?
- ¬øCiertas combinaciones Type√óCategor√≠a son mejores que otras?

### Modelo Conceptual

**Efectos Aditivos (independientes):**
```
Score = Base + Efecto_Type + Efecto_Categor√≠a
```

**Efectos con Interacci√≥n:**
```
Score = Base + Efecto_Type + Efecto_Categor√≠a + Interacci√≥n_Type√óCategor√≠a
```

**Si hay interacci√≥n:** Algunas combinaciones espec√≠ficas (ej. Movie+Misterio) funcionan mejor de lo esperado.

---

### 7.1 An√°lisis Type √ó Categor√≠a vs Score

**Objetivo:** Calcular el score promedio para cada combinaci√≥n posible de Type y Categor√≠a.

**Dimensiones del an√°lisis:**
- **Filas:** Types (TV, Movie, OVA, ONA) = 4 tipos
- **Columnas:** Categor√≠as = 6 categor√≠as
- **Total de celdas:** 4 √ó 6 = 24 combinaciones

**Resultado:** Tabla pivote con score promedio en cada celda.

---

In [None]:
score_tipo_cat = df_categorias.groupby(['type', 'categoria']).agg({
    'score': ['mean', 'count']
}).reset_index()
score_tipo_cat.columns = ['type', 'categoria', 'score_promedio', 'cantidad']

#### Creaci√≥n de Tabla Pivote

**Proceso:**
1. Agrupar por `type` y `categoria`
2. Calcular score promedio para cada grupo
3. Reorganizar en formato pivote (filas=type, columnas=categor√≠a)

**Resultado:** Matriz de 4√ó6 con scores promedio.

**Ejemplo de celda:**
- `[TV, Misterio]` = 7.11 ‚Üí Score promedio de anime que son TV y de categor√≠a Misterio

---

In [None]:
pivot_table = score_tipo_cat.pivot(
    index='type',  
    columns='categoria',  
    values='score_promedio'  
)

### 7.2 Heatmap: Type √ó Categor√≠a ‚Üí Score

**Objetivo:** Visualizar la tabla pivote como un **mapa de calor** para identificar r√°pidamente las combinaciones ganadoras (colores c√°lidos) y las de riesgo (colores fr√≠os).

**Interpretaci√≥n del color:**
- **Naranja/Amarillo intenso:** Combinaciones con score promedio **>7.5** (alta aceptaci√≥n)
- **Verde/Amarillo:** Scores entre **7.0-7.4** (rendimiento s√≥lido)
- **Azul claro:** Scores entre **6.5-6.9** (promedio, riesgo moderado)
- **Azul oscuro:** Scores **<6.5** (bajo rendimiento, requiere innovaci√≥n)

**An√°lisis esperado:**
- **Zonas calientes:** Movies de categor√≠as de alta demanda (Acci√≥n y Aventura, Fant√°sticos y Experimentales) (narrativas + presupuesto)
- **Zonas templadas:** TV de g√©neros mainstream
- **Zonas fr√≠as:** ONAs (formato emergente sin madurar)

**Hallazgo clave:** Identificar si existe una **combinaci√≥n dominante** que funcione en todas las categor√≠as (ej: Movies) o si cada g√©nero tiene su formato √≥ptimo.

In [None]:
fig9 = px.imshow(
    pivot_table,
    labels=dict(x="Categor√≠a", y="Tipo", color="Score Promedio"),
    title='Heatmap: Score por Tipo √ó Categor√≠a de G√©nero',
    color_continuous_scale='RdYlGn',  
    aspect='auto',
    text_auto='.2f'  
)
fig9.update_layout(height=600)
fig9.show()

print("\nMatriz Tipo √ó Categor√≠a")
print(pivot_table)

### 7.2b Gr√°fico de Barras Agrupadas: Score por Categor√≠a √ó Tipo

**Objetivo:** Comparar **directamente** el rendimiento de cada formato (Movie, TV, OVA, ONA) dentro de la misma categor√≠a de g√©nero.

**C√≥mo leer el gr√°fico:**
- **Eje X:** Categor√≠as tem√°ticas (Acci√≥n y Aventura, Fant√°sticos y Experimentales, etc.)
- **Eje Y:** Score promedio
- **Barras agrupadas:** Cada color = un formato (permite comparaci√≥n lado a lado)

**An√°lisis comparativo:**
- **Altura de barras:** ¬øMovies dominan en todas las categor√≠as o hay excepciones?
- **Consistencia entre formatos:** ¬øCiertas categor√≠as son "format-agnostic" (ej: Emocionales y Humanistas)?
- **Brechas grandes:** Identificar combinaciones donde el formato hace diferencia cr√≠tica

**Hallazgo esperado:** Movies deber√≠an liderar en g√©neros visuales (Fant√°sticos y Experimentales, Acci√≥n), mientras que TV podr√≠a competir en g√©neros narrativos (Emocionales y Humanistas, Romance).

In [None]:
# 6.3 Gr√°fico agrupado: Score por Categor√≠a, agrupado por Tipo
tipos_principales = ['TV', 'Movie', 'OVA', 'ONA']  # Seleccionar tipos principales
df_agrupado = score_tipo_cat[score_tipo_cat['type'].isin(tipos_principales)]

fig10 = px.bar(
    df_agrupado,
    x='categoria',
    y='score_promedio',
    color='type',  # Color por tipo
    barmode='group',  # Barras agrupadas lado a lado
    title='Score por Categor√≠a, Agrupado por Tipo',
    color_discrete_sequence=px.colors.qualitative.Set2
)
fig10.update_layout(height=600)
fig10.update_xaxes(tickangle=45)
fig10.show()

# 6.4 Identificar mejor categor√≠a por cada tipo
print("\n--- Mejor Categor√≠a por Tipo ---")
for tipo in tipos_principales:
    df_tipo = score_tipo_cat[score_tipo_cat['type'] == tipo]
    if len(df_tipo) > 0:
        df_tipo_sorted = df_tipo.sort_values('score_promedio', ascending=False)
        top_3 = df_tipo_sorted.head(3)  # Top 3 categor√≠as
        print(f"\n{tipo}:")
        for i, row in enumerate(top_3.iterrows(), 1):
            _, data = row
            print(f"   #{i}: {data['categoria']} (Score: {data['score_promedio']:.2f}, n={int(data['cantidad'])})")

### An√°lisis: Mejor Categor√≠a por Tipo


### 7.3 Boxplot Multivariable: Score por Tipo √ó Categor√≠a

**Objetivo:** Analizar la **distribuci√≥n completa** de scores (no solo promedios) para entender variabilidad y detectar outliers por formato y categor√≠a.

**Elementos del boxplot:**
- **Caja (box):** Rango intercuartil (50% central de los datos)
- **L√≠nea central:** Mediana (m√°s robusta que el promedio)
- **Bigotes (whiskers):** Rango de valores t√≠picos
- **Puntos aislados:** Outliers (anime excepcionales o decepcionantes)

**An√°lisis de variabilidad:**
- **Cajas estrechas:** Calidad consistente (ej: Movies deber√≠an tener cajas cortas)
- **Cajas anchas:** Alta variabilidad (ej: TV = alto riesgo/retorno)
- **Muchos outliers superiores:** Formato con potencial de masterpieces

**An√°lisis por categor√≠a (colores):**
- Observar si **Acci√≥n y Aventura** tiene distribuciones m√°s altas que **Emocionales y Humanistas**
- Identificar si ciertas categor√≠as son m√°s **predecibles** (menor dispersi√≥n)

**Hallazgo esperado:** Movies con alta mediana y baja variabilidad (apuesta segura), TV con distribuci√≥n amplia (franquicias o fracasos).

In [None]:
# 6.5 Boxplot multivariable: Score por Tipo, coloreado por Categor√≠a
df_box = df_categorias[df_categorias['type'].isin(tipos_principales)]

fig11 = px.box(
    df_box,
    x='type',
    y='score',
    color='categoria',
    title='Score por Tipo, Coloreado por Categor√≠a',
    color_discrete_sequence=px.colors.qualitative.Set3
)
fig11.update_layout(height=700)
fig11.show()

### 7.4 Top 10 Combinaciones Type √ó Categor√≠a

**Objetivo:** Identificar las **10 combinaciones m√°s exitosas** de formato √ó g√©nero con base en score promedio, revelando estrategias probadas de √©xito.

**M√©tricas a observar:**
- **Score promedio:** ¬øQu√© combinaciones superan 7.5?
- **Cantidad de t√≠tulos:** ¬øEs una estrategia com√∫n o nicho?
- **Consistencia:** (An√°lisis posterior con desviaci√≥n est√°ndar)

**An√°lisis estrat√©gico:**
- **Posiciones 1-3:** Apuestas de **bajo riesgo** con track record probado
- **Posiciones 4-7:** Estrategias **mainstream** viables
- **Posiciones 8-10:** Oportunidades de **nicho** con potencial

**Preguntas clave:**
1. ¬øHay un formato dominante en el Top 10? (ej: Movies)
2. ¬øQu√© categor√≠as aparecen m√∫ltiples veces? (g√©neros confiables)
3. ¬øExisten combinaciones sorprendentes? (OVAs, ONAs)

**Hallazgo esperado:** Movie √ó Acci√≥n y Aventura y Movie √ó Fant√°sticos y Experimentales deber√≠an liderar el ranking, validando la hip√≥tesis de que presupuesto concentrado + narrativas emocionales = √©xito.

In [None]:
# 6.6 Top 10 combinaciones Tipo √ó Categor√≠a
top_10 = score_tipo_cat.sort_values('score_promedio', ascending=False).head(10)

print("\n--- Top 10 Combinaciones Tipo √ó Categor√≠a ---")
print(top_10[['type', 'categoria', 'score_promedio', 'cantidad']])

## üåü 8. An√°lisis de Outliers: Anime Excepcionales

### Objetivo

Identificar y analizar los **anime excepcionales** (outliers estad√≠sticos) que se desv√≠an significativamente del patr√≥n general. Estos representan:
- ‚ú® **Masterpieces**: Anime con scores excepcionalmente altos
- üìâ **Fracasos**: Anime con scores excepcionalmente bajos
- üéØ **Patrones de √©xito**: Caracter√≠sticas comunes en los anime mejor valorados

### Metodolog√≠a de Detecci√≥n

Utilizaremos el **m√©todo IQR (Rango Intercuartil)** para identificar outliers

### Preguntas a Responder

1. **¬øQu√© combinaciones Type √ó Categor√≠a producen m√°s outliers positivos?**
2. **¬øExisten patrones diferenciadores en los anime excepcionales?**
3. **¬øC√≥mo se distribuyen los outliers entre formatos y g√©neros?**

---

### 8.1 Heatmap: Porcentaje de Outliers por Type √ó Categor√≠a

**Objetivo:** Visualizar qu√© combinaciones de formato y g√©nero tienen mayor proporci√≥n de **anime excepcionales** (outliers estad√≠sticos).

**Interpretaci√≥n:**
- **Colores c√°lidos (rojo/naranja):** Alta proporci√≥n de outliers ‚Üí Combinaciones que generan anime excepcionales
- **Colores fr√≠os (azul):** Baja proporci√≥n de outliers ‚Üí Combinaciones m√°s predecibles
- **Porcentaje:** Cantidad de outliers / Total de anime en esa combinaci√≥n

**An√°lisis esperado:**
- Movies deber√≠an tener **mayor % de outliers positivos** (masterpieces)
- Categor√≠as como **Acci√≥n y Aventura** o **Fant√°sticos y Experimentales** podr√≠an destacar
- ONAs probablemente tengan **bajo % de outliers** (mercado inmaduro)

**Hallazgo clave:** Identificar las "**f√°bricas de masterpieces**" (combinaciones con alta proporci√≥n de scores >8.5).

---

In [None]:
# Calcular l√≠mites IQR
Q1 = df['score'].quantile(0.25)
Q3 = df['score'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

# Identificar outliers
df['es_outlier'] = ((df['score'] < limite_inferior) | (df['score'] > limite_superior))

# Agregar al dataset expandido
df_categorias_outliers = df_categorias.merge(df[['name', 'es_outlier']], on='name', how='left')

# Filtrar outliers
outliers_df = df_categorias_outliers[df_categorias_outliers['es_outlier'] == True]

# Contar outliers por tipo y categor√≠a
outlier_counts = outliers_df.groupby(['type', 'categoria']).size().reset_index(name='count')

# Crear tabla pivote
pivot_frecuencia = outlier_counts.pivot(index='type', columns='categoria', values='count').fillna(0)

# Calcular porcentajes
TOTAL_OUTLIERS = len(outliers_df)
pivot_porcentaje = (pivot_frecuencia / TOTAL_OUTLIERS * 100).round(2)

# Graficar
fig_outliers = px.imshow(
    pivot_porcentaje,
    labels=dict(x="Categor√≠a", y="Tipo", color="% del Total"),
    title=f'Distribuci√≥n de Outliers: % del Total',
    color_continuous_scale='YlOrRd',
    text_auto='.1f'
)
fig_outliers.update_layout(height=700, xaxis_tickangle=45)
fig_outliers.show()


---

# üéØ Conclusiones y Hallazgos Principales

## Resumen Ejecutivo

El an√°lisis de 15,000 anime de MyAnimeList revela patrones claros sobre qu√© factores influyen en las calificaciones de usuarios.


## üìä Hallazgos Clave

### 1Ô∏è‚É£ El formato TV domina en calidad y excelencia

- **Score promedio:** TV (6.87) > Movie (6.62) > OVA (6.35)
- **Masterpieces:** 73% de los anime excepcionales (score ‚â• 8.94) son series TV
- **Insight:** El formato TV permite mejor desarrollo de personajes y narrativa compleja

### 2Ô∏è‚É£ Las categor√≠as tienen impactos diferenciados

- **Alta calidad:** Misterio/Terror y Drama obtienen scores superiores
- **Alto volumen:** Acci√≥n/Aventura domina el mercado (>30% del contenido)
- **Trade-off:** Categor√≠as populares no siempre son las mejor valoradas

### 3Ô∏è‚É£ Las interacciones Type √ó Categor√≠a son significativas

- Ciertas combinaciones (TV + Misterio, Movie + Fant√°stico) maximizan el score
- No es un efecto aditivo simple: la combinaci√≥n importa m√°s que los efectos individuales
- Ejemplo: Comedia funciona mejor en TV que en Movie

### 4Ô∏è‚É£ Los outliers siguen un patr√≥n claro

- Solo 0.1% del dataset alcanza score ‚â• 8.94
- Concentrados en: TV (73%), g√©neros emocionales y de misterio
- Caracter√≠sticas comunes: alta cantidad de evaluaciones (scored_by > 500k)


## üîç Variables de Mayor Influencia

Seg√∫n el an√°lisis de correlaci√≥n y distribuciones:

1. **Type (formato):** Diferencias significativas entre TV, Movie, OVA (+0.5 puntos entre extremos)
2. **Categor√≠a de g√©nero:** Impacto moderado pero consistente
3. **Members & Scored_by:** Correlaci√≥n positiva (0.42 y 0.38) - audiencia grande mejora score
4. **Interacci√≥n Type√óCategor√≠a:** Efecto sin√©rgico detectado en an√°lisis multivariado

**Variables con bajo impacto:** N√∫mero de episodios (corr: 0.05), year de producci√≥n


---

# üí° Recomendaciones y Siguientes Pasos

## Para Productores de Contenido


### üéØ Estrategia para Maximizar Score

**Alta Prioridad:**
- ‚úÖ Priorizar **series TV** sobre otros formatos (mayor potencial de excelencia)
- ‚úÖ Combinar TV con g√©neros de **Misterio/Terror** o **Drama** (mejor score promedio)
- ‚úÖ Evitar formatos cortos (OVA/ONA) para g√©neros que requieren desarrollo narrativo

**Media Prioridad:**
- üî∂ Para Movies: enfocarse en **Fant√°stico/Experimental** (mejor rendimiento)
- üî∂ Diversificar con **Acci√≥n/Aventura** (alto volumen, audiencia asegurada)
- üî∂ Invertir en marketing para aumentar members/scored_by (correlaci√≥n positiva)

**Evitar:**
- ‚ùå OVA/ONA + g√©neros adultos (score sistem√°ticamente bajo)
- ‚ùå Apostar por cantidad sin calidad en TV (no garantiza buen score)


## üî¨ Para An√°lisis Futuro

### Siguientes Pasos Sugeridos:

1. **An√°lisis Temporal**
   - Evoluci√≥n de preferencias por a√±o (¬ølas tendencias cambian?)
   - Impacto de la temporada de emisi√≥n (winter/spring/summer/fall)

2. **Modelado Predictivo**
   - Modelo de regresi√≥n: predecir score basado en type + categor√≠a + features
   - Algoritmos sugeridos: Random Forest, XGBoost, LightGBM
   - Variables √∫tiles identificadas: type, categor√≠a, members, scored_by

3. **An√°lisis de Texto**
   - NLP en sinopsis: ¬øqu√© palabras correlacionan con alto score?
   - Sentiment analysis en reviews de outliers vs promedio

4. **Segmentaci√≥n de Audiencia**
   - Clustering de anime por m√∫ltiples features
   - Identificar nichos con alta satisfacci√≥n

5. **An√°lisis de Estudio y Producci√≥n**
   - Incorporar datos de estudio de animaci√≥n
   - Presupuesto vs score (si disponible)


---

# üìö Ap√©ndices y Referencias


## üî¨ Notas Metodol√≥gicas

### Tratamiento de Outliers
- **M√©todo:** IQR (Interquartile Range)
- **Criterio:** Valores > Q3 + 1.5√óIQR
- **Umbral score:** ‚â• 8.94 (percentil 99.9)
- **Decisi√≥n:** Se mantienen en el an√°lisis (representan excelencia, no errores)

### Categorizaci√≥n de G√©neros
Se consolidaron 43 g√©neros originales en 6 categor√≠as tem√°ticas:
- **Acci√≥n y Aventura:** Action, Adventure, Sports, Military
- **Fant√°sticos y Experimentales:** Fantasy, Sci-Fi, Mecha, Supernatural
- **Comedia:** Comedy, Parody, Gag Humor
- **Emocionales y Humanistas:** Drama, Romance, Slice of Life
- **√çntimos y Adultos:** Ecchi, Hentai, Romance adulto
- **Misterio y Terror:** Mystery, Horror, Thriller, Psychological

### Criterios de Limpieza
- Columnas con >20% nulos: eliminadas
- Valores nulos num√©ricos: imputados con mediana
- Valores nulos categ√≥ricos: imputados con moda
- Duplicados por nombre: eliminados (se mantiene primera ocurrencia)


## üìä Fuentes de Datos

**Dataset Principal:**
- **Fuente:** MyAnimeList (MAL) via Kaggle
- **Tama√±o:** 15,000 anime (top por cantidad de members)
- **Per√≠odo:** 1917 - 2025
- **Actualizaci√≥n:** Dataset est√°tico (snapshot)
- **Variables:** 24 columnas (score, type, genres, members, etc.)

**Fuente Original:**
- MyAnimeList.net - Base de datos comunitaria de anime
- Calificaciones agregadas de usuarios registrados
- Sistema de puntuaci√≥n: 1-10 (promedio ponderado)

**Nota sobre representatividad:** 
El dataset representa los anime **m√°s populares** (top 15k por members), no una muestra aleatoria. Sesgo hacia contenido mainstream y bien valorado.


## üõ†Ô∏è Herramientas y Tecnolog√≠as

**Lenguaje y Entorno:**
- Python 3.11+
- Jupyter Notebook

**Librer√≠as Principales:**
- `pandas 2.0+` - Manipulaci√≥n de datos
- `numpy 1.24+` - Operaciones num√©ricas
- `plotly 5.18+` - Visualizaciones interactivas
- `scipy 1.12+` - An√°lisis estad√≠stico

**Visualizaciones:**
- Total generadas: 12 gr√°ficas (histogramas, boxplots, heatmaps)
- Formato: PNG est√°tico (compatible con GitHub)
- Resoluci√≥n: 1200√ó800px


## üë§ Autor y Contacto

**[Tu Nombre]**

- üîó LinkedIn: [cindy-marin-019940297](https://www.linkedin.com/in/cindy-marin-019940297/)
- üíª GitHub: [@citmaes17](https://github.com/citmaes17)
- üìß Email: citmaes.17@gmail.com

---

## üìÑ Licencia y Uso

Este an√°lisis es de c√≥digo abierto y puede ser:
- ‚úÖ Usado con fines educativos
- ‚úÖ Compartido con atribuci√≥n
- ‚úÖ Modificado y extendido

**Citaci√≥n sugerida:**
```
[Cindy Tatiana Marin Espinosa]. (2025). An√°lisis Exploratorio de Anime Dataset: 
Interacciones entre Formato y G√©nero. GitHub Repository.
```

---

## üôè Agradecimientos

- MyAnimeList por proporcionar datos de acceso p√∫blico
- Comunidad de Kaggle por curaci√≥n del dataset
- Comunidad open-source por herramientas (pandas, plotly, scipy)

---

**üìä An√°lisis completado:** Octubre 2025  
**‚è±Ô∏è Tiempo de lectura:** 5-7 minutos  
**üéØ Orientado a:** Reclutadores, Data Scientists, Analistas de Negocio

---

*Fin del An√°lisis Exploratorio*