# An√°lisis Exploratorio de Datos (EDA)  üîé
## Los Simpson ‚Äì Episodios y Personajes üç©

El objetivo de este notebook es realizar un an√°lisis exploratorio de los datasets correspondientes a los episodios y personajes de *Los Simpson*.

Antes de proceder a la visualizaci√≥n en Tableau, se lleva a cabo una fase de revisi√≥n y preparaci√≥n de los datos con el fin de:

- Comprender la estructura y dimensiones de los datasets.
- Detectar posibles inconsistencias, valores nulos o duplicados.
- Validar tipos de datos.
- Generar variables derivadas que faciliten el an√°lisis posterior.

Este proceso permite garantizar la calidad del dato y construir una base s√≥lida para el desarrollo de dashboards anal√≠ticos en Tableau.

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

In [2]:
df_characters=pd.read_csv('simpsons_characters.csv')
df_episodes=pd.read_csv('simpsons_episodes.csv')

In [3]:
# Funci√≥n auxiliar para realizar un an√°lisis exploratorio inicial (EDA).
# Resume informaci√≥n clave del dataset: primeras filas, estructura, estad√≠sticos,
# cardinalidad, valores nulos y duplicados.
# Permite estandarizar el an√°lisis y aplicarlo de forma consistente a distintos datasets.

def eda(df, name="Dataset"):
    """
    Realiza un EDA r√°pido del dataframe.
    
    Parameters
    ----------
    df : pd.DataFrame
        DataFrame a analizar.
    name : str, default="Dataset"
        Nombre del dataset para identificar la salida.
        
    """
    print(f"üîç PRIMER VISTAZO A LOS DATOS ‚Äî {name}")
    display(df.head())
    display(df.tail())
             
    print("\nüß± ESTRUCTURA DEL DATAFRAME")
    print(f"üìê Dimensiones (filas, columnas): {df.shape}")
    
    print("\nüß† Informaci√≥n general:")
    df.info()

    # -------------------------
    print("\nüìâ ESTAD√çSTICAS DESCRIPTIVAS")
    print("\nüìà Variables num√©ricas:")
    display(df.describe().T)

    # Estad√≠stica para categ√≥ricas solo si existen
    cat_cols = df.select_dtypes(include=["object", "category"]).columns
    print("\nüî§ Variables categ√≥ricas:")
    if len(cat_cols) > 0:
        display(df[cat_cols].describe().T)
    else:
        print("No hay columnas categ√≥ricas (object/category) en este dataset.")

    # -------------------------
    # Cardinalidad (n√∫mero de valores √∫nicos por columna)
    # √ötil para detectar variables identificadoras, columnas constantes y posibles errores de tipado.
    # dropna=False cuenta NaN como un valor adicional para evaluar su impacto.
    print("\nüî¢ CARDINALIDAD")
    cardinalidad = df.nunique(dropna=False).sort_values(ascending=False)
    display(pd.DataFrame(cardinalidad, columns=["Valores √∫nicos"]))

    # -------------------------
    print("\nüö´ VALORES NULOS")
    nulos = df.isnull().sum()
    nulos_pct = (nulos / len(df) * 100).round(2)

    nulos_df = pd.DataFrame({
        "Nulos": nulos,
        "% Nulos": nulos_pct
    }).sort_values("% Nulos", ascending=False)

    display(nulos_df)

    # -------------------------
    print("\nüìé DUPLICADOS")
    dup_count = df.duplicated().sum()
    print(f"Duplicados: {dup_count}")
    if dup_count > 0:
        display(df[df.duplicated()])


In [4]:
eda(df_characters, "Simpsons Characters")
eda(df_episodes, "Simpsons Episodes")

üîç PRIMER VISTAZO A LOS DATOS ‚Äî Simpsons Characters


Unnamed: 0,id,name,normalized_name,gender
0,7,Children,children,
1,12,Mechanical Santa,mechanical santa,
2,13,Tattoo Man,tattoo man,
3,16,DOCTOR ZITSOFSKY,doctor zitsofsky,
4,20,Students,students,


Unnamed: 0,id,name,normalized_name,gender
6717,5222,Ron Rabinowitz,ron rabinowitz,m
6718,5728,Martha Stewart,martha stewart,f
6719,1770,Officer Goodman,officer goodman,m
6720,1634,Evan Conover,evan conover,m
6721,1868,Agent Johnson,agent johnson,m



üß± ESTRUCTURA DEL DATAFRAME
üìê Dimensiones (filas, columnas): (6722, 4)

üß† Informaci√≥n general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6722 entries, 0 to 6721
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               6722 non-null   int64 
 1   name             6722 non-null   object
 2   normalized_name  6722 non-null   object
 3   gender           323 non-null    object
dtypes: int64(1), object(3)
memory usage: 210.2+ KB

üìâ ESTAD√çSTICAS DESCRIPTIVAS

üìà Variables num√©ricas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,6722.0,3380.557572,1946.745178,1.0,1697.25,3380.5,5066.75,6749.0



üî§ Variables categ√≥ricas:


Unnamed: 0,count,unique,top,freq
name,6722,6722,Children,1
normalized_name,6722,6722,children,1
gender,323,2,m,252



üî¢ CARDINALIDAD


Unnamed: 0,Valores √∫nicos
id,6722
name,6722
normalized_name,6722
gender,3



üö´ VALORES NULOS


Unnamed: 0,Nulos,% Nulos
gender,6399,95.19
id,0,0.0
name,0,0.0
normalized_name,0,0.0



üìé DUPLICADOS
Duplicados: 0
üîç PRIMER VISTAZO A LOS DATOS ‚Äî Simpsons Episodes


Unnamed: 0,id,title,description,original_air_date,production_code,directed_by,written_by,season,number_in_season,number_in_series,us_viewers_in_millions,imdb_rating,tmdb_rating,tmdb_vote_count
0,0,Simpsons Roasting on an Open Fire,Homer is forced to become a department store S...,1989-12-17,7G08,David Silverman,Mimi Pond,1,1,1,26.7,8.1,6.921,101
1,1,Bart the Genius,Bart ends up at a school for gifted children a...,1990-01-14,7G02,David Silverman,Jon Vitti,1,2,2,24.5,7.7,7.4,62
2,2,Homer's Odyssey,"After losing his job, Homer contemplates endin...",1990-01-21,7G03,Wes Archer,Jay Kogen & Wallace Wolodarsky,1,3,3,27.5,7.3,6.5,58
3,3,There's No Disgrace Like Home,After being embarrassed by the rest of the fam...,1990-01-28,7G04,Gregg Vanzo & Kent Butterworth,Al Jean & Mike Reiss,1,4,4,20.2,7.7,7.2,52
4,4,Bart the General,After being beaten up by Nelson Muntz one too ...,1990-02-04,7G05,David Silverman,John Swartzwelder,1,5,5,27.1,7.9,6.9,53


Unnamed: 0,id,title,description,original_air_date,production_code,directed_by,written_by,season,number_in_season,number_in_series,us_viewers_in_millions,imdb_rating,tmdb_rating,tmdb_vote_count
742,742,Fan-ily Feud,Homer publicly disparages a pop singer and fac...,2023-04-23,OABF11,Timothy Bailey,Broti Gupta,34,18,746,1.0,5.2,4.5,2
743,743,Write Off This Episode,Marge is seduced by the money and prestige of ...,2023-04-30,OABF12,Matthew Nastuk,J. Stewart Burns,34,19,747,0.89,5.8,6.5,2
744,744,The Very Hungry Caterpillars,The Simpsons are forced to spend time with eac...,2023-05-07,OABF14,Gabriel DeFrancesco,Brian Kelley,34,20,748,0.82,6.7,6.0,2
745,745,Clown V. Board of Education,"Krusty opens a school for clowning, which beco...",2023-05-14,OABF15,Lance Kramer,Jeff Westbrook,34,21,749,0.77,6.3,6.0,2
746,746,Homer's Adventures Through the Windshield Glass,Time stands still for Homer when he flies thro...,2023-05-21,OABF13,Bob Anderson,Tim Long,34,22,750,0.87,5.9,0.0,1



üß± ESTRUCTURA DEL DATAFRAME
üìê Dimensiones (filas, columnas): (747, 14)

üß† Informaci√≥n general:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 747 entries, 0 to 746
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      747 non-null    int64  
 1   title                   747 non-null    object 
 2   description             747 non-null    object 
 3   original_air_date       747 non-null    object 
 4   production_code         747 non-null    object 
 5   directed_by             747 non-null    object 
 6   written_by              747 non-null    object 
 7   season                  747 non-null    int64  
 8   number_in_season        747 non-null    int64  
 9   number_in_series        747 non-null    int64  
 10  us_viewers_in_millions  746 non-null    float64
 11  imdb_rating             747 non-null    float64
 12  tmdb_rating             747 non-null    flo

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,747.0,373.0,215.784615,0.0,186.5,373.0,559.5,746.0
season,747.0,17.444444,9.734715,1.0,9.0,17.0,26.0,34.0
number_in_season,747.0,11.610442,6.497023,1.0,6.0,12.0,17.0,25.0
number_in_series,747.0,374.325301,216.27106,1.0,187.5,374.0,560.5,750.0
us_viewers_in_millions,746.0,10.384531,6.963214,0.77,4.755,9.015,14.8375,33.6
imdb_rating,747.0,7.15087,0.818934,4.0,6.6,7.0,7.7,9.3
tmdb_rating,747.0,6.379029,0.879565,0.0,5.8,6.3,7.0,8.6
tmdb_vote_count,747.0,18.07095,8.874704,1.0,14.0,17.0,23.0,101.0



üî§ Variables categ√≥ricas:


Unnamed: 0,count,unique,top,freq
title,747,747,Simpsons Roasting on an Open Fire,1
description,747,747,Homer is forced to become a department store S...,1
original_air_date,747,738,2003-05-18,2
production_code,747,747,7G08,1
directed_by,747,49,Mark Kirkland,83
written_by,747,166,John Swartzwelder,55



üî¢ CARDINALIDAD


Unnamed: 0,Valores √∫nicos
id,747
title,747
description,747
production_code,747
number_in_series,747
original_air_date,738
us_viewers_in_millions,542
written_by,166
directed_by,49
tmdb_rating,49



üö´ VALORES NULOS


Unnamed: 0,Nulos,% Nulos
us_viewers_in_millions,1,0.13
id,0,0.0
description,0,0.0
original_air_date,0,0.0
production_code,0,0.0
title,0,0.0
directed_by,0,0.0
written_by,0,0.0
number_in_season,0,0.0
season,0,0.0



üìé DUPLICADOS
Duplicados: 0


## Conclusiones del EDA y decisiones de preparaci√≥n

Tras la realizaci√≥n del an√°lisis exploratorio se observ√≥ lo siguiente:

- El dataset de episodios presenta una estructura consistente y pr√°cticamente sin valores nulos, detect√°ndose √∫nicamente un registro con audiencia faltante (0,13% del total).
- La variable de fecha (`original_air_date`) se encontraba en formato texto (object), por lo que es necesario convertirla a formato datetime para permitir un an√°lisis temporal adecuado.
- No se identificaron duplicados ni inconsistencias significativas en las variables de rating.
- En el dataset de personajes, la variable `gender` presenta un elevado porcentaje de valores nulos, lo que limita su utilidad anal√≠tica.

En base a estas observaciones, se realizaron las siguientes acciones antes de trasladar los datos a Tableau:

- Eliminaci√≥n del √∫nico registro con audiencia nula, debido a su impacto estad√≠stico irrelevante.
- Conversi√≥n de la fecha de emisi√≥n a formato datetime.
- Creaci√≥n de variables derivadas (`year`, `rating_diff` y `us_viewers_absolute` como audiencia convertida de millones a valor absoluto) para facilitar el an√°lisis posterior.
- Eliminaci√≥n de la variable `gender` del dataset de personajes por su baja calidad informativa.

Tras estas transformaciones, los datasets quedan limpios, estructurados y preparados para su explotaci√≥n anal√≠tica y visualizaci√≥n.

In [5]:
# Eliminaci√≥n de la columna 'gender' del dataset de personajes, ya que no es relevante para el an√°lisis y puede introducir sesgos.
df_characters.drop(columns=['gender'], inplace=True)

In [6]:
# Eliminaci√≥n del √∫nico registro nulo en la columna 'us_viewers_in_millions' del dataset de episodios.
df_episodes.dropna(subset=['us_viewers_in_millions'], inplace=True)

In [7]:
# Creaci√≥n de una nueva columna 'year' para extraer el a√±o de emisi√≥n de cada episodio a partir de la columna 'original_air_date'.
df_episodes["year"] = pd.to_datetime(df_episodes["original_air_date"]).dt.year

In [8]:
# Creaci√≥n de una nueva columna 'ratting_diff' para calcular la diferencia entre las calificaciones de IMDb y TMDb, lo que permitir√° analizar posibles discrepancias entre ambas fuentes.
df_episodes["rating_diff"] = (df_episodes["imdb_rating"] - df_episodes["tmdb_rating"]).round(2)

In [9]:
# Creaci√≥n de una nueva columna 'us_viewers_absolute' para convertir la cantidad de espectadores en millones a espectadores absolutos.
df_episodes["us_viewers_absolute"] = df_episodes["us_viewers_in_millions"] * 1_000_000

In [10]:
# Guardado de los datasets limpios y enriquecidos para su posterior an√°lisis en Tableau.
df_characters.to_csv('simpsons_characters_clean.csv', index=False)
df_episodes.to_csv('simpsons_episodes_clean.csv', index=False)