## hay varias variables en tu dataset que podrían ser interesantes para el análisis estadístico:

--imdb_rating: Tipo: Continua (calificaciones en decimales). Tabla de distribución de frecuencias: Crear clases (intervalos de calificaciones) y calcular frecuencias absolutas, relativas y acumuladas para analizar la distribución de las calificaciones.

--imdb_votes: Representa el número de votos en IMDb para cada episodio. Esta variable es discreta, ya que los votos solo pueden ser números enteros. Podrías analizar su distribución para ver si algunos episodios han recibido significativamente más votos que otros.

--us_viewers_in_millions: Muestra el número de espectadores en millones en EE. UU. También es una variable continua y podría ser interesante para entender cómo ha variado la audiencia a lo largo de los episodios. Podrías calcular medidas de tendencia central, dispersión, e intervalos de confianza para esta variable.

--season: Indica la temporada a la que pertenece cada episodio. Esta variable es categórica pero se puede tratar como discreta si quieres analizar la cantidad de episodios por temporada o la variación de la audiencia o la calificación media por temporada.

--views: Aunque no está claro de inmediato qué representa esta columna, si es la cantidad de veces que un episodio ha sido visto en otra plataforma, también podría usarse para explorar la popularidad relativa de los episodios.

In [1]:
import pandas as pd
import numpy as np

In [6]:
import pandas as pd


In [None]:

# Carga el archivo CSV en un dataframe de Pandas
df = pd.read_csv('data\simpsons_episodes.csv')
# Imprime el dataframe
print(df)

In [None]:
#TABLA DE DISTRIBUCIÓN DE FRECUENCIAS
#imb_rating es una variable continua
ratings = df['imdb_rating'].dropna()#borra las filas con valores nulos


# Define el número de clases usando la fórmula de Sturges
num_classes = int(1 + 3.322 * np.log10(len(ratings)))

# Crea el histograma para obtener las frecuencias
freq_abs, bins = np.histogram(ratings, bins=num_classes)
freq_rel = freq_abs / len(ratings)  # Frecuencia relativa
freq_cum = np.cumsum(freq_abs)       # Frecuencia acumulada


# Tabla de frecuencias
freq_table = pd.DataFrame({
    'Clase': [f"{round(bins[i], 2)} - {round(bins[i+1], 2)}" for i in range(len(bins)-1)],
    'Frecuencia Absoluta': freq_abs,
    'Frecuencia Relativa': freq_rel,
    'Frecuencia Acumulada': freq_cum
})

print(freq_table)

In [None]:
votes = df['imdb_votes'].dropna()


# Define el número de clases usando la fórmula de Sturges
num_classes = int(1 + 3.322 * np.log10(len(votes)))

# Crea el histograma para obtener las frecuencias
freq_abs, bins = np.histogram(votes, bins=num_classes)
freq_rel = freq_abs / len(votes)  # Frecuencia relativa
freq_cum = np.cumsum(freq_abs)     # Frecuencia acumulada

# Tabla de frecuencias
freq_table_votes = pd.DataFrame({
    'Clase': [f"{int(bins[i])} - {int(bins[i+1])}" for i in range(len(bins)-1)],
    'Frecuencia Absoluta': freq_abs,
    'Frecuencia Relativa': freq_rel,
    'Frecuencia Acumulada': freq_cum
})

print(freq_table_votes)

         Clase  Frecuencia Absoluta  Frecuencia Relativa  Frecuencia Acumulada
0    104 - 467                   72             0.120603                    72
1    467 - 830                  289             0.484087                   361
2   830 - 1193                  125             0.209380                   486
3  1193 - 1556                   77             0.128978                   563
4  1556 - 1919                   28             0.046901                   591
5  1919 - 2282                    4             0.006700                   595
6  2282 - 2645                    1             0.001675                   596
7  2645 - 3008                    0             0.000000                   596
8  3008 - 3371                    0             0.000000                   596
9  3371 - 3734                    1             0.001675                   597


In [None]:
viewers = df['us_viewers_in_millions'].dropna()

# Define el número de clases usando la fórmula de Sturges
num_classes = int(1 + 3.322 * np.log10(len(viewers)))

# Crea el histograma para obtener las frecuencias
freq_abs, bins = np.histogram(viewers, bins=num_classes)
freq_rel = freq_abs / len(viewers)  # Frecuencia relativa
freq_cum = np.cumsum(freq_abs)       # Frecuencia acumulada

# Tabla de frecuencias
freq_table_viewers = pd.DataFrame({
    'Clase': [f"{round(bins[i], 2)} - {round(bins[i+1], 2)}" for i in range(len(bins)-1)],
    'Frecuencia Absoluta': freq_abs,
    'Frecuencia Relativa': freq_rel,
    'Frecuencia Acumulada': freq_cum
})

print(freq_table_viewers)

           Clase  Frecuencia Absoluta  Frecuencia Relativa  \
0    2.32 - 5.45                   80             0.134680   
1    5.45 - 8.58                  143             0.240741   
2    8.58 - 11.7                  126             0.212121   
3   11.7 - 14.83                   81             0.136364   
4  14.83 - 17.96                   60             0.101010   
5  17.96 - 21.09                   40             0.067340   
6  21.09 - 24.22                   31             0.052189   
7  24.22 - 27.34                   21             0.035354   
8  27.34 - 30.47                    9             0.015152   
9   30.47 - 33.6                    3             0.005051   

   Frecuencia Acumulada  
0                    80  
1                   223  
2                   349  
3                   430  
4                   490  
5                   530  
6                   561  
7                   582  
8                   591  
9                   594  


In [None]:
seasons = df['season'].dropna()

# Frecuencia absoluta: Cuenta el número de episodios por temporada
freq_abs = seasons.value_counts().sort_index()

# Frecuencia relativa: Proporción de episodios en cada temporada
freq_rel = freq_abs / len(seasons)

# Frecuencia acumulada
freq_cum = freq_abs.cumsum()

# Tabla de frecuencias
freq_table_season = pd.DataFrame({
    'Temporada': freq_abs.index,
    'Frecuencia Absoluta': freq_abs.values,
    'Frecuencia Relativa': freq_rel.values,
    'Frecuencia Acumulada': freq_cum.values
})

print(freq_table_season)

    Temporada  Frecuencia Absoluta  Frecuencia Relativa  Frecuencia Acumulada
0           1                   13             0.021667                    13
1           2                   22             0.036667                    35
2           3                   24             0.040000                    59
3           4                   22             0.036667                    81
4           5                   22             0.036667                   103
5           6                   25             0.041667                   128
6           7                   25             0.041667                   153
7           8                   25             0.041667                   178
8           9                   25             0.041667                   203
9          10                   23             0.038333                   226
10         11                   22             0.036667                   248
11         12                   21             0.035000         

In [None]:
views = df['views'].dropna()

# Define el número de clases usando la fórmula de Sturges
num_classes = int(1 + 3.322 * np.log10(len(views)))

# Crea el histograma para obtener las frecuencias
freq_abs, bins = np.histogram(views, bins=num_classes)
freq_rel = freq_abs / len(views)  # Frecuencia relativa
freq_cum = np.cumsum(freq_abs)     # Frecuencia acumulada

# Tabla de frecuencias
freq_table_views = pd.DataFrame({
    'Clase': [f"{int(bins[i])} - {int(bins[i+1])}" for i in range(len(bins)-1)],
    'Frecuencia Absoluta': freq_abs,
    'Frecuencia Relativa': freq_rel,
    'Frecuencia Acumulada': freq_cum
})

print(freq_table_views)

             Clase  Frecuencia Absoluta  Frecuencia Relativa  \
0      144 - 17270                   25             0.041946   
1    17270 - 34396                   27             0.045302   
2    34396 - 51523                  336             0.563758   
3    51523 - 68649                  145             0.243289   
4    68649 - 85776                   52             0.087248   
5   85776 - 102902                    4             0.006711   
6  102902 - 120028                    5             0.008389   
7  120028 - 137155                    1             0.001678   
8  137155 - 154281                    0             0.000000   
9  154281 - 171408                    1             0.001678   

   Frecuencia Acumulada  
0                    25  
1                    52  
2                   388  
3                   533  
4                   585  
5                   589  
6                   594  
7                   595  
8                   595  
9                   596  
