# Tablas de frecuencias

In [11]:
# Importamos pandas
import pandas as pd

## Objetivos:

Aplicar el análisis de frecuencias en distintas variables según su clasificación e interpretar los resultados.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Netflix es una de las plataformas de streaming más populares del mundo. En esta actividad, trabajarás con una base de datos real de títulos disponibles en Netflix. El objetivo es explorar algunas características del contenido y observar qué tan comunes son ciertos tipos de programas o películas.

Descarga la base de datos <a href="https://docs.google.com/spreadsheets/d/1E9w_qc7U09eaEcybEw08SOB5-JuIvSlM/export?format=xlsx">aquí</a> y responde las siguientes preguntas:

In [12]:
netflix = pd.read_excel("Base_Netflix.xlsx")
Categoría = netflix['Categoría']
##tabla=Categoría.value_counts()##Frecuencia absoluta
##tabla=Categoría.value_counts(normalize=True)*100##Frecuencia relativa

tabla=pd.DataFrame({}) ##Rescribe la frecuencia como un dataframe en blanco
tabla.index=Categoría.value_counts().index
tabla['fi']=Categoría.value_counts().values ##frecuencia absoluta
tabla['h1']=(Categoría.value_counts(normalize=True).values*100).round(2) ## frecuencia relativa ;el round del final es para redondear
tabla.sort_index(inplace=True) ##ordenar alfabeticamente

tabla

Unnamed: 0_level_0,fi,h1
Categoría,Unnamed: 1_level_1,Unnamed: 2_level_1
Acción y Aventura,856,12.06
Anime,173,2.44
Ciencia Ficción,14,0.2
Clásicos,100,1.41
Comedia,1266,17.84
Crimen,358,5.05
Documental,759,10.7
Docuseries,175,2.47
Dramas,1593,22.45
Horror,273,3.85


1. Defina la población y muestra.

2. ¿Qué clasificación tiene la variable *Tipo*?

3. ¿Qué tipo de contenido es más frecuente en la plataforma: *Película* o *TV show* (series)?

4. ¿Qué clasificación tiene la variable *Categoría*?

5. ¿Cuál es la categoría de contenido más común? ¿A qué crees que se debe esto?

6. Crea una tabla que contenga las frecuencias absolutas y relativas de la cantidad de títulos por categoría. Luego, interpreta la frecuencia relativa de las categorías *Documental* y *Comedia*, y responde ¿a qué razón atribuyes la diferencia entre los valores de las frecuencias?

7. Construya una tabla de frecuencias absolutas y relativas de los 10 países con mayor cantidad de títulos, ¿es uniforme la presencia en la plataforma de estos 10 países? ¿Por qué piensas que ocurre lo anterior?

## Actividad 2

La siguiente base de datos contiene información de estudiantes pertenecientes a un Instituto Profesional. Con el fin de tomar decisiones institucionales, como reforzar asignaturas o rediseñar horarios se registraron datos sobre su rendimiento académico, género, jornada y número de asignaturas reprobadas.

Para responder las siguientes preguntas, descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1Z2mrhxQnGgEfMqKrPyXBBPLnFPg52Woz
">aquí</a>**.

In [16]:
import pandas as pd
calificaciones=pd.read_csv("Calificaciones.csv")
calificaciones

reprobadas = calificaciones['Asignaturas reprobadas']

tabla=pd.DataFrame({
    'fi': reprobadas.value_counts().values, ##frecuencia absoluta
    'hi': reprobadas.value_counts(normalize=True)*100, ##frecuencia relativa
})
tabla.index=reprobadas.value_counts().index
tabla.sort_index(inplace=True)

tabla['Fi']=tabla['fi'].cumsum() ##acumulable de la frecuencia absoluta
tabla['Hi']=tabla['hi'].cumsum() ##acumulable de la frecuencia relativa
tabla

Unnamed: 0_level_0,fi,hi,Fi,Hi
Asignaturas reprobadas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,81,8.1,81,8.1
1,200,20.0,281,28.1
2,211,21.1,492,49.2
3,199,19.9,691,69.1
4,209,20.9,900,90.0
5 o más,100,10.0,1000,100.0


In [19]:
import pandas as pd
calificaciones=pd.read_csv("Calificaciones.csv")
calificaciones

tabla = reprobadas.value_counts()
tabla=pd.DataFrame(tabla)
tabla.sort_index(inplace=True)
tabla.rename(columns={'count':'fi'}, inplace=True)
tabla['hi']= tabla['fi']*100/tabla['fi'].sum()
tabla['Fi']=tabla['fi'].cumsum()
tabla['Hi']=tabla['hi'].cumsum()
tabla

Unnamed: 0_level_0,fi,hi,Fi,Hi
Asignaturas reprobadas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,81,8.1,81,8.1
1,200,20.0,281,28.1
2,211,21.1,492,49.2
3,199,19.9,691,69.1
4,209,20.9,900,90.0
5 o más,100,10.0,1000,100.0


1. Define la población y la muestra del estudio.

2. ¿Cuál es la clasificación de las variables presentes en el estudio?

3. ¿Cuál es el género más común entre los estudiantes? ¿Qué porcentaje representa?

4. ¿Qué jornada tiene mayor representación en la muestra? ¿Hay alguna diferencia relevante entre el porcentaje de estudiantes que pertenece a cada una?

5. Realiza una tabla de frecuencias para la variable Asignaturas reprobadas. La tabla debe mostrar las frecuencias puntuales y acumuladas, luego responde las siguientes preguntas:

  $\hspace{1cm}$ 5.1 ¿Cuál es la cantidad más común de asignaturas reprobadas?

$\hspace{1cm}$ 5.2. ¿Qué porcentaje de estudiantes ha reprobado 3 asignaturas o menos?

$\hspace{1cm}$ 5.3. Interpreta las siguientes frecuencias:

$\hspace{1cm}$ $F_{3}$:

$\hspace{1cm}$ $f_{1}$:

$\hspace{1cm}$ $H_{5}$:

$\hspace{1cm}$ $h_{2}$:

## Actividad 3

La base de datos utilizada en esta actividad corresponde al Informe Mundial de la Felicidad publicado por la ONU del año 2024. Contiene información de 140 países y evalúa el nivel de felicidad de sus habitantes en una escala continua (de 0 a 10), así como otros indicadores como el PIB per cápita, apoyo social, esperanza de vida saludable, percepción de corrupción y libertad para tomar decisiones de vida.

Para responder las siguientes preguntas, descarga la base de datos **<a href="https://drive.google.com/uc?export=download&id=1bKzL1MFdbfXMy9aYpGNt-SXlTrxEEL_9
">aquí</a>**.

*Log PIB per cápita, corresponde al logaritmo del Producto Interno Bruto per cápita. Esta transformación se usa para reducir la asimetría de la distribución del PIB per cápita y facilitar comparaciones cuando hay grandes diferencias entre países.*


1. Define la población y muestra del estudio.

2. ¿Cuál es la clasificación de la variable *Puntaje de felicidad*?

3. Crea una tabla de frecuencias puntuales y acumuladas utilizando la variable *Puntaje de felicidad*. Considera crear la tabla de frecuencias con 8 intervalos.

4. Interpreta las siguientes frecuencias:

$\hspace{1cm}$ $f_{3}$:

$\hspace{1cm}$ $F_{5}$:

$\hspace{1cm}$ $h_{4}$:

$\hspace{1cm}$ $H_{6}$:

5. ¿Qué puedes concluir sobre la concentración de países según su nivel de felicidad? Para responder considera las siguientes categorías de nivel de felicidad:

* Baja: (1,70; 3,23]
* Media: (3,23; 4,73]
* Media-alta: (4,73; 6,24]
* Alta: (6,24; 7,74]

6. ¿Cómo se distribuyen los países según su PIB per cápita? Construye una tabla de frecuencias considerando 8 intervalos.

7. Considera las siguientes categorías de nivel de PIB per cápita:
* Baja: (-0,0121; 0,54]
* Media: (0,54; 1,07]
* Media-alta: (1,07; 1,61]
* Alta: (1,61; 2,14]

Con base en la tabla de frecuencias del inciso anterior, ¿en qué categoría se concentra la mayoría de los países y qué conclusiones puedes extraer sobre su desarrollo económico?

8. En el siguiente gráfico se representa la relación entre el logaritmo del PIB per cápita y el puntaje de felicidad, donde cada punto corresponde a un país. ¿Qué ocurre con los países que tienen menor valor de logaritmo del PIB per capita? ¿Y con los que tienen un mayor valor? ¿Observas alguna tendencia?

<img src = "https://i.ibb.co/WNw0PtRf/Captura-de-pantalla-2025-07-22-102447.png" width = "800"/>

## Actividad 4

Para describir un conjunto de llamadas telefónicas se trabajará con una base de datos que contiene información del tiempo de duración y destino de 250  llamadas realizadas a algún país de América del Norte.

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1KtiWhqgBecg_sKsGur_OCog5a0sU69NQ/export?format=xlsx
">aquí</a>**.


1. Define la población y la muestra del estudio.

2. Muestra las tres primeras filas y tres últimas filas de DataFrame.

3. Clasifica las variables relevantes en el estudio.

4. Construye una tabla de distribución de frecuencias para la variable tiempo de duración de las llamadas considerando frecuencias puntuales y acumuladas. Para la construcción de la tabla considera 9 intervalos.

5. A partir de la pregunta anterior, interpreta las siguientes frecuencias:

$\hspace{1cm}$ $f_{6}$:

$\hspace{1cm}$ $h_{2}$:

$\hspace{1cm}$ $F_{4}$:

$\hspace{1cm}$ $H_{3}$:

## Actividad 5

A continuación, se presentan datos nacionales por comuna de la medición SIMCE de octavo básico rendida en el año 2015.

Descarga la base de datos <a href="https://docs.google.com/spreadsheets/d/1fIGstVw-dQfA5WMq9mvhx3wVOHCXbrpj/export?format=xlsx">aquí</a> y responde las siguientes preguntas:

1. Construye una tabla de distribución de frecuencias (absolutas y porcentuales incluyendo las acumuladas) que resuma los puntajes obtenidos en la prueba SIMCE de Matemática. Considera 9 intervalos para la construcción de la tabla.

$\hspace{1cm}$*Observaciones: Se debe escoger la variable prom_mate8b_com*

2. ¿Es correcto afirmar que los resultados de Matemática se concentran en los puntajes más bajos? Justifica tu respuesta.

3.  Diseñe una tabla de frecuencias relativas que resuma la información de la cantidad de comunas por región. Realice observaciones de los datos de la tabla y construya una hipótesis al respecto.