# Tablas

Juan Sosa

jcsosam@unal.edu.co

https://github.com/jstats1702

In [52]:
import numpy as np
import pandas as pd

# Introducción

La exploración de datos es una etapa fundamental en el análisis de datos, ya que permite resumir la información de las variables de manera clara y precisa. Este proceso se apoya en tablas y gráficos que destacan el comportamiento de las variables de forma comprensible. Una de las aplicaciones más importantes de esta etapa es la depuración de datos, que implica la identificación de anomalías en la estructura de los datos para su posterior corrección o eliminación. 

Entre las anomalías más frecuentes se encuentran los datos faltantes, pérdidas de formato, errores de digitación y valores improbables. Sin embargo, la exploración de datos trasciende la depuración, ya que también facilita la identificación de tendencias en los datos analizados y el estudio de interacciones entre las variables, proporcionando una base de datos sólida para el modelamiento.

# Distribución de frecuencias

Considere un conjunto de $n$ individuos asociados a una variable cuyos valores han sido agrupados en $k$ clases o categorías, denotadas con $C_1, C_2, \ldots, C_k$. Para cada una de estas $k$ clases se definen las siguientes magnitudes:

**Definición.** La **frecuencia absoluta** de la clase $C_i$, denotar con $n_i$, representa el número de observaciones que pertenecen a la $i$-ésima categoría, para $i = 1, \ldots, k$. $\square$

**Definición.** La **frecuencia relativa** de la clase $C_i$, denotar con $f_i$, es la proporción de la frecuencia absoluta de la $i$-ésima categoría con respecto al total de observaciones. Se calcula como $f_i = \frac{n_i}{n}$, para $i = 1, \ldots, k$. $\square$

Al multiplicar la fórmula de la frecuencia relativa $f_i$ por 100\%, se obtiene el porcentaje de individuos pertenecientes a la clase correspondiente.

**Definición.** La **frecuencia absoluta acumulada** de la clase $C_i$, denotar con $N_i$, representa la cantidad de individuos cuya modalidad es menor o igual a la $i$-ésima categoría. Se calcula como $N_i = \sum_{j=1}^{i} n_j$, para $i = 1, \ldots, k$. $\square$

**Definición.** La **frecuencia relativa acumulada** de la clase $C_i$, denotar con $F_i$, representa la proporción de individuos, respecto al total de observaciones, cuya modalidad es menor o igual a la $i$-ésima categoría. Se calcula como $F_i = \frac{N_i}{n}$, para $i = 1, \ldots, k$. $\square$

Las frecuencias acumuladas se calculan para variables en escalas de al menos nivel ordinal, ya que permiten establecer un orden entre las categorías. En variables nominales, las frecuencias acumuladas carecen de sentido interpretativo, pues no existe un orden lógico entre las clases.

La **distribución de frecuencias** es una tabla que muestra las categorías de una variable junto con sus frecuencias correspondientes. Este tipo de tabla organiza los datos de manera clara y estructurada, facilitando su interpretación y análisis. Su formato general se ilustra en la siguiente tabla.

| **$C_i$**   | **$n_i$**   | **$f_i$**   | **$N_i$**   | **$F_i$**   |
|:-----------:|:-----------:|:-----------:|:-----------:|:-----------:|
| $C_1$       | $n_1$       | $f_1$       | $N_1$       | $F_1$       |
| $C_2$       | $n_2$       | $f_2$       | $N_2$       | $F_2$       |
| $\vdots$    | $\vdots$    | $\vdots$    | $\vdots$    | $\vdots$    |
| $C_k$       | $n_k$       | $f_k$       | $n$         | 1           |
| **Total**   | **$n$**     | **1**       | **N.A.**    | **N.A.**    |

**Proposición.** En una distribución de frecuencias con una variable categórica de $k$ clases, se cumplen las siguientes propiedades fundamentales:

1. La suma de las frecuencias relativas es igual a 1: $ \sum_{i=1}^k f_i = 1 $.  
2. La frecuencia absoluta acumulada de la última clase es igual al total de observaciones: $ N_k = n $.  
3. La frecuencia relativa acumulada de una clase se obtiene como la suma de las frecuencias relativas hasta esa clase: $ F_i = \sum_{j=1}^{i} f_j $.  
4. La frecuencia relativa acumulada de la última clase es igual a 1: $ F_k = 1 $.  

La demostración se deja como ejercicio para el lector. $\square$

# Tablas para variables cualitativas

A continuación, se presentan algunos ejemplos para resumir los datos asociados con variables cualitativas. Al elaborar las tablas correspondientes, es esencial considerar la escala de medición de las variables para determinar la pertinencia de incluir las frecuencias acumuladas.

**Ejemplo.** Considere el siguiente conjunto de datos obtenido a partir de una encuesta de opinión sobre una medida económica (0 = En contra; 1 = A favor; 2 = No Sabe/No Responde). A partir de estos datos, elabore la tabla de frecuencias correspondiente.

In [2]:
# datos
x = np.array([1, 0, 0, 1, 1, 2, 1, 2, 1, 2, 0, 0, 0, 2, 0, 0, 0, 1, 1, 0, 
              1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 
              0, 0, 1, 0, 0, 0, 2, 1])


In [3]:
# tamaño de la muestra
n = len(x)
print(n)

48


In [4]:
# frecuencias absolutas
valores_unicos, n_i = np.unique(x, return_counts=True)
print(valores_unicos)
print(n_i)

[0 1 2]
[27 16  5]


In [5]:
# frecuencias relativas (%)
f_i = 100*n_i/n
print(f_i)

[56.25       33.33333333 10.41666667]


In [6]:
# número de clases
k = len(n_i)
print(k)

3


La variable "opinión" es una variable cualitativa nominal que puede tomar los valores "A favor", "En contra" y "NS/NR", por lo que el número de clases es $k = 3$. La siguiente tabla presenta la distribución de frecuencias solicitada. Dado que la escala de medición de la variable "opinión" es nominal, las frecuencias acumuladas no tienen sentido en este contexto.

| Opinión     | F. Absoluta | F. Relativa (%) |
|:-----------:|:-----------:|:---------------:|
| A favor     |     27      |      56.2       |
| En contra   |     16      |      33.3       |
| NS/NR       |      5      |      10.4       |
| **Total**   |   **48**    |    **100.0**    |

$\square$

**Ejemplo.** Considere el siguiente conjunto de datos relacionado con el nivel educativo de algunos empleados de una empresa (0 = Bachillerato, 1 = Pregrado, 2 = Maestría, 3 = Doctorado). A partir de estos datos, elabore la tabla de frecuencias correspondiente.

In [7]:
# datos
x = np.array([0, 3, 2, 0, 0, 1, 0, 2, 0, 0, 0, 1, 0, 2, 0, 0, 2, 0, 2, 0, 0, 0, 0, 0, 
              0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 0, 2, 0, 0, 0, 3, 0, 2, 0, 1, 0, 0, 0, 
              1, 1, 3, 1, 0, 0, 1, 1, 2, 2, 0, 0, 1, 0, 2, 1, 0, 0, 0, 1, 1, 3, 2, 1])

In [8]:
# tamaño de la muestra
n = len(x)
print(n)

72


In [9]:
# frecuencias absolutas
valores_unicos, n_i = np.unique(x, return_counts=True)
print(valores_unicos)
print(n_i)

[0 1 2 3]
[41 15 12  4]


In [10]:
# frecuencias absolutas acumuladas
N_i = np.cumsum(n_i)
print(N_i)

[41 56 68 72]


In [11]:
# frecuencias relativas (%)
f_i = 100*n_i/n
print(f_i)

[56.94444444 20.83333333 16.66666667  5.55555556]


In [12]:
# frecuencias relativas acumuladas (%)
F_i = 100*N_i/n
print(F_i)

[ 56.94444444  77.77777778  94.44444444 100.        ]


In [13]:
# número de clases
k = len(n_i)
print(k)

4


La variable "nivel educativo" es una variable cualitativa ordinal que toma los valores "Bachillerato", "Pregrado", "Maestría" y "Doctorado", por lo que el número de categorías es $k=4$. La siguiente tabla muestra la distribución de frecuencias requerida. Dado que la escala de medición de la variable es ordinal, resulta pertinente incluir las frecuencias acumuladas.

|     Nivel      | F. Absoluta | F. Relativa (%) | F. Abs. Acumulada | F. Rel. Acumulada (%) |
|:--------------:|:-----------:|:---------------:|:-----------------:|:---------------------:|
| Bachillerato   |      41     |       56.9      |        41         |         56.9         |
| Pregrado       |      15     |       20.8      |        56         |         77.8         |
| Maestría       |      12     |       16.7      |        68         |         94.4         |
| Doctorado      |       4     |        5.6      |        72         |        100.0         |
| **Total**      |     **72**  |      **100.0**  |        NA         |          NA          |

$\square$

# Tablas para variables cuantitativas

Cuando una variable es cuantitativa de razón, no se cuenta directamente con $k$ clases para elaborar la distribución de frecuencias. A continuación, se describe un procedimiento para crear las categorías en este tipo de variables:

1. **Seleccionar el número de categorías $k$**. Se pueden utilizar las siguientes alternativas:  
   - Elegir arbitrariamente un valor de $k$ tal que $5 \leq k \leq 16$.  
   - Calcular $k$ mediante la fórmula $k \approx \sqrt{n}$.  
   - Calcular $k$ utilizando la fórmula de la **regla de Sturges**: $k \approx 1 + 3.3 \log_{10}(n)$.
   Los resultados de estas alternativas pueden diferir, por lo que el analista debe decidir cuántas clases utilizar según convenga.

2. **Determinar el mínimo y el máximo**. El mínimo y el máximo del conjunto de datos se denotan con $x_{\min}$ y $x_{\max}$, respectivamente.

3. **Calcular el rango $R$**. El rango o recorrido del conjunto de datos se define como: $R = x_{\max} - x_{\min}$.

4. **Calcular la amplitud $A$**. La amplitud representa el tamaño de las clases y se define como: $A = R/k$. Para mayor simplicidad, se recomienda que todas las clases tengan la misma amplitud.

5. **Establecer las categorías**. Las categorías se construyen de la siguiente manera:  
   \[
   C_i = \{x : l_{i-1} \leq x < l_i\},
   \]  
   donde $l_0 = x_{\min}$ y $l_i = l_{i-1} + a$. Esto se repite para $i = 1, \ldots, k$. 

Este procedimiento asegura una partición adecuada de los valores de la variable en clases uniformes y facilita la elaboración de la tabla de distribución de frecuencias.

**Ejemplo.** Considere el siguiente conjunto de datos correspondiente al peso (en kg) de muestra de materiales. A partir de estos datos, elabore la tabla de distribución de frecuencias correspondiente.

In [43]:
# datos 
x = np.array([103.1, 82.1, 106.2, 100.9, 91.8,  96.1,  126.9, 119.8, 93.1,  86.8,  75.2, 
              93.0,  82.3,  94.8,  64.2, 105.3, 108.0, 86.3,  81.8,  138.1, 92.5,  66.3, 
              66.6, 142.2,  96.5,  74.8, 95.4,  100.1, 81.9,  112.0, 116.8, 103.2, 
              66.1,  60.4,  78.7])

In [44]:
# tamaño de la muestra
n = len(x)
print(n)

35


In [45]:
# Número de clases (regla de Sturges)
k = round(1 + 3.3 * np.log10(n))
print(k)

6


In [46]:
# mínimo
x_min = min(x)
print(x_min)

60.4


In [47]:
# máximo
x_max = max(x)
print(x_max)

142.2


In [48]:
# rango
R = x_max - x_min
print(R)

81.79999999999998


In [49]:
# amplitud
A = R/k
print(A)

13.633333333333331


In [56]:
# límites
limites = x_min + np.arange(0, k + 1) * A
print(limites)

[ 60.4         74.03333333  87.66666667 101.3        114.93333333
 128.56666667 142.2       ]


In [58]:
# frecuencias absolutas
n_i = pd.cut(x, bins=limites, include_lowest=True).value_counts()
print(n_i)

(60.399, 74.033]       5
(74.033, 87.667]       9
(87.667, 101.3]       10
(101.3, 114.933]       6
(114.933, 128.567]     3
(128.567, 142.2]       2
Name: count, dtype: int64


In [59]:
# frecuencias absolutas acumuladas
N_i = np.cumsum(n_i)
print(N_i)

(60.399, 74.033]       5
(74.033, 87.667]      14
(87.667, 101.3]       24
(101.3, 114.933]      30
(114.933, 128.567]    33
(128.567, 142.2]      35
Name: count, dtype: int64


In [60]:
# frecuencias relativas (%)
f_i = 100*n_i/n
print(f_i)

(60.399, 74.033]      14.285714
(74.033, 87.667]      25.714286
(87.667, 101.3]       28.571429
(101.3, 114.933]      17.142857
(114.933, 128.567]     8.571429
(128.567, 142.2]       5.714286
Name: count, dtype: float64


In [61]:
# frecuencias relativas acumuladas (%)
F_i = 100*N_i/n
print(F_i)

(60.399, 74.033]       14.285714
(74.033, 87.667]       40.000000
(87.667, 101.3]        68.571429
(101.3, 114.933]       85.714286
(114.933, 128.567]     94.285714
(128.567, 142.2]      100.000000
Name: count, dtype: float64


La variable "peso" es cuantitativa de razón y no se encuentra inicialmente agrupada en categorías, por lo que es necesario definir las clases. La siguiente tabla presenta la distribución de frecuencias correspondiente. Dado que las ganancias están medidas en una escala de razón, resulta pertinente incluir las frecuencias acumuladas. 

| Nivel        | F. Absoluta | F. Relativa (%) | F. Abs. Acumulada | F. Rel. Acumulada (%) |
|:------------:|:-----------:|:---------------:|:-----------------:|:---------------------:|
| [60.4,74]    |      5      |      14.3       |         5         |         14.3         |
| (74,87.7]    |      9      |      25.7       |        14         |         40.0         |
| (87.7,101]   |     10      |      28.6       |        24         |         68.6         |
| (101,115]    |      6      |      17.1       |        30         |         85.7         |
| (115,129]    |      3      |       8.6       |        33         |         94.3         |
| (129,142]    |      2      |       5.7       |        35         |        100.0         |
| **Total**    |     **35**  |     **100.0**   |        **NA**     |        **NA**        |


$\square$