# Tablas de frecuencias

In [1]:
import numpy as np
import pandas as pd

In [4]:
df_iris = pd.read_csv('iris.csv', delimiter=',')
petals = df_iris.PetalLengthCm

In [11]:
def tabla_frecs(x, k, A, p):
    """
    La función sirve en el caso en que vayamos a tomar todas las clases de la misma 
    amplitud. Sus parámetros son: 
    x, el vector con los datos cuantitativos; 
    k, el número de clases; 
    A, su amplitud; y 
    p, la precisión de los datos (p = 1 si la precisión son unidades, p = 0.1 si la 
    precisión son décimas de unidad...).
    """
    
    L = list(np.min(x) - p / 2 + A * np.arange(k + 1))  #­ Límites.
    x_cut = pd.cut(x, bins = L, include_lowest=True, right=False)  # Lista de intervalos
    intervals = x_cut.cat.categories  # Intervalos únicos.
    
    mc = (L[0] + L[1]) / 2 + A * np.arange(k)  # Marcas de clase.
    
    Fr_abs = pd.crosstab(x_cut, columns=0, dropna=False)  # Frecuencia absoluta.
    
    Fr_rel = round(Fr_abs / Fr_abs.sum(), 2)  # Frecuencia relativa.
    
    a = []  # Frecuencia absoluta acumulada.
    b = 0
    for c in Fr_abs[0]:
        b = c + b
        a.append(b)
    Fr_cum_abs = a
    
    a = []  # Frecuencia relativa acumulada.
    b = 0
    for c in Fr_rel[0]:
        b = c + b
        a.append(b)
    Fr_cum_rel = a
    
    # Creación de la tabla final.
    dat = pd.DataFrame(intervals, columns=['intervalos'])
    dat['mc'] = mc
    dat['Fr_abs'] = Fr_abs.values
    dat['Fr_cum_abs'] = Fr_cum_abs
    dat['Fr_rel'] = Fr_rel.values
    dat['Fr_cum_rel'] = Fr_cum_rel
    
    return dat

In [12]:
tabla_frecs(petals, 6, 1, 0.1)

Unnamed: 0,intervalos,mc,Fr_abs,Fr_cum_abs,Fr_rel,Fr_cum_rel
0,"[0.95, 1.95)",1.45,50,50,0.33,0.33
1,"[1.95, 2.95)",2.45,0,50,0.0,0.33
2,"[2.95, 3.95)",3.45,11,61,0.07,0.4
3,"[3.95, 4.95)",4.45,43,104,0.29,0.69
4,"[4.95, 5.95)",5.45,35,139,0.23,0.92
5,"[5.95, 6.95)",6.45,11,150,0.07,0.99


In [13]:
def tabla_frecs_L(x, L, V):
    """
    La función sirve cuando conocemos los extremos de las clases. Sus parámetros son: 
    x, el vector con los datos cuantitativos; 
    L, el vector de extremos de clases; y 
    V , un valor lógico, que ha de ser TRUE si queremos que el último intervalo sea 
    cerrado, y FALSE en caso contrario.
    """
    
    x_cut = pd.cut(x, bins = L, include_lowest=True, right=False)  # Lista de intervalos
    intervals = x_cut.cat.categories  # Intervalos únicos.
    
    mc = []  # Marcas de clase.
    b = 0
    for c in range(len(L) - 1):
        x = (L[c] + L[c + 1]) / 2
        mc.append(x)
    
    Fr_abs = pd.crosstab(x_cut, columns=0, dropna=False)  # Frecuencia absoluta.
    
    Fr_rel = round(Fr_abs / Fr_abs.sum(), 2)  # Frecuencia relativa.
    
    a = []  # Frecuencia absoluta acumulada.
    b = 0
    for c in Fr_abs[0]:
        b = c + b
        a.append(b)
    Fr_cum_abs = a
    
    a = []  # Frecuencia relativa acumulada.
    b = 0
    for c in Fr_rel[0]:
        b = c + b
        a.append(b)
    Fr_cum_rel = a
    
    # Creación de la tabla final.
    dat = pd.DataFrame(intervals, columns=['intervalos'])
    dat['mc'] = mc
    dat['Fr_abs'] = Fr_abs.values
    dat['Fr_cum_abs'] = Fr_cum_abs
    dat['Fr_rel'] = Fr_rel.values
    dat['Fr_cum_rel'] = Fr_cum_rel
    
    return dat

In [14]:
tabla_frecs_L(petals, L=(1, 3, 4, 5, 5.5, 6, 6.5, 7), V=False)

Unnamed: 0,intervalos,mc,Fr_abs,Fr_cum_abs,Fr_rel,Fr_cum_rel
0,"[1.0, 3.0)",2.0,50,50,0.33,0.33
1,"[3.0, 4.0)",3.5,11,61,0.07,0.4
2,"[4.0, 5.0)",4.5,43,104,0.29,0.69
3,"[5.0, 5.5)",5.25,18,122,0.12,0.81
4,"[5.5, 6.0)",5.75,17,139,0.11,0.92
5,"[6.0, 6.5)",6.25,7,146,0.05,0.97
6,"[6.5, 7.0)",6.75,4,150,0.03,1.0
