# Medidas de tendencia central para datos agrupados.

# Media 
Para poder estimar el valor de la media se hace el supuesto de que cada dato toma el valor de la marca de clase correspondiente. Así, la fórmula para calcular la media toma la siguiente forma: 
#### $\frac{1}{n}\sum_{i=1}^{K}{f_{i}}{y_{i}}$

Donde: 
- ${y_{i}}$ son las marcas de clase de cada clase.
- ${f_{i}}$ son las frecuencias absolutas de cada clase.
- $n$ es el número total de datos.
- $K$ es el número de clases.

Ejemplo: Calcular la media de las estaturas contenidas en la tabla "estaturas.csv"

Respuesta = 165.3

In [2]:
#Importamos librerias
import pandas as pd
import matplotlib.pyplot as plot

data_fr = pd.read_csv("./estaturas.csv") #Almacenamos el archivo en la variable data_fr

frecuencia = data_fr['Frecuencia'] #Extraermos la columna Frecuencia y la almacenamos en una lista.

marcas_clase = data_fr['Marcas clase'] #Extraermos la columna Marcas clase y la almacenamos en una lista.

K = data_fr['Clase'][6] #Extraermos la columna Clase y la almacenamos en una lista.

producto = 0
suma = 0
for i in range(0,K):
    producto = frecuencia[i]*marcas_clase[i]
    suma = suma + producto

N = data_fr['Frecuencia Acumulada'][6]
print(N)

media = suma / N
print(f"La media es: {media}")

data_fr.head(10)
 

45
La media es: 165.3


Unnamed: 0,Clase,Intervalo,Marcas clase,Frecuencia,Frecuencia Relativa,Frecuencia Acumulada,Frecuencia Relativa Acumulada
0,1,149.75 - 154.25,152.0,7,0.16,7,0.16
1,2,154-25 - 158.75,156.5,2,0.04,9,0.2
2,3,158.75 - 163.25,161.0,12,0.27,21,0.47
3,4,163.25 - 167.75,165.5,7,0.16,28,0.62
4,5,167.75 - 172.25,170.0,5,0.11,33,0.73
5,6,172.25 - 176.75,174.5,6,0.13,39,0.87
6,7,176.75 - 181.25,179.0,6,0.13,45,1.0


# Mediana

Como la mediana es el valor que se ubica a la mitad del arreglo, ordenado de menor a mayor, lo primero que se debe hacer es identificar la clase que contiene dicho valor. 

Para ello utilizamos la siguiente expresión:

#### ${P_{m}} = \frac{n + 1}{2}$

Donde $n$ es el total de datos.

Una vez identificada la clase que contiene a la mediana, su valor se calcula mediante la siguiente fórmula:

#### $\widetilde{x} = {L_{inf}} + (\frac{\frac{n}{2}-{F_{ant}}}{f}) * A$

Donde:
- ${L_{inf}}$ es el límite inferior del intervalo que contiene la mediana.
- $f$ es la frecuencia absoluta del intervalo que contiene a la mediana.
- ${F_{ant}}$ es la frecuencia absoluta acumulada hasta el intervalo anterior al que contiene a la mediana.
- $n$ es el total de datos.
- $A$ es la amplitud del intervalo que contiene a la mediana.

Ejemplo: Calcular la **mediana** de las estaturas contenidas en la tabla "estaturas.csv"

Respuesta = 164.21

In [8]:
from sympy import limit


P_m = (45+1) / 2
print(P_m) #-> La mediana corresponde al dato 23, el cual se ubica en la cuarta clase.

lim_inferior = data_fr['Intervalo'][3] #Extraemos la cuarta clase.

lim_inferior = lim_inferior[0:7] #Extraemos solo el limite inferior

lim_inferior = float(lim_inferior) #La convertimos en tipo float.

f = data_fr['Frecuencia'][3] #Extraemos la frecuencia absoluta del intervalo que contiene a la mediana, en este caso es la cuarta clase.

F_ant = data_fr['Frecuencia Acumulada'][2]

A = 163.25 - 167.75 #Amplitud del intervalo
A = abs(A)

#Aplicamos la formula: 
mediana = lim_inferior + ( ((45/2)-F_ant)/f ) * A
mediana = round(mediana,2)
print(f"La mediana es: {mediana}")
data_fr.head(10)

23.0
La mediana es: 164.21


Unnamed: 0,Clase,Intervalo,Marcas clase,Frecuencia,Frecuencia Relativa,Frecuencia Acumulada,Frecuencia Relativa Acumulada
0,1,149.75 - 154.25,152.0,7,0.16,7,0.16
1,2,154-25 - 158.75,156.5,2,0.04,9,0.2
2,3,158.75 - 163.25,161.0,12,0.27,21,0.47
3,4,163.25 - 167.75,165.5,7,0.16,28,0.62
4,5,167.75 - 172.25,170.0,5,0.11,33,0.73
5,6,172.25 - 176.75,174.5,6,0.13,39,0.87
6,7,176.75 - 181.25,179.0,6,0.13,45,1.0


#

# Moda

Al igual que con la mediana, lo primero es identificar la clase que contiene a la moda. Como la moda es el dato que más se repite, ésta se ubica en la clase con mayor frecuencia.

Una vez identificada la clase que contiene a la moda, su valor se calcula mediante la siguiente formula:

#### $\widehat{x} = {L_{inf}} + [\frac{f-{f_{ant}}}{(f-{f_{ant}}) + ( f-{f_{sup}})}] * A$

Donde:
- $L_{inf}$ es el límite inferior de la clase que contiene a la moda.
- $f$ es la frecuencia de la clase que contiene a la moda.
- ${f_{ant}}$ es la frecuencia de la clase anterior a la clase que contiene a la moda.
- ${f_{sup}}$ es la frecuencia de la clase superior a la clase que contiene a la moda.
- $n$ es el total de datos.
- $A$ es la amplitud de la clase que contiene a la moda.

Ejemplo: Calcular la **mediana** de las estaturas contenidas en la tabla "estaturas.csv".

Respuesta = 161.75

In [54]:
clase_moda = 3
limite_inferior = data_fr['Intervalo'][2]
limite_inferior = limite_inferior[0:7]
limite_inferior = float(limite_inferior)


frecuencia_moda = data_fr['Frecuencia'][2]
f_ant = data_fr['Frecuencia'][1]
f_sup = data_fr['Frecuencia'][3]

A = 163.25 - 167.75
A = abs(A)

moda = limite_inferior + ((frecuencia_moda-f_ant)/((frecuencia_moda-f_ant)+(frecuencia_moda-f_sup))) * A
print(f"La moda es: {moda}")
data_fr.head(10)

La moda es: 161.75


Unnamed: 0,Clase,Intervalo,Marcas clase,Frecuencia,Frecuencia Relativa,Frecuencia Acumulada,Frecuencia Relativa Acumulada
0,1,149.75 - 154.25,152.0,7,0.16,7,0.16
1,2,154-25 - 158.75,156.5,2,0.04,9,0.2
2,3,158.75 - 163.25,161.0,12,0.27,21,0.47
3,4,163.25 - 167.75,165.5,7,0.16,28,0.62
4,5,167.75 - 172.25,170.0,5,0.11,33,0.73
5,6,172.25 - 176.75,174.5,6,0.13,39,0.87
6,7,176.75 - 181.25,179.0,6,0.13,45,1.0


# Graficando

plot.axvline()