# Desviación estándar para una distribución de frecuencias agrupadas.

Si $X_1,X_2,X_3,...,X_k$ son $k$ números que se presentan con frecuencias $f_1,f_2,f_3,...,f_k$, respectivamente, entonces la desviación estándar se puede escribir como: $$s = \sqrt{\frac{\sum_{i=1}^{N} f_i(X_i)^2}{N} - (\bar{X})^2}$$

La expresión anterior se puede generalizar al caso de una distribución de frecuencias agrupadas tomando en cuenta, que $X_i$ representa la marca de clase y $f_i$ la frecuencia de cada intervalo. Además $N = \sum f_i$

Cuando sea necesario distinguir entre la desviación estándar de una población y la desviación estándar de una muestra extraída de una población, se emplean los siguientes símbolos: $σ$ para una población y $s$ para una muestra.

Ejemplo: Hallar la desviación estándar de la siguiente distribución de frecuencias: 

Primero importaremos las librerias necesarias para el tratamiendo de archivos .csv y despues asignaremos a una variable la tabla contenida en "Desviacion.csv"

In [2]:
# Importando librerias
import pandas as pd

# Leyendo el csv
data_fr = pd.read_csv("Desviacion.csv")
data_fr.head()

Unnamed: 0,Clase,Intervalos,Marca de clase,Frecuencia de clase
0,1,50.5 - 57.5,54,2
1,2,57.5 - 64.5,61,11
2,3,64.5 - 71.5,68,13
3,4,71.5 - 78.5,75,14
4,5,78.5 - 85.5,82,23


El siguiente paso es calcular la media aritmetica.

Recordando que: $$\frac{1}{n}\sum_{i=1}^{K}{f_{i}}{x_{i}}$$
Donde: 
- ${x_{i}}$ son las marcas de clase de cada clase.
- ${f_{i}}$ son las frecuencias absolutas de cada clase.
- $n$ es el número total de datos.
- $K$ es el número de clases.

In [9]:
# Calcular la media aritmetica:
frecuencia = data_fr["Frecuencia de clase"]
marca_clase = data_fr["Marca de clase"]

k = len(frecuencia)
suma = 0
for i in frecuencia:
    suma = suma + i
n = suma

suma = 0
for i in range(0,k):
    suma = suma + (marca_clase[i] * frecuencia[i])
media = suma/n
print(f"La media es: {media}")

La media es: 77.0125


El siguiente paso es calcular la desviación estándar

In [10]:
from math import sqrt

suma = 0
for i in range(0,k):
    suma = suma + (frecuencia[i]*marca_clase[i]**2)
s = sqrt( ((suma)/(n)) - media**2 )
print(f"Desviacion: {s}")



Desviacion: 10.911569261568193


En promedio los datos se desvían de la media en $10.91$