# Desviación media

Es la media aritmética o promedio de los valores absolutos de la desviación de cada uno de los datos de un grupo respecto a la media de estos datos.

$$D_{\bar{x}}=\frac{\sum_{k=1}^N|x-\bar{x}|}{N}$$

Una `desviación media` elevada implica mucha variabilidad en los datos, mientras que una `variación o desviación media` igual a cero implica que todos los valores son iguales y por lo tanto coinciden con la media.

Para entender esto recordemos un par de conceptos.


### Qué es un promedio?

**_La media aritmética_**, también conocida como **_promedio_** o **_media_**, es un concepto matemático utilizado en estadística. Se calcula dividiendo la suma de todos los valores de una muestra (o población) estadística por el número de observaciones.
$$\bar{x}=\frac{\sum_{k=1}^N x}{N}$$

## 

In [58]:
def mean(lst):
  return sum(lst) / len(lst)

mean([15, 5, 8, 15, 9, 4, 13, 7, 18, 8])

10.2

### Qué es la desviación?
**_La desviación_** es la diferencia absoluta que existe entre un dato del conjunto de datos y la media aritmética de ese grupo de datos.
$$D=|x-\bar{x}|$$



In [57]:
def deviat(lst, mean_value = float):
  return [abs(x - mean_value) for x in lst]

data = [485, 505, 492, 515, 509, 504, 487, 493, 518, 492]
deviat(data, mean(data))

[15.0, 5.0, 8.0, 15.0, 9.0, 4.0, 13.0, 7.0, 18.0, 8.0]

## Por lo tanto

La `desviación media` al ser por definición "el **promedio** de las **desviaciones** respecto a la **media**" tenemos entonces la fórmula antes mencionada:

$$D_{\bar{x}}=\frac{\sum_{k=1}^n|x-\bar{x}|}{n}$$



In [59]:
def mean_dev(data: list):
  return mean(deviat(data, mean(data)))

mean_dev([485, 505, 492, 515, 509, 504, 487, 493, 518, 492])

10.2

## El entrenador de baloncesto

Supongamos que somos el entranador de dos equipos de baloncesto y solo podemos enlistar a uno de nuestros equipos para el torneo regional. Nuestra intención es elegir al equipo que tenga las mejores probabilidades de ganar y para esto se nos ocurrió que un indicador importante para ganar cualquier torneo es la cantidad de canastas por partido. Entonces empezamos a recolectar la información a lo largo de 5 partidos de práctica teniendo los siguientes resultados.

In [30]:
team_a = [40, 105, 80, 80, 90]
team_b = [35, 110, 100, 80, 70]

Bien podríamos pensar en sacar el promedio de las canastas de cada equipo y usarlo como indicador para hacer nuestra elección. Pero al momento de hacerlo nos encontramos con que los promedios son iguales para cada equipo 😩.

In [60]:
mean(team_a), mean(team_b)

(79.0, 79.0)

Pero ahora que sabemos sobre desviación media, podemos conocer el promedio de variación de canastas que tiene cada equipo con respecto a su media.

In [61]:
mean_dev(team_a), mean_dev(team_b)

(15.6, 21.2)

El resultado nos dice que la regularidad con la que los equipos anotan canastas.
Por lo que al escoger al "Equipo A" estamos apostando al equipo con la menor variabilidad (es decir una mejor consistencia) de canastas en cada partido y así estamos un paso más cerca de ganar el campeonato regional 🎉🏀🏆🎉

## Variación media de Datos agrupados por intervalos

La "variación media de datos agrupados por intervalos" más que una formula aritmética es un algoritmo computacional. Vamos a explicarlo.

Antes de empezar veamos las siguientes definiciones

### La frecuencia
La frecuencia es el número de veces que se repite cada dato en un conjunto de datos. Esta la vamos a ver escrita como $f$

### La Marca de Clase
Es el punto medio de los límites del intervalo y que es el valor que representa cada uno de los intervalos. Lo podemos calcular usando la formúla de la media. 

$$\bar{x}=\frac{\textrm{limite superior del intervalo} + \textrm{limite inferior del intervalo}}{2}$$ 

En otras palabras es el promedio de cada uno de nuestros intervalos. Y este es nuestro valor representativo para el intervalo.


### Ausencias de Empleados

Para poder entender mejor este algoritmo computacional análicemos el ejemplo de "Ausencias de Empleados".

Supongamos que somos parte del equipo de Staffing para una compañía y nos piden hacer un análisis sobre las ausencias de los empleados durante el año.

Nos dan como información la siguiente tabla de datos:

|Días$(x)$|Empleados $(f)$|
|----|--------------|
|[0-3]|5|
|(3-6]|12|
|(6-9]|23|
|(9-12]|8|
|(12-15]|2|
|Total|50|

La primer columna muestran 5 intervalos o clases donde se pueden agrupar de tres en tres el número de días que faltaron los empleados. Así, se puede ver que los empleados que faltaron entre 0 y 3 días en el año, fueron 5, mientras 12 de ellos faltaron entre 3 y 6 días.

In [33]:
days_range = [(0, 3), (3,6), (6, 9), (9, 12), (12, 15)]
employees_off = [5, 12, 23, 8, 2]

### Nota sobre la frecuencia de los datos

Pero antes anotemos algo importante. Si nosotros tomamos una muestra de nuestra tabla se vería algo como lo siguiente.

$$
\text{Muestra de datos del conjunto: }
0,1,2,2,3,4,4,4,5,5,5,5,5,6,6,6,6,7,7,8,...
$$

Notese que para el subconjunto $\{4,4,4,5,5,5,5,5,6,6,6,6\}$ podemos sacar la media de la siguiente forma

$$\bar{x}=\frac{3(4)+5(5)+4(6)}{12}=5.08$$

Recuerden que segun la algebra, nosotros podemos agrupar símbolos similares que se suman en una multiplicación por la cantidad de repeticiones de estos símbolos.

**Fin de la nota**

### Planteando la solución

Para empezar nuestro análisis se nos ocurre sacar el promedio de faltas de cada empleado en el año. Como nuestra data esta agrupada, entonces tenemos que obtener el _**valor representativo**_ o _**la marca de clase**_ de esos intervalos.

|Días $(x)$|Empleados $(f)$|Marca de clase $(x)$|
|----|--------------|---------------|
|[0-3]|5|1.5|
|(3-6]|12|4.5|
|(6-9]|23|7.5|
|(9-12]|8|10.5|
|(12-15]|2|13.5|
|Total|50||

In [77]:
interval_days_mean = [mean([days[0], days[1]]) for days in days_range]
interval_days_mean

[1.5, 4.5, 7.5, 10.5, 13.5]

Ahora que tenemos nuestros valores representativos o marcas de clase de cada intervalo, podemos calcular el promedio de faltas de los empleados al año. Pero notese que como estos valores estan _**agrupados**_, entonces, debemos de multiplicar cada valor representativo por la frecuencia con la que ocurre, la formúla quedaría de la siguiente manera:

$$\mu=\frac{\sum{(f_i)(x_i)}}{\sum{f_i}}$$

Colcamos entonces los siguientes valores en la tabla

|Días $(x)$|Empleados $(f)$|Marca de clase $(x)$|$(f)(x)$|
|----|--------------|---------------|---------------|
|[0-3]|5|1.5|7.5|
|(3-6]|12|4.5|54|
|(6-9]|23|7.5|172.5|
|(9-12]|8|10.5|84|
|(12-15]|2|13.5|27|
|Total|50||345|

Y calculamos el promedio de nuestra marca de clase.

$$\mu=\frac{345}{50}=6.9 \simeq 7$$

Esto nos indica que cada uno de los 50 empleados de la empresa faltaron en promedio 7 días al año.

In [79]:
def freq_by_value(freq: float, value: float):
  return freq * value

def mean_group(freqs: list, groups: list):
  freq_of_group = [ freq_by_value(freqs[ix], groups[ix]) for ix in range(len(groups))]
  return sum(freq_of_group) / sum(freqs)


days_off_by_employee = [freq_by_value(employees_off[i], interval_days_mean[i]) for i in range(len(interval_days_mean))]
print('days_off_by_employee =',days_off_by_employee)
print('mean_days_off_by_employees_frequency =', mean_group(employees_off, interval_days_mean))

days_off_by_employee = [7.5, 54.0, 172.5, 84.0, 27.0]
mean_days_off_by_employees_frequency = 6.9


Ahora con esa información podemos preguntarnos, _Cuánto es la variación de las faltas con respecto a esta media?_

Para esto usaremos la formúla, ya vista, de la **_desviación_**.

$$D=|x-\bar{x}|$$

Siendo nuestra media $\mu=6.9$

y nuestra fórmula queda como:

$$D_i = |x_i-\mu|$$

Donde:
1. $x_i=$ Cada valor de marca de clase en nuestra tabla
2. $\mu=$ el promedio de nuestras marcas de clase


|Días $(x)$|Empleados $(f)$|Marca de clase $(x)$|$(f)(x)$|Desviación|
|----|--------------|---------------|---------------|---------------|
|[0-3]|5|1.5|7.5|5.4|
|(3-6]|12|4.5|54|2.4|
|(6-9]|23|7.5|172.5|0.6|
|(9-12]|8|10.5|84|3.6|
|(12-15]|2|13.5|27|6.6|
|Total|50||345||

In [70]:
deviat_mean_days_off = deviat(interval_days_mean, mean_group(employees_off, interval_days_mean))

deviat_mean_days_off

[5.4, 2.4000000000000004, 0.5999999999999996, 3.5999999999999996, 6.6]

Ahora que tenemos la desviación de cada una de nuestras marcas de clase con respecto a su media aritmética, podemos calcular el promedio de la desviación en otras palabras la  **_desviación media_**.

Entonces, tenemos que nuestra tabla es la siguiente:
|Días $(x)$|Empleados $(f)$|Marca de clase $(x)$|$(f)(x)$|Desviación|
|----|--------------|---------------|---------------|---------------|
|[0-3]|5|1.5|7.5|5.4|
|(3-6]|12|4.5|54|2.4|
|(6-9]|23|7.5|172.5|0.6|
|(9-12]|8|10.5|84|3.6|
|(12-15]|2|13.5|27|6.6|
|Total|50||345||

Utilizamos nuestra formúla de media aritmética y sustituimos:

$$
D_{\mu}=\frac{5(5.4)+12(2.4)+23(0.6)+8(3.6)+2(6.6)}{50} = 2.232 \simeq 2
$$


In [80]:
def mean_dev_group(freq: list, relevant_values: list):
  return mean_group(freq, deviat(relevant_values, mean_group(freq, relevant_values)))

mean_dev_group(employees_off, interval_days_mean)

2.2319999999999998

Ahora tenemos un indicador que nos dice dos cosas:
1. El promedio de ausencias por empleado al año es de 7 días.
2. De este promedio los empleados, en promedio, tuvieron una variación de +/- 2 días

### Conclusión

De este ejercicio podemos describir una mejor formúla para la desviación media con datos agrupados, tomado como base nuestra formúla original:

$$D_{\bar{x}}=\frac{\sum_{k=1}^N|x_k-\bar{x}|}{N}$$

Para datos agrupos en intervalos la podemos escribir como:

$$D_{\mu}=\frac{\sum_{k=1}^N(f_k)(|D_k|)}{\sum_{k=1}^N(f_k)}$$

Donde la desviación es:

$$D_k = |x_k-\mu|$$

Por lo tanto, nuestra formúla quedaría como

$$D_{\mu}=\frac{\sum_{k=1}^N(f_k)(|x_k-\mu|)}{\sum_{k=1}^N(f_k)}$$

Donde:
1. $x$ es el valor relevante o promedio de cada uno de nuestros intervalos
2. $\mu$ es el valor promedio de nuestro conjunto de valores relevantes $x$
3. $f$ es nuestra frecuencia con la que ocurre nuestra desviación en la tabla de datos que nos dieron
4. y $N$ es la cantidad de intervalos o clases




# Bibliografía

- [
Desviación media: Qué es, fórmula y cómo calcularla
](https://www.questionpro.com/blog/es/desviacion-media/)
- [Mean Deviation
](https://www.cuemath.com/mean-deviation-formula/)
- [La desviación media
](https://nuevaescuelamexicana.sep.gob.mx/detalle-ficha/11031/)
- [Playlist Varianza y desviación
](https://www.youtube.com/playlist?list=PLeySRPnY35dE25b7mIEUlsMCQqlhJFhyG) por Matemáticas profe Alex
