# Medidas de dispersión: rango, varianza, desviación estándar y rango intercuartílico

Las medidas de dispersión son aquellas que nos permiten determinar, como su nombre lo indica, qué tan dispersos se encuentran los valores de nuestros datos. Es decir, teniendo un promedio, qué tan alejados están o no del promedio los valores de la muestra.

En este ejemplo, vamos a ver un caso de un atleta que levanta diferentes pesos en distintas ocasiones, para analizar qué tan dispersos (alejados o no del promedio) se encuentran esos pesos levantados, expresados en kilogramos.

Como vemos, tenemos dos muestras:
- La muestra A presenta una baja dispersión, ya que los pesos son similares entre sí y están cercanos al promedio.
- La muestra B presenta una alta dispersión, ya que los pesos son más variados, y hay valores que están muy alejados del promedio.

![Ejemplo](./img/dispersion1.png)

## Rango

Una medida de dispersión es el rango, que básicamente consiste en tomar el valor máximo de la muestra y el valor mínimo y restarlos para que qué tan alejados están uno del otro.

Rango de la muestra A

![Rango](./img/dispersion2.png)

Rango de la muestra B

![Rango](./img/dispersion3.png)

## Varianza

La varianza consiste en averiguar, en primer lugar, el promedio de la muestra. Una vez obtenido ese valor, realizamos la sumatoria de la resta entre ese promedio y cada valor, elevando dicha resta al cuadrado. 
La resta entre el promedio y cada valor es para saber qué tan alejado está justamente ese valor del promedio. Eso se eleva al cuadrado para evitar obtener valores negativos como resultado de la resta, ya que tengamos en cuenta que los valores que estén por debajo del promedio al hacer **valor - promedio** eso nos dará un número negativo. El cuadrado nos evita justamente ese problema.

Una vez hcha la sumatoria, dividimos el resultado de la mismo por el tamaño de la población.

![Varianza 1](./img/dispersion4.png)

![Varianza 2](./img/dispersion5.png)

![Varianza 3](./img/dispersion6.png)

Esto es lo que se conoce como *varianza poblacional*. Pero teniendo en cuenta que nosotros solo estamos trajando con una muestra, es decir, una fracción de la población total, ya que sería muy difícil recolectar todos los datos del mundo, estaríamos trabajando con lo que se conoce como *varianza muestral*. En cuanto a los cálculos, la única diferencia que presenta es que la sumatoria final en lugar de dividirse por el tamaño de la población, se divide por el tamaño de la población - 1, relacionado con el margen de error que podemos llegar a tener.

![Varianza 4](./img/dispersion7.png)

## Desviación estándar

La desviación estándar está muy relacionada a la varianza ya que se obtiene de la raíz cuadrada del valor de la varianza. Teniendo en cuenta que para calcular la varianza estamos, en la parte de la sumatoria, elevando al cuadrado cada resta entre el promedio y un valor de la muestra, al elevar el cuadrado si bien estamos evitando el problema de los números negativos, al mismo tiempo estamos obteniendo unidades que pueden resultar extrañas para nuestro análisis. 
En nuestro ejemplo, si estamos trabajando con kilogramos, al elevar el cuadrado estamos entonces trabajando con kilogramos al cuadrado, lo cual es bastante raro.
La desviación entonces surge como solución a esta otra problemática.

![Desviación estándar](./img/dispersion8.png)

## Rango intercuartílico

Finalmente, el rango intercuartílico es otra medida de dispersión, relacionada con los cuantiles y específicamente con los cuartiles. El mismo se calcula según se muestra en las siguientes imágenes:

![Rango intercuartílico 1](./img/dispersion9.png)

![Rango intercuartílico 2](./img/dispersion10.png)

## Medidas de dispersión con Numpy

In [1]:
import numpy as np

In [6]:
# Contexto: levantamiento de pesas
pesos = [5, 15, 25, 35, 40, 55, 80, 90, 170]

print("Rango:", np.max(pesos) - np.min(pesos))

print("Varianza poblacional:", np.var(pesos))
print("Varianza muestral:", np.var(pesos, ddof=1))

print("Desviación estándar poblacional:", np.std(pesos))
print("Desviación estándar muestral:", np.std(pesos, ddof=1))

# Cálculo del rango intercuartílico
q1 = np.percentile(pesos, 25)
q3 = np.percentile(pesos, 75)
# otra forma de obtener los cuartiles que necesitamos:
#q1, q3 = np.quantile(pesos, [1/4, 3/4])
#print(q1)
#print(q3)

print("Rango intercuartílico:", q3 - q1)

Rango: 165
Varianza poblacional: 2295.0617283950614
Varianza muestral: 2581.9444444444443
Desviación estándar poblacional: 47.90680252735577
Desviación estándar muestral: 50.812837398087154
Rango intercuartílico: 55.0
