![imagenes](logo.png)

# Dispersión

Así como las medidas de tendencia central nos dan representantes globales de datos, las medidas de dispersión nos dicen qué tan dispersos están los datos. Vamos a estudiar algunas medidas de dispersión.

## Rango

Se trata de la diferencia entre el mayor y el menor rango: si $x_1,x_2,...,x_n$ son los datos, entonces $$rango=\max\{x_1,x_2,...,x_n\}-\min\{x_1,x_2,...,x_n\}$$

Es la medida de dispersión más sencilla. Sin embargo, su problema es que ignora la distribución de los datos.

Por ejemplo, consideremos los siguientes datos:
<table border="1">
  <tr>
    <th>Datos_1</th>
    <td>10</td>
    <td>12</td>
    <td>2</td>
    <td>10</td>
    <td>1</td>
    <td>10</td>
    <td>3</td>
  </tr>
  <tr>
    <th>Datos_2</th>
    <td>8</td>
    <td>6</td>
    <td>5</td>
    <td>4</td>
    <td>12</td>
    <td>4</td>
    <td>1</td>
  </tr>
    <tr>
    <th>Datos_3</th>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>1</td>
    <td>12</td>
    <td>12</td>
  </tr>
</table>

<img src="im015.png" style="display:block; margin:auto;">

Como pudiste observar, el rango no cambia. Además, es extremedamente sensible a presencia de datos atípicos.

## Rango intercuartílico

El rango intercuartílico es la diferencia entre el *tercer y el primer cuartil*: $RI=Q_3-Q_1$. Para ello, recordemos qué son los cuartiles.

El primer cuartil, $Q_1$, es el valor que deja por debajo de sí al 25% de los datos.

El segundo cuartil, $Q_2$, es el valor que deja por debajo de sí al 50% de los datos. Es decir, la mediana.

El tercer cuartil, $Q_3$, es el valor que deja por debajo de sí al 75% de los datos.

En otras palabras, $Q_2$ es la mediana de los datos; $Q_1$ es la mediana de los datos que quedan debajo de $Q_2$; y $Q_3$ es la mediana de los datos que quedan por arriba de $Q_2$.

Una de las ventajas del RI es que sí toma en cuenta la distribución frecuencial de los datos. De hecho se trata del rango del "50% de datos centrales al rededor de la mediana". Además, en cuanto a outliers, es menos sensible que el rango. Pero depende fuertemente del tamaño muestral y de cuántos atípicos hay.

No obstante lo anteriormente dicho, el cálculo de los cuartiles puede dirigirnos a diferentes resultados: hay distintos métodos de cálculo de los cuartiles primero y tercero, según la propia mediana de los datos originales se incluya o excluya en la serie de la mitad mas baja o la mitad más alta de valores.

Dicho esto, la mayoría de los lenguajes de programación utilizan las siguientes fórmulas para los cálculos:

Si hay $n$ datos, entonces $$Q_1\mbox{ se interpola con la posición } (n-1)\cdot0.25+1\mbox{ y }Q_3 \mbox{ se interpola con la posición }(n-1)\cdot0.75+1$$

Por ejemplo, consideremos los mismo conjuntos de datos anteriores:
<table border="1">
  <tr>
    <th>Datos_1</th>
    <td>10</td>
    <td>12</td>
    <td>2</td>
    <td>10</td>
    <td>1</td>
    <td>10</td>
    <td>3</td>
  </tr>
  <tr>
    <th>Datos_2</th>
    <td>8</td>
    <td>6</td>
    <td>5</td>
    <td>4</td>
    <td>12</td>
    <td>4</td>
    <td>1</td>
  </tr>
    <tr>
    <th>Datos_3</th>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>1</td>
    <td>12</td>
    <td>12</td>
  </tr>
</table>

Ordenando de menor a mayor tenemos
<table border="1">
  <tr>
    <th>Datos_1</th>
    <td>1</td>
    <td>2</td>
    <td>3</td>
    <td>10</td>
    <td>10</td>
    <td>10</td>
    <td>12</td>
  </tr>
  <tr>
    <th>Datos_2</th>
    <td>1</td>
    <td>4</td>
    <td>4</td>
    <td>5</td>
    <td>6</td>
    <td>8</td>
    <td>12</td>
  </tr>
    <tr>
    <th>Datos_3</th>
    <td>1</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
    <td>12</td>
  </tr>
</table>

Como hay 7 datos, entonces $n=7$ y por lo tanto $Q_1$ se interpola con la posición $(7-1)\cdot0.25+1=2.5$; es decir, los lugares 2 y 3; y $Q_3$ se interpola con la posición $(7-1)\cdot0.75+1=5.5$; es decir, los lugares 5 y 6.

De esta manera, para **Datos_1** tenemos $Q_1=\frac{2+3}{2}=2.5$ y $Q_3=\frac{10+10}{2}=10$; para **Datos_2** tenemos $Q_1=\frac{4+4}{2}=4$ y $Q_3=\frac{6+8}{2}=7$; y para **Datos_3** tenemos $Q_1=\frac{12+12}{2}=12$ y $Q_3=\frac{12+12}{2}=12$.

Y por lo tanto, los rangos intercuartílicos son $10-2.5=7.5$, $7-4=3$ y $12-12=0$, respectivamente.

## Rangos vs Rango Intercuartil

Veamos ahora cómo implementar estas medidas de dispersión en diferentes lenguajes.

<pre style="color: teal; font-family: monospace; text-align: left;">
################################################################
#######################     En Excel     #######################
################################################################
</pre>

| Medida  | Código                                   |
|---------|-----------------------------------------|
| Rango   | `=MAX(celda_inicial:celda_final)-MIN(celda_inicial:celda_final)` |
| Rango intercuartil | `=CUARTIL.INC(celda_inicial:celda_final,3)-CUARTIL.INC(celda_inicial:celda_final,1)`  |

<pre style="color: teal; font-family: monospace; text-align: left;">
################################################################
</pre>

```r
################################################################
########################      EN R       #######################
################################################################

datos = c(10,12,2,10,1,10,3)
datos_con_atipico = c(10,12,2,10,1,2025,10,3)

rango_datos = max(datos,na.rm=TRUE)-min(datos,na.rm=TRUE)
rango_datos_con_atipico = max(datos_con_atipico,na.rm=TRUE)-min(datos_con_atipico,na.rm=TRUE)

RI_datos = IQR(datos,na.rm=TRUE)
RI_datos_con_atipico = IQR(datos_con_atipico,na.rm=TRUE)

################################################################
```

```python
################################################################
########################    EN PYTHON    #######################
################################################################

import numpy as np
from scipy.stats import iqr

datos = np.array([10, 12, 2, 10, 1, 10, 3])
datos_con_atipico = np.array([10, 12, 2, 10, 1, 2025, 10, 3])

rango_datos = np.max(datos) - np.min(datos)
rango_datos_con_atipico = np.max(datos_con_atipico) - np.min(datos_con_atipico)

RI_datos = iqr(datos)  
RI_datos_con_atipico = iqr(datos_con_atipico)

################################################################
```

De esta manera, ante la presencia de datos atípicos, el rango intercuartílico es mejor representante de la dispersión que el rango.