# Estadísticas de muestra: Tendencia central y dispersión

Cuando obtenemos o coleccionamos un conjunto de datos, se introduce el concepto de que estos datos provienen de una **población** (*population* en inglés). Hay situaciones donde esta población es finita. Por ejemplo, si seleccionamos a 100 estudiantes aleatoriamente y medimos sus notas, esto sería una **muestra** con $n=100$. Ahora, si seleccionamos otra muestra, tendremos distintos conjuntos de datos. Pero estos conjuntos fueron obtenidos de la misma población. En una población finita, medir a todos los miembros es algo posible. Para muchos ejemplos de conjuntos de datos en ingeniería y ciencia, la población es infinita.

## Tendencia central

En la caracterización de un conjunto de datos, un primer concepto es la **tendencia central**. La medida más común de este es la *media aritmética*de una muestra $\{ x_i, i = 1, \cdots\ , n\}$,

$$
\bar{x} = \frac{\sum_{i=1}^n x_i}{n}
$$

También es llamado *media de la muestra*.

<img src="Images/Media_muestra.jpg" alt="Notas" width="600" center/>

La *media* corresponde a la tendencia central de la población total, y el símbolo usado es la letra Griega 'mu' ($\mu$). 

Si nos fijamos en los *diagramas de puntos*, en cada conjunto de datos existe un dato que está significantemente alejado del resto de las medidas. Estos valores comunmente son llamados **outliers**. En muchas ocasiones, los investigadores eliminan estos datos, lo cual es una muy mala práctica. Solo deben ser eliminados si estos datos se obtuvieron por un error de medida. En otro caso, debemos mantenerlos pues pueden contener información valiosa para su análisis. 

Cuando existen los *outliers*, especialmente en conjuntos de datos pequeños, estos pueden modificar de forma extraordinaria la *media* de la muestra. Por ello, podemos optar por usar otra medida de tendencia central: la **mediana** ($\tilde{x}$). Para calcular la mediana de una muestra simplemente ordenamos el conjunto de datos y seleccionamos el dato del centro. Si la cantidad de elementos es par, seleccionamos los dos del medio y damos como resultado la media de ambas. 

Otros ejemplos de medida de tendencia central son la **moda** (el valor con mayor frecuencia) y el **m-estimador**.

Es importante conocer como calcular la *media* y la *mediana* en Python. Simplemente usamos la librería NumPy que nos proporcionará funciones ya implementadas:

In [2]:
import numpy as np

x = np.array([11.4,10.5,9.3,14.6,8.4,7.9,7.3,9.7,8.6,8.7])

In [3]:
# Media de la muestra

x_mean = np.mean(x)
x_mean

9.639999999999999

In [4]:
# Mediana de la muestra

x_median = np.median(x)
x_median

9.0

## Dispersión

La siguiente cantidad de interés para una muestra de datos y su población es una medida de dispersión. La medida de dispersión más sencilla de calcular es el *rango*, el cual es la diferencia entre el mayor y menos valor. Esta medida no es particularmente buena porque es muy sensible a valores extremos e ignora los datos intermedios. 

Asi como el promedio de la muestra es un estimador del verdadero valor central o media de la población, comúnmenete usaremos una medida similar para la dispersión. Este es la **desviación estándar muestral** (o su cuadrado, la **desviación muestral**) como un estimador de la desviación estándar poblacional (o su cuadrado, la varianza poblacional).

La fórmula para calcular la desviación estándar muestral es

$$
s = \sqrt{\frac{\sum^{n}_{i=1}(x_i-\bar{x})^2}{n-1}}
$$

Es decir, es la suma de cuadrados de la diferencia de cada dato individual con el promedio muestral, dividido por $n-1$, y sacándole la raíz cuadrada. Sin la raíz cuadrada, obtenemos lo que es llamado desviación muestral ($s^2$). 

Una pregunta frecuente es por qué usar como divisor a $n-1$ y no simplemente a $n$. Esto debido a que inicialmente el número de **grados de libertad** del conjunto de datos es $n$. Cuando calculamos el promedio muestral perdemos un grado de libertad (ya que con $n-1$ puntos y el promedio muestral, podemos calcular el $n$-ésimo punto), así obteniendo $n-1$ grados de libertad.

En el siguiente gráfica, tenemos los cálculos de las desviaciones estándar de dos conjuntos de datos. Notamos que ambos valores son muy distintos y empezamos a notar inconvenientes con la desviación estándar. Es díficil tener una estimación buena para conjuntos de datos pequeños y los **outliers** tienen una influenza muy fuerte en la estimación.

<img src="Images/varianza.jpg" alt="Notas" width="600" center/>

Por ello, de una manera similar a la mediana muestral, existe un estimador denominada **desviación mediana absoluta**, o MAD (por sus siglas en inglés). Para calcular el MAD de una muestra, se siguen los siguientes pasos:

1. Encuentra la mediana de los datos
2. Calcule las diferencias o desviaciones absolutas de cada dato con la mediana
3. Encuentra la mediana de estos valores absolutos
4. Divide el resultado por 0.6745

<img src="Images/mad.jpg" alt="Notas" width="600" center/>

Ahora veamos como calcular estos valores con Python:

In [7]:
x = np.array([10.1,11.5,9.6,9.6,10.4,9.4,10.2,9.9,9.1,9.8])

In [8]:
# El valor ddof = 1, permite que el denominador sea n-1.
# Su valor por defecto es ddof = 0, y el denominador serán n

s = np.std(x,ddof=1)
s

0.6653319973266479

In [9]:
def MAD(x):
    x_median = np.median(x)
    x_dev = abs(x - x_median)
    x_dev_median = np.median(x_dev)

    return x_dev_median / 0.6745

MADx = MAD(x)
MADx

0.44477390659747934