# Medidas numéricas
*"Si las estadísticas son aburridas, es que tienes los números equivocados". Edward Tufte*

In [None]:
import pandas as pd

In [None]:
df = pd.read_excel('../datasets/enigh2020.xlsx')
#df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/datasets/enigh2020.xlsx')

In [None]:
df.columns

## Medidas de tendencia central

Las medidas de tendencia central son medidas que describen la localización del centro de la distribución. Las principales medidas son la media la mediana y la moda.

La media aritmética es el promedio, es decir, el valor que se obtiene al sumar todas las observaciones y dividirlos entre el total de observaciones. 
$$
 \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \
$$
Con *pandas* podemos utilizar `df['col1'].mean()` para obtener la media de "col1". De manera predeterminada, excluye los valores perdidos.

In [None]:
df['edad_jefe'].mean()

La mediana ($\tilde{x} \$) es el valor que separa la mitad de los datos ordenados de la otra mitad restante. En el caso de los datos cuantitativos, si existen valores extremos la mediana es una mejor opción que la media. Con *pandas* podemos utilizar `df['col1'].median()` para obtener la media de "col1". 

In [None]:
df['edad_jefe'].median()

Si el valor de la media y la mediana es similar, esto sugiere que la distribución de los datos es simétrica. Si la media es mayor que la mediana, esto sugiere un sesgo a la derecha. Si la media es menor a la mediana, esto sugiere un sesgo a la izquierda.

In [None]:
df['edad_jefe'].hist();

La moda ($\hat{x}$) es el valor que más repite en un conjunto de datos. Una ventaja de la moda es que se puede calcular para cualquier tipo de variable. A diferencia de la media o la mediana, pueden existir varias modas o incluso ninguna, por lo tanto, esta función puede arrojar varias modas.

In [None]:
df['edad_jefe'].mode()

## Medidas de variación o dispersión
Son estadísticos que miden la dispersión de la distribución. 
El rango es la diferencia entre el valor más grande y el más pequeño de una distribución.

In [None]:
df['edad_jefe'].max() - df['edad_jefe'].min()

La varianza es la desviación promedio al cuadrado de todos los valores con respecto a la media.

Si los datos son poblacionales:
$$
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
$$

Si los datos son muestrales se utiliza una corrección (n-1) para ajustar la estimación. 
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$
A partir de la expresión anterior se puede demostrar que $E[s^2] = \sigma^2$

In [None]:
df['edad_jefe'].var()

La desviación estándar es la raíz cuadrada de la varianza.


Si los datos son poblacionales:
$$
\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}
$$

Si los datos son muestrales:
$$
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
$$

In [None]:
df['edad_jefe'].std()

## Medidas de forma
Las medidas de forma permiten conocer la forma de la distribución de los datos. La asimetría es una característica que determina su sesgo con respecto a la media. Se puede considerar que la asimetría es la tendencia de una de las colas de la distribución a ser más larga que la otra. Un valor cercano a cero (i. e. entre -0.5 y 0.5)indica una distribución aproximadamente simétrica. Un valor positivo indica un sesgo hacia la derecha, un valor negativo indica un sesgo hacia la izquierda. 

In [None]:
df['edad_jefe'].skew()

La curtosis es una medida del pico o aplanamiento de la curva definida por la distribución de frecuencias. Considerando la curtosis excesiva (curtosis menos 3), si la curtosis es positiva la cúspide es más puntiaguda que una distribución normal, si la curtosis es negativa la cúspide es más plana que una distribución normal.

In [None]:
df['edad_jefe'].kurt()

## Medidas de posición

Las medidas de posición más comunes son los cuartiles, deciles y percentiles.
Los cuartiles dividen un conjunto de datos ordenado en cuatro partes iguales. El primer cuartil (Q1) es el valor que separa el 25% inferior de los datos del 75% superior. El segundo cuartil (Q2) es la mediana, y el tercer cuartil (Q3) separa el 75% inferior del 25% superior. De manera semejante, los percentiles dividen el conjunto de datos en 100 partes iguales. El percentil n-ésimo es el valor que separa el n% de los datos más bajos del resto.

In [None]:
df['edad_jefe'].quantile(0.50)

## Resumen de medidas descriptivas

In [None]:
df['edad_jefe'].describe()

## Referencias
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.std.html