# Estadísticas descriptivas

Las estadísticas descriptivas son medidas que resumen características importantes de los datos, a menudo con un solo número. Elaborar estadísticas descriptivas es un primer paso habitual tras limpiar y preparar un conjunto de datos para su análisis.

## Medidas de tendencia central

Las medidas de tendencai cental son estadísticas que nos dan una idea del "centro" de una variable numérica. En otras palabras, las medidas de centralidad nos dan una idea del valor típico que cabría esperar. Entre las medidas comunes de centralidad se incluyen la media, la mediana y la moda.

La media es simplemente un promedio: la suma de los valores dividida por el número total de registros.

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
url = (
    "https://gist.githubusercontent.com/seankross/a412dfbd88b3db70b74b/"
    "raw/5f23f993cd87c283ce766e7ac6b329ee7cc2e1d1/mtcars.csv"
)
mtcars = pd.read_csv(url)
mtcars.index = mtcars.model
del mtcars["model"]

mtcars.head()

In [None]:
mtcars.mean()      # Obtener la media de cada columna

También podemos obtener las medias de cada fila proporcionando un argumento de eje:

In [None]:
mtcars.mean(axis=1)           # Obtener la media de cada fila

La mediana de una distribución es el valor en el que el 50% de los datos están por debajo y el otro 50% por encima. En esencia, la mediana divide los datos por la mitad. La mediana también se conoce como percentil 50%, ya que el 50% de las observaciones se encuentran por debajo de ella.

In [None]:
mtcars.median()                 # Obtener la mediana de cada columna

Una vez más, podríamos obtener las medianas de las filas suministrando el argumento axis=1.

Aunque la media y la mediana nos dan una idea del centro de una distribución, no siempre son iguales. La mediana siempre nos da un valor que divide los datos en dos mitades, mientras que la media es una media numérica, por lo que los valores extremos pueden tener un impacto significativo en la media. En una distribución simétrica, la media y la mediana serán iguales. Investiguemos con un gráfico de densidad:

In [None]:
norm_data = pd.DataFrame(np.random.normal(size=100000))

norm_data.plot(kind="density",
              figsize=(10,10));


plt.vlines(norm_data.mean(),     # Trazar línea negra en la media
           ymin=0, 
           ymax=0.4,
           linewidth=5.0);

plt.vlines(norm_data.median(),   # Trazar línea roja en la mediana
           ymin=0, 
           ymax=0.4, 
           linewidth=2.0,
           color="red");

En el gráfico anterior, la media y la mediana están tan próximas a cero que la línea roja de la mediana se sitúa encima de la línea negra más gruesa trazada en la media.

En las distribuciones sesgadas, la media tiende a ser arrastrada en la dirección del sesgo, mientras que la mediana tiende a resistir los efectos del sesgo:

In [None]:
skewed_data = pd.DataFrame(np.random.exponential(size=100000))

skewed_data.plot(kind="density",
              figsize=(10,10),
              xlim=(-1,5));


plt.vlines(skewed_data.mean(),     # Trazar línea negra en la media
           ymin=0, 
           ymax=0.8,
           linewidth=5.0);

plt.vlines(skewed_data.median(),   # Trazar línea roja en la mediana
           ymin=0, 
           ymax=0.8, 
           linewidth=2.0,
           color="red");

La media también se ve muy influida por los valores atípicos, mientras que la mediana resiste la influencia de los valores atípicos:

In [None]:
norm_data = np.random.normal(size=50)
outliers = np.random.normal(15, size=3)
combined_data = pd.DataFrame(np.concatenate((norm_data, outliers), axis=0))

combined_data.plot(kind="density",
              figsize=(10,10),
              xlim=(-5,20));


plt.vlines(combined_data.mean(),     # Trazar línea negra en la media
           ymin=0, 
           ymax=0.2,
           linewidth=5.0);

plt.vlines(combined_data.median(),   # Trazar línea roja en la mediana
           ymin=0, 
           ymax=0.2, 
           linewidth=2.0,
           color="red");

Dado que la mediana tiende a resistir los efectos de la asimetría y los valores atípicos, se conoce como estadística "robusta". La mediana suele dar una mejor idea del valor típico en una distribución con asimetría o valores atípicos significativos.

La moda de una variable es simplemente el valor que aparece con más frecuencia. A diferencia de la media y la mediana, se puede tomar el modo de una variable categórica y es posible tener múltiples modos. Encuentre la moda con df.mode():

In [None]:
mtcars.mode()

Las columnas con modos múltiples (valores múltiples con el mismo recuento) devuelven valores múltiples como modo. Las columnas sin modo (ningún valor que aparezca más de una vez) devuelven NaN.

## Medidas de dispersión

Las medidas de dispersión son estadísticas que describen cómo varían los datos. Mientras que las medidas de centro nos dan una idea del valor típico, las medidas de dispersión nos dan una idea de cuánto tienden a divergir los datos del valor típico.

Una de las medidas más sencillas de dispersión es el rango. El rango es la distancia entre las observaciones máxima y mínima:

In [None]:
max(mtcars["mpg"]) - min(mtcars["mpg"])

Como ya se ha indicado, la mediana representa el percentil 50 de un conjunto de datos. Se puede utilizar un resumen de varios percentiles para describir la dispersión de una variable. Podemos extraer el valor mínimo (percentil 0), el primer cuartil (percentil 25), la mediana, el tercer cuartil (percentil 75) y el valor máximo (percentil 100) utilizando la función quantile():

In [None]:
five_num = [mtcars["mpg"].quantile(0),   
            mtcars["mpg"].quantile(0.25),
            mtcars["mpg"].quantile(0.50),
            mtcars["mpg"].quantile(0.75),
            mtcars["mpg"].quantile(1)]

five_num

Dado que estos valores se utilizan con tanta frecuencia para describir datos, se conocen como "resumen de cinco números". Son los mismos valores de percentil que devuelve df.describe():

In [None]:
mtcars["mpg"].describe()

El rango intercuartílico (IQR) es otra medida común de dispersión. El IQR es la distancia entre el tercer cuartil y el primer cuartil:

In [None]:
mtcars["mpg"].quantile(0.75) - mtcars["mpg"].quantile(0.25)

Los gráficos de caja son representaciones visuales del resumen de cinco números y el IQR:

In [None]:
mtcars.boxplot(column="mpg",
               return_type='axes',
               figsize=(8,8))

plt.text(x=0.74, y=22.25, s="3rd Quartile")
plt.text(x=0.8, y=18.75, s="Median")
plt.text(x=0.75, y=15.5, s="1st Quartile")
plt.text(x=0.9, y=10, s="Min")
plt.text(x=0.9, y=33.5, s="Max")
plt.text(x=0.7, y=19.5, s="IQR", rotation=90, size=25);

La varianza y la desviación típica son otras dos medidas habituales de la dispersión. La varianza de una distribución es la media de las desviaciones (diferencias) al cuadrado de la media.

In [None]:
mtcars["mpg"].var()


La desviación típica es la raíz cuadrada de la varianza. La desviación estándar puede ser más interpretable que la varianza, ya que la desviación estándar se expresa en términos de las mismas unidades que la variable en cuestión, mientras que la varianza se expresa en términos de unidades al cuadrado.

In [None]:
mtcars["mpg"].std()

Dado que tanto la varianza como la desviación típica se derivan de la media, son susceptibles a la influencia de la asimetría y los valores atípicos de los datos. La desviación absoluta de la mediana es una medida alternativa de dispersión basada en la mediana, que hereda la solidez de la mediana frente a la influencia de la asimetría y los valores atípicos. Es la mediana del valor absoluto de las desviaciones de la mediana:

In [None]:
abs_median_devs = abs(mtcars["mpg"] - mtcars["mpg"].median())

abs_median_devs.median() * 1.4826

*Nota: El MAD suele multiplicarse por un factor de escala de 1,4826.*

## Skewness y Kurtosis

Además de las medidas de centro y dispersión, las estadísticas descriptivas incluyen medidas que dan una idea de la forma de una distribución. La asimetría mide la inclinación o asimetría de una distribución, mientras que la curtosis mide cuántos datos se encuentran en las colas de una distribución en comparación con el centro. No vamos a entrar en los cálculos exactos que hay detrás de la asimetría y la curtosis, pero en esencia no son más que estadísticas que llevan la idea de varianza un paso más allá: mientras que la varianza implica elevar al cuadrado las desviaciones de la media, la asimetría implica elevar al cubo las desviaciones de la media y la curtosis implica elevar las desviaciones de la media a la cuarta potencia.

Pandas ha incorporado funciones para comprobar la asimetría y la curtosis, df.skew() y df.kurt() respectivamente:

In [None]:
mtcars["mpg"].skew()  # Check skewness

In [None]:
mtcars["mpg"].kurt()  # Check kurtosis

Para explorar más a fondo estas dos medidas, vamos a crear algunos datos ficticios e inspeccionarlos:

In [None]:
norm_data = np.random.normal(size=100000)
skewed_data = np.concatenate((np.random.normal(size=35000)+2, 
                             np.random.exponential(size=65000)), 
                             axis=0)
uniform_data = np.random.uniform(0,2, size=100000)
peaked_data = np.concatenate((np.random.exponential(size=50000),
                             np.random.exponential(size=50000)*(-1)),
                             axis=0)

data_df = pd.DataFrame({"norm":norm_data,
                       "skewed":skewed_data,
                       "uniform":uniform_data,
                       "peaked":peaked_data})

In [None]:
data_df.plot(kind="density",
            figsize=(10,10),
            xlim=(-5,5));

Ahora comprobemos la asimetría de cada una de las distribuciones. Como la asimetría se mide con la asimetría, esperaríamos ver una asimetría baja en todas las distribuciones excepto en la asimétrica, porque todas las demás son aproximadamente simétricas:

In [None]:
data_df.skew()

Ahora comprobemos la curtosis.

In [None]:
data_df.kurt()

Como podemos ver en el resultado, los datos distribuidos normalmente tienen una curtosis cercana a cero, la distribución plana tiene una curtosis negativa y las dos distribuciones con más datos en las colas frente al centro tienen una curtosis más alta.

## Wrap Up

Las estadísticas descriptivas ayudan a explorar las características de sus datos, como el centro, la dispersión y la forma, resumiéndolas con medidas numéricas. Los estadísticos descriptivos ayudan a orientar un análisis y permiten comunicar los resultados a otras personas de forma rápida y concisa. Además, determinados valores, como la media y la varianza, se utilizan en todo tipo de pruebas estadísticas y modelos predictivos.

En esta lección, hemos generado muchos datos aleatorios para ilustrar conceptos, pero en realidad no hemos aprendido mucho sobre las funciones que hemos estado utilizando para generar datos aleatorios

## Próxima lección: [Distribuciones de probabilidad](2-Distribuciones_de_probabilidad.ipynb)