#### Funciones básicas de agregación y estadísticas

Además de las funciones matemáticas de NumPy, Pandas también incluye las operaciones básicas estadísticas y de cálculo de agregados.

In [None]:
# Supongamos que tenemos medidas del peso 
# de varias personas (p1, p2, p3)
# a lo largo de varios años (2012..2016)
# FIJATE en el valor `None`
df_pesos = DataFrame({
        "p1" : [ 82.9,  79.5,  80.1,  None,  78.9], 
        "p2" : [ 63.8,  63. ,  63.7,  65.2,  65.2],
        "p3" : [ 73.5,  72.3,  71.8,  71.4,  69. ]
        }, index = [2012, 2013, 2014, 2015, 2016])

# Podemos calcular el peso medio de cada persona a lo largo del tiempo
# (promedio de valores de todas las filas para cada columna)
df_pesos.mean()
# es equivalente a `df_pesos.mean(axis = 'rows')`

p1    80.35
p2    64.18
p3    71.60
dtype: float64

In [None]:
# O calcular la media de los pesos observados cada año
# (promedio por valores de todas las columnas para cada fila, 
#  usando `axis = columns`)
df_pesos.mean(axis = 'columns')

2012    73.400000
2013    71.600000
2014    71.866667
2015    68.300000
2016    71.033333
dtype: float64

El comportamiento por defecto de las funciones estadísticas es calcular los agregados tomando los valores de todas las filas, a lo largo de cada columna, reduciendo el resultado a una sola fila o serie (equivalente a usar el argumento `axis = 'rows'`). 

Si queremos calcular el agregado basado en los valores de todas las columnas a lo largo de cada fila, utilizamos el argumento `axis = 'columns'`.

¿Te has fijado en el valor `None` que hemos metido en el DataFrame? Pandas lo transforma directamente a `NaN`. Sin embargo, no afecta a los cálculos de `mean()`. En estas funciones de agregación, Pandas descarta por defecto los elementos con valor `NaN`. Si preferimos que los tenga en cuenta, podemos utilizar el argumento '`skipna = False`'. Ten en cuenta que en este caso, las columnas (o filas) que tengan algún valor `NaN` darán como resultado otro `NaN`.

In [None]:
df_pesos.mean(skipna = False)

p1      NaN
p2    64.18
p3    71.60
dtype: float64

Aquí tienes un cuadro resumen de las principales funciones de agregación y estadísticas que puedes usar con Series y DataFrames.

| Función              | Descripción       |
|:---------------------|:------------------|
| `count()`            | Número total de elementos (no nulos) |
| `sum()`              | Suma de todos los elementos |
| `prod()`             | Producto de todos los elementos |
| `mean()`             | Valor medio |
| `median()`           | Mediana |
| `std()`              | Desviación típica |
| `var()`              | Varianza                |
| `quantile(q)`        | cuantil q-ésimo |
| `min()`, `max()`     | Valores mínimo y máximo |
| `first()`, `last()`  | Valor inicial y final |
