# Estadísticas básicas con `pandas`

En esta guía aprenderemos a realizar a manejar estadísticamente nuestros datos con métodos que vienen por defecto en en el paquete `pandas`.

## Importación de paquete y lectura de datos

In [1]:
import pandas as pd

In [2]:
surveys_df = pd.read_csv('surveys.csv')
surveys_df.head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


## Estadísticas básicas

Podemos obtener la media de una columna de nuestra data usando el método `mean()` al final de la linea. Por ejemplo, si queremos saber cuál es el promedio de pesos de todos nuestros datos, usaremos:

In [3]:
surveys_df['weight'].mean()

42.672428212991356

Similarmente, para la media usaremos `median()`:

In [4]:
surveys_df['weight'].median()

37.0

Si queremos obtener una descripción con estadísticas básicas de esta columna, podemos utilizar el método `decribe()`:

In [5]:
surveys_df['weight'].describe()

count    32283.000000
mean        42.672428
std         36.631259
min          4.000000
25%         20.000000
50%         37.000000
75%         48.000000
max        280.000000
Name: weight, dtype: float64

Estos métodos se acoplan a cualquier clase de filtración previa de datos. Por ejemplo, si queremos saber cuál es la media de los pesos de todas las hembras en nuestros datos, usaremos la siguiente linea:

In [6]:
surveys_df[surveys_df['sex'] == 'F']['weight'].mean()

42.17055479317781

Podemos agrupar los datos usando los valores de una columna como factores y obtener métricas por grupo (e.g. promedio, media). Para agrupar, usamos el método `groupby()`. Por ejemplo, si queremos obtener el promedio 

In [7]:
surveys_df.groupby('sex')['weight'].mean()

sex
F    42.170555
M    42.995379
Name: weight, dtype: float64

De la misma manera, podemos tener el promedio de la longitud del pie trasero (i.e. columna `hindfoot_length`) por especie:

In [8]:
surveys_df.groupby('species_id')['hindfoot_length'].median()

species_id
AB     NaN
AH    33.0
AS     NaN
BA    13.0
CB     NaN
CM     NaN
CQ     NaN
CS     NaN
CT     NaN
CU     NaN
CV     NaN
DM    36.0
DO    36.0
DS    50.0
DX     NaN
NL    32.0
OL    21.0
OT    20.0
OX    19.5
PB    26.0
PC     NaN
PE    20.0
PF    16.0
PG     NaN
PH    26.0
PI    22.0
PL    20.0
PM    20.0
PP    22.0
PU     NaN
PX    19.5
RF    17.0
RM    17.0
RO    15.0
RX    18.5
SA     NaN
SC     NaN
SF    27.0
SH    29.0
SO    25.0
SS     NaN
ST     NaN
SU     NaN
UL     NaN
UP     NaN
UR     NaN
US     NaN
ZL     NaN
Name: hindfoot_length, dtype: float64

Se puede también obtener agrupaciones usando más de una columna (i.e. agrupaciones multinivel) y ver nuevamente la longitud promedio del pie trasero, pero esta vez, por especie (i.e columna `species_id`) y sexo (i.e. `sex`):

In [9]:
surveys_df.groupby(['species_id','sex'])['hindfoot_length'].median()

species_id  sex
AH          M       NaN
BA          F      13.0
            M      13.0
DM          F      36.0
            M      36.0
DO          F      36.0
            M      36.0
DS          F      50.0
            M      50.0
NL          F      32.0
            M      33.0
OL          F      20.0
            M      21.0
OT          F      20.0
            M      20.0
OX          F      19.0
            M      20.0
PB          F      26.0
            M      26.0
PE          F      20.0
            M      20.0
PF          F      16.0
            M      16.0
PH          F      26.0
            M      26.0
PI          M      22.5
PL          F      20.0
            M      20.0
PM          F      20.0
            M      21.0
PP          F      22.0
            M      22.0
PX          F      19.0
            M      20.0
RF          F      17.0
            M      17.0
RM          F      17.0
            M      17.0
RO          F      14.5
            M      16.0
RX          M      18.5
