# **Trabajando con Pandas DataFrames en Python**

Podemos automatizar el proceso de manipular datos con Python. Vale la pena pasar
tiempo escribiendo el código que haga estas tareas ya que una vez que se escribió,
lo podemos usar una y otra vez en distintos conjuntos de datos que usen un formato
similar. Esto hace a nuestros métodos fácilmente reproducibles. También resulta fácil
compartir nuestro código con nuestros colegas y ellos pueden replicar el mismo
análisis.

### Nuestros datos

Para esta lección, usaremos los datos de "Portal Teaching" que son
subconjunto de los datos estudiados por Ernst et al.
 [Long-term monitoring and experimental manipulation of a Chihuahuan Desert ecosystem near Portal, Arizona, USA](http://www.esapubs.org/archive/ecol/E090/118/default.htm).

Usaremos los datos de [Portal Project Teaching Database](https://figshare.com/articles/Portal_Project_Teaching_Database/1314459).
Esta sección usa el archivo `surveys.csv` el cual puede ser descargado desde:
[https://ndownloader.figshare.com/files/2292172](https://ndownloader.figshare.com/files/2292172)

Vamos a estudiar la especie y el peso de los animales capturados en sitios dentro de nuestra área de
estudio. El conjunto de datos esta guardado en un archivo `.csv`: cada línea
tiene información sobre un solo animal y las columnas representan:

| Columna          | Descripción                          |
|-----------------|---------------------------------------|
| record_id       | identificador único de la observación |
| month           | mes de observación                    |
| day             | día de la observación                 |
| year            | año de la observación                 |
| plot_id         | ID de un sitio en particular          |
| species_id      | código de dos letras                  |
| sex             | sexo del animal ("M", "F")            |
| hindfoot_length | tamaño de pata en mm                  |
| weight          | peso del animal en gramos             |


Las primeras líneas de nuestro archivo se ven de la siguiente manera:

~~~
record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
1,7,16,1977,2,NL,M,32,
2,7,16,1977,3,NL,M,33,
3,7,16,1977,2,DM,F,37,
4,7,16,1977,7,DM,M,36,
5,7,16,1977,3,DM,M,35,
6,7,16,1977,1,PF,M,14,
7,7,16,1977,2,PE,F,,
8,7,16,1977,1,DM,M,37,
9,7,16,1977,1,DM,F,34,
~~~

## Acerca de las bibliotecas
Una biblioteca en Python contiene un conjunto de herramientas (llamadas
funciones) que hacen tareas en nuestros datos. Importar una biblioteca es
como traer un la pieza de laboratorio de nuestro locker y montarla en nuestra
mesa de trabajo para usarla en nuestro proyecto. Una vez que la bilioteca
está instalada, puede ser usada y llamada para hacer muchas tareas.

## Pandas en Python
Una de las mejores opciones para trabajar con datos tabulares en Python es usar
la [Python Data Analysis Library](http://pandas.pydata.org/) (alias Pandas).  La
biblioteca Pandas provee estructuras de datos, genera gráficos de alta
calidad con [matplotlib](http://matplotlib.org/) y se integra de buena forma
con otras bibliotecas que usan **arrays** de [NumPy](http://www.numpy.org/)
(la cual es otra biblioteca de Python).

Python no carga todas las bibliotecas disponibles por default. Se tiene que usar
el enunciado `import` en nuestro código para usar las funciones de la biblioteca.
Para importar una biblioteca se usa la sintaxis `import nombreDeLaBiblioteca`. Si
además le queremos poner un sobrenombre para acortar los comandos, se puede
agregar `as sobrenombreAUsar`. Un ejemplo es importar la biblioteca pandas
usando su sobrenombre común `pd` como está aquí abajo.

In [20]:
import pandas as pd

Cada vez que llamemos a una función que está en la biblioteca, se usa la sintaxis
`NombreDeLaBiblioteca.NombreDeLaFuncion`. Agregar el nombre de la biblioteca
con un `.` antes del nombre de la función le indica a Python donde encontrar la función.
En el ejemplo anterior hemos importado a Pandas como `pd`. Esto significa que no
vamos a tener que escribir `pandas` cada vez que llamemos a una función de Pandas y solo
lo hagamos con su sobrenombre.

# Leyendo datos en CSV usando Pandas

Empezaremos encontrando y leyendo los datos del censo que están en
formato CSV. CSV son las siglas para _Comma-Separated Values_, valores
separados por coma, y es una manera común de guardar datos. Otros
símbolos pueden ser usados, te puedes encontrar valores separados por
tabuladores, por punto y coma o por espacios en blanco. Es fácil remplazar
un separador por otro, para usar tu aplicación. La primera línea del
archivo generalmente contiene los encabezados que dicen que hay en
cada columna. CSV (y otros separadores) hacen fácil compartir los datos y pueden
ser importados y exportados desde distintos programas, incluyendo Microsoft Excel.
Para más detalles sobre los archivos CSV, ve la lección [Organización de datos en hojas de cálculo](http://www.datacarpentry.org/spreadsheet-ecology-lesson/05-exporting-data/).
Podemos usar la función de Pandas `read_csv`para abrir el archivo directamente en
un [DataFrame](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe).

## Entonces, ¿qué es un DataFrame?

Un **DataFrame** es una estructura de datos con dos dimensiones en la cual se puede
guardar datos de distintos tipos (como caractéres, enteros, valores de punto flotante,
factores y más) en columnas. Es similar a una hoja de cálculo o una tabla de SQL o
el `data.frame` de R. Un **DataFrame** siempre tiene un índice (con inicio en 0). El índice
refiere a la posición de un elemento en la estructura de datos.

In [21]:
# Observa que se usa pd.read_csv debido a que importamos a pandas como pd
pd.read_csv("pandas_data/pandas_data/surveys.csv")

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


Podemos ver que se leyeron 35,549 líneas. Cada una de los líneas tiene
9 columnas. La primera columna es el índice del DataFrame. El índice es usado
para identificar la posición de los datos, pero no es una columna del DataFrame.
Parece ser que la función `read_csv`de Pandas leyó el archivo correctamente.
Sin embargo, no hemos salvado ningún dato en memoria por lo que no podemos
trabajar con estos. Necesitamos asignar el **DataFrame** a una variable. Recuerda que
una variable es el nombre para un valor, como `x`o `data`. Podemos crear un
nuevo objeto con el nombre de la variable y le asignamos un valor usando `=`.

Llamemos los datos del censo importados `surveys_df`:

In [22]:
surveys_df = pd.read_csv("pandas_data/pandas_data/surveys.csv")

Notemos que cuando asignamos los datos importado a un **DataFrame** a una variable,
Python no produce ninguna salida a pantalla. Podemos ver el contenido de `surveys_df`
escribiendo el nombre en la línea de comando de Python.t.

In [23]:
surveys_df

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0



el cual imprime los contenidos como anteriormente.

Nota: si la salida es más ancha que la pantalla de teminal al imprimirlo se verá algo
distinto conforme el gran conjunto de datos pasa. Se podría ver simplemente la
última columna de los datos:

No temas, todos los datos están ahí, si tu navegas hacía arriba de tu terminal.
Seleccionemos solo algunas de las líneas, esto hara más facil que la salida quepa en
una terminal, se puede ver que Pandas formateo los datos de tal manera que quepan
en la pantalla:

In [24]:
surveys_df.head() # The head() method displays the first several lines of a file. It
                  # is discussed below.

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


## Explorando los datos del censo de especies

Una vez más podemos usar la función `type` para ver que cosa es `surveys_df`:

In [25]:
type(surveys_df)

pandas.core.frame.DataFrame

Como podíamos esperar, es un **DataFrame** (o, usando el nombre completo por
el cual Python usa internamente, un  `pandas.core.frame.DataFrame`).

¿Qué tipo de cosas `surveys_df` contiene? Los **DataFrame** tienen un atributo
llamado `dtypes` que contesta esta pregunta:

In [26]:
surveys_df.dtypes

record_id            int64
month                int64
day                  int64
year                 int64
plot_id              int64
species_id          object
sex                 object
hindfoot_length    float64
weight             float64
dtype: object

Todos los valores de una columna tienen el mismo tipo. Por ejemplo, months tienen
el tipo `int64`, el cual es un tipo de entero. Las celdas en la columna de mes
no pueden tener valores fraccionarios, pero las columnas de `weight` y
`hindfoot_length` pueden, ya que son de tupo `float64`. El tipo `object` no tiene
un nombre muy útil, pero en este caso representa una palabra (como 'M' y  'F' en
el caso del sexo).

En otra lección discutiremos sobre el significado de los distintos tipos.

### Formas útiles de ver objetos **DataFrame** en Python

Hay distintas maneras de resumir y accesar a los datos guardados en un DataFrame,
usando los atributos y métodos que proveé el objeto DataFrame.

Para accesar a un atributo, se usa el nombre del objeto **DataFrame** seguido
del nombre del atributo `df_object.attribute`. Usando el **DataFrame** `surveys_df`
y el atributo `columns`, un índice de todos los nombres de las columnas en
el **DataFrame** puede ser accesado con `surveys_df.columns`.

Métodos son llamados de la misma manera usando la sintáxis `df_object.method()`.
Como ejemplo, `surveys_df.head()` obtiene las primeros líneas del **DataFrame**
`surveys_df` usando **el método `head()`**. 


## Calculando estadísticas de los datos en un **DataFrame** de Pandas

Hemos leídos los datos en Python. Ahora calculemos algunas estadísticas para
entender un poco de los datos con los que estamos trabajando. Podríamos  querer
saber cuántos animales fueron colectados en cada sitio, o cuántos de cada especie
fueron capturados. Podemos calcular estas estadísticas rápidamente usando grupos.
Pero antes tenemos que saber como los queremos argupar.

Empezemos a explorar los datos:


In [27]:
# Echemos un vistazo a las columnas
surveys_df.columns

Index(['record_id', 'month', 'day', 'year', 'plot_id', 'species_id', 'sex',
       'hindfoot_length', 'weight'],
      dtype='object')

Obtengamos una lista de todas las especies. La función `pd.unique` nos dice
los distintos valores presentes en la columna`species_id`.

In [28]:
pd.unique(surveys_df['species_id'])

array(['NL', 'DM', 'PF', 'PE', 'DS', 'PP', 'SH', 'OT', 'DO', 'OX', 'SS',
       'OL', 'RM', nan, 'SA', 'PM', 'AH', 'DX', 'AB', 'CB', 'CM', 'CQ',
       'RF', 'PC', 'PG', 'PH', 'PU', 'CV', 'UR', 'UP', 'ZL', 'UL', 'CS',
       'SC', 'BA', 'SF', 'RO', 'AS', 'SO', 'PI', 'ST', 'CU', 'SU', 'RX',
       'PB', 'PL', 'PX', 'CT', 'US'], dtype=object)

# Grupos en Pandas

En algunas ocasiones queremos calcular estadísticas de datos agrupados por
subconjuntos o atributos de nuestros datos. Por ejemplo, si queremos calcular el
promedio de peso de nuestros individuos por sitio.

Podemos calcular algunas estadísticas básica de todos los datos en una columna
usando el siguiente comando:

In [29]:
surveys_df['weight'].describe()

count    32283.000000
mean        42.672428
std         36.631259
min          4.000000
25%         20.000000
50%         37.000000
75%         48.000000
max        280.000000
Name: weight, dtype: float64

También podemos extraer una métrica en particular::

In [30]:
print(surveys_df['weight'].min(),
surveys_df['weight'].max(),
surveys_df['weight'].mean(),
surveys_df['weight'].std(),
surveys_df['weight'].count())

4.0 280.0 42.672428212991356 36.63125947458399 32283


Pero si nosotros queremos extraer información por una o más variables, por ejemplo sexo,
podemos usar el **método `.groupby` de Pandas**. Una vez que creamos
un **DataFrame** groupby, podemos calcular estadísticas por el grupo de nuestra elección.

In [31]:
# Datos agrupados por sexo
grouped_data = surveys_df.groupby('sex')

La **función `describe` de Pandas** regresa estadísticas descriptivas incluyendo:
media, meadiana, máx, mín, std y conteos para una columna en particular de los
datos. La función `describe` solo regresa los valores de estas estadísticas para las
columnas numéricas.

In [51]:
columns_to_include = ['sex'] + list(surveys_df.select_dtypes(include='number').columns)

data_to_group = surveys_df[columns_to_include]

data_to_group.groupby('sex').mean()
data_to_group.groupby('sex').describe()

Unnamed: 0_level_0,record_id,record_id,record_id,record_id,record_id,record_id,record_id,record_id,month,month,...,hindfoot_length,hindfoot_length,weight,weight,weight,weight,weight,weight,weight,weight
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
F,15690.0,18036.412046,10423.089,3.0,8917.5,18075.5,27250.0,35547.0,15690.0,6.587253,...,36.0,64.0,15303.0,42.170555,36.847958,4.0,20.0,34.0,46.0,274.0
M,17348.0,17754.835601,10132.203323,1.0,8969.75,17727.5,26454.25,35548.0,17348.0,6.396184,...,36.0,58.0,16879.0,42.995379,36.184981,4.0,20.0,39.0,49.0,280.0


El comando `groupby` es muy potente y no permite rápidamente generar
estadísticas descriptivas.


## Creando estadísticas de conteos rapidamente con Pandas

Ahora contemos el número de muestras de cada especie. Podemos hacer esto
de dsitintas maneras, pero usaremos `groupby` combinada con **el método `count()`**.


In [33]:
# Cuenta el número de muestras por especie
species_counts = surveys_df.groupby('species_id')['record_id'].count()
print(species_counts)


species_id
AB      303
AH      437
AS        2
BA       46
CB       50
CM       13
CQ       16
CS        1
CT        1
CU        1
CV        1
DM    10596
DO     3027
DS     2504
DX       40
NL     1252
OL     1006
OT     2249
OX       12
PB     2891
PC       39
PE     1299
PF     1597
PG        8
PH       32
PI        9
PL       36
PM      899
PP     3123
PU        5
PX        6
RF       75
RM     2609
RO        8
RX        2
SA       75
SC        1
SF       43
SH      147
SO       43
SS      248
ST        1
SU        5
UL        4
UP        8
UR       10
US        4
ZL        2
Name: record_id, dtype: int64


In [34]:
species_counts = surveys_df.groupby('species_id').count()
print(species_counts)

            record_id  month    day   year  plot_id    sex  hindfoot_length  \
species_id                                                                    
AB                303    303    303    303      303      0                0   
AH                437    437    437    437      437      1                2   
AS                  2      2      2      2        2      0                0   
BA                 46     46     46     46       46     45               45   
CB                 50     50     50     50       50      0                0   
CM                 13     13     13     13       13      0                0   
CQ                 16     16     16     16       16      0                0   
CS                  1      1      1      1        1      0                0   
CT                  1      1      1      1        1      0                0   
CU                  1      1      1      1        1      0                0   
CV                  1      1      1      1        1 

O, también podemos contar las líneas que tienen la especie "DO":

In [35]:
surveys_df.groupby('species_id')['record_id'].count()['DO']

3027

In [36]:
surveys_df['species_id'].value_counts()

species_id
DM    10596
PP     3123
DO     3027
PB     2891
RM     2609
DS     2504
OT     2249
PF     1597
PE     1299
NL     1252
OL     1006
PM      899
AH      437
AB      303
SS      248
SH      147
SA       75
RF       75
CB       50
BA       46
SO       43
SF       43
DX       40
PC       39
PL       36
PH       32
CQ       16
CM       13
OX       12
UR       10
PI        9
UP        8
PG        8
RO        8
PX        6
SU        5
PU        5
US        4
UL        4
AS        2
RX        2
ZL        2
ST        1
CU        1
SC        1
CS        1
CT        1
CV        1
Name: count, dtype: int64

## Funciones básicas de matemáticas

Si nosotros quisieramos, se puede hacer operaciones en una columna de los
datos. Como ejemplo multipliquemos todos los valores de peso por 2. Un uso
más útil podría ser normalizar los datos con la media, área o algñun otro valor
calculado de nuestros datos.

In [37]:
# Multiplicar todos los valores de peso por 2
surveys_df['weight']*2

0          NaN
1          NaN
2          NaN
3          NaN
4          NaN
         ...  
35544      NaN
35545      NaN
35546     28.0
35547    102.0
35548      NaN
Name: weight, Length: 35549, dtype: float64