# Aprendiendo a usar `pandas`

`pandas` es un paquete en Python que permite importar, manejar y exportar marcos de datos (i.e. tablas). Cuando se usa Python a través de Anaconda, este paquete se instala por defecto. Aquí daremos una revisión rápida de `pandas` para el análisis de datos.

## Importación de paquete

In [1]:
import pandas as pd

## Lectura de datos

>Los datos que usaremos para los siguientes tutoriales se encuentra [aquí](https://ndownloader.figshare.com/files/2292172) y se llama `surveys.csv`.

Una vez que se ha importado `pandas`, podemos subir nuestros datos. Ya que el archivo a ser leido (i.e. `surveys.csv`) está separado por comas, usaremos la función `pd.read_csv()`:

In [2]:
surveys_df = pd.read_csv("surveys.csv")
type(surveys_df)

pandas.core.frame.DataFrame

Notemos que el archivo se escribe **entre comillas** y que no hemos especificado la ruta donde se encuentra el mismo. Esto último es porque el archivo se encuentra en la **misma carpeta** de trabajo. Por otro lado, `pandas` es también capaz de leer un archivo desde una ruta URL, si esta se encuentra disponible:

In [3]:
surveys_df = pd.read_csv("https://ndownloader.figshare.com/files/2292172")
type(surveys_df)

pandas.core.frame.DataFrame

## Descripción de datos

Una variable de tipo `pandas.core.frame.DataFrame` puede acoplarse a diferentes métodos de análisis proveidos por `pandas`. Por ejemplo, para obtener más información acerca del tipo de variable que tiene cada columna en `surveys_df`, usamos el método/función `info()`:

In [4]:
surveys_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35549 entries, 0 to 35548
Data columns (total 9 columns):
record_id          35549 non-null int64
month              35549 non-null int64
day                35549 non-null int64
year               35549 non-null int64
plot_id            35549 non-null int64
species_id         34786 non-null object
sex                33038 non-null object
hindfoot_length    31438 non-null float64
weight             32283 non-null float64
dtypes: float64(2), int64(5), object(2)
memory usage: 2.4+ MB


Para tener una visión más exploratoria de nuestros datos, podemos usar el método `head()` que, por defecto, nos muestra las primeras cinco filas de la tabla:

In [5]:
surveys_df.head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,


pero también podemos especificar la cantidad de filas introduciendo un valor dentro de esta función:

In [6]:
surveys_df.head(2)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,


Similarmente, podemos ver las últimas filas de nuestra tabla usando el método `tail()`:

In [7]:
surveys_df.tail(3)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0
35548,35549,12,31,2002,5,,,,


Si bien `head()` y `tail()` toman ordenadamente las primeras y últimas filas de una tabla respectivamente, podemos también tomar aleatoriamente filas de una tabla usando el método `sample()`:

In [8]:
surveys_df.sample(3)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
24939,24940,2,8,1997,19,PF,F,17.0,8.0
11728,11729,7,4,1986,9,DM,M,35.0,47.0
34103,34104,5,16,2002,11,PE,F,20.0,27.0


## Selección de columnas

Si queremos ver qué columnas están disponible en nuestra tabla podemos usar el método `columns`:

In [9]:
surveys_df.columns

Index(['record_id', 'month', 'day', 'year', 'plot_id', 'species_id', 'sex',
       'hindfoot_length', 'weight'],
      dtype='object')

Si bien podemos trabajar con todas estas columnas, hay ocaciones en las cual es conveniente solamente trabajar con un número reducido de columnas objetivo. Para seleccionar una columna solamente debemos introducir el nombre de la misma al lado usando corchetes y comillas:

```python
df['columna']
```

Por ejemplo, si queremos obtener las especies (i.e. columna `species_id`) de las tres primeras filas, usaremos:

In [10]:
surveys_df['species_id'].head(3)

0    NL
1    NL
2    DM
Name: species_id, dtype: object

Similarmente, si nuestras columnas objetivo son más de una, podemos especifcarlas dentro de una lista:

```python
df[['columna1', 'columna2']]
```

Si queremos, por ejemplo, tomar tres filas aleatoreamente de las columnas relacionadas al tiempo (i.e. `year`, `month`, `day`), usaremos:

In [11]:
surveys_df[['year','month','day']].sample(3)

Unnamed: 0,year,month,day
5947,1982,5,22
15485,1989,2,4
16509,1989,10,7


Si queremos, por otro lado, tomar las últimas cuatro filas de las columnas `record_id` y `plot_id`, usaremos:

In [12]:
surveys_df[["record_id","plot_id"]].tail(4)

Unnamed: 0,record_id,plot_id
35545,35546,15
35546,35547,10
35547,35548,7
35548,35549,5


## Filtración de datos

Un tipo de filtración es el que ofrece el método `dropna()`. Este método permite eliminar aquellas filas que no tienen datos completos (i.e. `NAs`). Por ejemplo, notemos la diferencia entre la cantidad de filas antes y después de realizar la filtración:

In [13]:
len(surveys_df)

35549

In [14]:
surveys_complete = surveys_df.dropna()
len(surveys_complete)

30676

Otro tipo de filtración es cuando introducimos un serie de valores booleanos (i.e. `True`, `False`), que hayan cumplido con cierta condición, sobre una tabla. Por ejemplo, veamos la siguiente comparación entre los años de toda la tabla y el año `2000`:

In [15]:
surveys_df['year'] > 2000

0        False
1        False
2        False
3        False
4        False
         ...  
35544     True
35545     True
35546     True
35547     True
35548     True
Name: year, Length: 35549, dtype: bool

Como es de esperar, hay valores que fueron mayores (i.e. `>`) que `2000` y el valor obtenido es `True`. Cuando es lo contrario, este indica `False`. Cuando introducimos estos valores booleanos dentro de la tabla, podemos ver cómo esta serie indexa la tabla con solo aquellas filas que cumplieron la condición (i.e. los `True`s):

In [16]:
surveys_df[surveys_df['year'] > 2000].head()

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
31710,31711,1,21,2001,1,PB,F,26.0,25.0
31711,31712,1,21,2001,1,DM,M,37.0,43.0
31712,31713,1,21,2001,1,PB,M,29.0,44.0
31713,31714,1,21,2001,1,DO,M,34.0,53.0
31714,31715,1,21,2001,2,OT,M,20.0,27.0


Una forma de comprobar si la filtración de filas ha realmente tomado lugar es contando contando la cantidad de filas de la nueva tabla y comparándolo con la tabla original:

In [17]:
recent_values = surveys_df[surveys_df['year'] > 2000]
len(recent_values)

3839

Como vemos, la nueva cantidad de filas es `3839`. Comparado con `35549` filas de la tabla original, podemos decir que `31710` filas han tenido que ser muestras de años anteriores o iguales al `2000`. 

Usando la misma lógica de filtración por condición, podemos realizar diferentes tipos de selección sobre columnas. En el siguiente ejemplo tomaremos la columna `plot_id` y luego cinco valores aleatoreos:

In [18]:
surveys_df[surveys_df['year'] > 2000]['plot_id'].sample(5)

34399    15
33682    11
33801     8
34646    14
35173    15
Name: plot_id, dtype: int64

In [19]:
recent_values['plot_id'].sample(5)

34468    18
33515    11
32159     1
33632    21
33603    18
Name: plot_id, dtype: int64

## Ordenación de valores

Podemos ordenar las filas de una tabla en función a los valores de una columna usando el método `sort_values()`. En siguiente ejemplo, ordenaremos las filas de `surveys_df` en función de los valores de la columna de peso (i.e. `weight`) y tomaremos las primeras cinco filas:

In [20]:
surveys_df.sort_values('weight').head(5)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
9908,9909,1,20,1985,15,RM,F,15.0,4.0
4289,4290,4,6,1981,4,PF,,,4.0
9793,9794,1,19,1985,24,RM,M,16.0,4.0
9789,9790,1,19,1985,16,RM,F,16.0,4.0
5345,5346,2,22,1982,21,PF,F,14.0,4.0


Por defecto, la ordenación se da de forma ascendente. Podemos modificar esto usando el argumento `ascending=False` dentro de la función `sort_values()`:

In [21]:
surveys_df.sort_values('weight', ascending=False).head(3)

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
33048,33049,11,17,2001,12,NL,M,33.0,280.0
12870,12871,5,28,1987,2,NL,M,32.0,278.0
15458,15459,1,11,1989,9,NL,M,36.0,275.0


## Reto:

>Encontrar las tres primeras especies más grandes que sean hembras.


Respuesta:

In [22]:
surveys_df[surveys_df["sex"] == "F"].sort_values('hindfoot_length', ascending=False)[['species_id','hindfoot_length']].head(3)

Unnamed: 0,species_id,hindfoot_length
30424,DO,64.0
1693,DS,58.0
4448,DS,57.0


Cuando tenemos una linea larga como la anterior es conveniente partir la linea en diferentes lineas con el fin de mejorar la legibilidad. Esto puede realizarse circumscribiendo todas las piezas entre paréntesis:

In [23]:
#Here is the same thing, but as a comment.
females = surveys_df[surveys_df['sex'] == 'F']

# notemos cómo las piezas están circumscritas
# entre paréntesis, desde el principio de las 
# lineas hasta el final
(females
     .sort_values('hindfoot_length', ascending=False)
     [['species_id','hindfoot_length']]
     .head(3) )

Unnamed: 0,species_id,hindfoot_length
30424,DO,64.0
1693,DS,58.0
4448,DS,57.0
