<a href="https://colab.research.google.com/github/PUC-Infovis/syllabus-2019/blob/master/ayudantias/ayudantia00/parte1_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Ayudantía 00 || Parte 1: [Pandas](https://pandas.pydata.org/ "Pandas' homepage")**
### Por Vicente Valencia
---

### ¿Qué es Pandas?

Pandas es una librería de Python que provee estructuras de datos y herramientas de análisis de datos.

### ¿Por qué usar Pandas?

- Aumenta la productividad de quien lo use

- La ejecución de las funcionalidades de la librería es eficiente (usualmente más de lo que uno puede concebir en poco tiempo usando solo Python)

- Es una excelente herramienta para procesar datos y analizarlos rápidamente


### ¿Cómo usar Pandas?

Para poder usar Pandas, primero hay que entender cómo funciona y cuáles son sus piezas fundamentales (además de tenerlo instalado - con `pip`, por ejemplo -, pues no viene incluido con la librería estándar de Python). [Aquí](https://pandas.pydata.org/pandas-docs/stable/tutorials.html) hay una compilación de tutoriales con una infinidad de información y técnicas de uso de pandas.

Antes de empezar, hay que tener claro que Pandas utiliza fuertemente la librería [NumPy](http://www.numpy.org/) y es compatible con ella, lo que se refleja en la forma de las estructuras de datos provistas por Pandas y de muchos de los argumentos de muchas funciones y métodos de la librería.

Se empieza importando la librería, lo que por convención se hace de la siguiente manera:

In [0]:
import pandas as pd

***
# 1. Estructuras de datos

Las estructuras de datos principales que provee la librería son las [series](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html "Documentación de Series") y los [Dataframes](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html "Documentación de DataFrama").

## 1.1. [Series](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html)

Las series son conjuntos de datos **unidimensionales** e **indexados**. Son como listas de Python pero indexables no solo por números. Los datos que contienen **son del mismo tipo** (*e.g.* string, float). Para crear una serie se debe instanciar un objeto *Series*. El primer argumento del constructor es `data`, pero hay muchos más de los que pueden leer en [la documetación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html).

```python
pd.Series(data)  # instanciación simple y común
```

`data` puede ser de varias formas diferentes: [*array-like*](https://stackoverflow.com/questions/40378427/numpy-formal-definition-of-array-like-objects), *dict* o *scalar value*. En términos **simplificados**: puede ser un [array de NumPy](https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html), un diccionario de Python o un valor escalar (un número).

Por ejemplo, pasando una lista de números

In [2]:
s0 = pd.Series([5, 8, 0, 10])
s0

0     5
1     8
2     0
3    10
dtype: int64

En el llamado anterior, Pandas infirió un tipo de dato para los datos de la serie: `int64`. Los tipos de datos de Pandas tienen relación con los tipos de datos de Python y de NumPy. De esto pueden leer más [aquí](http://pbpython.com/pandas_dtypes.html). Además, se creo un índice ([Pandas index](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Index.html)) que permite tener acceso rápido a cualquiera de los datos. Este índice es la columna de la izquierda que va desde el 0 al 3.

La *property* [`loc`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.loc.html) permite acceder a los datos mediante el índice (también existe [`iloc`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.iloc.html), que puede seleccionar datos como se acostumbra a hacer con listas de Python).

In [3]:
s0.loc[2]  # acceso al elemento de la serie indexado por el número 2

0

In [4]:
s0.loc[[0, 2]]  # elementos indexados por 0 y 2

0    5
2    0
dtype: int64

Se puede especificar, también, un índice explícitamente para una serie:

In [5]:
s1 = pd.Series(['a', 2, 'c', 4], index=['z', 'x', 'w', 'y'])
s1

z    a
x    2
w    c
y    4
dtype: object

In [6]:
s1.loc['x']  # acceso al valor indexado por 'x'

2

Nótese que en `s1` hay letras y números, pero Pandas los transforma a un solo tipo de dato: `object`, que [es semejante a `str` de Python](https://stackoverflow.com/questions/34881079/pandas-distinction-between-str-and-object-types). Si se necesita conocer el tipo de dato de una serie, se puede utilizar el [método `dtype`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.dtype.html).

Por último, existe la instanciación con diccionarios y con escalares:

In [7]:
s2 = pd.Series({'i0': 'v0', 'i1': 'v1', 'i2': 'v3'})  # instanciación con diccionario. Keys=index, values=values
s2

i0    v0
i1    v1
i2    v3
dtype: object

In [8]:
s3 = pd.Series(3.14, index=range(5))  # instanciación con escalar. Todos los valores son iguales
s3

0    3.14
1    3.14
2    3.14
3    3.14
4    3.14
dtype: float64

## 1.2 [DataFrames](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Los *DataFrames* son otro tipo de estructura de datos que puede ser vista como una generalización de las series; como tablas (indexadas) con series como columnas. Cabe notar que pueden ser tablas multidimensionales, no solo de dos dimensiones.

El primer argumento del constructor *DataFrame* es `data` como en las series y puede ser un array de NumPy, un diccionario u otro *DataFrame*.

A diferencia de las series, si se instancia un *DataFrame* con un diccionario, las llaves del diccionario pasan a ser los nombres de las columnas y los valores del diccionario pasan a ser los valores de las columnas.

In [9]:
df0 = pd.DataFrame({
    'C1': [1., 2, 3], 
    'C2': 42, 
    'C3': [69, 'el mundo digital', False] 
})  # instanciación con diccionario
df0

Unnamed: 0,C1,C2,C3
0,1.0,42,69
1,2.0,42,el mundo digital
2,3.0,42,False


Es importante saber que las columnas de los *DataFrames* pueden contener datos de tipos diferentes, su atributo [`dtypes`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes) permite identificar estos tipos de datos para cada columna.

In [10]:
df0.dtypes

C1    float64
C2      int64
C3     object
dtype: object

En la celda anterior se evidencia que cada columna de `df0` tiene tipos de datos diferentes. La columna `C3`, en particular, fue creada usando una lista (*i.e.* ```[69, 'el mundo digital', False]```) con valores de distinta naturaleza: un *integer*, un *string* y un valor booleano. Pandas simplemente convirtió estos valores a su tipo de dato `object`.

Ahora un ejemplo de instanciación con un array de NumPy creado con la función [`randint`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.randint.html) del módulo [`random`](https://docs.scipy.org/doc/numpy/reference/routines.random.html).

In [0]:
import numpy as np

In [12]:
df1 = pd.DataFrame(
    np.random.randint(low=0, high=10, size=(5, 5)),
    columns=['a', 'b', 'c', 'd', 'e'],
    index=[68, 102, -4, 'u', 'vw']
)  # instanciación con NumPy array
df1

Unnamed: 0,a,b,c,d,e
68,8,6,5,5,7
102,2,5,2,4,4
-4,2,4,7,2,2
u,3,5,4,1,4
vw,6,0,3,7,9


También se puede usar la *property* [`loc`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html) e [`iloc`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc) para seleccionar **subconjuntos de filas y columnas** del *DataFrame*.

In [14]:
df0.loc[1] # fila indexada por 2 del DataFrame

C1                   2
C2                  42
C3    el mundo digital
Name: 1, dtype: object

In [15]:
df1.loc[['u', -4, 102]] # filas indexadas por 'u', -4 y 102

Unnamed: 0,a,b,c,d,e
u,3,5,4,1,4
-4,2,4,7,2,2
102,2,5,2,4,4


In [16]:
df1.loc[['u', -4, 102], ['c', 'e']]  # lo mismo de arriba, pero filtrando columnas

Unnamed: 0,c,e
u,4,4
-4,7,2
102,2,4


In [17]:
df1[['a', 'c', 'e']]  # solamente selección de columnas (sin loc)

Unnamed: 0,a,c,e
68,8,5,7
102,2,2,4
-4,2,7,2
u,3,4,4
vw,6,3,9


***
# 2. Resumiendo datos

Si se quiere atisbar los datos, existen métodos para esto, de los que algunos son [`head`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html), [`tail`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.tail.html) y [`describe`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html)

In [18]:
df1.describe()  # retorna estadísticos de los datos

Unnamed: 0,a,b,c,d,e
count,5.0,5.0,5.0,5.0,5.0
mean,4.2,4.0,4.2,3.8,5.2
std,2.683282,2.345208,1.923538,2.387467,2.774887
min,2.0,0.0,2.0,1.0,2.0
25%,2.0,4.0,3.0,2.0,4.0
50%,3.0,5.0,4.0,4.0,4.0
75%,6.0,5.0,5.0,5.0,7.0
max,8.0,6.0,7.0,7.0,9.0


***
# 3. Selección de datos de estructuras

Las selecciones que se han hecho hasta este momento son simples, pero Pandas permite **mucho** más en este ámbito. En esta sección se mostrarán algunas formas convenientes de seleccionar datos en `DataFrames`. No se cubrirán formas más avanzadas que las ya vistas para seleccionar datos de series, pues usualmente no se necesitan (y siempre pueden buscarse en la documentación).

Para obtener un conocimiento más profundo de esta sección, refiérase a [esta guía](https://pandas.pydata.org/pandas-docs/stable/indexing.html). Contiene, además, información sobre cómo modificar datos de una selección, usualmente con el operador de asignación (*i.e.* `=`)

## 3.1 Selección por secuencia/serie booleana

Este tipo de selección **es uno de los más fundamentales**, pues muchos más funcionan usando la misma lógica. 
Para seleccionar de esta manera, se provee a la *property* `loc` una secuencia de valores verdaderos o falsos.

In [19]:
df1.loc[[True, False, True, True, False]]

Unnamed: 0,a,b,c,d,e
68,8,6,5,5,7
-4,2,4,7,2,2
u,3,5,4,1,4


____
### **Importante**
Lo que sucede aquí es que **la secuencia booleana se alinea con las filas del DataFrame**, en orden, y aquellas filas que se hayan alineado con un valor booleano verdadero son las filas que estarán en la selección.
****

### 3.1.1 Operaciones que retornan una secuencia booleana

Existen formas de generar secuencias booleanas con operadores que actúan sobre las estructuras de datos de Pandas. Estas secuencias, al ser alineadas con la misma estructura de datos con `loc`, retornan los datos de la estructura que cumplan con la condición del operador.

In [20]:
bool_seq = df0['C1'] < 3
bool_seq

0     True
1     True
2    False
Name: C1, dtype: bool

`bool_seq` es una serie de valores booleanos que al ser alineados con las filas de `df0` con `loc`, hacen que `loc` retorne un nuevo *DataFrame* solo con las filas de `df0` cuyos valores de la columna `C1` que sean menores que 3.

In [21]:
df0.loc[bool_seq]

Unnamed: 0,C1,C2,C3
0,1.0,42,69
1,2.0,42,el mundo digital


Otro ejemplo de lo mismo, pero en una misma línea, usando más operadores y filtrando columnas:

In [22]:
df1.loc[~((df1['a'] < 3) & (df1['e'] >= 3)), ['c', 'e', 'b']] # ~ es not; & es and

Unnamed: 0,c,e,b
68,5,7,6
-4,7,2,4
u,4,4,5
vw,3,9,0


***
# 4. Importación de datos desde archivos

Para llevar datos desde archivos en formatos *csv* o *JSON*, Pandas provee métodos muy convenientes: [`read_csv`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) y [`read_json`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_json.html).
Se usarán en las siguientes partes de la ayudantía.

***
# 5. Asignación de valores a subconjuntos de datos

La documentación oficial de este tema está distribuída en varios documentos y hay muchas maneras de abordarlo y de realizar las mismas asignaciones, por esto es recomendable leer [esta guía](https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-part-3-d5704b4b9116).

Sin embargo, la asignación de valores usualmente se hace sobre selecciones y usando el operador de asignación (`=`), por lo que se puede (en teoría) asignar valores a selecciones sin leer la guía anterior, pero no es recomendable.

***
# 6. Agregación de datos

Muchas veces se necesita agrupar los datos de alguna forma. Pandas es especialmente útil para hacer esto. Por ejemplo, se puede calcular el promedio de las columnas o de las filas.

In [23]:
df1.mean(axis='index')  # promedio de columnas (sí, columnas)

a    4.2
b    4.0
c    4.2
d    3.8
e    5.2
dtype: float64

In [24]:
df1.mean(axis='columns')  # promedio de filas (sí, filas)

68     6.2
102    3.4
-4     3.4
u      3.4
vw     5.0
dtype: float64

Hay muchas funciones como esta y siempre se pueden buscar cuando se necesiten. 

Respecto a los *axes*, `axis='index'` significa que la operación es ejecutada en la dimensión en la que cambian los índices (al pasar de una fila a otra, los índices cambian) la operación *aplasta* las filas. `axis='columns'` es lo contrario, se *aplastan* las columnas.

Para más información sobre aplicar operaciones de agregación arbitrarias, refiérase a [estos métodos](https://pandas.pydata.org/pandas-docs/stable/basics.html#function-application)

***
# Más información

Para más detalles e información **rápidos**, [este torpedo de Pandas](https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf) es de mucha utilidad. Cubre las tareas más comunes que se pueden hacer con Pandas.

Además existe [este *cookbook*](https://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook) que es más extenso que el torpedo, pero contiene casos de uso **explicados** de Pandas.