In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/panel_data.csv
%cd ..

# ¿Pandas? 🐼🐼
Es una **librería** de Python que permite manejar **datos tabulares**, el nombre deriva de *panel datas*, un tipo de tabla que muestra datos sobre mediciones a lo largo del tiempo.

|persona | año | ingreso | edad |
|--------|-----|---------|------|
| 1 | 2010 | 1300  | 22  |
| 1 | 2011  | 1450  | 23 |
| 2 | 2009  | 2300  | 25  |
| 3 | 2010  | 2600  | 27  |


Cuenta con funciones para leer tablas, analizarlas, seleccionar columnas, realizar limpieza de datos y transformaciones con estos 🤯.  
Operaciones imprescindibles cuando queremos que la máquina aprenda de los datos 😉.

# Comma-separated values
El **formato** más extendido para almacenar datos tabulares es ~~excel~~ **.csv**, este es un archivo de texto plano que describe **cada fila en una linea** de texto y **separa las columnas por comas** (sin espacios).
La **primera fila es el encabezado**, contiene los nombres de cada columna, las siguientes filas contienen los datos.

Para nuestra tabla, el archivo .csv tiene este formato:

```
persona,año,ingreso,edad
1,2010,1300,22
1,2010,1450,23
 ...
```
Esto nos permite almacenar grandes cantidades de datos de forma fácil y sin que ocupen demasiado espacio, pero no son sencillos de manejar si los tratamos como texto plano. ☹️

# Cargando csv
La función `pandas.read_csv` nos permite leer archivos, esta retorna un objeto de tipo *DataFrame* el cual también contiene un índice y tiene métodos como `head` que nos permite ver las **primeras filas** de la tabla, por defecto nos mostrará cinco.

In [None]:
import pandas as pd

data = pd.read_csv('./datasets/panel_data.csv')
type(data)

In [None]:
data.head()

Podemos escoger el **número** de filas que nos mostrará mandando un entero como argumento

In [None]:
data.head(3)

# Manipulando DataFrames
Estos objetos ya cuentan con los métodos necesarios para las operaciones que necesitamos, podemos generar un **resumen** de esta tabla utilizando el método `info`.

In [None]:
data.info()

Este resumen muestra **cuántos** datos tenemos, si tenemos datos **nulos** y el **tipo de dato** o 'dtype' de cada columna.
Para esta tabla, no tenemos datos nulos, y todas las columnas tienen enteros.

## Columnas
Podemos **manipular** las columnas como si tuviéramos un **diccionario**, esta operación nos devuelve un objeto *Series*, por lo que también nos mostrará un índice y el *dtype* de la columna al imprimirlo. Adicionalmente, podemos pasar una **lista** de nombres de columnas, intenta pasar algunas 😃

In [None]:
columna = "edad"

print(data[columna])
type(data[columna])

De la misma manera podemos **definir nuevas columnas** de manera dinámica.  
Si deseamos almacenar el ingreso en miles en vez de unidades podríamos utilizar el siguiente código:

In [None]:
data["ingreso_en_miles"] = data["ingreso"] / 1000

data.info()

Si deseamos eliminar la columna original utilizamos el método `drop` el argumento `axis="columns"` indica que eliminaremos una columna.

In [None]:
data.drop('ingreso', axis="columns")

Por defecto `drop` no altera la variable original, en su lugar, retorna una copia con los cambios. Esto puede ser útil para evitar borrones no deseados.

In [None]:
data.head()

Si deseamos **alterar la instancia original**, debemos añadir el argumento `inplace=True` a la función `drop`, inténtalo en la celda de más arriba 😉

## Filas
Para leer filas podemos usar el **índice**, pero debe ser junto al atributo `iloc`, este también nos permite **manipularlo como matriz**, para tener acceso de la forma **\[fila\]\[columna\]** o bien **\[fila, columna\]**

Tambien podemos usar *slicing* para definir rangos, prueba definiendo alguno 😎

In [None]:
fila = 2
print(data.iloc[fila])

In [None]:
fila, columna = 2, 2
print(data.iloc[fila][columna])
print(data.iloc[fila, columna])

## Filtrando filas
Una de las operaciones más curiosas es pasar una **lista de booleanos como índice**, esta debe tener el **número de filas** del *DataFrame*, podemos obtener este dato usando la función `len` sobre el mismo.

In [None]:
num_filas = len(data)
indices_bool = [True] * num_filas
indices_bool[2] = False

data[indices_bool]

0, 1, 3, 4, ... ¡Falta la fila con índice 2! 😰  
Y aprovecharemos eso para **filtrar** las filas 😎 si escribimos una **condición** con alguna columna del *DataFrame*...

In [None]:
data['edad'] > 23

Obtendremos una *Series* de booleanos, la cual también podemos usar como índice para filtrar 😎

In [None]:
condicion = data['edad'] > 23
data[condicion]

Si quieres usar **varias condiciones**, debes utilizar los operadores lógicos `&` y `|` además de encerrar las condiciones en paréntesis

In [None]:
condicion = (data['edad'] > 23) & (data['año'] > 2010)
data[condicion]

No es la forma más cómoda de escribirlas, pero existe una mejor, utilizando el método `query` podemos declarar las **condiciones como una cadena**.

In [None]:
data.query("edad > 23 & año > 2010")

Estas serían las operaciones más básicas para manejar tablas en pandas 🐼  
Continuemos con el ["Hola mundo" del Machine Learning](2_hola_mundo.ipynb)