In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/panel_data.csv
%cd ..

# ¬øPandas? üêºüêº
Es una **librer√≠a** de Python que permite manejar **datos tabulares**, el nombre deriva de *panel datas*, un tipo de tabla que muestra datos sobre mediciones a lo largo del tiempo.

|persona | a√±o | ingreso | edad |
|--------|-----|---------|------|
| 1 | 2010 | 1300  | 22  |
| 1 | 2011  | 1450  | 23 |
| 2 | 2009  | 2300  | 25  |
| 3 | 2010  | 2600  | 27  |


Cuenta con funciones para leer tablas, analizarlas, seleccionar columnas, realizar limpieza de datos y transformaciones con estos ü§Ø.  
Operaciones imprescindibles cuando queremos que la m√°quina aprenda de los datos üòâ.

# Comma-separated values
El **formato** m√°s extendido para almacenar datos tabulares es ~~excel~~ **.csv**, este es un archivo de texto plano que describe **cada fila en una linea** de texto y **separa las columnas por comas** (sin espacios). La **primera fila es el encabezado**, contiene los nombres de cada columna, las siguientes filas contienen los datos.

Para nuestra tabla, el archivo .csv tiene este formato:

```
persona,a√±o,ingreso,edad
1,2010,1300,22
1,2010,1450,23
 ...
```
Esto nos permite almacenar grandes cantidades de datos de forma f√°cil y sin que ocupen demasiado espacio, pero no son sencillos de manejar si los tratamos como texto plano ‚òπÔ∏è.

# Cargando csv
La funci√≥n `pandas.read_csv` nos permite leer archivos, esta recibe una cadena con el **directorio** donde est√° el archivo, y retorna un objeto de tipo *DataFrame* el cual tambi√©n contiene un √≠ndice y tiene m√©todos como `head` que nos permite ver las **primeras filas** de la tabla, por defecto nos mostrar√° cinco.

In [None]:
import pandas as pd

data = pd.read_csv('./datasets/panel_data.csv')
type(data)

In [None]:
data.head()

Podemos escoger el **n√∫mero** de filas que nos mostrar√° mandando un entero como argumento

In [None]:
data.head(3)

# Mirando DataFrames
Estos objetos ya cuentan con los m√©todos necesarios para las operaciones que necesitamos, adem√°s de m√©todos que nos proporcionan informaci√≥n sobre el mismo, por ejemplo, podemos generar un **resumen** de esta tabla utilizando el m√©todo `info`.

In [None]:
data.info()

Este resumen muestra **cu√°ntos** datos tenemos, si tenemos datos **nulos** y el **tipo de dato** o 'dtype' de cada columna.
Para esta tabla, no tenemos datos nulos, y todas las columnas tienen enteros.

Tambi√©n podemos obtener algunos datos estad√≠sticos con el m√©todo `describe`

In [None]:
data.describe()

Y verificar si contamos con elementos vac√≠os con el m√©todo `isna` este mostrar√° verdadero o falso seg√∫n sea el caso.

In [None]:
data.isna()

Los cuales podemos eliminar con el m√©todo `dropna` en nuestro caso no temos elementos vac√≠os, por lo que la tabla no cambiar√°.

In [None]:
data = data.dropna()
data.head()

## Columnas
Podemos **manipular** las columnas como si tuvi√©ramos un **diccionario**, esta operaci√≥n nos devuelve un objeto *Series*, por lo que tambi√©n nos mostrar√° un √≠ndice y el *dtype* de la columna al imprimirlo. Adicionalmente, podemos pasar una **lista** de nombres de columnas, intenta pasar algunas üòÉ

In [None]:
columna = "edad"

print(data[columna])
type(data[columna])

De la misma manera podemos **definir nuevas columnas** de manera din√°mica.  
Si deseamos almacenar el ingreso en miles en vez de unidades podr√≠amos utilizar el siguiente c√≥digo:

In [None]:
data["ingreso_en_miles"] = data["ingreso"] / 1000

data.info()

Si deseamos eliminar la columna original utilizamos el m√©todo `drop` el argumento `axis="columns"` indica que eliminaremos una columna.

In [None]:
data.drop('ingreso', axis="columns")

Por defecto `drop` no altera la variable original, en su lugar, retorna una copia con los cambios. Esto puede ser √∫til para evitar borrones no deseados.

In [None]:
data.head()

Si deseamos **alterar la instancia original**, debemos a√±adir el argumento `inplace=True` a la funci√≥n `drop`, int√©ntalo en la celda de m√°s arriba üòâ

## Filas
Para leer filas podemos usar el **√≠ndice**, pero debe ser junto al atributo `iloc`, este tambi√©n nos permite **manipularlo como matriz**, para tener acceso de la forma **\[fila\]\[columna\]** o bien **\[fila, columna\]**

Tambien podemos usar *slicing* para definir rangos, prueba definiendo alguno üòé

In [None]:
fila = 2
print(data.iloc[fila])

In [None]:
fila, columna = 2, 2
print(data.iloc[fila][columna])
print(data.iloc[fila, columna])

## Filtrando filas
Una de las operaciones m√°s curiosas es pasar una **lista de booleanos como √≠ndice**, esta debe tener el **n√∫mero de filas** del *DataFrame*, podemos obtener este dato usando la funci√≥n `len` sobre el mismo.

In [None]:
num_filas = len(data)
indices_bool = [True] * num_filas
indices_bool[2] = False

data[indices_bool]

0, 1, 3, 4, ... ¬°Falta la fila con √≠ndice 2! üò∞  
Y aprovecharemos eso para **filtrar** las filas üòé si escribimos una **condici√≥n** con alguna columna del *DataFrame*...

In [None]:
data['edad'] > 23

Obtendremos una *Series* de booleanos, la cual tambi√©n podemos usar como √≠ndice para filtrar üòé.

In [None]:
condicion = data['edad'] > 23
data[condicion]

Si quieres usar **varias condiciones**, debes utilizar los operadores l√≥gicos `&` y `|`, que corresponden a `and` y `or` en Python, pero no podemos usar esas sentencias ‚òπÔ∏è. Adem√°s, debes encerrar las condiciones en par√©ntesis.

In [None]:
condicion = (data['edad'] > 23) & (data['a√±o'] > 2010)
data[condicion]

No es la forma m√°s c√≥moda de escribirlas, pero existe una mejor, utilizando el m√©todo `query` podemos declarar las **condiciones como una cadena**.

In [None]:
data.query("edad > 23 & a√±o > 2010")

# Ejercicios
En algunas ocasiones, contaremos con columnas irrelevantes, como un identificador o nombres de personas.  
¬øC√≥mo evitamos cargarlas en un DataFrame? utiliza el archivo "panel_data.csv" para **evitar cargar la columna** "persona".

In [None]:
# recuerda haber cargado el dataset y mira la documentaci√≥n


Tener una tabla de verdaderos y falsos para verificar si existen valores nulos no es nada pr√°ctico.   
¬øQu√© maneras se te ocurren para **contar valores nulos** en un dataset?

In [None]:
# True puede ser 1 y False 0


# Pandas listo
Estas ser√≠an algunas de las operaciones m√°s b√°sicas para manejar tablas en pandas üêº  
Continuemos con el ["Hola mundo" del Machine Learning](2_hola_mundo.ipynb)