In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/panel_data.csv
%cd ..

# ¿Pandas? 🐼🐼
Es una **librería** de Python que permite manejar **datos tabulares**, el nombre deriva de *panel datas*, un tipo de tabla que muestra datos sobre mediciones a lo largo del tiempo.

|persona | año | ingreso | edad |
|--------|-----|---------|------|
| 1 | 2010 | 1300  | 22  |
| 1 | 2011  | 1450  | 23 |
| 2 | 2009  | 2300  | 25  |
| 3 | 2010  | 2600  | 27  |


Cuenta con funciones para leer tablas, analizarlas, seleccionar columnas, realizar limpieza de datos y transformaciones con estos 🤯.  
Operaciones imprescindibles cuando queremos que la máquina aprenda de los datos 😉.

# Comma-separated values
El **formato** más extendido para almacenar datos tabulares es ~~excel~~ **.csv**, este es un archivo de texto plano que describe **cada fila en una linea** de texto y **separa las columnas por comas** (sin espacios). La **primera fila es el encabezado**, contiene los nombres de cada columna, las siguientes filas contienen los datos.

Para nuestra tabla, el archivo .csv tiene este formato:

```
persona,año,ingreso,edad
1,2010,1300,22
1,2010,1450,23
 ...
```
Esto nos permite almacenar grandes cantidades de datos de forma fácil y sin que ocupen demasiado espacio, pero no son sencillos de manejar si los tratamos como texto plano ☹️.

# Cargando csv
La función `pandas.read_csv` nos permite leer archivos, esta recibe una cadena con el **directorio** donde está el archivo, y retorna un objeto de tipo *DataFrame* el cual también contiene un índice y tiene métodos como `head` que nos permite ver las **primeras filas** de la tabla, por defecto nos mostrará cinco.

In [1]:
import pandas as pd

data = pd.read_csv('./datasets/panel_data.csv')
type(data)

pandas.core.frame.DataFrame

In [2]:
data.head()

Unnamed: 0,persona,año,ingreso,edad
0,1,2010,1300,22
1,1,2010,1450,23
2,2,2009,2300,25
3,3,2010,2600,27
4,3,2011,2500,28


Podemos escoger el **número** de filas que nos mostrará mandando un entero como argumento

In [3]:
data.head(3)

Unnamed: 0,persona,año,ingreso,edad
0,1,2010,1300,22
1,1,2010,1450,23
2,2,2009,2300,25


# Mirando DataFrames
Estos objetos ya cuentan con los métodos necesarios para las operaciones que necesitamos, además de métodos que nos proporcionan información sobre el mismo, por ejemplo, podemos generar un **resumen** de esta tabla utilizando el método `info`.

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   persona  6 non-null      int64
 1   año      6 non-null      int64
 2   ingreso  6 non-null      int64
 3   edad     6 non-null      int64
dtypes: int64(4)
memory usage: 320.0 bytes


Este resumen muestra **cuántos** datos tenemos, si tenemos datos **nulos** y el **tipo de dato** o 'dtype' de cada columna.
Para esta tabla, no tenemos datos nulos, y todas las columnas tienen enteros.

También podemos obtener algunos datos estadísticos con el método `describe`

In [5]:
data.describe()

Unnamed: 0,persona,año,ingreso,edad
count,6.0,6.0,6.0,6.0
mean,2.333333,2010.166667,2225.0,26.0
std,1.21106,0.752773,725.086202,3.34664
min,1.0,2009.0,1300.0,22.0
25%,1.25,2010.0,1662.5,23.5
50%,2.5,2010.0,2400.0,26.0
75%,3.0,2010.75,2575.0,27.75
max,4.0,2011.0,3200.0,31.0


Y verificar si contamos con elementos vacíos con el método `isna` este mostrará verdadero o falso según sea el caso.

In [6]:
data.isna()

Unnamed: 0,persona,año,ingreso,edad
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False


Los cuales podemos eliminar con el método `dropna` en nuestro caso no temos elementos vacíos, por lo que la tabla no cambiará.

In [8]:
data = data.dropna()
data.head(6)

Unnamed: 0,persona,año,ingreso,edad
0,1,2010,1300,22
1,1,2010,1450,23
2,2,2009,2300,25
3,3,2010,2600,27
4,3,2011,2500,28
5,4,2011,3200,31


## Columnas
Podemos **manipular** las columnas como si tuviéramos un **diccionario**, esta operación nos devuelve un objeto *Series*, por lo que también nos mostrará un índice y el *dtype* de la columna al imprimirlo. Adicionalmente, podemos pasar una **lista** de nombres de columnas, intenta pasar algunas 😃

In [9]:
columna = "edad"

print(data[columna])
type(data[columna])

0    22
1    23
2    25
3    27
4    28
5    31
Name: edad, dtype: int64


pandas.core.series.Series

De la misma manera podemos **definir nuevas columnas** de manera dinámica.  
Si deseamos almacenar el ingreso en miles en vez de unidades podríamos utilizar el siguiente código:

In [10]:
data["ingreso_en_miles"] = data["ingreso"] / 1000

data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 0 to 5
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   persona           6 non-null      int64  
 1   año               6 non-null      int64  
 2   ingreso           6 non-null      int64  
 3   edad              6 non-null      int64  
 4   ingreso_en_miles  6 non-null      float64
dtypes: float64(1), int64(4)
memory usage: 288.0 bytes


Si deseamos eliminar la columna original utilizamos el método `drop` el argumento `axis="columns"` indica que eliminaremos una columna.

In [13]:
data.drop('ingreso', axis="columns", inplace=True)

Por defecto `drop` no altera la variable original, en su lugar, retorna una copia con los cambios. Esto puede ser útil para evitar borrones no deseados.

In [14]:
data.head()

Unnamed: 0,persona,año,edad,ingreso_en_miles
0,1,2010,22,1.3
1,1,2010,23,1.45
2,2,2009,25,2.3
3,3,2010,27,2.6
4,3,2011,28,2.5


Si deseamos **alterar la instancia original**, debemos añadir el argumento `inplace=True` a la función `drop`, inténtalo en la celda de más arriba 😉

## Filas
Para leer filas podemos usar el **índice**, pero debe ser junto al atributo `iloc`, este también nos permite **manipularlo como matriz**, para tener acceso de la forma **\[fila\]\[columna\]** o bien **\[fila, columna\]**

Tambien podemos usar *slicing* para definir rangos, prueba definiendo alguno 😎

In [23]:
fila = 2
print(data.iloc[fila:])

   persona   año  edad  ingreso_en_miles
2        2  2009    25               2.3
3        3  2010    27               2.6
4        3  2011    28               2.5
5        4  2011    31               3.2


In [16]:
fila, columna = 2, 2
print(data.iloc[fila][columna])
print(data.iloc[fila, columna])

25.0
25


In [18]:
# slicing
lista = [2, 5, 4, 6, 9]
lista[3]

6

In [24]:
lista[3:]

[6, 9]

## Filtrando filas
Una de las operaciones más curiosas es pasar una **lista de booleanos como índice**, esta debe tener el **número de filas** del *DataFrame*, podemos obtener este dato usando la función `len` sobre el mismo.

In [25]:
num_filas = len(data)
num_filas

6

In [26]:
indices_bool = [True] * num_filas
indices_bool

[True, True, True, True, True, True]

In [28]:
indices_bool[2] = False
indices_bool

[True, True, False, True, True, True]

In [29]:
data[indices_bool]

Unnamed: 0,persona,año,edad,ingreso_en_miles
0,1,2010,22,1.3
1,1,2010,23,1.45
3,3,2010,27,2.6
4,3,2011,28,2.5
5,4,2011,31,3.2


0, 1, 3, 4, ... ¡Falta la fila con índice 2! 😰  
Y aprovecharemos eso para **filtrar** las filas 😎 si escribimos una **condición** con alguna columna del *DataFrame*...

In [30]:
data['edad'] > 23

0    False
1    False
2     True
3     True
4     True
5     True
Name: edad, dtype: bool

Obtendremos una *Series* de booleanos, la cual también podemos usar como índice para filtrar 😎.

In [31]:
condicion = data['edad'] > 23
data[condicion]

Unnamed: 0,persona,año,edad,ingreso_en_miles
2,2,2009,25,2.3
3,3,2010,27,2.6
4,3,2011,28,2.5
5,4,2011,31,3.2


Si quieres usar **varias condiciones**, debes utilizar los operadores lógicos `&` y `|`, que corresponden a `and` y `or` en Python, pero no podemos usar esas sentencias ☹️. Además, debes encerrar las condiciones en paréntesis.

In [35]:
condicion = (data['edad'] > 23) & (data['año'] > 2010)
data[condicion]

Unnamed: 0,persona,año,edad,ingreso_en_miles
4,3,2011,28,2.5
5,4,2011,31,3.2


No es la forma más cómoda de escribirlas, pero existe una mejor, utilizando el método `query` podemos declarar las **condiciones como una cadena**.

In [34]:
data.query("edad > 23 & año > 2010")

Unnamed: 0,persona,año,edad,ingreso_en_miles
4,3,2011,28,2.5
5,4,2011,31,3.2


# Ejercicios
En algunas ocasiones, contaremos con columnas irrelevantes, como un identificador o nombres de personas.  
¿Cómo evitamos cargarlas en un DataFrame? utiliza el archivo "panel_data.csv" para **evitar cargar la columna** "persona".

In [None]:
# recuerda haber cargado el dataset y mira la documentación


Tener una tabla de verdaderos y falsos para verificar si existen valores nulos no es nada práctico.   
¿Qué maneras se te ocurren para **contar valores nulos** en un dataset?

In [None]:
# True puede ser 1 y False 0


# Pandas listo
Estas serían algunas de las operaciones más básicas para manejar tablas en pandas 🐼  
Continuemos con el ["Hola mundo" del Machine Learning](2_Hola_mundo.ipynb)