# Pandas

### **Ingeniería de datos**
**Profesor: Domagoj Vrgoč**

### Introducción

Durante esta actividad vamos a aprender los conceptos básicos de Pandas. Vamos a aprender lo que son los objetos de tipo `Series` y los `Dataframes`, además de comandos básicos para manipularlos.

### Requisitos

Para esta actividad, vamos a utilizar *Google colab* (https://colab.research.google.com). Si deseas ejecutar este tutorial completo, necesitas cargar en google colab el archivo adjunto `Resultados_Pleb.csv`.

### Outline

En esta actividad aprenderemos:

- Qué es un objeto de tipo `Series`.
- Qué es un `Dataframe`.
- Formas más complejas de usar `Dataframes`.
- Abrir archivos `csv` con Pandas.



## Tutorial

En este tutorial estudiaremos la herramienta de análisis de datos `pandas`, una librería que permite hacer análisis y limpieza de datos en Python. Está diseñada para trabajar con datos tabulares y heterogéneos. También es utilizada en conjunto con otras herramientas para hacer *Data Science* como `NumPy`, `SciPy`, `matplotlib` y `scikit-learn`.

Partimos importando la librería:

In [92]:
import pandas as pd

### 1. Series

Vamos a partir instanciando objetos de tipo `Series`. Estos objetos son como arreglos unidimensionales, solo que su **índice es más explícito**. En la siguiente celda, vamos a instanciar el objeto `Series` a partir de una lista de números.

In [93]:
obj = pd.Series([1, 3, -4, 7])
obj

0    1
1    3
2   -4
3    7
dtype: int64

Podemos acceder a sus elemento de la misma forma en que lo hacemos con listas, es decir, utilizando corchetes `[]` con el número de la posición.

In [94]:
obj[0]

1

Los elementos pueden ser de diferentes tipos. A continuación, instanciamos un objeto de tipo `Series` que tiene elementos que son de tipo `string` y de tipo `int`. Notemos que en el ejemplo anterior, como todos los elementos eran enteros, al imprimir el objeto tenemos `dtype: int64`, mientras que en el siguiente objeto tendremos `dtype: object`.

In [95]:
obj = pd.Series(['string', 3, -4, 7])
obj

0    string
1         3
2        -4
3         7
dtype: object

Para un objeto de tipo `Series` podemos agregar un label a sus índices.

In [96]:
obj = pd.Series([1, 3, -4, 7], index=['d', 'c', 'b', 'a'])
obj

d    1
c    3
b   -4
a    7
dtype: int64

Ahora podemos acceder a los elementos a través de estos labels.


In [97]:
obj['c']

3

Pero aún podemos seguir accediendo a través de la posición.

In [98]:
obj[0]

1

Podemos seleccionar **varios elementos** según el label de su índice o su posición. Notemos que para esto tenemos que usar doble corchete, ya que con `obj[...]` estamos accediendo a la posición y lo que le estamos pasando ahora es una lista (`['c', 'a']`)

In [99]:
obj[['c', 'a']]

c    3
a    7
dtype: int64

In [100]:
obj[[0, 2]]

d    1
b   -4
dtype: int64

Podemos hacer filtros pasando un arreglo de *booleanos*:

In [101]:
obj[obj > 2]

c    3
a    7
dtype: int64

Recordemos lo que significaba la comparación `obj > 2` en `NumPy`. Esta comparación era una arreglo con el mismo largo que `obj` que tenía el valor `True` en todas las posiciones con valor mayor a 2.

In [102]:
obj > 2

d    False
c     True
b    False
a     True
dtype: bool

Por lo que en `obj[obj > 2]` se muestran sólo las filas en la que el arreglo anterior era `True`.

Finalmente, podemos crear un objeto `Series` a partir de un diccionario. Supongamos el siguiente diccionario de personas junto a su edad.

In [103]:
people = {'Alice': 20, 'Bob': 17, 'Charles': 23, 'Dino': 50}
people_series = pd.Series(people)
people_series

Alice      20
Bob        17
Charles    23
Dino       50
dtype: int64

### 2. DataFrame

Un objeto de tipo `DataFrame` representa una tabla, donde cada una de sus columnas representa un tipo. Vamos a construir una tabla a partir de un diccionario.

In [104]:
reg_chile = {'name': ['Metropolitana', 'Valparaiso', 'Biobío', 'Maule', 'Araucanía', 'O\'Higgins'],
             'pop': [7112808, 1815902, 1538194, 1044950, 957224, 914555],
             'pib': [24850, 14510, 13281, 12695, 11064, 14840]}
frame = pd.DataFrame(reg_chile)
frame

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064
5,O'Higgins,914555,14840


Podemos usar la función `head` para tener sólo las 5 primeras columnas del `Dataframe`. En este caso no es mucho aporte, pero para un `Dataframe` más grande no puede servir para ver cómo vienen los datos.

In [105]:
frame.head()

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064


In [106]:
frame.head(2)

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510


Podemos **proyectar** valores pasando el nombre de las columnas que deseamos dejar. Notemos que de la siguiente forma, obtenemos un objeto de tipo `Series`.

In [107]:
frame['name']

0    Metropolitana
1       Valparaiso
2           Biobío
3            Maule
4        Araucanía
5        O'Higgins
Name: name, dtype: object

Ahora, si es que le pasamos una lista, en este caso una lista de un elemento (`['name'])`, tendremos el mismo resultado anterior, pero esta vez con un `Dataframe`.

In [108]:
frame[['name']]

Unnamed: 0,name
0,Metropolitana
1,Valparaiso
2,Biobío
3,Maule
4,Araucanía
5,O'Higgins


De hecho, podemos pasar una lista con más valores y así proyectar más de una columna.

In [109]:
frame[['name', 'pop']]

Unnamed: 0,name,pop
0,Metropolitana,7112808
1,Valparaiso,1815902
2,Biobío,1538194
3,Maule,1044950
4,Araucanía,957224
5,O'Higgins,914555


Podemos seleccionar una determinada fila con la función `iloc`.

In [110]:
frame.iloc[2]

name     Biobío
pop     1538194
pib       13281
Name: 2, dtype: object

Podemos utilizar la misma idea de **filtros** vista anteriormente. Por ejemplo, vamos a dejar sólamente las columnas con población mayor a 1.000.000. Notemos que en este caso nuestra condición va a ser `frame['pop'] > 1000000` (queremos quedarnos con aquellos que cumplan que la columna `'pop'` de `frame` tiene un valor `> 1000000`) y luego ese filtro es el que aplicamos a `frame`.

In [111]:
frame['pop'] > 1000000

0     True
1     True
2     True
3     True
4    False
5    False
Name: pop, dtype: bool

In [112]:
frame[frame['pop'] > 1000000]

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695


Podemos hacer filtros con `&` para hacer un `AND`:

In [113]:
frame[(frame['pop'] > 1000000) & (frame['pib'] < 20000)]

Unnamed: 0,name,pop,pib
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695


Y podemos usar `|` para hacer un `OR`:

In [114]:
frame[(frame['name'] == 'Metropolitana') | (frame['name'] == 'Valparaiso')]

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
1,Valparaiso,1815902,14510


Para **ordenar** un objeto `Dataframe` usamos la función `sort_values` indicando en el parámetro `by` la columna por la cual queremos ordenar. Esto, por defecto, ordena de forma ascendente.



In [115]:
frame.sort_values(by='pib')

Unnamed: 0,name,pop,pib
4,Araucanía,957224,11064
3,Maule,1044950,12695
2,Biobío,1538194,13281
1,Valparaiso,1815902,14510
5,O'Higgins,914555,14840
0,Metropolitana,7112808,24850


Para ordenar de forma descendente, utilizamos `ascending=False`.

In [116]:
frame.sort_values(by='pib', ascending=False)

Unnamed: 0,name,pop,pib
0,Metropolitana,7112808,24850
5,O'Higgins,914555,14840
1,Valparaiso,1815902,14510
2,Biobío,1538194,13281
3,Maule,1044950,12695
4,Araucanía,957224,11064


Si necesitamos ordenar por más de una columna, podemos pasar un arreglo al argumento `by`.

In [117]:
frame.sort_values(by=['pib', 'pop'])

Unnamed: 0,name,pop,pib
4,Araucanía,957224,11064
3,Maule,1044950,12695
2,Biobío,1538194,13281
1,Valparaiso,1815902,14510
5,O'Higgins,914555,14840
0,Metropolitana,7112808,24850


La librería `pandas` tiene varias funciones que nos permiten obtener descripciones y resúmenes de los datos. Por ejemplo, `describe`, que nos entrega estadísticas de las columnas.

In [118]:
frame.describe()

Unnamed: 0,pop,pib
count,6.0,6.0
mean,2230606.0,15206.666667
std,2418536.0,4915.119843
min,914555.0,11064.0
25%,979155.5,12841.5
50%,1291572.0,13895.5
75%,1746475.0,14757.5
max,7112808.0,24850.0


Y `sum`, que para cada columna, suma todos sus valores.

In [119]:
frame.sum()

name    MetropolitanaValparaisoBiobíoMauleAraucaníaO'H...
pop                                              13383633
pib                                                 91240
dtype: object

La librería `pandas` también nos permite cargar datos a partir de un archivo csv, con el método `read_csv`.

In [120]:
df = pd.read_csv('Resultados_Pleb.csv') 
df.head()

Unnamed: 0,cod_com,Apruebo,Rechazo,Blancos,Nulos
0,1101,60976,18855,114,275
1,1107,21373,4608,46,102
2,1401,3730,1076,8,29
3,1402,293,207,2,11
4,1403,131,374,3,16


Puedes pasarle como argumento `sep='algun_string'` para cambiar el separador del csv. Por ejemplo si el archivo tuviera separación con `;`, podrías hacer algo como:

```python
df = pd.read_csv('Resultados_Pleb.csv', sep=';') 
```

Este método también puede recibir otros parámetros interesantes como `encoding`, `quoting`, entre otros. Esto lo puedes revisar en la [documentación del método.](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv)

Cuando tenemos un `Dataframe`, puede que nos queramos quedar con solo algunas columnas, pero sin hacer cambios permanentes. Para esto, podemos guardar la información en un nuevo dataframe. A continuación, vamos a tomar solo dos columnas de `df` y esto lo vamos a guardar en `df2`.

In [121]:
df2 = df[['cod_com', 'Apruebo']]
df2

Unnamed: 0,cod_com,Apruebo
0,1101,60976
1,1107,21373
2,1401,3730
3,1402,293
4,1403,131
...,...,...
341,16301,12268
342,16302,4420
343,16303,2003
344,16304,1364


Notemos que nuestro `Dataframe` original `df` no sufrió ningún cambio.

In [122]:
df

Unnamed: 0,cod_com,Apruebo,Rechazo,Blancos,Nulos
0,1101,60976,18855,114,275
1,1107,21373,4608,46,102
2,1401,3730,1076,8,29
3,1402,293,207,2,11
4,1403,131,374,3,16
...,...,...,...,...,...
341,16301,12268,5729,42,89
342,16302,4420,2737,25,47
343,16303,2003,1228,10,17
344,16304,1364,516,7,12


Ahora, si quisiéramos cambiar el dataframe de forma permanente podríamos asignarlo a la misma variable en vez de a una nueva, así sobreescribimos su valor.

In [123]:
df = df[['cod_com', 'Apruebo']]
df

Unnamed: 0,cod_com,Apruebo
0,1101,60976
1,1107,21373
2,1401,3730
3,1402,293
4,1403,131
...,...,...
341,16301,12268
342,16302,4420
343,16303,2003
344,16304,1364


#Resumen

En este tutorial aprendimos los comandos básicos de la librería Pandas, una de las librerias más usadas para el análisis de datos con Python.

# Material adicional

De la mano con el uso de `numpy`, podríamos reemplazar algún `string` que quisierámos que fuera intepretado como nulo (o NaN).

Por ejemplo, supongamos que en nuestro `Dataframe` tenemos datos con valor `'Sin datos'`, que es un `string` para representar que no conocemos su valor. En vez trabajar con este `string`, podemos tomar estos datos y pasarlos a `NaN` de la siguiente forma:

```python
import numpy as np

df.replace({'Sin Datos': np.nan}, inplace=True)
```

Notemos que estamos utilizando `numpy` para tener datos `NaN` y luego con `pandas`, utilizar `replace` para reemplazar estos valores por `NaN`. Además, con `inplace=True` estamos indicando que queremos que estos cambios se apliquen a `df`. Si no quisiéramos que esto fuera así, podríamos hacer algo como lo siguiente:

```python
import numpy as np

df2 = df.replace({'Sin Datos': np.nan})
```

Un último *tip* que quisiéramos agregar, es siempre tener consideración y cuidado con el tipo de dato de cada columna, sobre todo cuando cargamos datos externos (como por ejemplo desde un csv) y queremos realizar operaciones entre datos. 

Puedes saber el tipo de dato de cada columna con `dtypes` (recuerda que si una columna tiene diferentes tipos de datos, esta tendrá tipo `object`). También existen métodos que puedes buscar tú mismo para transformar datos de un tipo a otro, en caso de necesitarlo (por ejemplo si tuvieras números en formato `string` y quisieras pasarlos a `int` para poder operarlos como números).

En el siguiente ejemplo, vemos que tanto la columna `cod_com` como la columna `Apruebo` tienen datos de tipo `int`.

In [None]:
df.dtypes

Para finalizar, queremos aclarar que existen muchas formas de crear `Dataframes`, muchas formas de operarlos y hay hartas cosas más avanzadas que se pueden hacer, por lo que siempre te recomendamos revisar la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).

In [None]:
import numpy as np

In [None]:
list = [1,2,-3,-4]
array = np.array(list)

In [None]:
array < 0
