# Guía Data Science - Numpy, Pandas, SQL

En esta guía veremos algunos conceptos básicos que se necesitan para el manejo de datos. Comenzaremos con una pequeña introducción a ``numpy``, luego aprenderemos un poco sobre ``pandas`` y finalmente utilizaremos datos externos y los procesaremos con SQL.

Te recomendamos correr este notebook en google colab para que no tengas que instalar nada en tu computador. Para subir los archivos `comunas.db` y `Resultados_Pleb.csv` que utilizaremos más adelante de la siguiente forma: 

- Si los tienes descargados, puedes subirlos en la sección de Archivos (hay un ícono de carpeta en el menú del lado izquierdo).
- Si no los tienes descargados, puedes acceder a los archivos en github utilizando el siguiente comando en una celda del notebook:
```
!wget  [link a github donde se encuentra el archivo]
```
Por ejemplo
```
!wget  https://github.com/IIC2413/Syllabus-2021-2/raw/main/clases/comunas.db
```

## 1. Numpy

`NumPy` es una librería para hacer computos numéricos en Python y la necesitamos conocer (en concreto, el manejo de arreglos) para poder entender el funcionamiento de `pandas`. Es la base de muchas otras librerías científicas. Entre otras cosas, nos permite:

- Utilizar arreglos multidimensionales.
- Utilizar funciones matemáticas.
- Utilizar herramientas de álgebra lineal.

Para comenzar a trabajar vamos a importar la librería y crear un pequeño arreglo de elementos aleatorios.

In [None]:
import numpy as np

data = np.random.randn(2,4)
data

A diferencia de una lista, podemos hacer operaciones matriciales, como multiplicar el arreglo `data` por un escalar:

In [None]:
data * 10

o sumarle una matriz:

In [None]:
data + data

También podemos crear arreglos a partir de una lista:

In [None]:
list1 = [1, 1, 2, 3, 5]
arr1 = np.array(list1)
arr1

In [None]:
list2 = [[1, 1, 2, 3], [5, 8, 13, 21]]
arr2 =np.array(list2)
arr2

Para preguntar el número de dimensiones en un arreglo utilizamos `ndim` y para preguntar los tamaños de cada una de esas dimensiones utilizamos `shape` (por ejemplo, pensar en arr2 como una matriz de 2 x 4).

In [None]:
arr2.ndim

In [None]:
arr2.shape

Para acceder a un elemento:

In [None]:
arr1[2]

In [None]:
arr2[1][2]

También podemos acceder de la siguiente forma:

In [None]:
arr2[1, 2]

Y los arreglos son mutables

In [None]:
arr2[1, 2] = 100
arr2

También tenemos un equivalente a `range` llamado `arange`, pero que genera un arreglo.

In [None]:
np.arange(11)

In [None]:
np.arange(2,5)

Por último, también podemos utilizar comparaciones booleanas con los arreglos:

In [None]:
arr = np.array([0, 0, 1, 1, 2, 2])
arr == 1

El resultado de esta comparación punto a punto es un arreglo de valores booleanos. Este arreglo se puede usar para acceder a valores en otros arreglos, de forma que solo nos quedamos con los valores indicados como *true*. Vamos a crear un arreglo multidimensional e ingresar el arreglo anterior como índice:

In [None]:
arr2 = np.random.randn(6, 3)
arr2

In [None]:
arr == 1

Entoncers me voy a quedar con las filas 2 y 3.

In [None]:
arr2[arr == 1]

Y también podemos negar la condición:

In [None]:
arr2[~(arr == 1)]

A los arreglos booleanos, comunmente se les llama máscaras (_boolean mask_).

## 2. Pandas 

En esta segunda parte estudiaremos la herramienta de análisis de datos `pandas`, una librería que permite hacer análisis y limpieza de datos en Python. Está diseñada para trabajar con datos tabulares y heterogéneos. También es utilizada en conjunto con otras herramientas para hacer *Data Science* como `NumPy`, `SciPy`, `matplotlib` y `scikit-learn`.

Partimos importando la librería:

In [None]:
import pandas as pd

### 2.1 Series

Vamos a partir instanciando objetos de tipo `Series`. Estos objetos son como arreglos unidimensionales, solo que su índice es más explícito.

In [None]:
obj = pd.Series([1, 3, -4, 7])
obj

In [None]:
obj[0]

In [None]:
obj = pd.Series(['asdsa', 3, -4, 7])
obj

Para un objeto de tipo `Series` podemos agregar un label a sus índices.

In [None]:
obj = pd.Series([1, 3, -4, 7], index=['d', 'c', 'b', 'a'])
obj

In [None]:
obj['c']

In [None]:
obj[0]

Podemos seleccionar varios elementos según el label de su índice o su posición.

In [None]:
obj[['c', 'a']]

In [None]:
obj[[0,2]]

Podemos hacer filtros pasando un arreglo de *booleanos*:

In [None]:
obj[obj > 2]

Recordemos lo que significaba la comparación `obj > 2` en `NumPy`. Genera una máscara con el mismo largo que `obj` que tenía el valor `True` en todas las posiciones con valor mayor a 2.

In [None]:
obj > 2

Por lo que en `obj[obj > 2]` se muestran sólo las filas en la que el arreglo anterior era `True`.

Finalmente, podemos crear un objeto `Series` a partir de un diccionario. Supongamos el siguiente diccionario de personas junto a su edad.

In [None]:
people = {'Alice': 20, 'Bob': 17, 'Charles': 23, 'Dino': 50}
people_series = pd.Series(people)
people_series

### 2.2 DataFrame

Un objeto de tipo `DataFrame` representa una tabla, en que cada una de sus columnas tiene un tipo. Vamos a construir una tabla a partir de un diccionario.

In [None]:
reg_chile = {'name': ['Metropolitana', 'Valparaiso', 'Biobío', 'Maule', 'Araucanía', 'O\'Higgins'],
             'pop': [7112808, 1815902, 1538194, 1044950, 957224, 914555],
             'pib': [24850, 14510, 13281, 12695, 11064, 14840]}
frame = pd.DataFrame(reg_chile)
frame

Podemos usar la función `head` para tener sólo las 5 primeras columnas del Data Frame. En este caso no es mucho aporte, pero para un Data Frame más grande no puede servir para ver cómo vienen los datos.

In [None]:
frame.head()

In [None]:
frame.head(2)

Podemos proyectar valores pasando el nombre de las columnas que deseamos dejar.

In [None]:
frame['name']

In [None]:
frame[['name']]

In [None]:
frame[['name', 'pop']]

Podemos seleccionar una determinada fila con la función `iloc`.

In [None]:
frame.iloc[2]

Podemos utilizar la misma idea de filtros vista anteriormente. Por ejemplo, vamos a dejar sólamente las columnas con población mayor a 1.000.000. ¿Te suena esto a algún otro lenguaje que viste este semestre?

In [None]:
frame[frame['pop'] > 1000000] 

Podemos hacer filtros con `&` para hacer un `AND`:

In [None]:
frame[(frame['pop'] > 1000000) & (frame['pib'] < 20000)]

Y podemos usar `|` para hacer un `OR`:

In [None]:
frame[(frame['name'] == 'Metropolitana') | (frame['name'] == 'Valparaiso')]

Para ordenar un objeto `DataFrame` usamos la función `sort_values`:

In [None]:
frame.sort_values(by='pib')

In [None]:
frame.sort_values(by='pib', ascending=False)

Si necesitamos ordenar por más de una columna, podemos pasar un arreglo al argumento `by`. Existen muchas formas de crear y operar sobre un `DataFrame`. Puedes revisar la documentación para encontrar más.

La librería `pandas` tiene varias funciones que nos permiten obtener descripciones y resúmenes de los datos. Vamos a ver algunos ejemplos.

In [None]:
frame.describe()

In [None]:
frame.mean()

In [None]:
frame.sum()

## Veamos datos de verdad

Podemos cargar datos de un csv de la siguiente forma:

In [None]:
df = pd.read_csv('Resultados_Pleb.csv') 
df.head()

Puedes pasarle como argumento `sep=algun_string` para cambiar el separador del csv. Por ejemplo si el archivo tuviera separación con `;`, podrías hacer algo como:

```py
df = pd.read_csv('Resultados_Pleb.csv', sep=';') 
```

Si nos quiséramos quedar con algunas columnas, pero no queremos hacer cambios permanentes, podemos guardar la información en un nuevo dataframe:

In [None]:
df2 = df[['cod_com', 'Apruebo']]
df2

In [None]:
df

Pero si quisiéramos cambiar el dataframe de forma permanente podemos hacerlo así:

In [None]:
df = df[['cod_com', 'Apruebo']]
df

Cuando cargas datos desde un csv, puede que quieras saber los tipos de datos:

In [None]:
df.dtypes

Existen algunos comandos que puedes buscar para pasar datos que son string a números, etc...

## 3. Utilizando datos externos y SQL

Para analizar datos y aprender como trabajar con SQL, usaremos la base de datos `comunas.db` que usa el siguiente esquema: 

```
Comunas(cod INT PRIMARY KEY, 
        nombre VARCHAR(200), 
        provincia VARCHAR(200), 
        region VARCHAR(200), 
        superficie FLOAT, 
        poblacion INT, 
        densidad FLOAT, 
        idh FLOAT)
```


In [None]:
import sqlite3

conn = sqlite3.connect('comunas.db')
conn.text_factory = lambda x: str(x, 'utf-8')
curr = conn.cursor()

Ahora que hemos realizado la conexión,  usaremos una consulta SQL para extraer los datos y guardarlos en un dataframe. Comúnmente la idea es preparar los datos con SQL y extraer a pandas solo lo necesario.

In [None]:
curr.execute("SELECT * FROM Comunas;")
com_frame = pd.DataFrame(curr.fetchall())
com_frame

In [None]:
com_frame.head()

Renombremos los nombres de las columnas del dataframe según nuestro esquema:

In [None]:
com_frame.rename(columns = { 0: 'cod', 1: 'nombre', 2: 'provincia', 3: 'region', 
                            4: 'superficie', 5: 'poblacion', 6: 'densidad', 7: 'idh'}, inplace=True)

Usemos `head` y `describe` para tener una mejor idea de como se ven nuestros datos:

In [None]:
com_frame.head()

In [None]:
com_frame.describe()

En esta tabla tenemos valores nulos. Vamos a buscarlos. Primero vamos a encontrar todas las filas que contengan algún nulo, para luego filtrar por ese arreglo.

In [None]:
com_frame.isnull().any(axis=1)

In [None]:
com_frame[com_frame.isnull().any(axis=1)]

`pandas` tiene métodos auxiliares para lidiar con datos faltantes. Uno es eliminar aquellas filas con la función `dropna()`

In [None]:
com_cleaned = com_frame.dropna()
com_cleaned

O podemos tomar una opción menos radical, que es reemplazar los nulos por un valor en particular.

In [None]:
com_frame = com_frame.fillna(0)
com_frame

Existen muchas otras opciones para limpiar los datos, pero no son parte de esta guía.

Ahora, veamos algunos ejemplos de agregación de datos utilizando `pandas`. Lo primero que haremos será cambiar el nombre de las columnas del Data Frame con método diferente al que utilizamos anteriormente.

In [None]:
com_frame.columns = ['cod', 'nombre', 'prov', 'reg', 'sup', 'pobl', 'dens', 'idh']
com_frame

Para obtener la cantidad de habitantes por región haremos lo siguiente:

In [None]:
com_frame['pobl'].groupby(com_frame['reg']).sum() # Ojo! esto retorna un objeto Series

Podemos preguntar cuántos elementos hay por grupo. En este caso obtendríamos el número de comunas por región.

In [None]:
com_frame['pobl'].groupby(com_frame['reg']).count() # Ojo! esto retorna un objeto Series

Tambien podemos hacer varias agregaciones a la vez, retornando un solo data frame:

In [None]:
com_frame.groupby(['reg']).agg({'idh': ['mean', 'std'], 'dens':['mean', 'std']})

El comando de arriba retorna un df multi nivel :O! los cuales son un poco más complejos de trabajar.

Como pueden ver en `pandas` se pueden hacer operaciones mucho más complejas, pero no veremos nada avanzado en esta ocasión. Puedes revisar la documentación para ver que más puedes hacer.

Podemos agregar columnas al df basadas en las otras columnas mediante el método `apply`

In [None]:
com_frame['computed_density'] = com_frame.apply(lambda row: row.pobl / row.sup, axis=1)
com_frame.head()

In [None]:
com_frame['computed_density_ez'] = com_frame['pobl'] / com_frame['sup']
com_frame.head()

In [None]:
com_frame['computed_density_ez'] = com_frame.pobl / com_frame.sup
com_frame.head()

Se puede hacer merge (join) de dos dataframes de la siguiente forma:

```py
df = df1.merge(df2, left_on='atributo_df1', right_on='atributo_df2')
```

Una de las ventajas de trabajar con `pandas` es que tenemos acceso rápido a herramientas de visualización. Vamos a ver un ejemplo rápido, haciendo un gráfico para ver la correlación entre superficie y población.

In [None]:
com_frame.plot.scatter(x='sup', y='pobl')

Necesitamos limpiar los _outliers_ (datos muy alejados de lo "normal") para ver mejor el gráfico:

In [None]:
com_frame[(com_frame['sup'] < 20000) & (com_frame['pobl'] < 50000)].plot.scatter(x='sup', y='pobl')

También podemos calcular correlación entre las columnas que tengan valores numéricos:

In [None]:
com_frame.corr()

In [None]:
com = com_frame[['sup', 'pobl']]
com

In [None]:
com.corr()