# Guía Data Science

Durante esta actividad trabajaremos con los datos del sistema nacional de información municipal del gobierno de Chile y una planilla de datos preliminares del plebiscito 2021. Tienes acceso a dos fuentes de datos.

- Una base de datos en SQLite llamada ``municipios.db``, la que tiene información sobre el presupuesto municipal y la cantidad de personas de cada una de las comunas de Chile. Esos datos se almacenan en un esquema con tres tablas:

    - ``Comuna(id, nombre)``: que asigna a cada comuna en Chile un identificador.
    - ``Poblacion(cod, habitantes)``: que asigna a cada comuna la cantidad de habitantes. 
    - ``Presupuesto(id_comuna, municipio, plata)``: que contiene el presupuesto de dicha comuna.


- Una archivo csv llamado ``Resultados_Pleb.csv``, que contiene la votación agregada de cada comuna para el plebiscito de Octubre.

La idea de esta actividad es hacer un análisis de datos en torno a la siguiente problemática: **¿Cómo se relaciona el presupuesto de las comunas con su votación en el plebiscito?**



Te recomendamos correr este notebook en google colab para que no tengas que instalar nada en tu computador. Para subir los archivos .db y .csv que utilizaremos más adelante de la siguiente forma: 

- Si los tienes descargados, puedes subirlos en la sección de Archivos (hay un ícono de carpeta en el menú del lado izquierdo).
- Si no los tienes descargados, puedes acceder a los archivos en github utilizando siguiente comando en una celda del notebook:
```
!wget  [link a github donde se encuentra el archivo]
```
Por ejemplo
```
!wget  https://github.com/IIC2413/Syllabus-2021-1/raw/main/Controles/Control%202/tu_shop_mini.db
```

## Manejo de datos

Para esta actividad asumimos que ya sabes trabajar con SQLite y con la librería pandas de python. Para trabajar tus datos, necesitas tener todo en pandas (tanto la información de municipios.db como la de Resultados_Plev.csv).

Aquí tienes algunas opciones para trabajar tus datos: 

1. Cargar el csv directamente con pandas a una data frame y luego hacer consultas a la base de datos para hacer los dataframes del resto de la información.
2. Importar los datos del csv a la base de datos utilizando Python. Una forma de hacer esto es la propuesta en [el siguente link](https://stackoverflow.com/questions/2887878/importing-a-csv-file-into-a-sqlite3-database-table-using-python). Luego hacer los dataframes realizando consultas a la base de datos.
2. Importar los datos del csv a municipios.db directamente con SQLite3 (esta opción requiere que instales SQLite3 en tu computador. Luego hacer los dataframes realizando consultas a la base de datos.


**Importante:** Nunca grabes un .csv desde excel, porque excel puede cambiar la codificación de esos archivos. En caso de problemas, siempre puedes volver a bajar el .csv desde la página del curso.

In [140]:
import pandas as pd
import numpy as np
import sqlite3
import matplotlib.pyplot as plt

conn = sqlite3.connect('municipios.db')
conn.text_factory = lambda x: str(x, 'latin1')
curr = conn.cursor()

In [141]:
# Utiliza estas celdas para crear los dataframes de pandas

## Tareas a realizar

1. Puede ser que los datos estén sucios, pues son llenados por humanos. Para las siguientes tareas no debes tomar en cuenta datos nulos o que no han sido reportados (aunque eso signifique dejar fuera algunas comunas), así que tu primera misión es verificar que no hayan nulos en los dataframe y limpiarlos en caso de que hayan.

2. Crea un gráfico de puntos para visualizar la correlación entre el presupuesto de las comunas y la cantidad de habitantes de esa comuna.

3. Observa que la correlación es ligeramente positiva (como es de esperar). Sin embargo, hay un outlier cuyo presupuesto se escapa. ¿Puedes ver qué comuna es?

4. Ahora vamos a refinar un poco la tabla comunas que vamos a utilizar, descartando ciertos outliers. Crea un dataframe llamado  ``comuna_limpia`` que contenga todas las comunas, excepto (i) el outlier que identificaste en el apartado anterior y (ii) todas las comunas que tengan 5000 habitantes o menos. Esta vista debería tener 286 comunas.

5. Crea un gráfico de puntos para visualizar la correlación entre el presupuesto de las comunas y el porcentaje de votos apruebo (sobre el total de votos) en esas comunas. Anota el coeficiente de correlación. ¿Puedes inferir algo?

6. Ahora visualiza el mismo gráfico, pero utilizando solo aquellas comunas que estén en la vista ``ComunaLimpia``. Vuelve a anotar el coeficiente de correlación.

7. ¿Cómo cambia la correlación? ¿Por qué crees que pasó eso?