# <img style="float: left; padding-right: 20px; width: 100px" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"> IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Semestre 2022-1**<br>
**Profesora:** Paula Aguirre <br>

----

# <h1><center>Actividad 1: Herramientas Computacionales para Ciencia de Datos </center></h1>
    
## 1. Objetivos de Aprendizaje

Esta Actividad es un ejercicio de prueba, y tiene como objetivo probar el ambiente de programación de cada estudiante, la instalación de librerías de Python y la configuración de su repositorio, mediante la entrega y ejecución de un Jupyter Notebook de ejemplo. 

Esta Tarea sólo requiere conocimientos generales de programación en Python, 


## 2. Módulos de Python

### 2.1 Importación de módulos.

Todos los Notebooks y códigos deberían comenzar con la importación de módulos, o librerías de funciones built-in para distintos usos. Para facilitar la referencia a librerías en el resto del código, se acostumbra asignarles un alias. La sintaxis general a usar para importar un módulo es:


``import NOMBRE_MODULO as ALIAS_MODULO``

In [None]:
#Importación de librerías: importe las siguientes librerías, usando alias comunes: numpy, pandas, geopandas
import numpy as np
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt


## 3. Ejercicio de Prueba: Inspección de Datos del Censo 2017.

El código a continuación permite descargar, leer, hacer algunos cálculos básicos y visualizar los datos de población del Censo chileno de 2017 para la región metropolitana. En este notebook, ud. sólo debe ejecutar las celdas de código a continuación, hasta generar una figura con la distribución de población total por manzana censal en la RM. 
Como demostración de la ejecución exitosa del código, sólo debe submitir esta figura final a su repositorio de Github.


In [None]:
#Leer archivo enun DataFrame
dat=pd.read_csv('Censo2017_Manzanas.csv',delimiter=';')

#Visualizar las primeras lineas
dat.head()


In [None]:
dat.info()

### ¿Cuál era la población total de Chile en 2017?

Para responder esta pregunta, podemos hacer un cálculo sencillo y sumar todos los datos de la columna `PERSONAS`:

In [None]:
#Total de población
total_pop=dat['PERSONAS'].sum()
print('Población total en 2017:',total_pop)

También podemos usar algunas funciones más avanzadas de `pandas`para analizar la distribución de personas por región y edad:

In [None]:
#Distribución por edad y género
cols=['EDAD_0A5','EDAD_6A14','EDAD_15A64','EDAD_65YMAS']
for col in cols:
    dat[col]=dat[col].replace('*',0).astype(float)
    
pv=pd.pivot_table(dat,index='REGION',values=cols,aggfunc = np.sum,margins=False)
pv

In [None]:
fig=plt.figure(figsize=(12,6))
ax=fig.add_subplot(111)
ax.set_ylabel('Número de personas')
fig.suptitle('Distribución de población por Edad y Región (Chile, Censo 2017)')
pv.plot(kind='bar',ax =ax);

A continuación, usaremos la cartografía central para generar una figura o mapa con la distribución de población total por manzana censal en la región metropolitana (RM):

In [None]:
#Leer datos censales
manz=gpd.read_file('R13/MANZANA_IND_C17.shp')
com=gpd.read_file('R13/COMUNA_C17.shp')

In [None]:
from mpl_toolkits.axes_grid1 import make_axes_locatable
import matplotlib.colors as colors

#Crear figura y ejes
fig=plt.figure(figsize=(20,20))
ax=fig.add_subplot(111)
divider = make_axes_locatable(ax)
cax = divider.append_axes("right", size="5%", pad=0.1)

#Leer datos censales
manz=gpd.read_file('R13/MANZANA_IND_C17.shp')
com=gpd.read_file('R13/COMUNA_C17.shp')


Z=manz['TOTAL_PERS']
manz.plot(ax=ax,column='TOTAL_PERS',cmap='Reds',legend=True, vmin=0,vmax=1000,cax=cax)

com.boundary.plot(ax=ax,lw=0.2,color='k')

xlim=[-70.9,-70.4]
ylim=[-33.7,-33.2]
for x, y, label in zip(com.geometry.centroid.x, com.geometry.centroid.y, com.NOM_COMUNA):
    if xlim[0]<x<xlim[1] and ylim[0]<y<ylim[1]:
        ax.text(x, y, label, fontsize = 10)
        
ax.set_xlim(xlim)
ax.set_ylim(ylim);

ax.set_title('RM - Población total por manzana censal',fontsize=14)

## Reemplace 'XXX' por su apellido en el nombre del archivo de salida 
fig.savefig('PoblacionRM_C2017_XXXX.jpg')