# Preparación de datos:

#### Meta
Este `notebook` fue creado para extraer los datos de nuestros archivos `.zip` en nuestro directorio `datos/en_bruto`.

#### Contexto
La estructura de nuestro proyecto es la siguiente:

In [1]:
from pathlib import Path
from funciones_utiles import arbol 

###### nota: la función `arbol` fue adaptada de el [tutorial](https://realpython.com/python-pathlib/#display-a-directory-tree) de RealPython sobre el módulo `pathlib` incluida por defecto en tu distribución de `python`

In [2]:
# este notebook se encuentra dentro de la carpeta "notebooks" así que tenemos que "subir" un nivel más, por eso utilizamos ".."
directorio_principal = Path("..") 

arbol(directorio_principal)

+ ..
    + datos
        + en_bruto
            + hidrografia.zip
            + mexstates.zip
        + finales
        + interinos
    + docs
    + figuras
        + finales
        + interinas
    + notebooks
        + 00_Preparación.ipynb
        + 01_Visualización.ipynb
        + extraccion_de_datos.py
        + funciones_utiles.py


***
Tenemos dos archivos con nuestros datos geográficos:
* `hidrografia.zip`: Contiene información hidrográfica de México. 
  - Fuente: [Instituto Nacional de Estadística y Geografía - INEGI](http://www.beta.inegi.org.mx/app/mapas/)
* `mexstates.zip`: Contiene los polígonos de los 32 estados de México. 
  - Fuente: [ArcGIS](https://www.arcgis.com/home/item.html?id=ac9041c51b5c49c683fbfec61dc03ba8)

El primer paso es descomprimir nuestros archivos:

In [4]:
from zipfile import ZipFile

In [5]:
ruta_datos_en_bruto = Path("../datos/en_bruto/")
ruta_datos_interinos = Path("../datos/interinos/")

In [6]:
for archivo_zip in ruta_datos_en_bruto.glob("*.zip"):
    archivo = ZipFile(archivo_zip)
    print(f"Extrayendo archivo {archivo_zip.name}")
    archivo_interino_con_ruta = (ruta_datos_interinos / archivo_zip.stem)
    archivo.extractall(archivo_interino_con_ruta)
    print(f"Contenido extraído a: {archivo_interino_con_ruta}")

Extrayendo archivo hidrografia.zip
Contenido extraído a: ..\datos\interinos\hidrografia
Extrayendo archivo mexstates.zip
Contenido extraído a: ..\datos\interinos\mexstates


Para aquellas personas no familiarizadas con el módulo `pathlib` (no se preocupen, no es un módulo muy común): En `pathlib` podemos concatenar rutas (o `Paths` como se les conoce en inglés) utilizando el caracter `/`.

###### Nota: Si te interesa aprender más sobre el módulo `pathlib` te recomendamos este blog [*"Pathlib: Rutas orientadas a objetos"*](https://python-para-impacientes.blogspot.com/2018/10/pathlib-rutas-orientadas-objetos.html) en python-para-impacientes.

***
Nótese que ya que hemos obtenido los datos de dos fuentes diferentes los directorios de archivos están estructurados de manera diferente:

In [7]:
arbol(ruta_datos_interinos)

+ ..\datos\interinos
    + hidrografia
        + conjunto_de_datos
            + red_hidrografica_250k.dbf
            + red_hidrografica_250k.prj
            + red_hidrografica_250k.sbn
            + red_hidrografica_250k.sbx
            + red_hidrografica_250k.shp
            + red_hidrografica_250k.shp.xml
            + red_hidrografica_250k.shx
        + metadato
            + Red_Hidrografica_Digital.html
            + Red_Hidrografica_Digital.sgml
            + Red_Hidrografica_Digital.txt
            + Red_Hidrografica_Digital.xml
            + ~$d_Hidrografica_Digital.txt
    + mexstates
        + mexstates.dbf
        + mexstates.prj
        + mexstates.sbn
        + mexstates.sbx
        + mexstates.shp
        + mexstates.shp.xml
        + mexstates.shx


***
Ya que hemos extraído nuestros datos podemos empezar a trabajar en nuestra visualización con `geopandas` y `altair`

[Notebook: 01 Visualización](01_Visualización.ipynb)