<a href="https://colab.research.google.com/github/abxda/UP_Python_2025/blob/main/semana_03_02_miercoles_up.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **De Números a Mapas: La Magia de los Datos Geoespaciales**

**Objetivo Principal:**

- **Integración de Datos Censo y Geoespaciales:** Aprenderás el arte de fusionar datos **censales** (información demográfica y socioeconómica) con datos **geoespaciales** (información con ubicación geográfica) utilizando Python y la robusta base de datos DuckDB.
  
  - **¿Qué son los Datos Censales?**  
    Son la columna vertebral de la estadística de un país. Provienen de censos de población y vivienda, recolectando información esencial sobre habitantes y hogares: edad, género, educación, empleo, características de vivienda, y mucho más.  
    Piensa en ellos como un retrato detallado de la sociedad en un momento dado.
  
  - **¿Qué son los Datos Geoespaciales?**  
    Son datos que tienen una ubicación asociada en la Tierra. Pueden representar entidades geográficas (manzanas, municipios, estados) o fenómenos que ocurren en un lugar específico. La clave es la referencia a la ubicación.

- **Automatización del Flujo de Trabajo:**  
  Dominarás las técnicas para automatizar cada etapa del proceso: desde la **descarga** de datos desde fuentes oficiales, la **extracción** de información relevante, la **conversión** a formatos eficientes, hasta la **unión** de datos para análisis avanzados.  
  La automatización es muy importante para la eficiencia y la reproducibilidad en el manejo de datos.

**¿Por qué es fundamental entender esto?**

- **Análisis Profundo y Contextual:**  
  Conocer **dónde** ocurren los fenómenos demográficos y socioeconómicos, y **quiénes** se ven afectados, es esencial para un análisis estadístico verdaderamente significativo. La ubicación añade una dimensión crítica a los datos.

- **Planeación Urbana y Desarrollo Territorial Inteligente:**  
  La combinación de datos censales y geoespaciales es indispensable para la **planeación urbana efectiva**, la **asignación de recursos**, el diseño de **políticas públicas** basadas en evidencia, y para promover un **desarrollo territorial más equitativo y sostenible**.

- **Toma de Decisiones Informada y Basada en Evidencia:**  
  Al mapear variables clave (población vulnerable, acceso a servicios, densidad de vivienda, etc.), podemos **identificar patrones espaciales**, **detectar desigualdades**, y **visualizar tendencias** que serían invisibles en tablas de datos aisladas.  
  Los mapas son poderosas herramientas de comunicación y análisis.

**En resumen, en esta clase aprenderás a:**
1. **Descarga Programática de Datos:** Utilizar Python para acceder y descargar datos del INEGI (Instituto Nacional de Estadística y Geografía) de forma automática desde internet.  
2. **Extracción Inteligente de Shapefiles:** Descomprimir y extraer los componentes esenciales de los archivos Shapefile, el formato estándar para datos geográficos vectoriales.  
3. **DuckDB: Tu Base de Datos Personal y Potente:** Introducción a DuckDB, una base de datos analítica embebida, ideal para el manejo eficiente de grandes volúmenes de datos geoespaciales y tabulares, sin necesidad de servidores complejos.  
4. **Unión de Datos y Geometría:** Combinar datos alfanuméricos del censo (estadísticas) con las representaciones geométricas de los Shapefiles (mapas digitales) para crear un conjunto de datos enriquecido y listo para el análisis espacial.  
5. **Organización y Limpieza del Entorno de Trabajo:** Establecer prácticas de organización de archivos y limpieza de datos para asegurar un flujo de trabajo eficiente, reproducible y libre de errores.


## **Preparando el Escenario - Configuración del Entorno y Librerías Esenciales**


**Librerías Python: Tus Herramientas Clave**

- **¿Qué son las Librerías en Python?** Piensa en las librerías como cajas de herramientas especializadas que extienden las capacidades básicas de Python. Cada librería contiene funciones y módulos pre-construidos que te ahorran tiempo y esfuerzo al realizar tareas específicas. En lugar de reinventar la rueda, ¡utilizamos herramientas probadas y optimizadas!
  
  - **`requests`:** **El Cliente Web Programático.** `requests` permite a Python comunicarse con servidores web a través de **HTTP** (Hypertext Transfer Protocol), el lenguaje de la web. Con `requests`, puedes enviar **solicitudes web** (como las que hace tu navegador) y recibir **respuestas** de servidores, lo que te permite descargar archivos, acceder a APIs (Interfaces de Programación de Aplicaciones), y mucho más. Esencial para la **descarga programática de datos**.
  - **`tqdm`:** **La Barra de Progreso Amigable.** `tqdm` (que viene de "taqaddum", progreso en árabe) es una librería que crea **barras de progreso visuales** en tu terminal o entorno de Jupyter/Colab. Estas barras te dan retroalimentación en tiempo real sobre la duración de procesos largos (descargas, bucles, cálculos), mejorando la experiencia de usuario y permitiéndote monitorear el avance de tus scripts.
  - **`os` y `shutil`:** **Los Gestores de Archivos y Carpetas.** El módulo `os` (Operative System) proporciona funciones para interactuar con el **sistema operativo**, permitiéndote realizar tareas como crear y eliminar **directorios (carpetas)**, manipular **rutas de archivos**, ejecutar comandos del sistema, y obtener información del entorno. `shutil` (Shell Utilities) extiende estas capacidades con funciones de **más alto nivel** para operaciones con archivos y carpetas, como **copiar, mover y eliminar directorios completos**. Indispensables para la **organización y gestión de datos**.
  - **`zipfile`:** **El Descompresor de Archivos ZIP.** `zipfile` permite a Python trabajar con archivos **ZIP** (un formato de compresión común). Puedes usarlo para **crear archivos ZIP**, **extraer el contenido de archivos ZIP**, y **manipular archivos comprimidos** dentro de ZIPs. Fundamental para trabajar con datos del INEGI que a menudo se distribuyen en formato ZIP.
  - **`duckdb`:** **La Base de Datos Analítica Embebida.** DuckDB es una base de datos **relacional (SQL)** diseñada para **análisis de datos de alto rendimiento**. Es **embebida**, lo que significa que no requiere un servidor separado; toda la base de datos reside en un **único archivo**. Es **columnar**, lo que la hace extremadamente rápida para consultas analíticas (agregaciones, filtros, etc.). Además, tiene **soporte espacial**, permitiéndote manejar datos geográficos directamente en la base de datos. Ideal para **análisis rápido y eficiente de datos censales y geoespaciales**.
  - **`geopandas`:** **El Manipulador de Datos Geoespaciales en Python.** `geopandas` extiende las capacidades de `pandas` (la librería estrella para análisis de datos tabulares en Python) para manejar **datos geoespaciales**. Permite leer y escribir **formatos geoespaciales** como Shapefiles y GeoParquet, realizar **operaciones geoespaciales** (uniones espaciales, cálculos de área/distancia, etc.), y **visualizar datos geográficos** en mapas. Es la herramienta clave para **procesar y analizar mapas digitales**.
  - **`folium`:** **El Creador de Mapas Interactivos Web.** `folium` facilita la creación de **mapas web interactivos** directamente desde Python, utilizando la librería **Leaflet.js** de JavaScript. Puedes generar mapas con **múltiples capas**, **marcadores**, **ventanas emergentes (popups)**, **capas de teselas base (basemaps)**, y mucho más. Perfecto para **visualizar datos geoespaciales** de forma interactiva en un navegador web.
  - **`chardet`:** **El Detector de Codificación de Texto.** `chardet` ayuda a **detectar la codificación de caracteres** de archivos de texto. La codificación define cómo se representan los caracteres de texto en bytes (UTF-8, ISO-8859-1, etc.). Si un archivo de texto está en una codificación incorrecta, los caracteres especiales (acentos, símbolos) pueden aparecer incorrectamente. `chardet` ayuda a Python a **"adivinar" la codificación correcta** para leer archivos de texto sin problemas.
  - **`pyarrow`:** **El Acelerador de Datos Columnar.** `pyarrow` proporciona una **plataforma de desarrollo para datos en memoria** y **formatos de intercambio de datos columnar**. Optimiza el rendimiento y la eficiencia en el manejo de grandes conjuntos de datos, especialmente para formatos columnares como **Parquet** y **GeoParquet**. Mejora la **velocidad de lectura y escritura de datos** entre diferentes sistemas y librerías.

**Instalación de Librerías: ¡Equipando tu Entorno!**

Para usar estas poderosas librerías, primero debes instalarlas en tu **entorno Python**. Un **entorno Python** es un espacio aislado donde se instalan las librerías necesarias para un proyecto específico, evitando conflictos entre diferentes proyectos. Puedes usar entornos virtuales (`venv`) o administradores de entornos como **Anaconda**.

**Organización de Carpetas: ¡Tu Espacio de Trabajo Ordenado!**

Una estructura de carpetas clara es fundamental para cualquier proyecto de datos. Te recomendamos crear la siguiente estructura:

```
inegi/                  # Carpeta raíz para datos del INEGI
├── ccpvagebmza/        # Para descargas de CSV del Censo de Población y Vivienda (AGEB y Manzana)
└── mgccpv/             # Para descargas del Marco Geoestadístico Censal (Shapefiles)
    └── shp/            # Subcarpeta para guardar los Shapefiles extraídos
        └── m/          # Subcarpeta para Shapefiles de Manzanas
```

Vamos a crear estas carpetas usando código Python.

**¿Por qué la organización es tan importante?**

- **Claridad y Mantenimiento:** Una estructura organizada hace que tu proyecto sea **fácil de entender y mantener**. Tú (y otros) sabrán dónde encontrar los datos originales, los archivos intermedios y los resultados finales.
- **Reproducibilidad:** Un proyecto bien organizado es más **reproducible**. Si necesitas volver a ejecutar tu análisis en el futuro, o compartirlo con otros, la estructura de carpetas clara asegura que todos puedan entender y replicar tus pasos.
- **Eficiencia:** Encontrar archivos rápidamente y tener una idea clara de la ubicación de cada componente ahorra tiempo y reduce la frustración. Un espacio de trabajo ordenado **aumenta tu productividad**.

In [None]:
pip install duckdb geopandas fsspec folium geohexgrid matplotlib tqdm requests chardet pyarrow --quiet

In [None]:
import os
import time
from zipfile import ZipFile
import requests
from tqdm import tqdm
import duckdb
import geopandas as gpd
import folium
import shutil
import chardet

## Descarga Programática de Datos - ¡Python al Rescate de la Información en la Web!**

**Descarga Programática: ¿Qué significa?**

- **Descarga Manual vs. Programática:** Normalmente, para descargar un archivo de internet, abres tu navegador web, encuentras el enlace de descarga y haces clic. Esto es **descarga manual**. La **descarga programática** significa usar código (en este caso Python) para realizar este proceso **automáticamente**, sin intervención humana directa en cada paso.
- **APIs y URLs: Las Direcciones de la Información Web:** Para descargar datos programáticamente, necesitas saber la **URL (Uniform Resource Locator)** del archivo que quieres descargar. Una URL es la dirección web específica de un recurso (un archivo, una página web, etc.). Muchos sitios web también ofrecen **APIs (Application Programming Interfaces)**, que son interfaces programáticas que permiten a las aplicaciones (como tu script de Python) interactuar con el servidor web de forma estructurada y automatizada, a menudo para obtener datos en formatos específicos (JSON, CSV, etc.). En nuestro caso, usaremos URLs directas a archivos ZIP del INEGI.
- **HTTP Requests: Hablando el Lenguaje de la Web:** Cuando tu navegador web o tu script de Python quiere obtener información de un servidor web, utiliza **HTTP Requests**. `requests.get(url)` en Python envía una solicitud **GET** al servidor web en la `url` especificada. Una solicitud GET es la más común para **obtener recursos** (como descargar archivos o páginas web). El servidor web responde con una **HTTP Response**, que contiene el **código de estado** (indicando si la solicitud fue exitosa, si hubo un error, etc.) y, si la solicitud fue exitosa, el **contenido del recurso solicitado** (el archivo que queremos descargar).

**La Función `download(url, directory)`: Tu Asistente de Descargas Inteligente**

La función `download(url, directory)` que creamos encapsula la lógica para descargar archivos de forma programática. Veamos sus componentes clave:

```python
def download(url, directory):
    # ... (código de la función) ...
```

- **`url` (Parámetro de Entrada):** Es la **URL completa** del archivo que quieres descargar. Por ejemplo: `"https://www.inegi.org.mx/contenidos/productos/..."`.
- **`directory` (Parámetro de Entrada):** Es la **ruta de la carpeta** donde quieres guardar el archivo descargado en tu sistema de archivos. Por ejemplo: `"./inegi/mgccpv/"`.
- **`filename = url.split('/')[-1]`:** Esta línea extrae el **nombre del archivo** de la URL. `url.split('/')` divide la URL en una lista de cadenas usando `/` como separador. `[-1]` accede al **último elemento** de la lista, que suele ser el nombre del archivo (ejemplo: `"09_ciudaddemexico.zip"`).
- **`filepath = os.path.join(directory, filename)`:** Construye la **ruta completa del archivo** combinando el `directory` y el `filename` usando `os.path.join()`. `os.path.join()` es una forma **independiente del sistema operativo** de construir rutas de archivo (funciona tanto en Windows, macOS, Linux).
- **`if os.path.exists(filepath): ... return`:** Implementa una **verificación de existencia**. Antes de iniciar la descarga, la función comprueba si el archivo ya existe en la `filepath`. Si existe, imprime un mensaje indicando que el archivo ya está descargado y usa `return` para salir de la función **sin realizar la descarga de nuevo**. Esto es crucial para evitar descargas redundantes y ahorrar tiempo.
- **`response = requests.get(url, stream=True)`:** Realiza la **solicitud de descarga** usando `requests.get(url, stream=True)`. `stream=True` es importante para **descargas grandes**, ya que indica a `requests` que descargue el contenido en **"streaming" (flujo continuo)**, en lugar de cargar todo el archivo en memoria de una sola vez. Esto es más eficiente para archivos grandes y evita problemas de memoria.
- **`with open(filepath, 'wb') as f, tqdm(...) as pbar:`:** Abre el archivo para **escritura binaria (`'wb'`)** y utiliza un **administrador de contexto (`with`)** para asegurar que el archivo se cierre correctamente después de la descarga, incluso si ocurren errores. También inicializa la barra de progreso `tqdm` dentro del mismo `with` para manejarla correctamente.
  - **`tqdm(...)`:** Configura la barra de progreso:
    - `total=total_size`: Establece el **tamaño total** de la barra de progreso, tomado del encabezado `Content-Length` de la respuesta HTTP (si está disponible).
    - `unit='B'`, `unit_scale=True`: Configura las **unidades de la barra de progreso** a bytes y habilita el escalado automático a KB, MB, GB, etc., para una mejor legibilidad.
    - `desc=filename`: Establece la **descripción de la barra de progreso** al nombre del archivo, para identificar claramente qué archivo se está descargando.
  - **`for data in response.iter_content(chunk_size=1024):`:** Itera sobre el **contenido de la respuesta HTTP** en **bloques (chunks) de 1024 bytes (1KB)** usando `response.iter_content(chunk_size=1024)`. Esto permite procesar el contenido de la descarga **bloque por bloque**, lo cual es esencial para descargas en streaming y archivos grandes.
  - **`f.write(data)`:** Escribe cada **bloque de datos (`data`)** en el archivo abierto (`f`).
  - **`pbar.update(len(data))`:** **Actualiza la barra de progreso** con la cantidad de bytes descargados en el bloque actual (`len(data)`).
- **`print(f"Descarga completada: {filename}")`:** Imprime un mensaje informando que la descarga del archivo ha finalizado con éxito.

**Beneficios de la Descarga Programática:**

- **Automatización y Eficiencia:** Automatiza tareas repetitivas y ahorra tiempo. Descarga archivos con una sola línea de código.
- **Reproducibilidad y Consistencia:** Asegura que los datos se descarguen siempre de la misma fuente y manera, mejorando la reproducibilidad de tus análisis.
- **Integración en Flujos de Trabajo:** Permite integrar la descarga de datos directamente en tus scripts de análisis, creando flujos de trabajo completos y automatizados.
- **Escalabilidad:** Facilita la descarga de múltiples archivos o datos de forma masiva, sin intervención manual para cada archivo.

In [None]:
# ================
# 1. Función de descarga
# ================
def download(url, directory):
    """
    Descarga un archivo desde la URL especificada y lo guarda en 'directory'.
    Si el archivo ya existe, no realiza la descarga.
    """
    filename = url.split('/')[-1]
    filepath = os.path.join(directory, filename)
    if os.path.exists(filepath):
        print(f"El archivo {filename} ya existe, no se descarga de nuevo.")
        return

    print(f"Descargando {filename} ...")
    time.sleep(2)  # Simulamos retardo
    r = requests.get(url, stream=True)
    total_size = int(r.headers.get('content-length', 0))
    with open(filepath, 'wb') as f:
        for data in tqdm(r.iter_content(1024),
                        total=total_size/1024 if total_size else None,
                        unit='KB', desc=filename):
            f.write(data)
    print(f"Descarga completada: {filename}\n")

## **Extracción de Shapefiles desde Archivos ZIP**

**Archivos Shapefile: El Formato Clásico para Datos Geoespaciales Vectoriales**

- **¿Qué es un Shapefile?** Un Shapefile es un formato de archivo **popular y ampliamente utilizado** para almacenar **datos geoespaciales vectoriales**. Fue desarrollado por Esri (Environmental Systems Research Institute), una empresa líder en software GIS (Geographic Information System). Aunque es un formato "clásico" y tiene algunas limitaciones (que veremos más adelante), sigue siendo muy común para la distribución de datos geográficos.
- **Vectorial vs. Raster: Dos Formas de Representar el Espacio.** Existen dos formas principales de representar información geoespacial:
  - **Datos Vectoriales:** Representan entidades geográficas como **puntos, líneas y polígonos**. Por ejemplo, un punto puede representar una ciudad, una línea puede representar una carretera, y un polígono puede representar un límite de municipio o un edificio. Los Shapefiles son un formato para datos vectoriales.
  - **Datos Raster:** Representan el espacio como una **cuadrícula de celdas o píxeles**. Cada celda tiene un valor que representa alguna característica en esa ubicación (ejemplo: elevación, temperatura, uso de suelo). Imágenes de satélite y fotografías aéreas son ejemplos de datos raster.
- **Componentes de un Shapefile: Un Conjunto de Archivos Colaborativos.** Como mencionamos antes, un Shapefile no es un solo archivo, sino un **conjunto de archivos relacionados**, cada uno con una extensión específica, que trabajan juntos para definir la información geoespacial. Los componentes **esenciales** que necesitamos extraer son:
  - **`.shp` (Shapefile Main File):** Contiene las **geometrías vectoriales** en sí mismas: las coordenadas que definen los puntos, líneas y polígonos que representan las entidades geográficas. Es el archivo **principal** del Shapefile.
  - **`.shx` (Shapefile Index File):** Contiene un **índice espacial** que acelera las **consultas y la visualización** de las geometrías en el `.shp`. Permite acceder rápidamente a las geometrías necesarias sin tener que leer todo el archivo `.shp`.
  - **`.dbf` (dBase Table):** Contiene la **tabla de atributos** asociada a las geometrías. Es una base de datos tabular en formato **dBase**, donde cada fila corresponde a una geometría en el `.shp`, y cada columna representa un **atributo** o característica de esa geometría (ejemplo: nombre de municipio, código de población, etc.). La conexión entre geometrías y atributos se basa en el **orden de las filas**.
  - **`.prj` (Projection File):** Define el **sistema de coordenadas de referencia (CRS)** utilizado para las geometrías en el `.shp`. El CRS especifica cómo se proyectan las coordenadas geográficas (latitud y longitud) en un plano cartesiano (mapa plano). Es crucial para asegurar que los mapas se visualicen correctamente y se puedan superponer con otros datos geográficos en el mismo CRS.
  - **`.cpg` (Code Page File - Opcional):** Especifica la **codificación de caracteres (encoding)** utilizada para los atributos de texto en el archivo `.dbf`. Asegura que los caracteres de texto (nombres, descripciones) se interpreten correctamente, especialmente si contienen caracteres especiales o acentos. Es **opcional**, y a veces puede faltar en un Shapefile.

**La Función `extract_shapefile(...)`: Tu Descompresor de Mapas Automatizado**

La función `extract_shapefile(estados_geo, directory, shp_dir, shape_type)` automatiza el proceso de extracción de los componentes esenciales del Shapefile desde archivos ZIP descargados. Veamos sus partes clave:

```python
def extract_shapefile(estados_geo, directory, shp_dir, shape_type):
    # ... (código de la función) ...
```

- **`estados_geo` (Parámetro de Entrada):** Una **lista de nombres de archivos ZIP** que contienen Shapefiles para diferentes estados. Por ejemplo: `["09_ciudaddemexico.zip", "01_aguascalientes.zip"]`.
- **`directory` (Parámetro de Entrada):** La **ruta de la carpeta** donde se encuentran los archivos ZIP descargados (ejemplo: `mgc_directory`).
- **`shp_dir` (Parámetro de Entrada):** La **ruta de la carpeta de destino** donde se extraerán los archivos Shapefile (ejemplo: `shp_dir`).
- **`shape_type` (Parámetro de Entrada):** Una cadena que indica el **tipo de Shapefile** que se va a extraer (ejemplo: `"m"` para manzanas, `"a"` para AGEBs). Se usa para construir los nombres de archivo dentro del ZIP.
- **`os.makedirs(shp_dir, exist_ok=True)`:** Crea el **directorio de destino `shp_dir`** si no existe, usando `os.makedirs(..., exist_ok=True)`.
- **`for estado in estados_geo:`:** Itera sobre cada **nombre de archivo ZIP** en la lista `estados_geo`.
- **`file = estado.split('_')[0]`:** Extrae el **código de estado** del nombre del archivo ZIP (ejemplo: `"09"` de `"09_ciudaddemexico.zip"`).
- **`zip_file = os.path.join(directory, estado)`:** Construye la **ruta completa al archivo ZIP**.
- **`shp_files = [...]`:** Define una **lista de nombres de archivo Shapefile** que se espera encontrar **dentro del archivo ZIP**. Estos nombres se construyen usando el `file` (código de estado) y el `shape_type` para que coincidan con la estructura de los archivos ZIP del INEGI.
- **`if all(os.path.exists(os.path.join(shp_dir, f)) for f in shp_files): ... continue`:** Implementa una **verificación de existencia** para los archivos Shapefile. Comprueba si **todos** los archivos listados en `shp_files` ya existen en el directorio de destino `shp_dir`. Si todos existen, imprime un mensaje y usa `continue` para pasar al siguiente estado **sin re-extraer los Shapefiles**.
- **`with ZipFile(zip_file, 'r') as zip_ref:`:** Abre el archivo ZIP en **modo lectura (`'r'`)** usando `ZipFile(zip_file, 'r')` y un administrador de contexto (`with`).
- **`for f in shp_files:`:** Itera sobre la lista de nombres de archivo Shapefile (`shp_files`) que se van a extraer.
- **`try: zip_ref.extract(f, shp_dir)`:** Intenta **extraer el archivo `f`** del archivo ZIP al directorio de destino `shp_dir` usando `zip_ref.extract(f, shp_dir)`. Esto puede generar un error `KeyError` si el archivo no se encuentra dentro del ZIP.
- **`except KeyError: ...`:** **Maneja el error `KeyError`**. Si ocurre un `KeyError` (el archivo no se encontró en el ZIP), se ejecuta el bloque `except`:
  - **`if f.endswith('.cpg'): ...`:** Comprueba si el archivo que faltaba era un **`.cpg` (archivo de codificación)**. El archivo `.cpg` es **opcional**, por lo que si falta, no es un error fatal. En este caso, se crea un archivo `.cpg` vacío en el directorio de destino y se escribe la codificación `"ISO-8859-1"` dentro, que es una codificación común para Shapefiles en México.
  - **`else: print(f"¡ERROR! Archivo Shapefile esencial '{f}' no encontrado en el ZIP.")`:** Si el archivo que faltaba **no era un `.cpg`**, se imprime un mensaje de **error**, ya que los archivos `.shp`, `.dbf`, `.shx`, `.prj` son **esenciales** para un Shapefile válido.
- **`print(f"Shapefiles extraídos para {file}.")`:** Imprime un mensaje informando que la extracción de los Shapefiles para el estado actual ha finalizado.

**Beneficios de la Extracción Automatizada de Shapefiles:**

- **Eficiencia y Precisión:** Automatiza un proceso que podría ser tedioso y propenso a errores si se hiciera manualmente (descomprimir ZIPs, buscar archivos específicos, etc.).
- **Consistencia y Repetibilidad:** Asegura que los Shapefiles se extraigan siempre de la misma manera, mejorando la reproducibilidad de tu flujo de trabajo.
- **Manejo de Errores Inteligente:** La función maneja el caso (común) de que el archivo `.cpg` sea opcional y crea uno por defecto si falta, evitando errores innecesarios. También informa si faltan archivos Shapefile más importantes.
- **Preparación para el Análisis Geoespacial:** Prepara los datos Shapefile para su posterior procesamiento y análisis en GeoPandas y DuckDB.

In [None]:
# ================
# 2. Función para extraer Shapefile
# ================
def extract_shapefile(estados_geo, directory, shp_dir, shape_type):
    """
    Extrae shapefiles y componentes (shp,cpg,dbf,prj,shx) de los ZIP.
    """
    os.makedirs(shp_dir, exist_ok=True)
    for estado in estados_geo:
        file = estado.split('_')[0]
        zip_file = os.path.join(directory, estado)
        shp_files = [
            f'conjunto_de_datos/{file}{shape_type}.shp',
            f'conjunto_de_datos/{file}{shape_type}.cpg',
            f'conjunto_de_datos/{file}{shape_type}.dbf',
            f'conjunto_de_datos/{file}{shape_type}.prj',
            f'conjunto_de_datos/{file}{shape_type}.shx'
        ]

        if all(os.path.exists(os.path.join(shp_dir, f)) for f in shp_files):
            print(f"Todos los archivos para {file} ya están descomprimidos en {shp_dir}")
            continue

        with ZipFile(zip_file, 'r') as zip_ref:
            for f in shp_files:
                try:
                    zip_ref.extract(f, shp_dir)
                except KeyError:
                    if f.endswith('.cpg'):  # cpg opcional
                        with open(os.path.join(shp_dir, f), 'w') as out_file:
                            out_file.write("ISO 88591")
                    else:
                        print(f"El archivo {f} no se encontró en el ZIP.")

        print(f"Archivos Shapefile extraídos para {file} en {shp_dir}.\n")

## **Variables, Carpetas y Organización de la Información**

**Concepto Clave: Definir Variables y Estructura de Carpetas**  
En cualquier proyecto de manejo de datos, **la organización del espacio de trabajo** es uno de los primeros pasos críticos. Esto asegura que las descargas, los archivos intermedios y los resultados finales estén ordenados, facilitando la reproducibilidad y la colaboración.

1. **Variables de Configuración**
  
  - Se definen variables como `estados_geo` y `estados_num` para identificar qué archivos se van a descargar. Por ejemplo, en el caso del código, se define:
    
    ```python
    estados_geo = ["09_ciudaddemexico.zip"]
    estados_num = [9]
    ```
    
    *¿Por qué es importante?*  
    Porque al separar la lógica (qué entidades/estados voy a procesar) del propio código, podemos **escalar o modificar** fácilmente la selección de archivos.
    
2. **Rutas para Almacenar los Datos**
  
  - Se definen carpetas como `download_directory` y `csv_directory` para almacenar los **archivos CSV** del censo:
    
    ```python
    download_directory = "./inegi/ccpvagebmza/"
    csv_directory = os.path.join(download_directory, "csv")
    ```
    
  - Se hace algo similar para los **shapefiles** (`mgc_directory`). *¿Por qué es fundamental?*
    
  - Mantener archivos de distintos propósitos (CSV vs. shapefiles) en directorios separados reduce confusiones y facilita encontrar lo que necesitamos.
    
3. **Limpieza Previa de Carpetas**
  
  - Antes de continuar, el código verifica si ya existen las carpetas `download_directory` o `mgc_directory` y, de ser así, **las elimina**. Esto garantiza un entorno “limpio” antes de cada corrida y evita el uso de archivos obsoletos.
  - Comando clave: `shutil.rmtree(ruta)` para borrar una carpeta con todo su contenido. *¿Por qué hacerlo?*
  - Evita inconsistencias entre distintas ejecuciones del script (por ejemplo, archivos incompletos, sobras de descargas anteriores, etc.).
  - Asegura un **estado inicial congruente** cada vez que corremos el pipeline.

Configurar variables y rutas para cada tipo de dato, así como limpiar los directorios antes de cada ejecución, son pasos esenciales para un flujo de trabajo ordenado, repetible y confiable.  
La **disciplina en la organización** ahorra tiempo, facilita colaboraciones y marca la diferencia en proyectos de análisis de datos.

In [None]:
# ================
# 3. Variables y Carpetas
# ================
estados_geo = ["09_ciudaddemexico.zip"]  # Solo CDMX
estados_num = [9]  # Solo número 9

download_directory = "./inegi/ccpvagebmza/"
csv_directory = os.path.join(download_directory, "csv")

# Eliminar carpeta download_directory si existe antes de descargar
if os.path.exists(download_directory):
    shutil.rmtree(download_directory)

os.makedirs(download_directory, exist_ok=True)
os.makedirs(csv_directory, exist_ok=True)

# Carpeta para shapefiles del marco geoestadístico
mgc_directory = "./inegi/mgccpv/"
# Eliminar carpeta mgc_directory si existe antes de descargar
if os.path.exists(mgc_directory):
    shutil.rmtree(mgc_directory)

os.makedirs(mgc_directory, exist_ok=True)


## **DuckDB + Spatial - Tu Base de Datos Analítica Embebida**


**Concepto Clave: Bases de Datos Embebidas para Análisis y Datos Geográficos**

1. **¿Qué es DuckDB y por qué es Útil?**
  
  - **DuckDB** es un sistema de gestión de bases de datos **analítico** y **embebido**:
    - **Analítico**: Optimizado para consultas que involucran análisis de grandes volúmenes de datos, agregaciones y joins complejos.
    - **Embebido**: No requiere un servidor externo; la base de datos vive en un **archivo** local (similar a SQLite), por lo que su instalación y mantenimiento son sencillos.
  - Diseñado para trabajar con datos de manera muy eficiente, soportando **operaciones en memoria** y formato **columnar** interno.
2. **Instalando y Cargando el Módulo Spatial**
  
  - En el código se ve la instrucción:
    
    ```python
    con.execute("INSTALL spatial;")
    con.execute("LOAD spatial;")
    ```
    
    Esto activa la **extensión espacial** de DuckDB, que le permite manejar **columnas geométricas** (geom) y realizar operaciones geoespaciales como `ST_Intersects`, `ST_Union`, `ST_Buffer`, etc.
    
3. **Creación de la Conexión**
  
  - Se crea una conexión con:
    
    ```python
    db_file = "./datos_inegi.duckdb"
    con = duckdb.connect(db_file)
    ```
    
    *¿Por qué un archivo `.duckdb`?*
    
    - Centraliza todos los datos **tabulares y geoespaciales** en un solo archivo.
    - Facilita el transporte o la copia del proyecto completo a otro entorno: solo necesitas llevarte el archivo `.duckdb`.
    - Permite un acceso ultra rápido a las tablas sin necesidad de instalar un servidor de base de datos.
4. **Ventajas de Usar DuckDB**
  
  - **Velocidad:** Gracias a su arquitectura columnar, las consultas que seleccionan algunas columnas específicas son muy rápidas.
  - **Soporte Geoespacial Integrado:** Con el módulo `spatial`, DuckDB se convierte en un **GIS ligero** para consultas SQL.
  - **Simplicidad de Instalación:** Basta con `pip install duckdb`, no hay que configurar un servidor.
  - **Altamente Portable:** El archivo resultante (por ejemplo, `datos_inegi.duckdb`) puede moverse a cualquier máquina con Python y DuckDB instalado.


DuckDB es la pieza central de nuestro pipeline. Nos permite cargar, unir y manipular datos **censales** y **geoespaciales** de forma veloz y con sintaxis **SQL estándar**. Con él, tenemos todo el poder de una base de datos analítica sin la complejidad de un servidor dedicado.

In [None]:
# ================
# 4. DuckDB + spatial
# ================
# Crear la conexión a la base de datos
db_file = "./datos_inegi.duckdb"  # Nombre del archivo de la base de datos
# Si quieres eliminar la base de datos existente, descomenta la siguiente linea
# if os.path.exists(db_file):
#    os.remove(db_file)
con = duckdb.connect(db_file) # Conecta a una base de datos persistente
con.execute("INSTALL spatial;")
con.execute("LOAD spatial;")

## **Descarga y Extracción del CSV - Datos Tabulares del Censo**

**Concepto Clave: Lectura de Datos Tabulares del INEGI**

1. **Archivos CSV (Comma-Separated Values)**
  
  - El INEGI distribuye gran parte de los datos censales en **archivos CSV** comprimidos en formato ZIP.
  - Un archivo CSV contiene **tablas de texto**, donde cada fila suele representar una entidad (por ejemplo, una manzana), y cada columna representa una variable (población total, número de viviendas, edad, escolaridad, etc.).
2. **Estructura de Carpeta para los CSV**
  
  - En el código, la carpeta `csv_directory` almacena los CSV extraídos:
    
    ```python
    csv_directory = os.path.join(download_directory, "csv")
    ```
    
  - Se crea la carpeta, y luego se baja el archivo ZIP correspondiente a la entidad deseada (ej. `09` para CDMX), con nuestro confiable método `download(url, directory)`.
    
3. **Extracción del ZIP y Verificación**
  
  - Una vez descargado el ZIP, se utiliza:
    
    ```python
    with ZipFile(zip_file_path, 'r') as z:
       z.extract(target_csv, os.path.join(csv_directory))
    ```
    
  - Esto **descomprime** el CSV dentro de la carpeta `csv_directory`, quedando listo para ser procesado.
    
  - *¿Por qué controlar manualmente la extracción?*
    
    - Para asegurarnos de **exactamente** qué archivos se extraen y **dónde** se ubican. Así evitamos problemas con estructuras de carpetas complejas dentro de los ZIPs del INEGI.
4. **Comprobaciones Antes de Re-Descargar**
  
  - El script revisa si el CSV ya existe para **no duplicar descargas** ni extraer archivos repetidos. Este control ahorra ancho de banda y tiempo de ejecución.

La descarga y extracción de los archivos CSV es un **paso muy importante** para obtener la información censal. Tener estos datos en formato tabular (CSV) nos permite cargarlos posteriormente a DuckDB y combinarlos con la información espacial.

In [None]:
# ================
# 5. Descargar CSV
# ================

i = 9  # Índice único
estado_str = "09"
zip_file_path = os.path.join(download_directory, f"ageb_mza_urbana_{estado_str}_cpv2020_csv.zip")
csv_file_path = os.path.join(csv_directory, "conjunto_de_datos",f"conjunto_de_datos_ageb_urbana_{estado_str}_cpv2020.csv")

os.makedirs(os.path.dirname(csv_file_path), exist_ok=True)

if not os.path.exists(csv_file_path):
    # Descarga
    url = (f"https://www.inegi.org.mx/contenidos/programas/ccpv/2020/datosabiertos/"
            f"ageb_manzana/ageb_mza_urbana_{estado_str}_cpv2020_csv.zip")
    if not os.path.exists(zip_file_path):
        download(url, download_directory)
    # Extraer CSV
    with ZipFile(zip_file_path, 'r') as z:
        folder_name = f"ageb_mza_urbana_{estado_str}_cpv2020"
        target_csv = os.path.join(folder_name, "conjunto_de_datos",
                                  f"conjunto_de_datos_ageb_urbana_{estado_str}_cpv2020.csv")
        z.extract(target_csv, os.path.join(csv_directory))
else:
    print(f"CSV de {estado_str} ya existe, no se descarga.")

In [None]:
url

## **Creando la Tabla `censo_all` en DuckDB - Consolidación de Datos Censales**

**Concepto Clave: Almacenar Datos en una Estructura Eficiente para Análisis**

1. **Creación de la Tabla `censo_all`**
  
  - Tras descargar el CSV, se realiza:
    
    ```sql
    CREATE TABLE censo_all (... columnas ...)
    ```
    
    Definiendo **todas las columnas** con su tipo de dato (VARCHAR, DOUBLE, etc.).
    
  - *¿Por qué crear la tabla con una instrucción `CREATE TABLE ...` en lugar de un simple `CREATE TABLE AS SELECT ...`?*
    
    - Para **definir con precisión** los nombres y tipos de columnas (ej. `POBTOT DOUBLE`), evitando inconsistencias de tipo o problemas de parsing.
    - Así nos aseguramos que la tabla final tenga la **estructura correcta** para el análisis.
2. **Insertar Datos desde el CSV**
  
  - El paso crítico es:
    
    ```sql
    INSERT INTO censo_all
    SELECT [...]
    FROM read_csv_auto('{csv_file_path}', ...)
    WHERE MZA != '0'
    ```
    
    *¿Qué sucede aquí?*
    
    - **`read_csv_auto(...)`**: Función de DuckDB que lee automáticamente el CSV y **deduce** los tipos de columna.
    - **`INSERT INTO censo_all SELECT ...`**: Selecciona las columnas deseadas del CSV y las **inserta** en la tabla `censo_all`.
    - **`WHERE MZA != '0'`**: Ejemplo de filtro para excluir manzanas con valor ‘0’ si así lo requerimos.
3. **Transacciones y Seguridad**
  
  - El código hace:
    
    ```python
    con.execute("BEGIN TRANSACTION;")
    ...
    con.execute("COMMIT;")
    ```
    
    Esto agrupa las operaciones en una **transacción**. Si algo falla en medio, se puede hacer un **ROLLBACK** y no se queda la tabla incompleta. Es buena práctica para mantener la base de datos en un **estado coherente**.
    
4. **¿Por qué Llevarnos el CSV a una Tabla SQL?**
  
  - **Consultas Veloces y Flexibles**: Una vez dentro de DuckDB, podemos **filtrar, agrupar, unir** y transformar datos con lenguaje **SQL** estándar.
  - **Integración con Otros Datos**: Podemos unir sin problemas la información demográfica con otras tablas que tengamos en la misma base.
  - **Menor Uso de Memoria**: DuckDB administra la lectura de datos de forma optimizada. No necesitamos cargar todo el CSV a memoria si no lo deseamos.


Transformar el CSV en una tabla `censo_all` dentro de DuckDB nos brinda la **flexibilidad y potencia** del lenguaje SQL para explorar y analizar los indicadores censales. Este paso **convierte** nuestros datos crudos en una base analítica robusta y lista para uniones con los mapas.

In [None]:
# ================
# 6. Leer CSV con DuckDB y crear una sola tabla
# ================
# Vamos a crear una tabla "censo_all" consolidada en DuckDB
con.execute("DROP TABLE IF EXISTS censo_all;")
con.execute("""
    CREATE TABLE censo_all (
        ENTIDAD VARCHAR,
        NOM_ENT VARCHAR,
        MUN VARCHAR,
        NOM_MUN VARCHAR,
        LOC VARCHAR,
        NOM_LOC VARCHAR,
        AGEB VARCHAR,
        MZA VARCHAR,
        POBTOT DOUBLE,
        POBFEM DOUBLE,
        POBMAS DOUBLE,
        P_0A2 DOUBLE,
        P_0A2_F DOUBLE,
        P_0A2_M DOUBLE,
        P_3YMAS DOUBLE,
        P_3YMAS_F DOUBLE,
        P_3YMAS_M DOUBLE,
        P_5YMAS DOUBLE,
        P_5YMAS_F DOUBLE,
        P_5YMAS_M DOUBLE,
        P_12YMAS DOUBLE,
        P_12YMAS_F DOUBLE,
        P_12YMAS_M DOUBLE,
        P_15YMAS DOUBLE,
        P_15YMAS_F DOUBLE,
        P_15YMAS_M DOUBLE,
        P_18YMAS DOUBLE,
        P_18YMAS_F DOUBLE,
        P_18YMAS_M DOUBLE,
        P_3A5 DOUBLE,
        P_3A5_F DOUBLE,
        P_3A5_M DOUBLE,
        P_6A11 DOUBLE,
        P_6A11_F DOUBLE,
        P_6A11_M DOUBLE,
        P_8A14 DOUBLE,
        P_8A14_F DOUBLE,
        P_8A14_M DOUBLE,
        P_12A14 DOUBLE,
        P_12A14_F DOUBLE,
        P_12A14_M DOUBLE,
        P_15A17 DOUBLE,
        P_15A17_F DOUBLE,
        P_15A17_M DOUBLE,
        P_18A24 DOUBLE,
        P_18A24_F DOUBLE,
        P_18A24_M DOUBLE,
        P_15A49_F DOUBLE,
        P_60YMAS DOUBLE,
        P_60YMAS_F DOUBLE,
        P_60YMAS_M DOUBLE,
        REL_H_M DOUBLE,
        POB0_14 DOUBLE,
        POB15_64 DOUBLE,
        POB65_MAS DOUBLE,
        PROM_HNV DOUBLE,
        PNACENT DOUBLE,
        PNACENT_F DOUBLE,
        PNACENT_M DOUBLE,
        PNACOE DOUBLE,
        PNACOE_F DOUBLE,
        PNACOE_M DOUBLE,
        PRES2015 DOUBLE,
        PRES2015_F DOUBLE,
        PRES2015_M DOUBLE,
        PRESOE15 DOUBLE,
        PRESOE15_F DOUBLE,
        PRESOE15_M DOUBLE,
        P3YM_HLI DOUBLE,
        P3YM_HLI_F DOUBLE,
        P3YM_HLI_M DOUBLE,
        P3HLINHE DOUBLE,
        P3HLINHE_F DOUBLE,
        P3HLINHE_M DOUBLE,
        P3HLI_HE DOUBLE,
        P3HLI_HE_F DOUBLE,
        P3HLI_HE_M DOUBLE,
        P5_HLI DOUBLE,
        P5_HLI_NHE DOUBLE,
        P5_HLI_HE DOUBLE,
        PHOG_IND DOUBLE,
        POB_AFRO DOUBLE,
        POB_AFRO_F DOUBLE,
        POB_AFRO_M DOUBLE,
        PCON_DISC DOUBLE,
        PCDISC_MOT DOUBLE,
        PCDISC_VIS DOUBLE,
        PCDISC_LENG DOUBLE,
        PCDISC_AUD DOUBLE,
        PCDISC_MOT2 DOUBLE,
        PCDISC_MEN DOUBLE,
        PCON_LIMI DOUBLE,
        PCLIM_CSB DOUBLE,
        PCLIM_VIS DOUBLE,
        PCLIM_HACO DOUBLE,
        PCLIM_OAUD DOUBLE,
        PCLIM_MOT2 DOUBLE,
        PCLIM_RE_CO DOUBLE,
        PCLIM_PMEN DOUBLE,
        PSIND_LIM DOUBLE,
        P3A5_NOA DOUBLE,
        P3A5_NOA_F DOUBLE,
        P3A5_NOA_M DOUBLE,
        P6A11_NOA DOUBLE,
        P6A11_NOAF DOUBLE,
        P6A11_NOAM DOUBLE,
        P12A14NOA DOUBLE,
        P12A14NOAF DOUBLE,
        P12A14NOAM DOUBLE,
        P15A17A DOUBLE,
        P15A17A_F DOUBLE,
        P15A17A_M DOUBLE,
        P18A24A DOUBLE,
        P18A24A_F DOUBLE,
        P18A24A_M DOUBLE,
        P8A14AN DOUBLE,
        P8A14AN_F DOUBLE,
        P8A14AN_M DOUBLE,
        P15YM_AN DOUBLE,
        P15YM_AN_F DOUBLE,
        P15YM_AN_M DOUBLE,
        P15YM_SE DOUBLE,
        P15YM_SE_F DOUBLE,
        P15YM_SE_M DOUBLE,
        P15PRI_IN DOUBLE,
        P15PRI_INF DOUBLE,
        P15PRI_INM DOUBLE,
        P15PRI_CO DOUBLE,
        P15PRI_COF DOUBLE,
        P15PRI_COM DOUBLE,
        P15SEC_IN DOUBLE,
        P15SEC_INF DOUBLE,
        P15SEC_INM DOUBLE,
        P15SEC_CO DOUBLE,
        P15SEC_COF DOUBLE,
        P15SEC_COM DOUBLE,
        P18YM_PB DOUBLE,
        P18YM_PB_F DOUBLE,
        P18YM_PB_M DOUBLE,
        GRAPROES DOUBLE,
        GRAPROES_F DOUBLE,
        GRAPROES_M DOUBLE,
        PEA DOUBLE,
        PEA_F DOUBLE,
        PEA_M DOUBLE,
        PE_INAC DOUBLE,
        PE_INAC_F DOUBLE,
        PE_INAC_M DOUBLE,
        POCUPADA DOUBLE,
        POCUPADA_F DOUBLE,
        POCUPADA_M DOUBLE,
        PDESOCUP DOUBLE,
        PDESOCUP_F DOUBLE,
        PDESOCUP_M DOUBLE,
        PSINDER DOUBLE,
        PDER_SS DOUBLE,
        PDER_IMSS DOUBLE,
        PDER_ISTE DOUBLE,
        PDER_ISTEE DOUBLE,
        PAFIL_PDOM DOUBLE,
        PDER_SEGP DOUBLE,
        PDER_IMSSB DOUBLE,
        PAFIL_IPRIV DOUBLE,
        PAFIL_OTRAI DOUBLE,
        P12YM_SOLT DOUBLE,
        P12YM_CASA DOUBLE,
        P12YM_SEPA DOUBLE,
        PCATOLICA DOUBLE,
        PRO_CRIEVA DOUBLE,
        POTRAS_REL DOUBLE,
        PSIN_RELIG DOUBLE,
        TOTHOG DOUBLE,
        HOGJEF_F DOUBLE,
        HOGJEF_M DOUBLE,
        POBHOG DOUBLE,
        PHOGJEF_F DOUBLE,
        PHOGJEF_M DOUBLE,
        VIVTOT DOUBLE,
        TVIVHAB DOUBLE,
        TVIVPAR DOUBLE,
        VIVPAR_HAB DOUBLE,
        VIVPARH_CV DOUBLE,
        TVIVPARHAB DOUBLE,
        VIVPAR_DES DOUBLE,
        VIVPAR_UT DOUBLE,
        OCUPVIVPAR DOUBLE,
        PROM_OCUP DOUBLE,
        PRO_OCUP_C DOUBLE,
        VPH_PISODT DOUBLE,
        VPH_PISOTI DOUBLE,
        VPH_1DOR DOUBLE,
        VPH_2YMASD DOUBLE,
        VPH_1CUART DOUBLE,
        VPH_2CUART DOUBLE,
        VPH_3YMASC DOUBLE,
        VPH_C_ELEC DOUBLE,
        VPH_S_ELEC DOUBLE,
        VPH_AGUADV DOUBLE,
        VPH_AEASP DOUBLE,
        VPH_AGUAFV DOUBLE,
        VPH_TINACO DOUBLE,
        VPH_CISTER DOUBLE,
        VPH_EXCSA DOUBLE,
        VPH_LETR DOUBLE,
        VPH_DRENAJ DOUBLE,
        VPH_NODREN DOUBLE,
        VPH_C_SERV DOUBLE,
        VPH_NDEAED DOUBLE,
        VPH_DSADMA DOUBLE,
        VPH_NDACMM DOUBLE,
        VPH_SNBIEN DOUBLE,
        VPH_REFRI DOUBLE,
        VPH_LAVAD DOUBLE,
        VPH_HMICRO DOUBLE,
        VPH_AUTOM DOUBLE,
        VPH_MOTO DOUBLE,
        VPH_BICI DOUBLE,
        VPH_RADIO DOUBLE,
        VPH_TV DOUBLE,
        VPH_PC DOUBLE,
        VPH_TELEF DOUBLE,
        VPH_CEL DOUBLE,
        VPH_INTER DOUBLE,
        VPH_STVP DOUBLE,
        VPH_SPMVPI DOUBLE,
        VPH_CVJ DOUBLE,
        VPH_SINRTV DOUBLE,
        VPH_SINLTC DOUBLE,
        VPH_SINCINT DOUBLE,
        VPH_SINTIC DOUBLE
    );
""")


estado_str = "09"
csv_file_path = os.path.join(csv_directory, f"ageb_mza_urbana_{estado_str}_cpv2020",
                              "conjunto_de_datos",f"conjunto_de_datos_ageb_urbana_{estado_str}_cpv2020.csv")

    # --- Intento de inserción con el archivo original ---
con.execute("BEGIN TRANSACTION;")

# Insertar en censo_all
con.execute(f"""
    INSERT INTO censo_all
    SELECT
        ENTIDAD,
        NOM_ENT,
        MUN,
        NOM_MUN,
        LOC,
        NOM_LOC,
        AGEB,
        MZA,
        POBTOT,
        POBFEM,
        POBMAS,
        P_0A2,
        P_0A2_F,
        P_0A2_M,
        P_3YMAS,
        P_3YMAS_F,
        P_3YMAS_M,
        P_5YMAS,
        P_5YMAS_F,
        P_5YMAS_M,
        P_12YMAS,
        P_12YMAS_F,
        P_12YMAS_M,
        P_15YMAS,
        P_15YMAS_F,
        P_15YMAS_M,
        P_18YMAS,
        P_18YMAS_F,
        P_18YMAS_M,
        P_3A5,
        P_3A5_F,
        P_3A5_M,
        P_6A11,
        P_6A11_F,
        P_6A11_M,
        P_8A14,
        P_8A14_F,
        P_8A14_M,
        P_12A14,
        P_12A14_F,
        P_12A14_M,
        P_15A17,
        P_15A17_F,
        P_15A17_M,
        P_18A24,
        P_18A24_F,
        P_18A24_M,
        P_15A49_F,
        P_60YMAS,
        P_60YMAS_F,
        P_60YMAS_M,
        REL_H_M,
        POB0_14,
        POB15_64,
        POB65_MAS,
        PROM_HNV,
        PNACENT,
        PNACENT_F,
        PNACENT_M,
        PNACOE,
        PNACOE_F,
        PNACOE_M,
        PRES2015,
        PRES2015_F,
        PRES2015_M,
        PRESOE15,
        PRESOE15_F,
        PRESOE15_M,
        P3YM_HLI,
        P3YM_HLI_F,
        P3YM_HLI_M,
        P3HLINHE,
        P3HLINHE_F,
        P3HLINHE_M,
        P3HLI_HE,
        P3HLI_HE_F,
        P3HLI_HE_M,
        P5_HLI,
        P5_HLI_NHE,
        P5_HLI_HE,
        PHOG_IND,
        POB_AFRO,
        POB_AFRO_F,
        POB_AFRO_M,
        PCON_DISC,
        PCDISC_MOT,
        PCDISC_VIS,
        PCDISC_LENG,
        PCDISC_AUD,
        PCDISC_MOT2,
        PCDISC_MEN,
        PCON_LIMI,
        PCLIM_CSB,
        PCLIM_VIS,
        PCLIM_HACO,
        PCLIM_OAUD,
        PCLIM_MOT2,
        PCLIM_RE_CO,
        PCLIM_PMEN,
        PSIND_LIM,
        P3A5_NOA,
        P3A5_NOA_F,
        P3A5_NOA_M,
        P6A11_NOA,
        P6A11_NOAF,
        P6A11_NOAM,
        P12A14NOA,
        P12A14NOAF,
        P12A14NOAM,
        P15A17A,
        P15A17A_F,
        P15A17A_M,
        P18A24A,
        P18A24A_F,
        P18A24A_M,
        P8A14AN,
        P8A14AN_F,
        P8A14AN_M,
        P15YM_AN,
        P15YM_AN_F,
        P15YM_AN_M,
        P15YM_SE,
        P15YM_SE_F,
        P15YM_SE_M,
        P15PRI_IN,
        P15PRI_INF,
        P15PRI_INM,
        P15PRI_CO,
        P15PRI_COF,
        P15PRI_COM,
        P15SEC_IN,
        P15SEC_INF,
        P15SEC_INM,
        P15SEC_CO,
        P15SEC_COF,
        P15SEC_COM,
        P18YM_PB,
        P18YM_PB_F,
        P18YM_PB_M,
        GRAPROES,
        GRAPROES_F,
        GRAPROES_M,
        PEA,
        PEA_F,
        PEA_M,
        PE_INAC,
        PE_INAC_F,
        PE_INAC_M,
        POCUPADA,
        POCUPADA_F,
        POCUPADA_M,
        PDESOCUP,
        PDESOCUP_F,
        PDESOCUP_M,
        PSINDER,
        PDER_SS,
        PDER_IMSS,
        PDER_ISTE,
        PDER_ISTEE,
        PAFIL_PDOM,
        PDER_SEGP,
        PDER_IMSSB,
        PAFIL_IPRIV,
        PAFIL_OTRAI,
        P12YM_SOLT,
        P12YM_CASA,
        P12YM_SEPA,
        PCATOLICA,
        PRO_CRIEVA,
        POTRAS_REL,
        PSIN_RELIG,
        TOTHOG,
        HOGJEF_F,
        HOGJEF_M,
        POBHOG,
        PHOGJEF_F,
        PHOGJEF_M,
        VIVTOT,
        TVIVHAB,
        TVIVPAR,
        VIVPAR_HAB,
        VIVPARH_CV,
        TVIVPARHAB,
        VIVPAR_DES,
        VIVPAR_UT,
        OCUPVIVPAR,
        PROM_OCUP,
        PRO_OCUP_C,
        VPH_PISODT,
        VPH_PISOTI,
        VPH_1DOR,
        VPH_2YMASD,
        VPH_1CUART,
        VPH_2CUART,
        VPH_3YMASC,
        VPH_C_ELEC,
        VPH_S_ELEC,
        VPH_AGUADV,
        VPH_AEASP,
        VPH_AGUAFV,
        VPH_TINACO,
        VPH_CISTER,
        VPH_EXCSA,
        VPH_LETR,
        VPH_DRENAJ,
        VPH_NODREN,
        VPH_C_SERV,
        VPH_NDEAED,
        VPH_DSADMA,
        VPH_NDACMM,
        VPH_SNBIEN,
        VPH_REFRI,
        VPH_LAVAD,
        VPH_HMICRO,
        VPH_AUTOM,
        VPH_MOTO,
        VPH_BICI,
        VPH_RADIO,
        VPH_TV,
        VPH_PC,
        VPH_TELEF,
        VPH_CEL,
        VPH_INTER,
        VPH_STVP,
        VPH_SPMVPI,
        VPH_CVJ,
        VPH_SINRTV,
        VPH_SINLTC,
        VPH_SINCINT,
        VPH_SINTIC
    FROM read_csv_auto('{csv_file_path}',
    NULLSTR=['N/A','N/D','*'], SAMPLE_SIZE=-1)
    WHERE MZA != '0'
""")
con.execute("COMMIT;")
print(f"  Datos de '{csv_file_path}' insertados en la tabla 'censo_all'.")

## **Segunda Descarga y Extracción del Shapefile - Manzanas de la CDMX**

**Concepto Clave: Adición de Información Geográfica Específica**

1. **Descarga Focalizada**
  
  - El script solo descarga el ZIP de la **Ciudad de México (`09_ciudaddemexico.zip`)**. Por ejemplo:
    
    ```python
    download(url_mgccpv + "09_ciudaddemexico.zip", mgc_directory)
    ```
    
  - Se ubican estos archivos en la carpeta `mgc_directory`, que concentra el “Marco Geoestadístico” para la entidad.
    
2. **Extracción del Shapefile de Manzanas**
  
  - Se usa la función `extract_shapefile`, con `shape_type = "m"` (m de “manzana”).
  - *¿Por qué la distinción con `shape_type`?*
    - El INEGI provee diversos niveles de granularidad geográfica (AGEBs, localidades, municipios). Cada uno tiene un sufijo diferente (`"a"`, `"l"`, `"m"`, etc.).
    - Usar un parámetro evita duplicar lógica y hace fácil cambiar la extracción de manzanas a AGEBs, si se requiere.
3. **Archivos Esenciales**
  
  - Se verifica la existencia de los archivos `.shp, .dbf, .shx, .prj` y se crea uno `.cpg` si no existe.
  - Esto es **vital** para conservar la integridad de los datos geoespaciales: sin `.prj` no sabríamos el sistema de coordenadas, y sin `.dbf` no hay atributos para cada polígono de manzana.
4. **Importancia de las Manzanas**
  
  - La manzana es la **unidad geográfica más pequeña** de desagregación que el INEGI ofrece en un censo urbano.
  - Nos permite analizar con gran **detalle espacial** (por ejemplo, población por cuadra) para estudios de planeación urbana, movilidad, accesibilidad a servicios, etc.


La descarga y extracción del Shapefile de manzanas de la CDMX nos acerca a la **unidad básica de estudio geoespacial**. Con esto, tendremos la geometría (los polígonos) de cada manzana para relacionarlos con los datos censales que ya están en DuckDB.

In [None]:
# ================
# 7. Descargar y Extraer Shapefiles
# ================
# Descargar solo el shapefile de CDMX
url_mgccpv = "https://www.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/geografia/marcogeo/889463807469/"
download(url_mgccpv + "09_ciudaddemexico.zip", mgc_directory)

# Extraer solo CDMX
# Manzanas
shape_type = "m"
directory = mgc_directory
shp_dir = os.path.join(directory, "shp", shape_type)
extract_shapefile(["09_ciudaddemexico.zip"], directory, shp_dir, shape_type)

## **Conversión a GeoParquet - Eficiencia y Modernidad en Datos Geoespaciales**

**Concepto Clave: GeoParquet, el Formato Columna para Geometrías**

1. **¿Qué es Parquet y GeoParquet?**
  
  - **Parquet** es un formato **columna** (columnar) diseñado para el **almacenamiento y la consulta eficientes** de datos. Fue impulsado por Apache Hadoop/Arrow, permitiendo comprimir y dividir datos por columnas para acelerar las lecturas selectivas.
  - **GeoParquet** es Parquet **adaptado** a datos geoespaciales. Incluye metadatos para la columna de geometría, de manera que se reconozca su CRS (Sistema de Referencia de Coordenadas) y se almacenen las geometrías de forma compacta.
2. **Por qué Pasar de Shapefile a GeoParquet**
  
  - **Rendimiento:** Los Shapefiles son más viejos y están fragmentados en varios archivos, mientras que un solo archivo GeoParquet es **mucho más rápido** al leer y consultar.
  - **Tamaño Reducido:** Parquet puede comprimir datos de manera más efectiva, ocupando menos espacio en disco.
  - **Compatibilidad Creciente:** Herramientas modernas (incluido DuckDB) leen Parquet de forma nativa y muy veloz.
3. **Proceso de Conversión con GeoPandas**
  
  - El código:
    
    ```python
    gdf = gpd.read_file(shp_path, encoding='ISO-8859-1')
    gdf = gdf.to_crs("EPSG:4326")
    gdf.to_parquet(parquet_path, index=False)
    ```
    
  - *¿Qué sucede?*
    
    1. **`gpd.read_file(...)`**: Lee el Shapefile y crea un `GeoDataFrame` (tabla geoespacial).
    2. **`to_crs("EPSG:4326")`**: Reproyecta las geometrías a **WGS 84** (coordenadas lat/long), un estándar mundial.
    3. **`to_parquet(...)`**: Guarda el `GeoDataFrame` como un archivo `.parquet` con metadatos geoespaciales, **creando el GeoParquet**.
4. **Verificación de CRS**
  
  - A menudo, los datos del INEGI vienen en proyecciones no estándar o CRS locales. Es crucial **verificar** si `gdf.crs` está definido y, si no, asignarlo manualmente.
  - Reproyectar a un CRS **común** (EPSG:4326) facilita la combinación con otras fuentes de datos geográficos mundiales.


El **GeoParquet** es el formato moderno que combina la eficacia de Parquet con la información geoespacial. Convertir Shapefiles a GeoParquet **optimiza** enormemente la lectura y el análisis, integrando sin problemas con herramientas de big data y flujos de trabajo analíticos contemporáneos.

In [None]:
# ================
# 7.5 Convertir a GeoParquet
# ================
# Procesar solo CDMX
file = "09"
shp_path = os.path.join(shp_dir, "conjunto_de_datos", f"{file}m.shp")
parquet_path = os.path.join(shp_dir, "conjunto_de_datos", "09m.geoparquet")
if os.path.exists(parquet_path):
    print(f"GeoParquet de CDMX ya existe.")
else:
  print(f"Convirtiendo {shp_path} a GeoParquet...")
  try:
      # Leer el Shapefile sin el parámetro 'crs'
      gdf = gpd.read_file(shp_path, encoding='ISO-8859-1')

      # Asignar CRS original si es necesario
      if gdf.crs is None:
          gdf.set_crs("EPSG:6372", inplace=True)

      # Transformar a EPSG:4326 (WGS 84), CRS común para datos geoespaciales
      gdf = gdf.to_crs("EPSG:4326")

      # Guardar como GeoParquet
      gdf.to_parquet(parquet_path, index=False)
      print(f"  GeoParquet guardado en: {parquet_path}")
  except Exception as e:
      print(f"  Error al convertir {shp_path} a GeoParquet: {e}")

## **Creación de la Tabla `manzanas` en DuckDB - El Vínculo entre SQL y GeoParquet**

**Concepto Clave: Integra Shapefiles Convertidos a una Tabla SQL**

1. **Lectura Directa de GeoParquet**
  
  - DuckDB puede leer Parquet nativamente:
    
    ```sql
    SELECT *
    FROM read_parquet('09m.geoparquet')
    LIMIT 0
    ```
    
    - `LIMIT 0` permite **inspeccionar** la estructura de columnas sin cargar datos completos.
2. **Creación de la Tabla `manzanas`**
  
  - Para persistir estos datos en DuckDB, se hace:
    
    ```sql
    CREATE TABLE manzanas AS
    SELECT {select_cols}
    FROM read_parquet('{parquet_path}');
    ```
    
  - Se incluyen todas las columnas, incluyendo la columna `geometry`.
    
3. **Columna `geometry`**
  
  - Este es el **campo geoespacial** que contiene los polígonos de cada manzana.
  - Con la extensión `spatial` de DuckDB, podemos ejecutar **funciones espaciales** sobre esta columna (`ST_Area(geometry)`, `ST_Intersection`, etc.).
4. **¿Por Qué Tabla en Lugar de Consultas Temporales?**
  
  - Al crear una tabla permanente (`CREATE TABLE ...`), podemos reutilizarla **fácilmente** en posteriores consultas SQL, sin depender de leer el archivo Parquet una y otra vez.
  - También, si se necesitan **índices** u optimizaciones adicionales, se podrían aplicar en la tabla creada.


DuckDB, potenciado con la extensión `spatial`, **traduce** el archivo GeoParquet a una tabla SQL con columna de geometría. Así unificamos el mundo tabular (SQL) con el geoespacial (mapas), **abriendo puertas** para consultas y análisis espaciales de siguiente nivel.

In [None]:
# ================
# 8 Crear Tabla Geo
# ================

con.execute("DROP TABLE IF EXISTS manzanas;")
print("Tabla 'manzanas' eliminada si existía previamente.")
# Obtener las columnas del GeoParquet
columns = con.execute(f"SELECT * FROM read_parquet('{parquet_path}') LIMIT 0").description
column_names = [col[0] for col in columns]
print("Columnas en el GeoParquet:", column_names)

# Verificar si 'geometry' está presente
if 'geometry' in column_names:
    non_geometry_cols = [col for col in column_names if col != 'geometry']
    # Crear una cadena separada por comas de las columnas excluyendo 'geometry'
    select_cols = ', '.join(non_geometry_cols) + ', geometry'
else:
    select_cols = ', '.join(column_names)

con.execute(f"""
  CREATE TABLE manzanas AS
  SELECT
      {select_cols}
  FROM read_parquet('{parquet_path}');
""")
print("Tabla 'manzanas' creada con éxito.")

## **Unión de Datos Censales y Geometrías - Creando `censo_geo`**

**Concepto Clave: JOIN Espacial a través de Claves de Identificación (CVEGEO)**

1. **La Clave `CVEGEO`: La Llave Maestra**
  
  - Cada manzana tiene una **clave geográfica** (CVEGEO) única, construida con la concatenación de:
    
    ```
    [2 dígitos de ENTIDAD] +
    [3 dígitos de MUNICIPIO] +
    [4 dígitos de LOCALIDAD] +
    [4 dígitos de AGEB] +
    [3 dígitos de MZA]
    ```
    
  - El censo tabular también usa esta misma clave para identificar la manzana.
    
  - Por eso, la unión **no necesita** un “join espacial” (basado en geometría), sino un **join relacional** basado en `CVEGEO`.
    
2. **Construcción de `censo_geo`**
  
  - El script hace un `WITH censo AS (...)`, creando la columna `CVEGEO` dentro de la tabla `censo_all`, y un `WITH shp AS (...)` para la tabla `manzanas`.
    
  - Finalmente:
    
    ```sql
    SELECT
      c.CVEGEO,
      c.[otras columnas censales],
      s.geometry
    FROM censo c
    LEFT JOIN shp s USING (CVEGEO)
    ```
    
  - *¿Qué hace `LEFT JOIN`?*
    
    - Toma todos los registros de `censo` (lado izquierdo), y si hay coincidencia de `CVEGEO` en `shp`, une la geometría. Si no hay coincidencia, no elimina las filas del censo (pero geometry quedaría nulo).
  - El resultado se guarda en la nueva tabla `censo_geo`.
    
3. **¿Por Qué una Nueva Tabla?**
  
  - `censo_geo` combina la **dimensión tabular** (población, viviendas, etc.) con la **dimensión geoespacial** (polígonos de manzana).
  - Al quedar en una sola tabla, se facilita la **visualización**, la **exportación** y las **consultas** (por ejemplo, “SELECT * WHERE POBTOT > 1000 Y geometry...”).
4. **Importancia de la Unión**
  
  - Esta fusión **convierte** cada manzana en un objeto geoespacial **enriquecido** con datos censales.
  - Es el **núcleo** de cualquier análisis posterior: de aquí podemos derivar mapas temáticos, estimar distancias, densidades, etc.


La tabla `censo_geo` es la **joya** de la integración de datos: cada polígono de manzana se vincula a sus atributos demográficos correspondientes. A partir de aquí, la información **"vive"** tanto en el mundo espacial como en el mundo tabular, lista para ser explorada y analizada.

In [None]:
# ================
# 9. Crear CVEGEO y Unir con censo_all
# ================
con.execute("DROP TABLE IF EXISTS censo_geo;")

# Obtener la lista de columnas de la tabla censo_all
# para evitar colocar todos los encabezados de forma manual.
column_names = [row[0] for row in con.execute("DESCRIBE censo_all;").fetchall()]

# Excluir las columnas que no se necesitan en la tabla censo
exclude_columns = ['ENTIDAD', 'MUN', 'LOC', 'AGEB', 'MZA']
select_columns_censo = [col for col in column_names if col not in exclude_columns]

# Construir la consulta SQL dinámicamente
con.execute(f"""
    CREATE TABLE censo_geo AS
    WITH censo AS (
        SELECT
            *,
            CONCAT( LPAD(ENTIDAD,2,'0'),
                    LPAD(MUN,3,'0'),
                    LPAD(LOC,4,'0'),
                    LPAD(AGEB,4,'0'),
                    LPAD(MZA,3,'0')) AS CVEGEO
        FROM censo_all
    ),
    shp AS (
        SELECT
            CVE_ENT,
            CVE_MUN,
            CVE_LOC,
            CVE_AGEB,
            CVE_MZA,
            CONCAT( LPAD(CVE_ENT,2,'0'),
                    LPAD(CVE_MUN,3,'0'),
                    LPAD(CVE_LOC,4,'0'),
                    LPAD(CVE_AGEB,4,'0'),
                    LPAD(CVE_MZA,3,'0')) AS CVEGEO,
            geometry
        FROM manzanas
    )
    SELECT
        c.CVEGEO,
        {', '.join(['c.' + col for col in select_columns_censo])},
        s.geometry
    FROM censo c
    LEFT JOIN shp s USING (CVEGEO)
    WHERE s.CVEGEO IS NOT NULL;
""")

print("Tabla 'censo_geo' creada con la unión de censo + shapefile en DuckDB.")

## **Limpieza Final y Revisión - Puliendo el Entorno de Trabajo**

**Concepto Clave: Buenas Prácticas al Terminar un Proceso de ETL**

1. **Eliminación de Tablas Intermedias**
  
  - El código:
    
    ```sql
    DROP TABLE IF EXISTS censo_all;
    DROP TABLE IF EXISTS manzanas;
    ```
    
  - Tras la creación de `censo_geo`, las tablas `censo_all` y `manzanas` pueden considerarse **intermedias** (ya no se requieren). Al eliminarlas, **limpiamos** la base de datos de objetos que no se usarán más, **evitando confusiones** y reduciendo el tamaño del archivo `.duckdb`.
    
2. **Verificación de Tablas Restantes**
  
  - `SHOW TABLES;` nos confirma que solo queda `censo_geo` (o las tablas que queramos retener).
  - Conocer tu inventario de tablas es esencial para **transparencia** y para **documentar** qué contiene tu base final.
3. **Commit y Cierre de Conexión**
  
  - Un `con.commit()` final y `con.close()` aseguran que se **guarden los cambios** y se liberen los recursos usados por la conexión a la base de datos.
  - *¿Por qué es importante?*
    - Prevenir bloqueos y **asegurar** que no queden transacciones abiertas.
    - Es parte de un **ciclo de vida saludable** de la base de datos.
4. **Ventajas de un Flujo "Limpio"**
  
  - Facilita que el archivo `.duckdb` sea más ligero y contenga **solo** las tablas relevantes.
  - Permite retomar el trabajo después sin “ruido” o tablas duplicadas.
  - Muestra una **metodología clara** de inicio y fin del proceso de ETL (Extract, Transform, Load).


Finalizar con un ambiente limpio y ordenado es **tan importante** como comenzar con buena organización. Al eliminar lo innecesario y cerrar la conexión, garantizamos que nuestro proceso sea **seguro, reproducible** y listo para ser retomado sin contratiempos en el futuro.

In [None]:
# ================
# 10. Eliminar Tablas Intermedias
# ================
# Eliminar tablas que ya no son necesarias
con.execute("DROP TABLE IF EXISTS censo_all;")
con.execute("DROP TABLE IF EXISTS manzanas;")

# Verificar tablas restantes
tablas = con.execute("SHOW TABLES;").fetchdf()
print("Tablas en la base de datos final:")
print(tablas)

In [None]:
# 1. Confirmar transacciones pendientes
con.commit()  # Aunque DuckDB auto-comitea, es buena práctica explícita

# 2. Cerrar conexión
con.close()

In [None]:
print("Fin")

## **Conclusiones y Próximos Pasos**

**Recapitulación Breve de lo Aprendido**

1. **Organización y Estructura**
  - Mantener un directorio limpio y bien definido para descargas de CSV, shapefiles, y resultados.
2. **Descarga Programática**
  - Con `requests` y `tqdm`, automatizamos la adquisición de datos, ahorrando tiempo y evitando descargas redundantes.
3. **Extracción de ZIPs y Shapefiles**
  - Uso de `zipfile` y funciones específicas para conservar la integridad de los archivos .shp, .dbf, .shx, .prj, etc.
4. **Conversión a Formatos Eficientes**
  - `GeoParquet` para reemplazar Shapefiles y optimizar el análisis.
5. **Integración en DuckDB**
  - Creación y unión de tablas, manejo simultáneo de datos tabulares y espaciales, con **SQL estándar**.
6. **Limpieza Final**
  - Depuración de tablas intermedias y cierre de conexiones para una base de datos confiable y sostenible.

**¿Qué sigue?**

- **Análisis y Consultas Espaciales:** Explorar tus datos con SQL espacial (funciones `ST_Intersects`, `ST_Buffer`, etc.).
- **Visualizaciones Interactivas:** Combinar `censo_geo` con librerías como `folium` o `geoplot` para crear mapas temáticos donde se muestren variables sociodemográficas.
- **Integración con Datos Externos:** Añadir capas de información (transporte, salud, educación) y cruzar con la base de `censo_geo`.
- **Machine Learning Geoespacial:** Emplear clustering espacial, modelos predictivos que incluyan la componente de ubicación, etc.
- **Automatizar Flujo Completo:** Expandir la idea a un pipeline más grande que corra diariamente o periódicamente si se requiere data fresca (para datos no estáticos, como estadísticas de movilidad o incidentes de seguridad).

Has aprendido un método robusto para **bajar, organizar, analizar y unir** datos censales y geoespaciales, todo en un solo flujo de trabajo en Python. Esta base te abrirá un **mundo** de posibilidades: desde generar mapas de calor sobre densidad poblacional hasta investigaciones más avanzadas en planeación urbana, economía y políticas públicas.