<a href="https://colab.research.google.com/github/abxda/UP_Python_2025/blob/main/Semana_04_01_Lunes_UP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **De Números a Mapas: La Magia de los Datos Geoespaciales**

**Objetivo Principal:**

En este taller, aprenderás a combinar **datos censales** (información sobre la población y viviendas) con **datos geoespaciales** (mapas con ubicaciones geográficas). Usaremos Python y la eficiente base de datos DuckDB para lograrlo.

*   **¿Qué son los Datos Censales?**
    Imagina una radiografía detallada de la población de un país. Los censos recolectan información vital como edad, género, educación, empleo y características de las viviendas. Son esenciales para entender cómo es una sociedad en un momento específico.

*   **¿Qué son los Datos Geoespaciales?**
    Son datos que tienen una ubicación en la Tierra. Pueden ser las fronteras de una manzana, un municipio o un estado, o cualquier fenómeno que ocurra en un lugar concreto. La clave es la referencia geográfica.

**Automatización del Flujo de Trabajo:**

Dominarás cómo automatizar todo el proceso: desde **descargar** datos de fuentes oficiales como el INEGI, **extraer** la información importante, **convertirla** a formatos eficientes y, finalmente, **unir** estos datos para realizar análisis más profundos. La automatización es clave para trabajar de forma eficiente y poder repetir nuestros análisis fácilmente.

**¿Por qué es fundamental entender esto?**

*   **Análisis con Contexto:**
    Saber **dónde** ocurren los fenómenos (como la densidad de población o el acceso a servicios) y **quiénes** son los afectados, añade una dimensión crucial a los datos. La ubicación enriquece enormemente el análisis.

*   **Planeación Inteligente:**
    Combinar datos del censo con mapas es vital para planificar ciudades, distribuir recursos de manera efectiva, diseñar políticas públicas basadas en evidencia y promover un desarrollo más justo y sostenible.

*   **Decisiones Informadas:**
    Al poner variables clave en un mapa (por ejemplo, dónde vive la población vulnerable o cómo es el acceso a escuelas), podemos ver patrones, desigualdades y tendencias que serían invisibles en simples tablas de números. Los mapas son herramientas poderosas para comunicar y analizar.

**En resumen, en esta clase aprenderás a:**

1.  **Descargar Datos con Python:** Usar Python para obtener datos del INEGI directamente desde internet, de forma automática.
2.  **Extraer Información de Mapas (Shapefiles):** Descomprimir y obtener los archivos esenciales de los Shapefiles, un formato común para mapas digitales.
3.  **Usar DuckDB para tus Datos:** Conocer DuckDB, una base de datos rápida y fácil de usar que no necesita un servidor complicado, perfecta para manejar datos censales y mapas.
4.  **Unir Datos del Censo con Mapas:** Combinar las estadísticas del censo con las formas geográficas de los mapas para crear un conjunto de datos enriquecido, listo para el análisis espacial.
5.  **Organizar tu Trabajo:** Establecer buenas prácticas para organizar tus archivos y limpiar datos, asegurando un proceso eficiente y sin errores.

## **Preparando el Escenario: Configuración del Entorno y Librerías Esenciales**

**Librerías Python: Tus Herramientas Clave**

Piensa en las librerías como cajas de herramientas especializadas para Python. Nos ayudan a realizar tareas específicas sin tener que programar todo desde cero. ¡Usamos herramientas probadas y optimizadas!

*   **`requests`:** Tu mensajero web. Permite a Python pedir y recibir información de servidores web, como cuando tu navegador descarga un archivo. Lo usaremos para **descargar los datos del INEGI**.
*   **`tqdm`:** La barra de progreso amigable. Muestra cuánto falta para que terminen tareas largas (como las descargas), haciendo la espera más llevadera.
*   **`os` y `shutil`:** Tus organizadores de archivos. `os` te deja interactuar con el sistema operativo (crear carpetas, ver archivos). `shutil` te da herramientas más potentes para copiar o borrar carpetas enteras. Fundamentales para **mantener tus datos ordenados**.
*   **`zipfile`:** El descompresor. Permite a Python trabajar con archivos `.zip` (un formato común para comprimir datos). Lo usaremos para **extraer los datos del INEGI** que vienen en este formato.
*   **`duckdb`:** Tu base de datos personal y potente. Es una base de datos SQL que funciona desde un simple archivo, ¡sin necesidad de instalar un servidor! Es muy rápida para analizar datos y tiene **soporte para datos geoespaciales**, lo que la hace ideal para nuestro proyecto.
*   **`geopandas`:** El experto en mapas de Python. Extiende `pandas` (la librería estrella para datos tabulares) para que pueda manejar datos geoespaciales. Permite leer, escribir y manipular formatos de mapas como Shapefiles y GeoParquet, y realizar **operaciones con geometrías**.
*   **`pyarrow`:** Un acelerador para tus datos. Ayuda a `geopandas` y `duckdb` a leer y escribir formatos de datos eficientes como GeoParquet de manera muy rápida.

*(Otras librerías como `folium` para mapas interactivos o `chardet` para detectar codificación de texto pueden ser útiles en proyectos más avanzados, pero nos centraremos en las anteriores para este flujo elemental).*

**Instalación de Librerías: ¡Equipando tu Entorno!**

Para usar estas herramientas, primero debemos instalarlas. Usaremos `pip`, el instalador de paquetes de Python, en la primera celda de código.

**Organización de Carpetas: ¡Tu Espacio de Trabajo Ordenado!**

Una buena estructura de carpetas es esencial. Crearemos la siguiente organización para nuestros datos del INEGI:

```
inegi/                  # Carpeta principal para este proyecto
├── censo_csv/          # Aquí guardaremos los archivos CSV del censo (datos tabulares)
└── marco_geoestadistico/ # Aquí guardaremos los archivos ZIP de los mapas (Shapefiles)
    └── shp_extraidos/  # Subcarpeta para los componentes de los Shapefiles
        └── m/          # Específicamente para los Shapefiles de Manzanas
```

Crearemos estas carpetas usando Python para asegurar que nuestro espacio de trabajo esté listo.

**¿Por qué la organización es tan importante?**

*   **Claridad:** Un proyecto ordenado es más fácil de entender, tanto para ti como para otros.
*   **Reproducibilidad:** Facilita que tú u otros puedan repetir tu análisis en el futuro.
*   **Eficiencia:** Encuentras lo que necesitas rápidamente, ahorrando tiempo y frustración.

In [None]:
# Celda 1: Instalación de Librerías Esenciales
# -------------------------------------------
# Usamos 'pip install' para añadir a nuestro entorno Python las herramientas (librerías)
# que necesitaremos para este proyecto. El comando '--quiet' reduce la cantidad de mensajes
# durante la instalación.

# Librerías a instalar:
# - duckdb: Para nuestra base de datos analítica rápida y basada en archivos.
# - geopandas: Para leer, escribir y manipular datos geoespaciales (mapas).
# - fsspec: Una dependencia de geopandas para trabajar con diferentes sistemas de archivos.
# - matplotlib: Aunque no graficaremos explícitamente, es una dependencia común de geopandas.
# - tqdm: Para mostrar barras de progreso visuales durante tareas largas.
# - requests: Para descargar archivos de internet (datos del INEGI).
# - pyarrow: Para que geopandas y duckdb puedan trabajar eficientemente con el formato GeoParquet.

!pip install duckdb geopandas fsspec matplotlib tqdm requests pyarrow --quiet

In [None]:
# Celda 2: Importación de Librerías
# ----------------------------------
# Aquí cargamos las librerías que instalamos o que vienen con Python
# para poder usar sus funciones en nuestro código.

# --- Para interactuar con el sistema de archivos y utilidades generales ---
import os  # Funciones para interactuar con el sistema operativo (rutas, carpetas)
import shutil  # Operaciones de alto nivel con archivos y carpetas (ej. borrar carpetas)
import time  # Funciones relacionadas con el tiempo (ej. pausas, aunque no la usaremos activamente)
from zipfile import ZipFile  # Para trabajar con archivos comprimidos .zip

# --- Para descargas web y barras de progreso ---
import requests  # Para hacer solicitudes HTTP (descargar archivos de internet)
from tqdm import tqdm  # Para mostrar barras de progreso visuales

# --- Para análisis de datos y geoespacial ---
import duckdb  # Para la base de datos analítica DuckDB
import geopandas as gpd  # Para trabajar con datos geoespaciales (Shapefiles, GeoParquet)

# (Nota: pyarrow se usa internamente por geopandas y duckdb para Parquet,
# no necesitamos importarlo directamente aquí para las operaciones que haremos.)

print("Librerías importadas exitosamente.")

## **Descarga Programática de Datos: ¡Python al Rescate de la Información en la Web!**

**Descarga Programática: ¿Qué significa?**

Normalmente, para bajar un archivo de internet, abres tu navegador, buscas el enlace y haces clic. Eso es **descarga manual**. La **descarga programática** significa usar código (en nuestro caso, Python) para hacer este proceso **automáticamente**.

*   **URLs: Las Direcciones de la Información Web**
    Para descargar algo, Python necesita la **URL** (la dirección web exacta) del archivo. Muchos sitios, como el INEGI, ofrecen enlaces directos a sus archivos de datos.

*   **`requests.get()`: Hablando con la Web**
    La librería `requests` permite a Python "hablar" con los servidores web. Cuando usamos `requests.get(url)`, nuestro script le pide al servidor que le envíe el recurso (el archivo) que se encuentra en esa `url`. Si todo va bien, el servidor responde enviando los datos del archivo.

**La Función `download(url, directory)`: Tu Asistente de Descargas Inteligente**

Hemos creado una función llamada `download` que se encarga de todo el proceso de descarga de forma ordenada. Veamos sus partes más importantes:

```python
# def download(url, directory):
#     # ... (código que veremos en la siguiente celda) ...
```

*   **`url` y `directory` (Entradas):**
    *   `url`: La dirección web completa del archivo a descargar.
    *   `directory`: La carpeta en tu computadora donde quieres guardar el archivo.

*   **Extracción del Nombre del Archivo:**
    `filename = url.split('/')[-1]`
    Esta línea inteligentemente toma la URL y extrae solo el nombre del archivo (lo que está después de la última `/`).

*   **Ruta Completa de Guardado:**
    `filepath = os.path.join(directory, filename)`
    Combina la carpeta de destino y el nombre del archivo para crear la ruta completa donde se guardará. `os.path.join` lo hace de forma que funcione en cualquier sistema operativo (Windows, Mac, Linux).

*   **Verificación de Existencia (¡No Descargar Dos Veces!):**
    `if os.path.exists(filepath): ... return`
    Antes de descargar, la función revisa si el archivo ya existe. Si es así, nos avisa y no lo descarga de nuevo, ¡ahorrando tiempo y datos!

*   **La Descarga Real con `requests`:**
    `response = requests.get(url, stream=True)`
    Aquí ocurre la magia. `requests.get()` contacta la URL. El argumento `stream=True` es muy importante para archivos grandes: le dice a `requests` que descargue el archivo por partes (en "streaming") en lugar de intentar cargarlo todo en la memoria de golpe. Esto es más eficiente.

*   **Manejo de Errores HTTP (Importante):**
    `response.raise_for_status()`
    Justo después de la solicitud, esta línea verifica si la descarga fue exitosa (por ejemplo, si el servidor respondió con un código "200 OK"). Si hubo un error (como "404 Archivo No Encontrado"), el script se detendrá y mostrará un error claro. Es una forma elemental y directa de manejar problemas de red.

*   **Guardando el Archivo con Barra de Progreso `tqdm`:**
    Se abre el archivo en modo escritura binaria (`'wb'`) y se usa `tqdm` para crear una barra de progreso.
    *   `tqdm(total=total_size, ...)`: Configura la barra usando el tamaño total del archivo (si el servidor lo proporciona) y unidades como Bytes, KB, MB.
    *   `for data in response.iter_content(chunk_size=1024): ...`: El archivo se descarga en pedazos (chunks) de 1KB. Cada pedazo se escribe en el disco y la barra de progreso se actualiza.

*   **Mensaje de Éxito:**
    Al final, un mensaje nos confirma que la descarga se completó.

**Beneficios de la Descarga Programática:**

*   **Automatización:** Descarga múltiples archivos o actualiza datos con solo ejecutar el script.
*   **Eficiencia:** Ahorra tiempo y esfuerzo comparado con hacerlo manualmente.
*   **Reproducibilidad:** Asegura que siempre obtienes los datos de la misma fuente y de la misma manera, lo que es clave para que tus análisis se puedan repetir.
*   **Integración:** Puedes incluir la descarga de datos como el primer paso de un flujo de trabajo de análisis más grande.

In [None]:
# Celda 3: Función de Descarga Programática
# -----------------------------------------
# Esta función se encarga de descargar un archivo desde una URL
# y guardarlo en un directorio específico. Incluye una barra de
# progreso y evita descargar archivos que ya existen.

def download(url, directory):
    """
    Descarga un archivo desde la URL especificada y lo guarda en 'directory'.

    Si el archivo ya existe en 'directory', no realiza la descarga de nuevo.
    Muestra una barra de progreso durante la descarga.
    Detiene el script si ocurre un error HTTP (ej. archivo no encontrado).

    Args:
        url (str): La URL completa del archivo a descargar.
        directory (str): La ruta de la carpeta donde se guardará el archivo.
    """
    # Extraer el nombre del archivo de la URL
    # Por ejemplo, de "https://example.com/datos.zip", obtenemos "datos.zip"
    filename = url.split('/')[-1]

    # Construir la ruta completa donde se guardará el archivo
    # os.path.join se asegura de que la ruta sea correcta para cualquier sistema operativo
    filepath = os.path.join(directory, filename)

    # 1. Verificar si el archivo ya existe para evitar descargas redundantes
    if os.path.exists(filepath):
        print(f"El archivo '{filename}' ya existe en '{directory}'. No se descarga de nuevo.")
        return  # Salir de la función si el archivo ya existe

    # Si el archivo no existe, proceder con la descarga
    print(f"Descargando '{filename}' de '{url}'...")

    try:
        # 2. Realizar la solicitud de descarga
        # stream=True es importante para archivos grandes: descarga el contenido en bloques
        response = requests.get(url, stream=True, timeout=30) # timeout de 30 segundos

        # 3. Verificar si la solicitud fue exitosa (códigos HTTP 2xx)
        # Si hay un error (ej. 404 No Encontrado, 500 Error del Servidor),
        # esto levantará una excepción HTTPError y detendrá el script aquí.
        response.raise_for_status()

        # 4. Obtener el tamaño total del archivo (si el servidor lo proporciona)
        # Necesario para que la barra de progreso tqdm muestre el total.
        # Content-Length viene en bytes.
        total_size_in_bytes = int(response.headers.get('content-length', 0))

        # 5. Guardar el archivo en disco, mostrando una barra de progreso
        # 'wb' significa "write binary" (escritura binaria), adecuado para cualquier tipo de archivo.
        with open(filepath, 'wb') as f:
            # Configuración de la barra de progreso tqdm
            # desc: Descripción que aparece junto a la barra.
            # total: Tamaño total del archivo en bytes.
            # unit: Unidad base ('B' para bytes).
            # unit_scale: Permite escalar automáticamente a KB, MB, GB.
            # unit_divisor: Define cuántas unidades base forman la siguiente escala (1024 bytes = 1 KB).
            progress_bar_params = {
                'desc': filename,
                'total': total_size_in_bytes,
                'unit': 'B',
                'unit_scale': True,
                'unit_divisor': 1024,
                'ncols': 80 # Ancho de la barra de progreso
            }

            # Si total_size_in_bytes es 0 (servidor no envió Content-Length),
            # tqdm no puede mostrar un progreso porcentual, pero sí los bytes descargados.
            # En ese caso, quitamos 'total' para que tqdm funcione en modo "flujo desconocido".
            if total_size_in_bytes == 0:
                progress_bar_params.pop('total', None) # Quitar 'total' si es 0

            with tqdm(**progress_bar_params) as pbar:
                # Iterar sobre el contenido de la respuesta en bloques (chunks)
                # chunk_size=8192 bytes (8KB) es un buen tamaño de bloque.
                for chunk in response.iter_content(chunk_size=8192):
                    if chunk:  # Filtrar chunks de keep-alive vacíos
                        f.write(chunk)  # Escribir el bloque en el archivo
                        pbar.update(len(chunk))  # Actualizar la barra de progreso

        print(f"\nDescarga de '{filename}' completada y guardada en '{filepath}'.\n")

    except requests.exceptions.HTTPError as http_err:
        print(f"Error HTTP durante la descarga de '{filename}': {http_err}")
        # Opcional: si el archivo se creó parcialmente, eliminarlo.
        if os.path.exists(filepath):
            os.remove(filepath)
            print(f"Archivo parcial '{filepath}' eliminado.")
        # El script se detendrá aquí debido a la excepción no manejada completamente,
        # lo cual es aceptable para un enfoque "elemental".
        raise # Re-lanzar la excepción para detener el script
    except Exception as e:
        print(f"Ocurrió un error inesperado durante la descarga de '{filename}': {e}")
        if os.path.exists(filepath):
            os.remove(filepath)
            print(f"Archivo parcial '{filepath}' eliminado.")
        raise # Re-lanzar la excepción

# --- Ejemplo de uso (comentado para no ejecutarlo ahora) ---
# if __name__ == '__main__':
# # Crear un directorio temporal para la prueba
#     test_dir = "./temp_downloads"
#     os.makedirs(test_dir, exist_ok=True)
#
# # URL de un archivo pequeño para probar (reemplazar con una URL válida y pequeña)
# # Por ejemplo, el logo de Python
#     test_url = "https://www.python.org/static/community_logos/python-logo-master-v3-TM.png"
#
#     print("Iniciando descarga de prueba...")
#     download(test_url, test_dir)
#
# # Intentar descargar de nuevo para ver el mensaje de "ya existe"
#     print("\nIntentando descargar el mismo archivo de nuevo...")
#     download(test_url, test_dir)
#
# # Prueba con una URL que no existe (error 404)
#     error_url = "https://www.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/geografia/marcogeo/889463807469/archivo_que_no_existe.zip"
#     print(f"\nIntentando descargar desde una URL incorrecta: {error_url}")
#     try:
#         download(error_url, test_dir)
#     except requests.exceptions.HTTPError as e:
#         print(f"Descarga fallida como se esperaba: {e}")
#
# # Limpiar el directorio de prueba
# # shutil.rmtree(test_dir)
# # print(f"\nDirectorio de prueba '{test_dir}' eliminado.")

## **Extracción de Shapefiles desde Archivos ZIP**

**Archivos Shapefile: El Formato Clásico para Datos Geoespaciales Vectoriales**

*   **¿Qué es un Shapefile?**
    Un Shapefile es un formato de archivo muy popular para guardar **datos geoespaciales vectoriales**. Piensa en datos vectoriales como aquellos que representan características geográficas usando **puntos** (una ciudad), **líneas** (una carretera) o **polígonos** (el contorno de un municipio o una manzana). Aunque es un formato con algunos años, sigue siendo muy común para distribuir mapas digitales.

*   **Componentes de un Shapefile: Un Equipo de Archivos**
    Un Shapefile no es un solo archivo, sino un **conjunto de archivos que trabajan juntos**. Cada uno tiene una extensión diferente y cumple un rol específico. Para que un Shapefile funcione, necesitamos principalmente los siguientes componentes (¡todos deben tener el mismo nombre base, ej. `09m`!):
    *   **`.shp` (Shape File):** Es el archivo principal que contiene las **geometrías** en sí (las coordenadas que definen los puntos, líneas o polígonos).
    *   **`.shx` (Shape Index File):** Es un índice que ayuda a los programas a buscar y acceder a las geometrías en el archivo `.shp` de manera más rápida.
    *   **`.dbf` (dBase Table):** Contiene la **tabla de atributos** asociada a cada geometría. Imagina una hoja de cálculo donde cada fila corresponde a una forma en el mapa (ej. una manzana) y cada columna es un dato sobre esa forma (ej. su clave, su población, etc.).
    *   **`.prj` (Projection File):** Define el **Sistema de Coordenadas de Referencia (CRS)**. Esto le dice al software cómo interpretar las coordenadas del archivo `.shp` y cómo se "proyectan" en un mapa plano. Es crucial para que los mapas se muestren correctamente y se puedan alinear con otros datos.
    *   **`.cpg` (Code Page File - Opcional pero útil):** Indica la **codificación de caracteres** usada en el archivo `.dbf`. Esto es importante para que los textos con acentos o caracteres especiales (como nombres de calles o municipios) se lean correctamente. A veces puede faltar, y en esos casos, lo crearemos con una codificación común.

**La Función `extract_shapefile(...)`: Tu Descompresor de Mapas Automatizado**

Para facilitarnos la vida, crearemos una función llamada `extract_shapefile`. Esta función tomará un archivo ZIP descargado (que contiene los componentes del Shapefile), el tipo de geometría que buscamos (ej. manzanas), y extraerá solo los archivos necesarios, colocándolos ordenadamente en la carpeta que le indiquemos.

```python
# def extract_shapefile(estados_geo_zip_filenames, zip_directory, output_shp_dir, shape_type_suffix):
#     # ... (código que veremos en la siguiente celda) ...
```

*   **Automatización Inteligente:**
    La función buscará los archivos `.shp`, `.shx`, `.dbf`, `.prj` y `.cpg` dentro del ZIP.
*   **Manejo del `.cpg`:**
    Si el archivo `.cpg` no se encuentra en el ZIP (lo cual es común), la función creará uno con una codificación estándar (como UTF-8 o ISO-8859-1), lo que ayuda a evitar problemas al leer los datos más adelante.
*   **Verificación de Existencia:**
    Al igual que la función `download`, esta función también verificará si los archivos ya fueron extraídos para no repetir el trabajo innecesariamente.
*   **Organización:**
    Depositará los archivos extraídos (ej. `09m.shp`, `09m.dbf`, etc.) directamente en la carpeta de salida especificada, listos para ser usados por GeoPandas.

**Beneficios de la Extracción Automatizada:**

*   **Eficiencia y Precisión:** Evita el tedioso trabajo manual de descomprimir y buscar archivos uno por uno.
*   **Consistencia:** Asegura que siempre se extraigan los mismos archivos y de la misma manera.
*   **Preparación para el Análisis:** Deja los datos listos para ser cargados y analizados con herramientas como GeoPandas y DuckDB.

In [None]:
# Celda 4: Función para Extraer Componentes de Shapefiles desde Archivos ZIP
# -----------------------------------------------------------------------
# Esta función se encarga de abrir un archivo ZIP que contiene datos geoespaciales
# del INEGI y extraer los archivos esenciales que componen un Shapefile
# (como .shp, .dbf, .shx, .prj y, opcionalmente, .cpg).

def extract_shapefile(list_of_zip_filenames, zip_file_directory, target_shp_output_dir, shape_type_suffix):
    """
    Extrae los componentes de un Shapefile (.shp, .shx, .dbf, .prj, .cpg)
    desde los archivos ZIP especificados y los guarda en 'target_shp_output_dir'.
    Los archivos extraídos se renombran para no incluir la estructura de carpetas del ZIP.
    Si el archivo .cpg no existe en el ZIP, se crea uno por defecto con codificación UTF-8.

    Args:
        list_of_zip_filenames (list): Lista de nombres de archivo ZIP (ej. ["09_ciudaddemexico.zip"]).
        zip_file_directory (str): Directorio donde se encuentran los archivos ZIP.
        target_shp_output_dir (str): Directorio donde se guardarán los archivos Shapefile extraídos.
                                     (ej. ./inegi/marco_geoestadistico/shp_extraidos/m/)
        shape_type_suffix (str): Sufijo que identifica el tipo de Shapefile en los nombres de archivo
                                 dentro del ZIP (ej. "m" para manzanas, "a" para AGEB).
    """
    # Crear el directorio de salida para los SHP si no existe
    os.makedirs(target_shp_output_dir, exist_ok=True)

    for zip_filename in list_of_zip_filenames:  # ej: "09_ciudaddemexico.zip"
        # Obtener el código del estado del nombre del archivo ZIP (ej: "09")
        # Esto asume el formato "XX_nombre.zip" o "XXnombre.zip"
        if '_' in zip_filename:
            state_code = zip_filename.split('_')[0]
        else: # Si no hay guion bajo, tomar los primeros caracteres si son dígitos
            potential_code = zip_filename[:2] # Asumimos código de 2 dígitos
            if potential_code.isdigit():
                state_code = potential_code
            else: # Si no podemos determinar un código, usamos un placeholder o el nombre base
                state_code = os.path.splitext(zip_filename)[0]
                print(f"  Advertencia: No se pudo determinar el código de estado para {zip_filename}. Usando '{state_code}' como base.")


        full_zip_path = os.path.join(zip_file_directory, zip_filename)

        if not os.path.exists(full_zip_path):
            print(f"¡ERROR! Archivo ZIP no encontrado: {full_zip_path}. Saltando este archivo.")
            continue

        # Definir los nombres base de los archivos Shapefile que esperamos extraer y guardar
        # Ejemplo: '09m.shp', '09m.cpg', '09m.dbf', '09m.prj', '09m.shx'
        expected_output_basenames = [
            f'{state_code}{shape_type_suffix}.shp',
            f'{state_code}{shape_type_suffix}.cpg',
            f'{state_code}{shape_type_suffix}.dbf',
            f'{state_code}{shape_type_suffix}.prj',
            f'{state_code}{shape_type_suffix}.shx'
        ]

        # Rutas completas donde se guardarán los archivos extraídos
        expected_output_filepaths = [os.path.join(target_shp_output_dir, basename) for basename in expected_output_basenames]

        # Nombres/rutas de los archivos TAL COMO ESTÁN DENTRO DEL ZIP
        # Comúnmente, el INEGI los tiene dentro de una carpeta 'conjunto_de_datos/'
        # Ejemplo: 'conjunto_de_datos/09m.shp'
        paths_in_zip = [f'conjunto_de_datos/{basename}' for basename in expected_output_basenames]

        # 1. Verificar si TODOS los archivos finales ya existen para evitar re-extraer
        if all(os.path.exists(filepath) for filepath in expected_output_filepaths):
            print(f"Todos los archivos Shapefile para '{state_code}{shape_type_suffix}' "
                  f"ya existen en '{target_shp_output_dir}'. No se extraen de nuevo.")
            continue # Pasar al siguiente archivo ZIP en la lista

        print(f"\nProcesando extracción de Shapefiles para '{state_code}{shape_type_suffix}' de '{zip_filename}'...")

        # 2. Abrir el archivo ZIP
        try:
            with ZipFile(full_zip_path, 'r') as zip_ref:
                # Iterar sobre cada uno de los componentes del Shapefile que necesitamos
                for path_in_zip_archive, target_output_filepath, output_basename in zip(paths_in_zip, expected_output_filepaths, expected_output_basenames):
                    # Verificar si este archivo específico ya existe
                    if os.path.exists(target_output_filepath):
                        print(f"  Archivo '{output_basename}' ya existe. Saltando.")
                        continue

                    try:
                        # Intentar extraer el archivo del ZIP a su ruta de destino
                        # zip_ref.open() abre un miembro del ZIP como un archivo binario
                        with zip_ref.open(path_in_zip_archive) as source_file:
                            # Abrir el archivo de destino en modo escritura binaria
                            with open(target_output_filepath, 'wb') as target_file:
                                # Copiar el contenido del archivo en el ZIP al archivo de destino
                                shutil.copyfileobj(source_file, target_file)
                        print(f"  Extraído: '{output_basename}' a '{target_output_filepath}'")
                    except KeyError:
                        # Si el archivo no se encuentra en el ZIP (KeyError)
                        if output_basename.endswith('.cpg'):
                            # El archivo .cpg es opcional. Si no está, lo creamos con una codificación por defecto.
                            try:
                                with open(target_output_filepath, 'w') as cpg_file:
                                    cpg_file.write("ISO-8859-1")
                                print(f"  ADVERTENCIA: '{output_basename}' no encontrado en el ZIP. "
                                      f"Se creó '{target_output_filepath}' con codificación UTF-8.")
                            except Exception as e_cpg:
                                print(f"  ERROR al crear archivo .cpg por defecto '{target_output_filepath}': {e_cpg}")

                        else:
                            # Si falta cualquier otro archivo esencial (.shp, .dbf, .shx, .prj), es un problema.
                            print(f"  ¡ERROR CRÍTICO! Archivo Shapefile esencial '{path_in_zip_archive}' "
                                  f"no encontrado en '{zip_filename}'. Este componente es necesario.")
                            # Podríamos querer eliminar los archivos ya extraídos para este shapefile
                            # si uno esencial falta, para evitar un shapefile incompleto.
                            # Por simplicidad elemental, solo se reporta el error.
                    except Exception as e_extract:
                        print(f"  ERROR inesperado al extraer '{path_in_zip_archive}' de '{zip_filename}': {e_extract}")
            print(f"Extracción para '{state_code}{shape_type_suffix}' completada.")

        except FileNotFoundError:
             print(f"¡ERROR! Archivo ZIP no encontrado en la ruta: {full_zip_path}")
        except Exception as e_zip:
            print(f"Ocurrió un error general al procesar el archivo ZIP '{zip_filename}': {e_zip}")


# --- Ejemplo de uso (comentado para no ejecutarlo ahora) ---
# if __name__ == '__main__':
# # Crear directorios de prueba
#     test_zip_dir = "./temp_zip_storage"
#     test_shp_output_dir_m = "./temp_shp_output/m"
#     os.makedirs(test_zip_dir, exist_ok=True)
#     os.makedirs(test_shp_output_dir_m, exist_ok=True)

# # Supongamos que tenemos un archivo ZIP de prueba llamado "99_estado_prueba.zip" en test_zip_dir
# # y dentro tiene "conjunto_de_datos/99m.shp", "conjunto_de_datos/99m.dbf", etc.
# # Para probar, necesitarías crear manualmente un ZIP de ejemplo.
# # Ejemplo: crear un dummy zip
#     dummy_zip_path = os.path.join(test_zip_dir, "99_estado_prueba.zip")
#     with ZipFile(dummy_zip_path, 'w') as zf:
#         zf.writestr("conjunto_de_datos/99m.shp", "dummy shp content")
#         zf.writestr("conjunto_de_datos/99m.dbf", "dummy dbf content")
#         zf.writestr("conjunto_de_datos/99m.shx", "dummy shx content")
#         zf.writestr("conjunto_de_datos/99m.prj", "dummy prj content")
# # No incluimos el .cpg para probar su creación automática.

#     print("Iniciando extracción de prueba...")
#     extract_shapefile(
#         list_of_zip_filenames=["99_estado_prueba.zip"],
#         zip_file_directory=test_zip_dir,
#         target_shp_output_dir=test_shp_output_dir_m,
#         shape_type_suffix="m"
#     )

# # Verificar archivos creados
#     print("\nArchivos en el directorio de salida:")
#     if os.path.exists(test_shp_output_dir_m):
#         for item in os.listdir(test_shp_output_dir_m):
#             print(os.path.join(test_shp_output_dir_m, item))

# # Limpiar (opcional)
# # shutil.rmtree("./temp_zip_storage")
# # shutil.rmtree("./temp_shp_output")
# # print("\nDirectorios de prueba eliminados.")

## **Variables, Carpetas y Organización de la Información: La Base de un Proyecto Ordenado**

**Concepto Clave: Definir un Espacio de Trabajo Claro y Configurable**

Antes de empezar a descargar y procesar datos, es fundamental organizar nuestro espacio de trabajo. Una buena organización desde el inicio nos ahorrará muchos dolores de cabeza, facilitará la reutilización del código y hará que nuestro proyecto sea más comprensible.

1.  **Variables de Configuración: Control Centralizado**
    *   En lugar de escribir nombres de archivos o códigos de estado directamente en cada parte del código, los definiremos como **variables** al principio. Por ejemplo, si queremos procesar los datos de la Ciudad de México (código "09"), crearemos variables como:
        ```python
        # ESTADO_GEO_ZIP = "09_ciudaddemexico.zip"
        # CODIGO_ESTADO_STR = "09"
        ```
    *   **¿Por qué es importante?**
        Si más adelante queremos procesar otro estado, solo tendremos que cambiar el valor de estas variables en un solo lugar, en vez de buscar y reemplazar en múltiples sitios del código. Esto hace nuestro script más **flexible y fácil de adaptar**.

2.  **Rutas de Carpetas: Un Lugar para Cada Cosa**
    *   Definiremos variables para las rutas de las carpetas donde guardaremos los diferentes tipos de archivos: los ZIP descargados, los CSV del censo, los Shapefiles extraídos, etc.
        ```python
        # DIR_BASE_INEGI = "./inegi"
        # DIR_CENSO_CSV = os.path.join(DIR_BASE_INEGI, "censo_csv")
        # DIR_MARCO_GEO = os.path.join(DIR_BASE_INEGI, "marco_geoestadistico")
        ```
    *   **¿Por qué es fundamental?**
        Mantiene nuestros datos organizados. Sabremos exactamente dónde encontrar los datos crudos, los archivos intermedios y los resultados. Usar `os.path.join` para construir las rutas asegura que funcionen correctamente en cualquier sistema operativo.

3.  **Limpieza Previa de Carpetas (Opcional pero Recomendado para Desarrollo):**
    *   Para asegurar que cada ejecución del script comience desde un "estado limpio", podemos optar por eliminar las carpetas de datos generadas en ejecuciones anteriores. Esto es especialmente útil durante el desarrollo y las pruebas para evitar usar archivos obsoletos o resultados parciales de una corrida anterior.
    *   Usaremos `shutil.rmtree(ruta_de_carpeta)` para eliminar una carpeta y todo su contenido. **¡Cuidado! Esta operación es irreversible.**
    *   **¿Por qué hacerlo?**
        *   Garantiza que los resultados se basen únicamente en la ejecución actual del script.
        *   Evita inconsistencias debidas a archivos residuales de ejecuciones previas.
        *   Asegura un punto de partida reproducible cada vez que corremos el proceso.

4.  **Creación de Carpetas:**
    *   Después de definir las rutas (y opcionalmente limpiar las viejas), nos aseguraremos de que todas las carpetas necesarias existan antes de intentar guardar archivos en ellas.
    *   Usaremos `os.makedirs(ruta_de_carpeta, exist_ok=True)`. El argumento `exist_ok=True` es muy útil porque evita que el programa lance un error si la carpeta ya existe.

En la siguiente celda de código, pondremos en práctica estos principios: definiremos nuestras variables de configuración, estableceremos las rutas para nuestros datos y prepararemos la estructura de carpetas. Esta base organizada es crucial para un flujo de trabajo de datos eficiente y confiable.

In [None]:
# Celda 5: Definición de Variables de Configuración y Organización de Carpetas
# ---------------------------------------------------------------------------
# En esta celda, establecemos las variables clave que controlarán qué datos
# procesamos y dónde los almacenamos. También preparamos la estructura
# de carpetas necesaria para nuestro proyecto.

# --- 1. Variables de Configuración del Estado a Procesar ---
# Para este ejercicio, nos centraremos en un solo estado.
# Modifica estas variables si deseas procesar un estado diferente.
# Asegúrate de que los nombres de archivo y códigos coincidan con los
# proporcionados por el INEGI.

NOMBRE_ESTADO = "Ciudad de Mexico" # Nombre descriptivo del estado
CODIGO_ESTADO_NUM = 9             # Código numérico del estado (ej. 9 para CDMX)
CODIGO_ESTADO_STR = f"{CODIGO_ESTADO_NUM:02d}" # Código como string con padding (ej. "09")

# Nombre del archivo ZIP del Marco Geoestadístico (Shapefiles)
# Ejemplo: "09_ciudaddemexico.zip". Ajusta si el INEGI cambia el patrón de nombres.
# Usaremos una f-string por si el nombre del zip varía con el código o nombre.
ESTADO_GEO_ZIP_BASENAME = f"{CODIGO_ESTADO_STR}_ciudaddemexico" # Parte base del nombre
ESTADO_GEO_ZIP_FILENAME = f"{ESTADO_GEO_ZIP_BASENAME}.zip"

# Sufijo para el tipo de Shapefile a extraer (ej. 'm' para manzanas)
TIPO_SHAPEFILE_MANZANAS = "m"

print(f"--- Configuración para el Estado: {NOMBRE_ESTADO} (Código: {CODIGO_ESTADO_STR}) ---")
print(f"Archivo ZIP del Marco Geoestadístico a buscar: {ESTADO_GEO_ZIP_FILENAME}")
print(f"Tipo de Shapefile a extraer: Manzanas (sufijo '{TIPO_SHAPEFILE_MANZANAS}')")

# --- 2. Definición de Rutas de Carpetas ---
# Usaremos os.path.join para construir rutas de forma que sean compatibles
# con cualquier sistema operativo.

# Carpeta raíz para todos los datos de este proyecto INEGI
DIR_BASE_INEGI = "./inegi_data" # Renombrado para evitar conflicto con el nombre del paquete 'inegi' si existiera

# Directorio para los datos del Censo (CSVs)
DIR_CENSO_CSV_BASE = os.path.join(DIR_BASE_INEGI, "censo_poblacion_vivienda_csv")
DIR_CENSO_CSV_DESCARGAS = os.path.join(DIR_CENSO_CSV_BASE, "descargas_zip") # Donde se guardan los ZIPs de CSV
DIR_CENSO_CSV_EXTRAIDOS = os.path.join(DIR_CENSO_CSV_BASE, "csv_extraidos") # Donde se guardan los CSVs extraídos

# Directorio para los datos del Marco Geoestadístico (Shapefiles)
DIR_MARCO_GEO_BASE = os.path.join(DIR_BASE_INEGI, "marco_geoestadistico_shp")
DIR_MARCO_GEO_DESCARGAS_ZIP = os.path.join(DIR_MARCO_GEO_BASE, "descargas_zip") # Donde se guardan los ZIPs de SHP
DIR_MARCO_GEO_SHP_EXTRAIDOS = os.path.join(DIR_MARCO_GEO_BASE, "shp_extraidos") # Carpeta base para SHP extraídos

# Subdirectorio específico para los Shapefiles de manzanas
DIR_SHP_MANZANAS_EXTRAIDOS = os.path.join(DIR_MARCO_GEO_SHP_EXTRAIDOS, TIPO_SHAPEFILE_MANZANAS)

# Archivo de la base de datos DuckDB
DB_FILENAME = "inegi_analisis.duckdb"
DB_FILE_PATH = os.path.join(DIR_BASE_INEGI, DB_FILENAME)

print(f"\n--- Rutas de Carpetas Definidas ---")
print(f"Directorio Base del Proyecto: {os.path.abspath(DIR_BASE_INEGI)}")
print(f"  CSVs (Descargas ZIP): {os.path.abspath(DIR_CENSO_CSV_DESCARGAS)}")
print(f"  CSVs (Extraídos): {os.path.abspath(DIR_CENSO_CSV_EXTRAIDOS)}")
print(f"  Shapefiles (Descargas ZIP): {os.path.abspath(DIR_MARCO_GEO_DESCARGAS_ZIP)}")
print(f"  Shapefiles Manzanas (Extraídos): {os.path.abspath(DIR_SHP_MANZANAS_EXTRAIDOS)}")
print(f"  Archivo Base de Datos DuckDB: {os.path.abspath(DB_FILE_PATH)}")


# --- 3. Limpieza Opcional de Directorios Existentes ---
# ADVERTENCIA: Las siguientes líneas eliminarán las carpetas y TODO su contenido
# si ya existen. Esto es útil para asegurar un inicio limpio en cada ejecución
# durante el desarrollo. Comenta estas líneas si quieres conservar los datos
# descargados y procesados entre ejecuciones.

LIMPIAR_DIRECTORIOS_ANTES_DE_EJECUTAR = True # Cambia a False para no limpiar

if LIMPIAR_DIRECTORIOS_ANTES_DE_EJECUTAR:
    print("\n--- Limpieza de Directorios (si existen) ---")
    # Lista de directorios base que, si se eliminan, eliminan su contenido (subdirectorios)
    directorios_a_limpiar_base = [DIR_CENSO_CSV_BASE, DIR_MARCO_GEO_BASE]
    # También el archivo de la base de datos
    if os.path.exists(DB_FILE_PATH):
        print(f"Eliminando archivo de base de datos existente: {DB_FILE_PATH}")
        try:
            os.remove(DB_FILE_PATH)
        except Exception as e:
            print(f"  No se pudo eliminar {DB_FILE_PATH}: {e}")


    for directorio_base in directorios_a_limpiar_base:
        if os.path.exists(directorio_base):
            print(f"Eliminando directorio base existente y su contenido: {directorio_base}")
            try:
                shutil.rmtree(directorio_base)
            except Exception as e:
                print(f"  No se pudo eliminar {directorio_base}: {e}")
        else:
            print(f"Directorio base {directorio_base} no existe, no se necesita limpieza.")
else:
    print("\n--- Limpieza de Directorios Omitida ---")

# --- 4. Creación de la Estructura de Carpetas Necesaria ---
# Usamos os.makedirs con exist_ok=True para crear las carpetas.
# Esto no dará error si las carpetas ya existen.

print("\n--- Creación de Estructura de Carpetas Necesarias ---")
directorios_a_crear = [
    DIR_BASE_INEGI, # Asegurar que la raíz exista
    DIR_CENSO_CSV_DESCARGAS,
    DIR_CENSO_CSV_EXTRAIDOS,
    DIR_MARCO_GEO_DESCARGAS_ZIP,
    # DIR_MARCO_GEO_SHP_EXTRAIDOS, # Se creará implícitamente al crear la de manzanas
    DIR_SHP_MANZANAS_EXTRAIDOS
]

for directorio in directorios_a_crear:
    try:
        os.makedirs(directorio, exist_ok=True)
        print(f"Directorio asegurado/creado: {directorio}")
    except Exception as e:
        print(f"Error al crear directorio {directorio}: {e}. Verifica permisos o ruta.")
        # Si un directorio crucial no se puede crear, el script podría fallar más adelante.

print("\n--- Configuración de variables y carpetas completada. ---")

## **DuckDB + Spatial: Tu Base de Datos Analítica Embebida y Geoespacial**

**Concepto Clave: Una Base de Datos Potente y Sencilla para tus Análisis**

1.  **¿Qué es DuckDB y por qué es tan útil aquí?**
    *   **DuckDB** es un sistema de gestión de bases de datos (como PostgreSQL o MySQL) pero con características que lo hacen ideal para el análisis de datos y, especialmente, para proyectos como el nuestro:
        *   **Analítico:** Está optimizado para consultas complejas que involucran agregaciones, uniones (joins) y análisis sobre grandes volúmenes de datos, que es justo lo que haremos.
        *   **Embebido (o "en proceso"):** ¡Esta es la gran ventaja! No necesitas instalar ni configurar un servidor de base de datos separado. DuckDB funciona directamente dentro de tu aplicación Python y guarda toda la base de datos en un **único archivo** en tu computadora (por ejemplo, `inegi_analisis.duckdb`). Esto lo hace increíblemente fácil de usar y transportar.
        *   **Rápido:** Utiliza técnicas modernas como el procesamiento columnar y la vectorización de consultas para ser muy veloz.
        *   **Amigable con SQL:** Puedes usar el lenguaje SQL estándar que quizás ya conozcas para interactuar con tus datos.

2.  **La Extensión `spatial`: DuckDB Entiende de Mapas**
    *   Por sí solo, DuckDB maneja datos tabulares (filas y columnas). Pero, ¡puede hacer más! Podemos cargar **extensiones** para añadirle nuevas funcionalidades.
    *   La extensión **`spatial`** le da a DuckDB superpoderes para trabajar con **datos geoespaciales**. Una vez cargada, DuckDB puede:
        *   Almacenar geometrías (puntos, líneas, polígonos) en columnas especiales.
        *   Leer formatos de archivo geoespaciales como GeoParquet.
        *   Ejecutar funciones espaciales directamente en SQL (por ejemplo, calcular áreas, intersecciones, distancias, etc.).
    *   En el código, verás estas líneas:
        ```python
        # con.execute("INSTALL spatial;") # Descarga e instala la extensión (solo una vez)
        # con.execute("LOAD spatial;")   # Carga la extensión en la sesión actual
        ```
        El `INSTALL` podría necesitar conexión a internet la primera vez que se ejecuta en un entorno nuevo. `LOAD` se necesita en cada sesión que vaya a usar las funciones espaciales.

3.  **Creando la Conexión y el Archivo de Base de Datos**
    *   Nos conectaremos a DuckDB especificando la ruta al archivo que contendrá nuestra base de datos:
        ```python
        # DB_FILE_PATH = os.path.join(DIR_BASE_INEGI, "inegi_analisis.duckdb")
        # con = duckdb.connect(database=DB_FILE_PATH)
        ```
    *   Si el archivo `inegi_analisis.duckdb` no existe, DuckDB lo creará automáticamente. ¡Así de simple!

4.  **Ventajas de Usar DuckDB en este Proyecto:**
    *   **Simplicidad:** Fácil de instalar (`pip install duckdb`) y de usar (un solo archivo).
    *   **Velocidad:** Excelente rendimiento para las consultas analíticas y espaciales que haremos.
    *   **Integración Geoespacial:** La extensión `spatial` nos permite manejar los datos del censo y los mapas en un mismo lugar y con un mismo lenguaje (SQL).
    *   **Portabilidad:** Puedes copiar el archivo `.duckdb` a otra máquina y seguir trabajando con tus datos fácilmente.

DuckDB será el corazón de nuestro sistema de análisis, donde cargaremos, transformaremos y uniremos los datos censales tabulares con la información geográfica de los mapas.

In [None]:
# Celda 6: Conexión a DuckDB e Instalación/Carga de la Extensión Espacial
# --------------------------------------------------------------------
# En esta celda, establecemos la conexión a nuestra base de datos DuckDB.
# DuckDB es una base de datos analítica embebida, lo que significa que
# se ejecuta dentro de nuestro script y almacena los datos en un único archivo.
# También instalaremos (si es necesario) y cargaremos la extensión 'spatial',
# que permite a DuckDB trabajar con datos y funciones geoespaciales.

# La ruta al archivo de la base de datos fue definida en la celda anterior
# como DB_FILE_PATH (ej. ./inegi_data/inegi_analisis.duckdb)

print(f"--- Configuración de DuckDB ---")

# Opcional: Verificar si el archivo de la base de datos ya existe.
# La limpieza general de directorios (si está activada en la celda anterior)
# ya debería haber eliminado un archivo DB preexistente.
if os.path.exists(DB_FILE_PATH):
    print(f"Archivo de base de datos ya existe en: {DB_FILE_PATH}")
    # Podríamos optar por eliminarlo aquí de nuevo si queremos asegurar una BD fresca
    # independientemente de la limpieza general, pero usualmente no es necesario si la celda anterior lo hizo.
    # os.remove(DB_FILE_PATH)
    # print(f"Base de datos preexistente eliminada.")
else:
    print(f"Archivo de base de datos no encontrado. Se creará en: {DB_FILE_PATH}")

# 1. Conectar a DuckDB
# Se creará el archivo de base de datos si no existe.
# 'read_only=False' permite realizar escrituras y modificaciones.
print(f"Conectando a la base de datos DuckDB en: '{DB_FILE_PATH}'...")
try:
    con = duckdb.connect(database=DB_FILE_PATH, read_only=False)
    print("Conexión a DuckDB establecida exitosamente.")
except Exception as e:
    print(f"¡ERROR CRÍTICO al conectar con DuckDB!: {e}")
    print("El script no puede continuar sin una conexión a la base de datos.")
    # Podríamos detener el script aquí si la conexión falla.
    raise  # Re-lanzar la excepción para detener la ejecución.

# 2. Instalar y Cargar la Extensión Espacial ('spatial')
# INSTALL: Descarga e instala la extensión. Solo es realmente necesario una vez
#          por instalación de DuckDB o si la extensión no está presente.
#          DuckDB es suficientemente inteligente para no reinstalar si ya existe.
#          Puede requerir conexión a internet la primera vez.
# LOAD: Activa la extensión para la conexión actual. Necesario en cada sesión
#       que vaya a utilizar funcionalidades espaciales.

print("\nInstalando (si es necesario) y cargando la extensión 'spatial' de DuckDB...")
try:
    con.execute("INSTALL spatial;")
    con.execute("LOAD spatial;")
    print("Extensión 'spatial' de DuckDB instalada y cargada correctamente.")
    print("DuckDB ahora tiene capacidades geoespaciales.")

    # Opcional: Verificar si la extensión está activa (para depuración)
    # extensions_df = con.execute("SELECT * FROM duckdb_extensions();").fetchdf()
    # spatial_loaded = extensions_df[extensions_df['name'] == 'spatial']['loaded'].iloc[0]
    # print(f"Estado de la extensión 'spatial' (cargada): {spatial_loaded}")

except duckdb.IOException as e:
    print(f"¡ERROR DE ENTRADA/SALIDA (IOException) al instalar/cargar la extensión 'spatial'!: {e}")
    print("Esto puede ocurrir si no hay conexión a internet para descargar la extensión la primera vez,")
    print("o si hay problemas de permisos para escribir en el directorio de extensiones de DuckDB.")
    print("Las funcionalidades geoespaciales NO estarán disponibles.")
    print("Por favor, verifica tu conexión a internet y/o los permisos del directorio de extensiones de DuckDB.")
    # Considerar si el script debe detenerse aquí si la extensión es crucial.
    # Para un script elemental, podemos dejar que falle más adelante si se intenta usar una función espacial.
    # raise # Descomentar para detener el script si la extensión espacial es indispensable.
except Exception as e:
    print(f"¡ERROR GENERAL al instalar/cargar la extensión 'spatial'!: {e}")
    print("Las funcionalidades geoespaciales podrían no estar disponibles.")
    # raise # Descomentar para detener el script.

print("\n--- Configuración de DuckDB completada. ---")

In [None]:
# Celda 7: Descarga y Extracción del Archivo CSV con Datos Censales
# -----------------------------------------------------------------
# En esta celda, vamos a descargar el archivo ZIP que contiene los datos
# censales (en formato CSV) para el estado que configuramos anteriormente.
# Luego, extraeremos específicamente el archivo CSV que necesitamos.

print(f"--- Iniciando Proceso de Descarga y Extracción de CSV para el Estado: {CODIGO_ESTADO_STR} ---")

# --- 1. Definición de URLs y Nombres de Archivo para el CSV del Censo ---

# URL base donde el INEGI almacena los datos abiertos del Censo de Población y Vivienda 2020
# para AGEB y Manzana Urbana.
URL_BASE_CENSO_CSV_INEGI = "https://www.inegi.org.mx/contenidos/programas/ccpv/2020/datosabiertos/ageb_manzana/"

# Nombre del archivo ZIP específico para nuestro estado.
# El patrón es "ageb_mza_urbana_[CODIGO_ESTADO]_cpv2020_csv.zip"
NOMBRE_ZIP_CENSO = f"ageb_mza_urbana_{CODIGO_ESTADO_STR}_cpv2020_csv.zip"
URL_COMPLETA_CENSO_CSV_ZIP = f"{URL_BASE_CENSO_CSV_INEGI}{NOMBRE_ZIP_CENSO}"

# Ruta completa donde se guardará el archivo ZIP descargado.
# Usamos el directorio definido en la Celda 5: DIR_CENSO_CSV_DESCARGAS
RUTA_DESCARGA_ZIP_CENSO = os.path.join(DIR_CENSO_CSV_DESCARGAS, NOMBRE_ZIP_CENSO)

# Información sobre el archivo CSV DENTRO del ZIP:
# El INEGI suele colocar los CSV dentro de una estructura de carpetas.
# Debemos especificar la ruta interna completa del CSV que queremos.
# Estructura típica: "ageb_mza_urbana_[CODIGO_ESTADO]_cpv2020/conjunto_de_datos/conjunto_de_datos_ageb_urbana_[CODIGO_ESTADO]_cpv2020.csv"
CARPETA_RAIZ_EN_ZIP_CENSO = f"ageb_mza_urbana_{CODIGO_ESTADO_STR}_cpv2020"
SUBPATH_CSV_EN_ZIP_CENSO = "conjunto_de_datos"
NOMBRE_CSV_ORIGINAL_EN_ZIP = f"conjunto_de_datos_ageb_urbana_{CODIGO_ESTADO_STR}_cpv2020.csv"

PATH_COMPLETO_CSV_DENTRO_DEL_ZIP = os.path.join(CARPETA_RAIZ_EN_ZIP_CENSO,
                                               SUBPATH_CSV_EN_ZIP_CENSO,
                                               NOMBRE_CSV_ORIGINAL_EN_ZIP)

# Nombre y ruta final para el archivo CSV una vez extraído.
# Lo guardaremos directamente en DIR_CENSO_CSV_EXTRAIDOS con un nombre más simple.
NOMBRE_CSV_FINAL_EXTRAIDO = f"censo_manzanas_urbanas_{CODIGO_ESTADO_STR}_cpv2020.csv"
RUTA_FINAL_CSV_EXTRAIDO = os.path.join(DIR_CENSO_CSV_EXTRAIDOS, NOMBRE_CSV_FINAL_EXTRAIDO)

print(f"URL para descarga del ZIP del censo: {URL_COMPLETA_CENSO_CSV_ZIP}")
print(f"Ruta de descarga del ZIP: {RUTA_DESCARGA_ZIP_CENSO}")
print(f"Ruta del CSV dentro del ZIP: {PATH_COMPLETO_CSV_DENTRO_DEL_ZIP}")
print(f"Ruta final del CSV extraído: {RUTA_FINAL_CSV_EXTRAIDO}")

# --- 2. Descarga del Archivo ZIP del Censo ---
# Verificamos si el ZIP ya existe antes de intentar descargarlo.
if not os.path.exists(RUTA_DESCARGA_ZIP_CENSO):
    print(f"\nDescargando '{NOMBRE_ZIP_CENSO}'...")
    # Usamos la función 'download' definida en la Celda 3.
    # La función 'download' ya maneja errores HTTP y la barra de progreso.
    try:
        download(URL_COMPLETA_CENSO_CSV_ZIP, DIR_CENSO_CSV_DESCARGAS)
    except Exception as e:
        print(f"  La descarga del ZIP del censo falló. El error fue: {e}")
        print(f"  No se puede continuar con la extracción del CSV sin el archivo ZIP.")
        # En un flujo elemental, podríamos dejar que el script termine aquí o falle en el siguiente paso.
        # Por ahora, imprimimos el error y el script intentará continuar (y probablemente fallará si el ZIP es necesario).
else:
    print(f"\nEl archivo ZIP '{NOMBRE_ZIP_CENSO}' ya existe en '{DIR_CENSO_CSV_DESCARGAS}'. No se descarga de nuevo.")

# --- 3. Extracción del Archivo CSV Específico del ZIP ---
# Verificamos si el CSV final ya existe antes de intentar extraerlo.
if not os.path.exists(RUTA_FINAL_CSV_EXTRAIDO):
    print(f"\nExtrayendo '{NOMBRE_CSV_ORIGINAL_EN_ZIP}' de '{NOMBRE_ZIP_CENSO}'...")

    # Primero, nos aseguramos de que el archivo ZIP exista (pudo haber fallado la descarga)
    if not os.path.exists(RUTA_DESCARGA_ZIP_CENSO):
        print(f"  ¡ERROR! No se encontró el archivo ZIP '{RUTA_DESCARGA_ZIP_CENSO}'. "
              f"No se puede extraer el CSV.")
    else:
        try:
            # Abrir el archivo ZIP en modo lectura ('r')
            with ZipFile(RUTA_DESCARGA_ZIP_CENSO, 'r') as zip_ref:
                # Intentar abrir el archivo CSV específico DENTRO del ZIP
                with zip_ref.open(PATH_COMPLETO_CSV_DENTRO_DEL_ZIP) as source_csv_in_zip:
                    # Abrir el archivo de destino donde guardaremos el CSV extraído, en modo escritura binaria ('wb')
                    with open(RUTA_FINAL_CSV_EXTRAIDO, 'wb') as target_csv_file:
                        # Copiar el contenido del archivo CSV desde el ZIP al archivo de destino
                        shutil.copyfileobj(source_csv_in_zip, target_csv_file)
            print(f"  Archivo CSV extraído exitosamente a: '{RUTA_FINAL_CSV_EXTRAIDO}'")
        except KeyError:
            # Esto ocurre si PATH_COMPLETO_CSV_DENTRO_DEL_ZIP no se encuentra en el archivo ZIP.
            print(f"  ¡ERROR! No se encontró la ruta del archivo CSV '{PATH_COMPLETO_CSV_DENTRO_DEL_ZIP}' "
                  f"dentro del archivo ZIP '{NOMBRE_ZIP_CENSO}'.")
            print(f"  Verifica los nombres y la estructura interna del ZIP del INEGI.")
        except FileNotFoundError: # Podría ocurrir si RUTA_DESCARGA_ZIP_CENSO se eliminó entre la comprobación y el uso.
             print(f"  ¡ERROR! El archivo ZIP '{RUTA_DESCARGA_ZIP_CENSO}' desapareció antes de la extracción.")
        except Exception as e:
            print(f"  ¡ERROR! Ocurrió un error inesperado durante la extracción del CSV: {e}")
else:
    print(f"\nEl archivo CSV '{NOMBRE_CSV_FINAL_EXTRAIDO}' ya existe en '{DIR_CENSO_CSV_EXTRAIDOS}'. "
          f"No se extrae de nuevo.")

print("\n--- Proceso de Descarga y Extracción de CSV completado (o intentado). ---")

# Verificar si el archivo CSV final existe después de todo el proceso
if os.path.exists(RUTA_FINAL_CSV_EXTRAIDO):
    print(f"Confirmado: El archivo CSV está listo en: {RUTA_FINAL_CSV_EXTRAIDO}")
else:
    print(f"ADVERTENCIA: El archivo CSV final NO se encuentra en: {RUTA_FINAL_CSV_EXTRAIDO}. "
          f"Revisa los mensajes de error anteriores.")

## **Creando la Tabla `censo_all` en DuckDB: Consolidando los Datos Censales**

**Concepto Clave: Transformar el Archivo CSV en una Tabla de Base de Datos Eficiente para el Análisis**

Una vez que tenemos el archivo CSV con los datos censales descargado y extraído, el siguiente paso es cargarlo en nuestra base de datos DuckDB. Almacenar estos datos en una tabla de DuckDB nos ofrece varias ventajas sobre trabajar directamente con el archivo CSV:

*   **Consultas Rápidas y Flexibles:** Podremos usar el lenguaje SQL para filtrar, agrupar, unir y analizar los datos de manera mucho más potente y eficiente.
*   **Manejo Eficiente de Tipos de Datos:** DuckDB puede inferir o permitirnos definir los tipos de datos correctos para cada columna (números, texto, fechas, etc.), lo que es crucial para análisis precisos.
*   **Integración con Datos Espaciales:** Más adelante, podremos unir fácilmente esta tabla de datos censales con nuestras tablas de datos geoespaciales (mapas) directamente dentro de DuckDB.
*   **Menor Uso de Memoria (en algunos casos):** Para operaciones complejas, DuckDB puede optimizar cómo accede a los datos, a menudo siendo más eficiente que cargar un CSV gigante completamente en la memoria de Python con Pandas para cada operación.

**El Proceso de Creación de la Tabla `censo_all`:**

1.  **`DROP TABLE IF EXISTS censo_all;`**
    *   Antes de crear la tabla, es una buena práctica incluir esta instrucción. Si la tabla `censo_all` ya existe de una ejecución anterior del script, se eliminará. Esto asegura que siempre empecemos con una tabla limpia y evitemos errores o datos duplicados.

2.  **`CREATE TABLE censo_all AS SELECT ... FROM read_csv_auto(...);`**
    *   Esta es la instrucción SQL principal que usaremos. Desglosemos sus partes:
        *   **`CREATE TABLE censo_all AS ...`**: Le dice a DuckDB que cree una nueva tabla llamada `censo_all`. El `AS` indica que la estructura y los datos de la tabla se definirán por el resultado de la consulta que sigue (`SELECT ...`).
        *   **`SELECT * FROM read_csv_auto('ruta_al_csv.csv', ...)`**: Esta es la parte mágica.
            *   `read_csv_auto()`: Es una función muy potente de DuckDB que lee un archivo CSV. "Auto" significa que intentará inferir automáticamente los nombres de las columnas (si tiene encabezado), los tipos de datos de cada columna, y el delimitador (usualmente comas).
            *   `'ruta_al_csv.csv'`: Aquí especificaremos la ruta al archivo CSV que extrajimos en el paso anterior (`RUTA_FINAL_CSV_EXTRAIDO`).
            *   **Parámetros importantes de `read_csv_auto`:**
                *   `NULLSTR=['N/A','N/D','*','']`: Le dice a DuckDB qué cadenas de texto en el CSV deben interpretarse como valores nulos (datos faltantes). El INEGI a menudo usa `*`, `N/D` o `N/A`. Incluir `''` (cadena vacía) también es buena idea.
                *   `SAMPLE_SIZE=-1`: Instruye a DuckDB a leer el archivo CSV completo para inferir los tipos de datos. Esto es más preciso que solo tomar una muestra pequeña, especialmente si hay valores atípicos o columnas con muchos nulos al principio.
                *   `HEADER=TRUE`: Indica que la primera fila del CSV contiene los nombres de las columnas.
            *   `SELECT *`: Selecciona todas las columnas del archivo CSV leído.
        *   **`WHERE MZA != '0'` (Opcional pero común):**
            *   Los datos del INEGI a veces incluyen registros a nivel de AGEB (donde el código de manzana `MZA` podría ser '0' o '000') además de los registros por manzana. Si solo nos interesan los datos a nivel de manzana individual, este filtro nos ayuda a seleccionar solo esos registros.

3.  **Transacciones (`BEGIN TRANSACTION;` / `COMMIT;` / `ROLLBACK;`) - Simplificado:**
    *   Para operaciones que modifican la base de datos (como crear tablas e insertar datos), es buena práctica envolverlas en una **transacción**.
    *   `BEGIN TRANSACTION;`: Inicia una transacción.
    *   `COMMIT;`: Si todas las operaciones dentro de la transacción son exitosas, `COMMIT` guarda los cambios permanentemente.
    *   `ROLLBACK;`: Si ocurre un error, `ROLLBACK` deshace todos los cambios realizados desde el `BEGIN TRANSACTION;`, dejando la base de datos en el estado en que estaba antes.
    *   Para una sola instrucción `CREATE TABLE AS SELECT`, DuckDB a menudo la maneja de forma atómica. Sin embargo, si tuviéramos múltiples pasos de inserción o modificación, las transacciones explícitas serían más críticas. Por simplicidad "elemental", podríamos confiar en el comportamiento transaccional por defecto de DuckDB para una sola instrucción, o incluir un `try-except` básico que haga `ROLLBACK` en caso de error.

Al final de este paso, los datos del censo que estaban en un archivo CSV "plano" estarán estructurados, tipificados y almacenados eficientemente en la tabla `censo_all` dentro de nuestra base de datos DuckDB, listos para ser consultados y combinados con nuestros datos geoespaciales.

In [None]:
# Celda 8: Cargar el CSV de Datos Censales a una Tabla en DuckDB
# -------------------------------------------------------------
# Ahora que tenemos el archivo CSV con los datos del censo, lo cargaremos
# en una tabla dentro de nuestra base de datos DuckDB. Esto nos permitirá
# realizar consultas SQL sobre los datos de manera eficiente.
# La tabla se llamará 'censo_all'.

print(f"--- Cargando Datos del CSV a la Tabla 'censo_all' en DuckDB ---")

# La ruta al archivo CSV extraído fue definida en la Celda 7
# como RUTA_FINAL_CSV_EXTRAIDO (ej. ./inegi_data/censo_poblacion_vivienda_csv/csv_extraidos/censo_manzanas_urbanas_09_cpv2020.csv)

# 1. Verificar que el archivo CSV exista antes de intentar cargarlo
if not os.path.exists(RUTA_FINAL_CSV_EXTRAIDO):
    print(f"¡ERROR CRÍTICO! No se encontró el archivo CSV de censo en: '{RUTA_FINAL_CSV_EXTRAIDO}'.")
    print(f"La tabla 'censo_all' no se puede crear.")
    print(f"Asegúrate de que la Celda 7 (descarga y extracción de CSV) se haya ejecutado correctamente.")
    # Detener el script si el archivo crucial no existe.
    # Descomenta la siguiente línea para forzar la detención:
    # raise FileNotFoundError(f"Archivo CSV del censo no encontrado: {RUTA_FINAL_CSV_EXTRAIDO}")
else:
    print(f"Archivo CSV encontrado: '{RUTA_FINAL_CSV_EXTRAIDO}'. Procediendo a crear la tabla 'censo_all'.")

    try:
        # 2. Eliminar la tabla 'censo_all' si ya existe (para empezar de cero)
        # Esto evita errores si el script se ejecuta múltiples veces.
        con.execute("DROP TABLE IF EXISTS censo_all;")
        print("Tabla 'censo_all' eliminada si existía previamente.")

        # 3. Crear la tabla 'censo_all' directamente desde el archivo CSV
        # Usamos 'CREATE TABLE ... AS SELECT ... FROM read_csv_auto(...)'
        # read_csv_auto intentará inferir tipos de datos y estructura.
        #
        # Parámetros importantes para read_csv_auto:
        #   - RUTA_FINAL_CSV_EXTRAIDO: El archivo a leer.
        #   - NULLSTR: Lista de cadenas que deben interpretarse como valores NULL (faltantes).
        #              El INEGI usa '*', 'N/D', 'N/A'. También es bueno incluir cadenas vacías ('').
        #   - SAMPLE_SIZE: Cuántas filas leer para inferir tipos. -1 significa leer todo el archivo,
        #                  lo que es más robusto para la inferencia de tipos.
        #   - HEADER=TRUE: Indica que la primera fila del CSV contiene los nombres de las columnas.
        #   - ALL_VARCHAR=FALSE: (Por defecto es FALSE) Intenta convertir a tipos más específicos.
        #                         Si se pone TRUE, todo se lee como VARCHAR, útil para inspeccionar,
        #                         pero no para análisis numérico directo.
        #
        # Filtro 'WHERE MZA != '0'':
        #   Los datos del INEGI a nivel manzana urbana a veces incluyen registros agregados
        #   a nivel AGEB donde la manzana (MZA) es '0' o '000'.
        #   Si solo queremos datos a nivel de manzana individual, aplicamos este filtro.
        #   ¡Asegúrate de que la columna 'MZA' exista en tu CSV!

        # Nota sobre tipos de datos: read_csv_auto es bueno, pero revisa columnas clave.
        # Si una columna numérica crucial es leída como texto (VARCHAR) debido a valores
        # no numéricos inesperados (distintos de los NULLSTR), necesitarás un CAST explícito
        # o limpieza previa. Por ahora, confiaremos en la inferencia.

        sql_create_table_from_csv = f"""
        CREATE TABLE censo_all AS
        SELECT *
        FROM read_csv_auto('{RUTA_FINAL_CSV_EXTRAIDO}',
                           NULLSTR=['N/A', 'N/D', '*', ''],
                           SAMPLE_SIZE=-1,
                           HEADER=TRUE
                          )
        WHERE MZA != '0';
        """
        # Si la columna MZA se llama diferente en tu CSV, ajusta el WHERE.
        # Ejemplo: Si se llama 'MANZANA', sería WHERE MANZANA != '0';

        print("\nEjecutando la creación de la tabla 'censo_all' desde el CSV...")
        con.execute("BEGIN TRANSACTION;") # Iniciar transacción para atomicidad
        con.execute(sql_create_table_from_csv)
        con.execute("COMMIT;") # Confirmar transacción si todo fue bien
        print("¡Tabla 'censo_all' creada y poblada exitosamente desde el archivo CSV!")

        # 4. Verificar la tabla creada (opcional, pero muy recomendable)
        print("\nVerificando la tabla 'censo_all'...")

        # Contar filas en la nueva tabla
        num_filas = con.execute("SELECT COUNT(*) FROM censo_all;").fetchone()[0]
        print(f"  Número total de filas en 'censo_all' (con MZA != '0'): {num_filas}")

        if num_filas == 0:
            print("  ADVERTENCIA: La tabla 'censo_all' está vacía. Verifica:")
            print("    - Que el archivo CSV no esté vacío.")
            print("    - Que el filtro 'WHERE MZA != '0'' no haya eliminado todas las filas.")
            print("    - Que la columna 'MZA' exista y tenga los valores esperados.")

        # Mostrar la estructura de algunas columnas y las primeras filas
        print("\n  Estructura (primeras 5 columnas) y primeras 3 filas de 'censo_all':")
        # Describe puede ser muy largo, así que seleccionamos algunas columnas para vista previa.
        # Para una vista previa rápida de las columnas:
        # print(con.execute("DESCRIBE censo_all;").fetchdf().head())
        # O mejor, ver algunas columnas de los datos:
        preview_df = con.execute("SELECT ENTIDAD, NOM_ENT, MUN, NOM_MUN, LOC, NOM_LOC, AGEB, MZA, POBTOT FROM censo_all LIMIT 3;").fetchdf()
        if preview_df.empty and num_filas > 0:
             print("  No se pudieron obtener las columnas de vista previa, pero la tabla tiene filas.")
        elif not preview_df.empty:
            print(preview_df)
        else:
            print("  La tabla 'censo_all' parece estar vacía, no hay datos para mostrar en la vista previa.")


    except duckdb.CatalogException as e:
        print(f"¡ERROR DE CATÁLOGO de DuckDB al crear 'censo_all'!: {e}")
        print("  Esto puede ocurrir si hay un problema con los nombres de tabla o columna, o tipos.")
        try: con.execute("ROLLBACK;") # Intentar revertir si la transacción estaba abierta
        except: pass
    except duckdb.ConversionException as e:
        print(f"¡ERROR DE CONVERSIÓN de DuckDB al leer el CSV para 'censo_all'!: {e}")
        print("  Esto usualmente significa que DuckDB encontró un valor en una columna que no pudo")
        print("  convertir al tipo de dato que infirió para esa columna (ej. texto en una columna numérica).")
        print(f"  Revisa el archivo CSV '{RUTA_FINAL_CSV_EXTRAIDO}' alrededor del error indicado si es posible.")
        print("  Considera usar la opción ALL_VARCHAR=TRUE en read_csv_auto para importar todo como texto")
        print("  y luego limpiar y convertir tipos con más control si este error persiste.")
        try: con.execute("ROLLBACK;")
        except: pass
    except Exception as e:
        print(f"¡ERROR GENERAL al crear la tabla 'censo_all' desde CSV!: {e}")
        try: con.execute("ROLLBACK;")
        except: pass

print("\n--- Proceso de carga de CSV a DuckDB completado (o intentado). ---")


## **Explorando `censo_all` con SQL Básico: Primeros Pasos**

Ahora que los datos censales residen en la tabla `censo_all` dentro de nuestra base de datos DuckDB, podemos empezar a "hacerle preguntas" usando SQL. SQL (Structured Query Language) es el lenguaje estándar para interactuar con bases de datos relacionales.

Veamos algunos ejemplos sencillos para familiarizarnos con la tabla y las operaciones básicas de SQL:

1.  **`SELECT` y `FROM`**: Para elegir qué columnas queremos ver (`SELECT`) y de qué tabla (`FROM`).
2.  **`LIMIT`**: Para restringir el número de filas que nos devuelve la consulta, útil para vistas previas.
3.  **`WHERE`**: Para filtrar filas basadas en una o más condiciones.
4.  **`COUNT(*)`**: Para contar el número total de filas.
5.  **`DISTINCT`**: Para ver los valores únicos en una columna.
6.  **`ORDER BY`**: Para ordenar los resultados.
7.  **`GROUP BY` y Funciones de Agregación (ej. `SUM()`, `AVG()`)**: Para agrupar filas y calcular estadísticas.

Estos ejemplos nos darán una idea de la riqueza de los datos que hemos cargado.

---

In [None]:
# Celda 8.1: Ejemplos de Consultas SQL Básicas sobre la Tabla 'censo_all'
# --------------------------------------------------------------------
# Estos ejemplos asumen que la Celda 8 (creación de 'censo_all') se ejecutó
# correctamente y la conexión 'con' a DuckDB está activa.

print(f"--- Ejemplos de Consultas SQL sobre la tabla 'censo_all' ---")

# Antes de empezar, verificamos si la tabla 'censo_all' existe y tiene datos.
try:
    num_filas_censo_all = con.execute("SELECT COUNT(*) FROM censo_all;").fetchone()[0]
    if num_filas_censo_all == 0:
        print("ADVERTENCIA: La tabla 'censo_all' está vacía. Los siguientes ejemplos SQL podrían no devolver resultados.")
        # Puedes decidir si detener el script o simplemente mostrar mensajes vacíos.
    else:
        print(f"La tabla 'censo_all' contiene {num_filas_censo_all} filas.")
except Exception as e:
    print(f"Error al verificar la tabla 'censo_all': {e}. No se pueden ejecutar los ejemplos SQL.")
    # Detener si la tabla base no está accesible
    raise

if num_filas_censo_all > 0:
    # Ejemplo 1: Ver las primeras 5 filas completas de la tabla
    # SELECT * selecciona todas las columnas.
    print("\n--- Ejemplo 1: Primeras 5 filas de 'censo_all' (todas las columnas) ---")
    try:
        df_ej1 = con.execute("SELECT * FROM censo_all LIMIT 5;").fetchdf()
        print(df_ej1)
    except Exception as e:
        print(f"Error en Ejemplo 1: {e}")

    # Ejemplo 2: Seleccionar columnas específicas (nombre de entidad, nombre de municipio, población total)
    # para las primeras 5 filas.
    # Asumimos que las columnas se llaman NOM_ENT, NOM_MUN, POBTOT. ¡Verifica los nombres en tu CSV!
    print("\n--- Ejemplo 2: Columnas específicas (NOM_ENT, NOM_MUN, POBTOT) de las primeras 5 filas ---")
    try:
        df_ej2 = con.execute("SELECT NOM_ENT, NOM_MUN, POBTOT FROM censo_all LIMIT 5;").fetchdf()
        print(df_ej2)
    except duckdb.CatalogException: # Error común si los nombres de columna no existen
        print("  Error: Una o más columnas (NOM_ENT, NOM_MUN, POBTOT) no existen en 'censo_all'.")
        print("  Por favor, verifica los nombres exactos de las columnas en tu archivo CSV o en la tabla.")
    except Exception as e:
        print(f"Error en Ejemplo 2: {e}")


    # Ejemplo 3: Contar cuántas manzanas hay por cada municipio.
    # Usamos GROUP BY para agrupar por NOM_MUN y COUNT(*) para contar las filas (manzanas) en cada grupo.
    # Asumimos que NOM_MUN existe.
    print("\n--- Ejemplo 3: Número de manzanas por municipio (primeros 10 municipios) ---")
    try:
        # Usaremos TRY_CAST para NOM_MUN por si acaso se leyó como otro tipo, aunque debería ser VARCHAR
        df_ej3 = con.execute("""
            SELECT
                TRY_CAST(NOM_MUN AS VARCHAR) AS NombreMunicipio,
                COUNT(*) AS NumeroDeManzanas
            FROM censo_all
            GROUP BY NombreMunicipio
            ORDER BY NumeroDeManzanas DESC
            LIMIT 10;
        """).fetchdf()
        print(df_ej3)
    except duckdb.CatalogException:
        print("  Error: La columna NOM_MUN no existe o no se puede agrupar.")
    except Exception as e:
        print(f"Error en Ejemplo 3: {e}")

    # Ejemplo 4: Encontrar las 5 manzanas con la mayor población total (POBTOT).
    # Asumimos que POBTOT es una columna numérica.
    print("\n--- Ejemplo 4: Las 5 manzanas con mayor población total ---")
    try:
        # Es importante que POBTOT sea numérico para ordenar correctamente.
        # read_csv_auto debería haberlo inferido, pero un TRY_CAST no hace daño.
        df_ej4 = con.execute("""
            SELECT NOM_ENT, NOM_MUN, AGEB, MZA, TRY_CAST(POBTOT AS DOUBLE) AS PoblacionTotal
            FROM censo_all
            ORDER BY PoblacionTotal DESC NULLS LAST
            LIMIT 5;
        """).fetchdf() # NULLS LAST para que los nulos no aparezcan primero si se ordena descendentemente
        print(df_ej4)
    except duckdb.CatalogException:
        print("  Error: Alguna de las columnas (NOM_ENT, NOM_MUN, AGEB, MZA, POBTOT) no existe.")
    except Exception as e:
        print(f"Error en Ejemplo 4: {e}")

    # Ejemplo 5: Calcular la población total para un municipio específico.
    # Reemplaza 'CIUDAD DE MEXICO' o el nombre de un municipio que sepas que existe en tus datos.
    # (Nota: Si tu NOM_MUN tiene nombres de alcaldías y NOM_ENT es CDMX, ajusta)
    # Para este ejemplo, vamos a tomar el primer nombre de municipio que encontremos.
    try:
        primer_municipio_df = con.execute("SELECT DISTINCT NOM_MUN FROM censo_all WHERE NOM_MUN IS NOT NULL LIMIT 1;").fetchdf()
        if not primer_municipio_df.empty:
            nombre_municipio_ejemplo = primer_municipio_df['NOM_MUN'].iloc[0]
            print(f"\n--- Ejemplo 5: Población total para el municipio '{nombre_municipio_ejemplo}' ---")

            df_ej5 = con.execute(f"""
                SELECT
                    NOM_MUN,
                    SUM(TRY_CAST(POBTOT AS DOUBLE)) AS PoblacionTotalEnMunicipio
                FROM censo_all
                WHERE NOM_MUN = '{nombre_municipio_ejemplo.replace("'", "''")}'  -- Escapar comillas simples en SQL
                GROUP BY NOM_MUN;
            """).fetchdf()
            print(df_ej5)
        else:
            print("\n--- Ejemplo 5: No se encontraron municipios para el ejemplo. ---")

    except duckdb.CatalogException:
        print("  Error en Ejemplo 5: Alguna columna (NOM_MUN, POBTOT) no existe.")
    except Exception as e:
        print(f"Error en Ejemplo 5: {e}")


    # Ejemplo 6: Ver los distintos nombres de entidades federativas presentes en la tabla.
    # Útil para confirmar qué datos se cargaron.
    print("\n--- Ejemplo 6: Nombres de Entidades Federativas distintas en la tabla ---")
    try:
        df_ej6 = con.execute("SELECT DISTINCT NOM_ENT FROM censo_all;").fetchdf()
        print(df_ej6)
    except duckdb.CatalogException:
        print("  Error: La columna NOM_ENT no existe.")
    except Exception as e:
        print(f"Error en Ejemplo 6: {e}")

else: # Si num_filas_censo_all == 0
    print("\nNo se pueden ejecutar los ejemplos SQL porque la tabla 'censo_all' está vacía o no se pudo verificar.")

print("\n--- Fin de los ejemplos SQL básicos. ---")

## **Segunda Descarga y Extracción del Shapefile: Obteniendo los Mapas de Manzanas**

**Concepto Clave: Adquisición de la Información Geográfica (las "Formas" de las Manzanas)**

Ya tenemos los datos *tabulares* del censo en nuestra base de datos. Ahora necesitamos la contraparte: los datos *geoespaciales*, es decir, los mapas digitales que representan las formas (polígonos) de cada manzana. El INEGI proporciona estos datos en formato **Shapefile**, usualmente dentro de archivos ZIP separados, como parte de su Marco Geoestadístico.

1.  **Descarga Focalizada en el Marco Geoestadístico:**
    *   A diferencia de los CSV del censo que pueden tener una URL por tipo de dato y estado, los Shapefiles del Marco Geoestadístico a menudo se agrupan por estado. Necesitaremos la URL del archivo ZIP que contiene el marco geoestadístico para el estado que estamos analizando (por ejemplo, para la Ciudad de México, será un archivo como `09_ciudaddemexico.zip`).
    *   Estos archivos ZIP se descargarán a la carpeta que designamos para ello: `DIR_MARCO_GEO_DESCARGAS_ZIP`.

2.  **Extracción Específica del Shapefile de Manzanas:**
    *   Un solo ZIP del Marco Geoestadístico puede contener Shapefiles para diferentes niveles geográficos (localidades, AGEBs, municipios, manzanas, etc.). Nosotros estamos interesados específicamente en las **manzanas**.
    *   Usaremos nuestra función `extract_shapefile(...)` que preparamos anteriormente. Le indicaremos:
        *   El nombre del archivo ZIP a procesar.
        *   El directorio donde se encuentra ese ZIP.
        *   El directorio de salida donde queremos los componentes del Shapefile de manzanas (`DIR_SHP_MANZANAS_EXTRAIDOS`).
        *   Un **sufijo o identificador de tipo** que nos permita decirle a la función qué archivos buscar dentro del ZIP. Por ejemplo, si los archivos de manzana se llaman `09m.shp`, `09m.dbf`, etc., el sufijo de tipo sería `"m"`.
    *   **¿Por qué un `shape_type_suffix`?** El INEGI usa diferentes letras o códigos en los nombres de archivo para distinguir los niveles geográficos. Usar un parámetro para esto hace nuestra función de extracción más flexible.

3.  **Componentes Esenciales del Shapefile:**
    *   Nuestra función `extract_shapefile` se encargará de buscar y extraer los archivos cruciales: `.shp` (geometrías), `.dbf` (atributos), `.shx` (índice espacial) y `.prj` (sistema de coordenadas).
    *   También manejará la creación de un archivo `.cpg` (codificación de caracteres) si no está presente en el ZIP, lo cual es importante para la correcta interpretación de los textos en los atributos.

4.  **Importancia de las Manzanas:**
    *   La manzana es, a menudo, la unidad geográfica más pequeña para la cual el INEGI publica datos censales detallados en áreas urbanas.
    *   Trabajar a este nivel de granularidad nos permite realizar análisis espaciales muy finos, como identificar la distribución de la población cuadra por cuadra, planificar servicios locales, estudiar la accesibilidad, etc.

Al finalizar este paso, tendremos los archivos (`.shp`, `.dbf`, etc.) que definen los polígonos de cada manzana de nuestro estado de interés, guardados en una carpeta específica (`DIR_SHP_MANZANAS_EXTRAIDOS`). Estos archivos son la representación visual y geométrica que luego uniremos con los datos censales que ya están en DuckDB.

In [None]:
# Celda 9: Descarga y Extracción del Shapefile de Manzanas
# --------------------------------------------------------
# En esta celda, descargaremos el archivo ZIP que contiene el Marco Geoestadístico
# del INEGI para nuestro estado. Luego, extraeremos de ese ZIP los componentes
# del Shapefile que corresponden específicamente a las 'manzanas'.

print(f"--- Iniciando Proceso de Descarga y Extracción de Shapefiles de Manzanas para: {CODIGO_ESTADO_STR} ---")

# --- 1. Definición de URLs y Nombres de Archivo para el Marco Geoestadístico (Shapefiles) ---

# URL base donde el INEGI almacena los productos del Marco Geoestadístico Censal.
# Esta URL puede cambiar, ¡verifica la fuente oficial del INEGI si hay problemas!
URL_BASE_MARCO_GEO_INEGI = "https://www.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/geografia/marcogeo/889463807469/"

# Nombre del archivo ZIP que contiene los Shapefiles para nuestro estado.
# Usamos ESTADO_GEO_ZIP_FILENAME definido en la Celda 5 (ej. "09_ciudaddemexico.zip")
URL_COMPLETA_MARCO_GEO_ZIP = f"{URL_BASE_MARCO_GEO_INEGI}{ESTADO_GEO_ZIP_FILENAME}"

# Ruta completa donde se guardará el archivo ZIP descargado.
# Usamos el directorio definido en la Celda 5: DIR_MARCO_GEO_DESCARGAS_ZIP
RUTA_DESCARGA_ZIP_MARCO_GEO = os.path.join(DIR_MARCO_GEO_DESCARGAS_ZIP, ESTADO_GEO_ZIP_FILENAME)

# Recordatorio de variables de la Celda 5 que usará la función extract_shapefile:
# - ESTADO_GEO_ZIP_FILENAME: Nombre del zip a procesar (ej. "09_ciudaddemexico.zip")
# - DIR_MARCO_GEO_DESCARGAS_ZIP: Directorio donde está el ZIP.
# - DIR_SHP_MANZANAS_EXTRAIDOS: Directorio de salida para los archivos .shp, .dbf, etc., de manzanas.
# - TIPO_SHAPEFILE_MANZANAS: Sufijo para el tipo de shape (ej. "m" para manzanas).

print(f"URL para descarga del ZIP del Marco Geoestadístico: {URL_COMPLETA_MARCO_GEO_ZIP}")
print(f"Ruta de descarga del ZIP: {RUTA_DESCARGA_ZIP_MARCO_GEO}")
print(f"Directorio de salida para Shapefiles de manzanas extraídos: {DIR_SHP_MANZANAS_EXTRAIDOS}")

# --- 2. Descarga del Archivo ZIP del Marco Geoestadístico ---
# Verificamos si el ZIP ya existe antes de intentar descargarlo.
if not os.path.exists(RUTA_DESCARGA_ZIP_MARCO_GEO):
    print(f"\nDescargando '{ESTADO_GEO_ZIP_FILENAME}' (Marco Geoestadístico)...")
    # Usamos la función 'download' definida en la Celda 3.
    try:
        download(URL_COMPLETA_MARCO_GEO_ZIP, DIR_MARCO_GEO_DESCARGAS_ZIP)
    except Exception as e:
        print(f"  La descarga del ZIP del Marco Geoestadístico falló. El error fue: {e}")
        print(f"  No se puede continuar con la extracción de Shapefiles sin este archivo ZIP.")
else:
    print(f"\nEl archivo ZIP '{ESTADO_GEO_ZIP_FILENAME}' (Marco Geoestadístico) ya existe "
          f"en '{DIR_MARCO_GEO_DESCARGAS_ZIP}'. No se descarga de nuevo.")

# --- 3. Extracción de los Componentes del Shapefile de Manzanas ---
# La función 'extract_shapefile' (definida en la Celda 4) se encargará de:
#   - Abrir el ZIP.
#   - Buscar los archivos .shp, .dbf, .shx, .prj, .cpg correspondientes a las manzanas.
#   - Extraerlos al directorio DIR_SHP_MANZANAS_EXTRAIDOS.
#   - Crear un .cpg por defecto si no existe.
#   - Verificar si los archivos ya fueron extraídos previamente.

print(f"\nExtrayendo componentes del Shapefile de tipo '{TIPO_SHAPEFILE_MANZANAS}' (Manzanas)...")

# Primero, nos aseguramos de que el archivo ZIP exista (pudo haber fallado la descarga)
if not os.path.exists(RUTA_DESCARGA_ZIP_MARCO_GEO):
    print(f"  ¡ERROR CRÍTICO! No se encontró el archivo ZIP '{RUTA_DESCARGA_ZIP_MARCO_GEO}'.")
    print(f"  No se pueden extraer los Shapefiles. Asegúrate de que la descarga fue exitosa.")
    # Detener si el archivo crucial no existe.
    # Descomenta la siguiente línea para forzar la detención:
    # raise FileNotFoundError(f"Archivo ZIP del Marco Geoestadístico no encontrado: {RUTA_DESCARGA_ZIP_MARCO_GEO}")
else:
    try:
        extract_shapefile(
            list_of_zip_filenames=[ESTADO_GEO_ZIP_FILENAME], # La función espera una lista
            zip_file_directory=DIR_MARCO_GEO_DESCARGAS_ZIP,
            target_shp_output_dir=DIR_SHP_MANZANAS_EXTRAIDOS,
            shape_type_suffix=TIPO_SHAPEFILE_MANZANAS
        )
        print(f"Proceso de extracción de Shapefiles de manzanas intentado.")
    except Exception as e:
        print(f"  Ocurrió un error inesperado durante la llamada a extract_shapefile: {e}")

print("\n--- Proceso de Descarga y Extracción de Shapefiles de Manzanas completado (o intentado). ---")

# Verificar si se crearon los archivos esperados (ej. el .shp)
# Esto es una comprobación simple; la función extract_shapefile debería haber impreso más detalles.
archivo_shp_esperado = os.path.join(DIR_SHP_MANZANAS_EXTRAIDOS, f"{CODIGO_ESTADO_STR}{TIPO_SHAPEFILE_MANZANAS}.shp")
if os.path.exists(archivo_shp_esperado):
    print(f"Confirmado: El archivo '{os.path.basename(archivo_shp_esperado)}' existe en '{DIR_SHP_MANZANAS_EXTRAIDOS}'.")
    print(f"  (Y deberían existir también sus archivos hermanos: .dbf, .shx, .prj)")
else:
    print(f"ADVERTENCIA: El archivo principal del Shapefile ('{os.path.basename(archivo_shp_esperado)}') "
          f"NO se encuentra en '{DIR_SHP_MANZANAS_EXTRAIDOS}'. Revisa los mensajes de error anteriores.")

## **Conversión a GeoParquet: Eficiencia y Modernidad en Datos Geoespaciales**

**Concepto Clave: Adoptando un Formato Optimizado para el Análisis Geoespacial**

Hemos extraído los componentes del Shapefile (`.shp`, `.dbf`, etc.). Si bien el Shapefile es un formato clásico y ampliamente compatible, tiene algunas desventajas para el análisis moderno de datos, especialmente con volúmenes grandes:

*   **Múltiples Archivos:** Un solo "mapa" Shapefile en realidad consta de varios archivos. Esto puede ser engorroso de manejar y transferir.
*   **Limitaciones de Tamaño y Atributos:** Tiene restricciones en el tamaño de los archivos y en los nombres de las columnas de atributos.
*   **Rendimiento:** Su rendimiento de lectura/escritura puede no ser óptimo comparado con formatos más nuevos.

Aquí es donde entra **GeoParquet**.

1.  **¿Qué es Parquet y GeoParquet?**
    *   **Apache Parquet:** Es un formato de almacenamiento **columnar** de código abierto. "Columnar" significa que los datos se organizan por columnas en lugar de por filas. Esto es extremadamente eficiente para consultas analíticas, ya que a menudo solo necesitas leer un subconjunto de columnas, y Parquet permite hacerlo sin leer todo el archivo. Ofrece excelente compresión y rendimiento.
    *   **GeoParquet:** Es una **especificación estándar** sobre cómo almacenar datos geoespaciales (geometrías) dentro de un archivo Parquet. Básicamente, es un archivo Parquet que incluye metadatos geoespaciales estándar (como el Sistema de Coordenadas de Referencia - CRS) y una columna que contiene las geometrías.

2.  **Ventajas de Convertir de Shapefile a GeoParquet:**
    *   **Un Solo Archivo:** Un GeoDataFrame completo (mapa + atributos) se guarda en un único archivo `.geoparquet`. ¡Adiós a la colección de archivos del Shapefile!
    *   **Rendimiento Superior:** La lectura y escritura de archivos GeoParquet suelen ser significativamente más rápidas, especialmente con herramientas modernas como DuckDB (con su extensión espacial) y GeoPandas.
    *   **Mejor Compresión:** Parquet generalmente logra mejores tasas de compresión que los componentes de un Shapefile, lo que resulta en archivos más pequeños.
    *   **Tipos de Datos Ricos:** Mejor soporte para diversos tipos de datos en las columnas de atributos.
    *   **Estándar Abierto y Creciente Adopción:** GeoParquet se está convirtiendo rápidamente en el formato preferido para el intercambio y análisis de datos geoespaciales vectoriales.

3.  **Proceso de Conversión con GeoPandas:**
    *   La librería `geopandas` hace que esta conversión sea muy sencilla:
        1.  **Leer el Shapefile:**
            ```python
            # gdf = gpd.read_file('ruta/al/manzanas.shp', encoding='ISO-8859-1')
            ```
            GeoPandas lee el `.shp` y su `.dbf` asociado (y otros componentes) en un `GeoDataFrame`. Especificar la `encoding` (como `ISO-8859-1`, común para datos del INEGI) es importante para los atributos de texto.
        2.  **Verificar y Asignar/Reproyectar el CRS (Sistema de Coordenadas):**
            *   Es **crucial** que nuestros datos geoespaciales tengan un CRS definido correctamente. GeoPandas intentará leerlo del archivo `.prj`.
            *   Si el CRS no se detecta (`gdf.crs is None`), debemos asignarle el CRS correcto que sabemos que tienen los datos originales del INEGI (por ejemplo, `EPSG:6372` para ITRF2008).
            *   Una vez que tenemos un CRS de origen, es una **excelente práctica reproyectar** las geometrías a un CRS estándar global como **`EPSG:4326` (WGS 84)**. Este es el sistema de coordenadas que usan GPS, Google Maps, y muchos servicios web, lo que facilita la interoperabilidad.
                ```python
                # if gdf.crs is None:
                #     gdf.set_crs("EPSG:6372", inplace=True) # Asignar si no tiene
                # gdf = gdf.to_crs("EPSG:4326") # Reproyectar a WGS 84
                ```
        3.  **Guardar como GeoParquet:**
            ```python
            # gdf.to_parquet('ruta/al/manzanas.geoparquet', index=False)
            ```
            El `index=False` evita que se guarde el índice del GeoDataFrame como una columna en el archivo Parquet, lo cual generalmente es deseable.

Al convertir nuestros Shapefiles a GeoParquet, estamos modernizando nuestro flujo de datos, haciéndolo más eficiente, más fácil de manejar y preparándolo para un análisis de alto rendimiento con DuckDB.

In [None]:
# Celda 10: Conversión de Shapefile a Formato GeoParquet
# ----------------------------------------------------
# En esta celda, tomaremos el Shapefile de manzanas que extrajimos
# y lo convertiremos al formato GeoParquet. GeoParquet es un formato
# moderno y eficiente para almacenar datos geoespaciales, que ofrece
# mejor rendimiento y manejo de archivos que el tradicional Shapefile.

print(f"--- Iniciando Proceso de Conversión de Shapefile a GeoParquet para: {CODIGO_ESTADO_STR} ---")

# --- 1. Definición de Rutas de Entrada y Salida ---

# Ruta del archivo .shp de entrada (de las manzanas extraídas)
# Construido a partir de variables definidas en celdas anteriores:
# DIR_SHP_MANZANAS_EXTRAIDOS, CODIGO_ESTADO_STR, TIPO_SHAPEFILE_MANZANAS
NOMBRE_SHP_BASE = f"{CODIGO_ESTADO_STR}{TIPO_SHAPEFILE_MANZANAS}" # ej: "09m"
RUTA_SHP_ENTRADA = os.path.join(DIR_SHP_MANZANAS_EXTRAIDOS, f"{NOMBRE_SHP_BASE}.shp")

# Ruta del archivo .geoparquet de salida
# Lo guardaremos en el mismo directorio que los Shapefiles extraídos.
RUTA_GEOPARQUET_SALIDA = os.path.join(DIR_SHP_MANZANAS_EXTRAIDOS, f"{NOMBRE_SHP_BASE}.geoparquet")

print(f"Archivo Shapefile de entrada: {RUTA_SHP_ENTRADA}")
print(f"Archivo GeoParquet de salida: {RUTA_GEOPARQUET_SALIDA}")

# --- 2. Proceso de Conversión ---

# Verificar si el archivo .shp de entrada existe
if not os.path.exists(RUTA_SHP_ENTRADA):
    print(f"  ¡ERROR CRÍTICO! No se encontró el archivo Shapefile de entrada: '{RUTA_SHP_ENTRADA}'.")
    print(f"  No se puede realizar la conversión a GeoParquet.")
    print(f"  Asegúrate de que la Celda 9 (descarga y extracción de Shapefiles) se haya ejecutado correctamente.")
    # Detener si el archivo crucial no existe
    # Descomenta la siguiente línea para forzar la detención:
    # raise FileNotFoundError(f"Archivo Shapefile de entrada no encontrado: {RUTA_SHP_ENTRADA}")

# Verificar si el archivo GeoParquet de salida ya existe para no repetir el trabajo
elif os.path.exists(RUTA_GEOPARQUET_SALIDA):
    print(f"\nEl archivo GeoParquet '{os.path.basename(RUTA_GEOPARQUET_SALIDA)}' ya existe. No se convierte de nuevo.")
else:
    print(f"\nIniciando conversión de '{os.path.basename(RUTA_SHP_ENTRADA)}' a GeoParquet...")
    try:
        # 2a. Leer el Shapefile usando GeoPandas
        # Es importante especificar la codificación correcta para leer los atributos
        # del archivo .dbf. 'ISO-8859-1' (o 'latin1') es común para datos del INEGI.
        # Si hay errores de codificación, podrías probar con 'utf-8' o detectarla.
        print(f"  Leyendo Shapefile: '{RUTA_SHP_ENTRADA}'...")
        gdf = gpd.read_file(RUTA_SHP_ENTRADA, encoding='ISO-8859-1')
        print(f"    Shapefile leído exitosamente. Contiene {len(gdf)} geometrías.")
        print(f"    CRS (Sistema de Coordenadas de Referencia) original detectado: {gdf.crs}")

        # 2b. Manejo del CRS (Sistema de Coordenadas de Referencia)
        # Es crucial que los datos tengan un CRS correcto.
        # Si GeoPandas no pudo determinar el CRS (es decir, gdf.crs es None),
        # necesitamos asignarle uno. Para datos recientes del INEGI en México,
        # un CRS común es EPSG:6372 (ITRF2008).
        # ¡ESTA ASIGNACIÓN ES UNA SUPOSICIÓN SI FALTA EL .PRJ O ES INVÁLIDO!
        # Siempre es mejor que el .prj original sea correcto.
        if gdf.crs is None:
            crs_asignado_por_defecto = "EPSG:6372" # ITRF2008 / Mexico
            print(f"    ADVERTENCIA: No se detectó CRS en el Shapefile (faltaba .prj o era inválido).")
            print(f"    Asignando CRS por defecto: {crs_asignado_por_defecto}. ¡VERIFICA QUE ESTA ASIGNACIÓN SEA CORRECTA PARA TUS DATOS!")
            try:
                gdf.set_crs(crs_asignado_por_defecto, inplace=True) # inplace=True modifica gdf directamente
                print(f"    CRS asignado: {gdf.crs}")
            except Exception as e_set_crs:
                print(f"    ¡ERROR al asignar CRS por defecto {crs_asignado_por_defecto}!: {e_set_crs}")
                print(f"    La conversión podría fallar o resultar en datos geoespaciales incorrectos.")
                raise # Detener si no podemos asignar un CRS base

        # 2c. Reproyectar a un CRS estándar global: EPSG:4326 (WGS 84)
        # Esto es una buena práctica para la interoperabilidad y consistencia.
        # WGS 84 usa coordenadas de latitud/longitud.
        crs_destino = "EPSG:4326" # WGS 84
        if gdf.crs != crs_destino: # Solo reproyectar si no está ya en el CRS destino
            print(f"    Reproyectando geometrías de {gdf.crs} a {crs_destino} (WGS 84)...")
            try:
                gdf = gdf.to_crs(crs_destino)
                print(f"    Reproyección completada. Nuevo CRS: {gdf.crs}")
            except Exception as e_to_crs:
                print(f"    ¡ERROR al reproyectar a {crs_destino}!: {e_to_crs}")
                print(f"    La conversión podría usar el CRS original o fallar.")
                raise # Detener si la reproyección es crítica y falla
        else:
            print(f"    Las geometrías ya están en el CRS destino ({crs_destino}). No se necesita reproyección.")


        # 2d. Guardar el GeoDataFrame como archivo GeoParquet
        # 'index=False' evita que el índice de GeoPandas se guarde como una columna en el Parquet.
        print(f"  Guardando GeoDataFrame como GeoParquet en: '{RUTA_GEOPARQUET_SALIDA}'...")
        gdf.to_parquet(RUTA_GEOPARQUET_SALIDA, index=False)
        print(f"    ¡Conversión a GeoParquet completada exitosamente!")

    except FileNotFoundError: # Específicamente si un componente del SHP falta y gpd.read_file falla
        print(f"  ¡ERROR! No se encontró el Shapefile o uno de sus componentes necesarios (ej. .dbf, .shx) en '{os.path.dirname(RUTA_SHP_ENTRADA)}'.")
    except importlib.metadata.PackageNotFoundError as e_arrow: # Común si falta pyarrow
        print(f"  ¡ERROR DE DEPENDENCIA! Parece que falta 'pyarrow', que es necesario para 'to_parquet'.")
        print(f"  Detalle del error: {e_arrow}")
        print(f"  Asegúrate de haberlo instalado (ej. pip install pyarrow).")
    except Exception as e:
        print(f"  ¡ERROR GENERAL durante la conversión a GeoParquet!: {e}")

print("\n--- Proceso de Conversión a GeoParquet completado (o intentado). ---")

# Verificar si el archivo GeoParquet final existe después de todo el proceso
if os.path.exists(RUTA_GEOPARQUET_SALIDA):
    print(f"Confirmado: El archivo GeoParquet está listo en: {RUTA_GEOPARQUET_SALIDA}")
else:
    print(f"ADVERTENCIA: El archivo GeoParquet final NO se encuentra en: {RUTA_GEOPARQUET_SALIDA}. "
          f"Revisa los mensajes de error anteriores.")

In [None]:
from google.colab import files
files.download('./inegi_data/marco_geoestadistico_shp/shp_extraidos/m/09m.geoparquet')

## **Creación de la Tabla `manzanas` en DuckDB: Integrando los Mapas a la Base de Datos**

**Concepto Clave: Hacer que Nuestras Geometrías (Mapas) sean Consultables con SQL**

Ya hemos convertido nuestros Shapefiles de manzanas al eficiente formato GeoParquet. El siguiente paso es cargar estos datos geoespaciales en nuestra base de datos DuckDB. Al hacerlo, crearemos una tabla (que llamaremos `manzanas`) donde cada fila representará una manzana y contendrá tanto sus atributos (información descriptiva que venía en el `.dbf` original) como, lo más importante, su **geometría** (el polígono que define su forma).

1.  **Lectura Directa de GeoParquet por DuckDB:**
    *   Una de las grandes ventajas de DuckDB, cuando se usa con su extensión `spatial`, es que puede **leer archivos GeoParquet directamente** y entender su contenido geoespacial.
    *   No necesitamos un proceso de importación complejo. Podemos usar una función similar a `read_csv_auto` que vimos antes, pero específica para Parquet: `read_parquet()`.

2.  **Creación de la Tabla `manzanas` en DuckDB:**
    *   Al igual que con la tabla `censo_all`, usaremos una instrucción `CREATE TABLE AS SELECT` para construir nuestra tabla `manzanas`:
        ```sql
        -- DROP TABLE IF EXISTS manzanas; -- Para empezar limpio
        -- CREATE TABLE manzanas AS
        -- SELECT *
        -- FROM read_parquet('ruta/a/manzanas.geoparquet');
        ```
    *   **`DROP TABLE IF EXISTS manzanas;`**: Elimina la tabla si ya existe, para asegurar una creación limpia en cada ejecución.
    *   **`CREATE TABLE manzanas AS SELECT * ...`**: Crea la tabla `manzanas` con la estructura y datos provenientes de la lectura del archivo GeoParquet.
    *   **`FROM read_parquet('ruta/a/manzanas.geoparquet')`**: DuckDB leerá todas las columnas del archivo GeoParquet. Crucialmente, si el GeoParquet está bien formado (como el que creamos con GeoPandas), DuckDB reconocerá la columna que contiene las geometrías y la tratará como un tipo de dato espacial especial.

3.  **La Columna `geometry`:**
    *   Dentro de la tabla `manzanas` que se crea, habrá una columna (usualmente llamada `geometry` por convención de GeoPandas y GeoParquet) que almacena los datos geométricos de cada manzana.
    *   Con la extensión `spatial` de DuckDB activa, podremos realizar **consultas y operaciones espaciales directamente sobre esta columna `geometry` usando SQL** (por ejemplo, verificar si un punto está dentro de una manzana, calcular el área de las manzanas, unir manzanas con otras capas espaciales, etc.).

4.  **¿Por Qué Crear una Tabla en DuckDB en Lugar de Usar el GeoParquet Directamente Siempre?**
    *   **Persistencia y Organización:** Tener los datos en una tabla dentro de nuestro archivo `.duckdb` los mantiene organizados junto con nuestros datos censales.
    *   **Rendimiento en Consultas Repetidas:** Aunque `read_parquet()` es rápido, si vamos a consultar estos datos geoespaciales muchas veces o en combinación con otras tablas, tenerlos ya cargados en una tabla de DuckDB puede ser más eficiente. DuckDB puede aplicar sus propias optimizaciones internas, crear índices (si fuera necesario en escenarios más avanzados), etc.
    *   **Unificación del Entorno de Análisis:** Nos permite usar SQL como el lenguaje principal para interactuar tanto con los datos tabulares del censo como con los datos geoespaciales de los mapas, todo dentro del mismo entorno de DuckDB.

Al finalizar este paso, tendremos dos tablas principales en nuestra base de datos DuckDB:
*   `censo_all`: Con los datos demográficos y socioeconómicos por manzana.
*   `manzanas`: Con los atributos y, fundamentalmente, las geometrías (polígonos) de cada manzana.

El siguiente gran paso será unir estas dos tablas para tener una visión completa: cada manzana con sus datos censales Y su forma geográfica.

In [None]:
# Celda 11: Creación de la Tabla 'manzanas' en DuckDB desde GeoParquet
# -----------------------------------------------------------------
# En esta celda, cargaremos el archivo GeoParquet (que contiene las geometrías
# y atributos de las manzanas) en una nueva tabla dentro de nuestra base de
# datos DuckDB. Esta tabla se llamará 'manzanas'.

print(f"--- Creando la Tabla 'manzanas' en DuckDB desde el archivo GeoParquet ---")

# La ruta al archivo GeoParquet de salida fue definida en la Celda 10
# como RUTA_GEOPARQUET_SALIDA (ej. ./inegi_data/marco_geoestadistico_shp/shp_extraidos/m/09m.geoparquet)

# 1. Verificar que el archivo GeoParquet exista
if not os.path.exists(RUTA_GEOPARQUET_SALIDA):
    print(f"¡ERROR CRÍTICO! No se encontró el archivo GeoParquet en: '{RUTA_GEOPARQUET_SALIDA}'.")
    print(f"La tabla 'manzanas' no se puede crear.")
    print(f"Asegúrate de que la Celda 10 (conversión a GeoParquet) se haya ejecutado correctamente.")
    # Detener el script si el archivo crucial no existe.
    # Descomenta la siguiente línea para forzar la detención:
    # raise FileNotFoundError(f"Archivo GeoParquet no encontrado: {RUTA_GEOPARQUET_SALIDA}")
else:
    print(f"Archivo GeoParquet encontrado: '{RUTA_GEOPARQUET_SALIDA}'. Procediendo a crear la tabla 'manzanas'.")

    try:
        # 2. Eliminar la tabla 'manzanas' si ya existe (para empezar de cero)
        con.execute("DROP TABLE IF EXISTS manzanas;")
        print("Tabla 'manzanas' eliminada si existía previamente.")

        # 3. Crear la tabla 'manzanas' directamente desde el archivo GeoParquet
        # DuckDB (con la extensión 'spatial' cargada) puede leer GeoParquet
        # y reconocerá automáticamente la columna de geometría.
        # 'SELECT *' tomará todas las columnas del GeoParquet.
        sql_create_table_from_geoparquet = f"""
        CREATE TABLE manzanas AS
        SELECT *
        FROM read_parquet('{RUTA_GEOPARQUET_SALIDA}');
        """

        print("\nEjecutando la creación de la tabla 'manzanas' desde GeoParquet...")
        con.execute("BEGIN TRANSACTION;") # Iniciar transacción
        con.execute(sql_create_table_from_geoparquet)
        con.execute("COMMIT;") # Confirmar transacción
        print("¡Tabla 'manzanas' creada y poblada exitosamente desde el archivo GeoParquet!")

        # 4. Verificar la tabla creada (opcional, pero muy recomendable)
        print("\nVerificando la tabla 'manzanas'...")

        # Contar filas en la nueva tabla
        num_filas_manzanas = con.execute("SELECT COUNT(*) FROM manzanas;").fetchone()[0]
        print(f"  Número total de filas (manzanas) en la tabla 'manzanas': {num_filas_manzanas}")

        if num_filas_manzanas == 0:
            print("  ADVERTENCIA: La tabla 'manzanas' está vacía. Verifica el archivo GeoParquet.")

        # Mostrar la estructura (nombres de columna y tipos)
        print("\n  Estructura de la tabla 'manzanas' (DESCRIBE):")
        describe_manzanas_df = con.execute("DESCRIBE manzanas;").fetchdf()
        print(describe_manzanas_df)

        # Verificar si la columna 'geometry' existe y qué tipo tiene
        geometry_col_info = describe_manzanas_df[describe_manzanas_df['column_name'].str.lower() == 'geometry']
        if not geometry_col_info.empty:
            print(f"\n  Información de la columna 'geometry':")
            print(geometry_col_info)
            if 'GEOMETRY' not in geometry_col_info['column_type'].iloc[0].upper():
                print(f"    ADVERTENCIA: El tipo de la columna 'geometry' es '{geometry_col_info['column_type'].iloc[0]}', no parece ser un tipo GEOMETRY. "
                      "Esto podría indicar un problema con el GeoParquet o la extensión espacial de DuckDB.")
            else:
                print(f"    La columna 'geometry' parece tener un tipo espacial correcto.")
        else:
            print("\n  ADVERTENCIA: No se encontró una columna llamada 'geometry' (ignorando mayúsculas/minúsculas) en la tabla 'manzanas'.")
            print("    Esto es inesperado para datos geoespaciales. Verifica el contenido del GeoParquet.")


        # Mostrar algunas columnas de las primeras filas, incluyendo una representación WKT de la geometría
        # si la columna 'geometry' fue reconocida correctamente.
        if not geometry_col_info.empty and 'GEOMETRY' in geometry_col_info['column_type'].iloc[0].upper():
            print("\n  Primeras 3 filas de 'manzanas' (con geometría como WKT abreviado):")
            # Seleccionar algunas columnas de atributos comunes del Marco Geoestadístico y la geometría.
            # Los nombres CVEGEO, CVE_ENT, etc. son comunes. Ajusta si tus columnas se llaman diferente.
            preview_cols = []
            for col in ['CVEGEO', 'CVE_ENT', 'CVE_MUN', 'CVE_LOC', 'CVE_AGEB', 'CVE_MZA']:
                if col in describe_manzanas_df['column_name'].tolist():
                    preview_cols.append(col)

            if preview_cols:
                sql_preview_manzanas = f"""
                SELECT {', '.join(preview_cols)}, ST_AsText(geometry) AS geometria_wkt
                FROM manzanas
                LIMIT 3;
                """
                df_preview_manzanas = con.execute(sql_preview_manzanas).fetchdf()
                print(df_preview_manzanas)
            else:
                print("    No se encontraron columnas de clave geográfica comunes para la vista previa, mostrando solo geometrías.")
                df_preview_manzanas_geom_only = con.execute("SELECT ST_AsText(geometry) AS geometria_wkt FROM manzanas LIMIT 3;").fetchdf()
                print(df_preview_manzanas_geom_only)
        else:
            print("\n  No se puede mostrar la vista previa de geometrías porque la columna 'geometry' no se detectó correctamente.")


    except duckdb.CatalogException as e:
        print(f"¡ERROR DE CATÁLOGO de DuckDB al crear 'manzanas'!: {e}")
        try: con.execute("ROLLBACK;")
        except: pass
    except duckdb.IOException as e: # Podría ocurrir si hay problemas leyendo el Parquet
        print(f"¡ERROR DE ENTRADA/SALIDA (IOException) de DuckDB al leer GeoParquet para 'manzanas'!: {e}")
        try: con.execute("ROLLBACK;")
        except: pass
    except Exception as e:
        print(f"¡ERROR GENERAL al crear la tabla 'manzanas' desde GeoParquet!: {e}")
        try: con.execute("ROLLBACK;")
        except: pass

print("\n--- Proceso de creación de la tabla 'manzanas' completado (o intentado). ---")

## **Unión de Datos Censales y Geometrías: Creando la Tabla `censo_geo`**

**Concepto Clave: ¡La Fusión Mágica! Combinando Estadísticas con Mapas**

Este es uno de los momentos más importantes de nuestro proceso. Hasta ahora, tenemos dos conjuntos de datos principales en nuestra base de datos DuckDB:

1.  **`censo_all`**: Una tabla con una gran cantidad de variables demográficas y socioeconómicas provenientes del censo (población, vivienda, educación, etc.), donde cada fila idealmente representa una manzana.
2.  **`manzanas`**: Una tabla que contiene los atributos geográficos (como claves de identificación) y, crucialmente, las **geometrías** (los polígonos que dibujan la forma) de cada manzana.

El objetivo ahora es **unir estas dos tablas** para crear una nueva tabla, que llamaremos `censo_geo`. En esta tabla `censo_geo`, cada fila seguirá representando una manzana, pero ahora tendrá **tanto sus datos censales como su geometría asociada**. ¡Esto nos permitirá hacer mapas temáticos, análisis espaciales y mucho más!

**La Clave de la Unión: `CVEGEO` (Clave Geoestadística)**

*   ¿Cómo sabe la base de datos qué fila de `censo_all` corresponde a qué fila (y por tanto, a qué polígono) de la tabla `manzanas`? La respuesta está en una **clave única de identificación geográfica**.
*   El INEGI utiliza una **Clave Geoestadística (`CVEGEO`)** que identifica de manera única a cada unidad geográfica (estado, municipio, localidad, AGEB, y manzana). Esta clave se construye concatenando (uniendo) los códigos de cada uno de estos niveles. Para una manzana, la estructura típica es:
    *   `[Código de Entidad (2 dígitos)]`
    *   `[Código de Municipio (3 dígitos)]`
    *   `[Código de Localidad (4 dígitos)]`
    *   `[Código de AGEB (4 dígitos)]`
    *   `[Código de Manzana (3 dígitos)]`
    *   Ejemplo: `0900200011234001` (donde `09` es CDMX, `002` es una alcaldía, `0001` una localidad, `1234` un AGEB, y `001` una manzana).

*   **Nuestra Tarea:**
    1.  Nos aseguraremos de que tanto la tabla `censo_all` como la tabla `manzanas` tengan una columna que represente esta `CVEGEO` completa.
        *   En `censo_all`, la construiremos concatenando las columnas `ENTIDAD`, `MUN`, `LOC`, `AGEB`, `MZA` (asegurándonos de usar `LPAD` para que cada código tenga la longitud correcta con ceros a la izquierda si es necesario).
        *   En `manzanas`, el Shapefile original del INEGI a menudo ya incluye columnas como `CVE_ENT`, `CVE_MUN`, `CVE_LOC`, `CVE_AGEB`, `CVE_MZA`, o incluso una columna `CVEGEO` ya construida. Si no, la construiremos de manera similar.
    2.  Once both tables have this common `CVEGEO` column, we can join them using an SQL `JOIN` operation.

**Construcción de la Tabla `censo_geo` con SQL y CTEs**

Usaremos una consulta SQL organizada con **`Common Table Expressions` (CTEs)**.
*   **¿Qué es una CTE?** Una CTE (definida con la cláusula `WITH`) es como una **tabla temporal con nombre** que existe solo durante la ejecución de una única consulta SQL. Nos ayudan a dividir consultas complejas en pasos más pequeños y legibles, haciendo el código SQL más fácil de entender y mantener.

Nuestra consulta SQL tendrá la siguiente estructura:

1.  **CTE `censo_con_cvegeo`**: Usando `WITH`, definiremos esta "tabla temporal" que tomará los datos de `censo_all` y le añadirá una nueva columna `CVEGEO`, construida a partir de sus componentes (`ENTIDAD`, `MUN`, etc.).
2.  **CTE `manzanas_con_cvegeo`**: Similarmente, definiremos esta otra "tabla temporal" que tomará los datos de `manzanas` (especialmente la columna `geometry`) y también generará o se asegurará de que tenga la columna `CVEGEO`.
3.  **`SELECT` Final con `INNER JOIN`**:
    *   La consulta principal `SELECT` unirá (`JOIN`) las dos CTEs que acabamos de definir, usando la condición `censo_con_cvegeo.CVEGEO = manzanas_con_cvegeo.CVEGEO`.
    *   Usaremos un `INNER JOIN`. Esto significa que solo se incluirán en `censo_geo` aquellas manzanas que tengan una entrada correspondiente tanto en la tabla del censo como en la tabla de geometrías. Si una manzana aparece en el censo pero no tiene geometría, o viceversa, no se incluirá en el resultado final de `censo_geo`.
    *   Seleccionaremos las columnas deseadas: el `CVEGEO` unificado, todas las variables censales de la CTE del censo, y la columna `geometry` de la CTE de manzanas.
    *   El resultado de esta consulta `SELECT` se usará para crear la nueva tabla `censo_geo` (`CREATE TABLE censo_geo AS ...`).

**¿Por Qué una Nueva Tabla `censo_geo`?**

*   **Datos Enriquecidos en un Solo Lugar:** `censo_geo` contendrá la información completa: cada manzana con sus características demográficas y su representación espacial.
*   **Facilidad para Análisis y Visualización:** Tener todo en una tabla simplifica enormemente la creación de mapas temáticos (ej. pintar manzanas según su población), la realización de consultas espaciales (ej. "¿cuántas personas viven a menos de 500 metros de este punto?"), y la exportación de datos para otras herramientas.

La tabla `censo_geo` es la **culminación de nuestro proceso de integración de datos**. Es el conjunto de datos enriquecido que nos permitirá realizar análisis geoespaciales significativos.

In [None]:
# Celda 12: Unión de Datos Censales y Geometrías para Crear 'censo_geo'
# --------------------------------------------------------------------
# Este es un paso crucial donde combinamos nuestros datos censales (de 'censo_all')
# con nuestros datos geoespaciales (de 'manzanas').
# La unión se realizará utilizando una Clave Geoestadística (CVEGEO) común,
# que construiremos para ambas tablas si es necesario.
# La tabla resultante, 'censo_geo', contendrá tanto los atributos censales
# como la geometría para cada manzana.

print(f"--- Creando la Tabla 'censo_geo' mediante la unión de 'censo_all' y 'manzanas' ---")

# 1. Verificar que las tablas de entrada ('censo_all' y 'manzanas') existan y tengan datos
error_preparacion = False
try:
    num_filas_censo_all = con.execute("SELECT COUNT(*) FROM censo_all;").fetchone()[0]
    if num_filas_censo_all == 0:
        print("ADVERTENCIA: La tabla 'censo_all' está vacía. La unión no producirá resultados.")
        error_preparacion = True
    else:
        print(f"Tabla 'censo_all' verificada, contiene {num_filas_censo_all} filas.")
except Exception as e:
    print(f"Error al verificar 'censo_all': {e}. No se puede continuar.")
    error_preparacion = True

try:
    num_filas_manzanas = con.execute("SELECT COUNT(*) FROM manzanas;").fetchone()[0]
    if num_filas_manzanas == 0:
        print("ADVERTENCIA: La tabla 'manzanas' está vacía. La unión no producirá resultados.")
        error_preparacion = True
    else:
        print(f"Tabla 'manzanas' verificada, contiene {num_filas_manzanas} filas.")
except Exception as e:
    print(f"Error al verificar 'manzanas': {e}. No se puede continuar.")
    error_preparacion = True

if error_preparacion:
    print("¡ERROR CRÍTICO! Una o ambas tablas de entrada ('censo_all', 'manzanas') están vacías o no son accesibles.")
    print("La tabla 'censo_geo' no se creará. Revisa las celdas anteriores.")
    # Detener si las tablas base no están listas
    # Descomenta la siguiente línea para forzar la detención:
    # raise ValueError("Tablas de entrada para la unión no están listas.")
else:
    print("\nTablas de entrada ('censo_all' y 'manzanas') listas para la unión.")
    try:
        # 2. Eliminar la tabla 'censo_geo' si ya existe
        con.execute("DROP TABLE IF EXISTS censo_geo;")
        print("Tabla 'censo_geo' eliminada si existía previamente.")

        # 3. Construir la consulta SQL para crear 'censo_geo'
        # Usaremos Common Table Expressions (CTEs) para mayor claridad:
        #   - Una CTE para preparar 'censo_all' con su CVEGEO.
        #   - Una CTE para preparar 'manzanas' con su CVEGEO.
        # Luego, unimos estas CTEs.

        # Obtener la lista de columnas de 'censo_all' para seleccionarlas dinámicamente
        # y evitar listar manualmente cientos de columnas.
        # Excluimos las columnas que forman parte de la clave CVEGEO individualmente,
        # ya que tendremos la CVEGEO completa.
        describe_censo_all_df = con.execute("DESCRIBE censo_all;").fetchdf()
        columnas_censo_all = describe_censo_all_df['column_name'].tolist()

        # Columnas a excluir de la selección directa de 'censo_all' porque ya estarán en CVEGEO o son redundantes
        # Se pueden ajustar según sea necesario.
        cols_a_excluir_de_censo_select = ['ENTIDAD', 'MUN', 'LOC', 'AGEB', 'MZA']
        # Algunas implementaciones de EXCLUDE pueden necesitar que las columnas existan.
        # Asegurémonos de que solo intentamos excluir las que realmente están.
        cols_a_excluir_filtradas = [col for col in cols_a_excluir_de_censo_select if col in columnas_censo_all]


        select_cols_censo_str = ", ".join([f"c.\"{col}\"" for col in columnas_censo_all if col not in cols_a_excluir_filtradas])
        # Si la lista de columnas es muy larga, o por simplicidad, se podría usar c.* y luego manejar duplicados si los hay.
        # O usar la sintaxis `c.* EXCLUDE (ENTIDAD, MUN, LOC, AGEB, MZA)` si la versión de DuckDB lo soporta bien.
        # Por robustez con nombres de columnas, la enumeración explícita o el filtrado como arriba es más seguro.

        # Nombres de las columnas que forman la clave en la tabla 'manzanas'.
        # Comúnmente son CVE_ENT, CVE_MUN, etc. ¡Verifica esto con tu tabla 'manzanas'!
        # Puedes usar DESCRIBE manzanas; para ver los nombres exactos.
        # Por ahora, asumimos los nombres comunes del Marco Geoestadístico del INEGI.
        manzanas_cols_cve = {
            'ent': 'CVE_ENT', 'mun': 'CVE_MUN', 'loc': 'CVE_LOC',
            'ageb': 'CVE_AGEB', 'mza': 'CVE_MZA'
        }
        # Verificar que estas columnas existan en 'manzanas'
        describe_manzanas_df = con.execute("DESCRIBE manzanas;").fetchdf()
        manzanas_actual_cols = describe_manzanas_df['column_name'].tolist()
        for key, col_name in manzanas_cols_cve.items():
            if col_name not in manzanas_actual_cols:
                print(f"  ADVERTENCIA: La columna esperada '{col_name}' para construir CVEGEO no se encontró en la tabla 'manzanas'.")
                print(f"  La unión podría fallar o ser incorrecta. Verifica los nombres de columna en 'manzanas'.")
                # Podrías querer reemplazar con un nombre alternativo o detener si es crítico.


        sql_create_censo_geo = f"""
        CREATE TABLE censo_geo AS
        WITH censo_con_cvegeo AS (
            SELECT
                -- Construir CVEGEO: ENT(2)MUN(3)LOC(4)AGEB(4)MZA(3)
                -- Asegurar CAST a VARCHAR antes de LPAD si las columnas son numéricas.
                CONCAT(
                    LPAD(CAST(ENTIDAD AS VARCHAR), 2, '0'),
                    LPAD(CAST(MUN AS VARCHAR), 3, '0'),
                    LPAD(CAST(LOC AS VARCHAR), 4, '0'),
                    LPAD(CAST(AGEB AS VARCHAR), 4, '0'),
                    LPAD(CAST(MZA AS VARCHAR), 3, '0')
                ) AS CVEGEO_Censo,
                * -- Seleccionar todas las columnas de censo_all
            FROM censo_all
            -- El filtro MZA != '0' ya se aplicó al crear censo_all
        ),
        manzanas_con_cvegeo AS (
            SELECT
                -- Construir CVEGEO para la tabla de manzanas
                -- Los nombres de columna (CVE_ENT, etc.) deben coincidir con los de tu tabla 'manzanas'
                CONCAT(
                    LPAD(CAST({manzanas_cols_cve['ent']} AS VARCHAR), 2, '0'),
                    LPAD(CAST({manzanas_cols_cve['mun']} AS VARCHAR), 3, '0'),
                    LPAD(CAST({manzanas_cols_cve['loc']} AS VARCHAR), 4, '0'),
                    LPAD(CAST({manzanas_cols_cve['ageb']} AS VARCHAR), 4, '0'),
                    LPAD(CAST({manzanas_cols_cve['mza']} AS VARCHAR), 3, '0')
                ) AS CVEGEO_Manzana,
                geometry -- Solo necesitamos la geometría de las manzanas (y cualquier otro atributo relevante si lo hay)
                -- Si hay otros atributos en 'manzanas' que quieras conservar, seleccionalos aquí.
                -- Por ejemplo: , OTRO_ATRIBUTO_MANZANA
            FROM manzanas
        )
        SELECT
            c.CVEGEO_Censo AS CVEGEO, -- Usar el CVEGEO de la tabla del censo como el final
            -- Seleccionar todas las columnas originales de censo_all (excepto las usadas para CVEGEO si se desea)
            -- usando la lista generada dinámicamente:
            {select_cols_censo_str},
            -- Si prefieres la sintaxis EXCLUDE (más concisa pero dependiente de la versión de DuckDB):
            -- c.* EXCLUDE (ENTIDAD, MUN, LOC, AGEB, MZA, CVEGEO_Censo),
            m.geometry
        FROM censo_con_cvegeo c
        INNER JOIN manzanas_con_cvegeo m ON c.CVEGEO_Censo = m.CVEGEO_Manzana;
        -- Usamos INNER JOIN para asegurar que solo se incluyan manzanas presentes en ambas tablas.
        -- El original usaba LEFT JOIN + WHERE s.CVEGEO IS NOT NULL, que es equivalente a INNER JOIN.
        """

        print("\nEjecutando la creación de la tabla 'censo_geo' (unión)...")
        # print("\nConsulta SQL para crear 'censo_geo':") # Descomentar para depurar la consulta
        # print(sql_create_censo_geo)
        con.execute("BEGIN TRANSACTION;")
        con.execute(sql_create_censo_geo)
        con.execute("COMMIT;")
        print("¡Tabla 'censo_geo' creada exitosamente mediante la unión!")

        # 4. Verificar la tabla 'censo_geo'
        print("\nVerificando la tabla 'censo_geo'...")
        num_filas_censo_geo = con.execute("SELECT COUNT(*) FROM censo_geo;").fetchone()[0]
        print(f"  Número total de filas en 'censo_geo': {num_filas_censo_geo}")

        if num_filas_censo_geo == 0:
            print("  ADVERTENCIA: La tabla 'censo_geo' está vacía. Esto podría indicar problemas con:")
            print("    - La construcción de CVEGEO en una o ambas tablas (longitudes, nombres de columna).")
            print("    - Que no haya coincidencias de CVEGEO entre 'censo_all' y 'manzanas'.")
            print("    - Que las tablas de entrada estuvieran vacías.")
        else:
            print("\n  Estructura (primeras 5 columnas) y primeras 3 filas de 'censo_geo':")
            # Para una vista previa rápida de las columnas:
            # print(con.execute("DESCRIBE censo_geo;").fetchdf().head())
            # O mejor, ver algunas columnas de los datos, incluyendo la geometría.
            # Asegurarse de que 'geometry' y 'POBTOT' (o una columna similar) existan en censo_geo.
            preview_cols_final = ['CVEGEO', 'POBTOT'] # Ajusta POBTOT si tu columna de población se llama diferente
            describe_censo_geo_df = con.execute("DESCRIBE censo_geo;").fetchdf()
            final_cols_for_preview = [col for col in preview_cols_final if col in describe_censo_geo_df['column_name'].tolist()]

            if 'geometry' in describe_censo_geo_df['column_name'].tolist() and final_cols_for_preview:
                 sql_preview_final = f"""
                 SELECT {', '.join(final_cols_for_preview)}, ST_AsText(geometry) AS geometria_wkt
                 FROM censo_geo
                 LIMIT 3;
                 """
                 print(con.execute(sql_preview_final).fetchdf())
            elif 'geometry' in describe_censo_geo_df['column_name'].tolist():
                print(con.execute("SELECT CVEGEO, ST_AsText(geometry) AS geometria_wkt FROM censo_geo LIMIT 3;").fetchdf())
            else:
                print("    No se pudo generar una vista previa con geometría. Verifica la estructura de 'censo_geo'.")


    except duckdb.BinderException as e: # Error común si hay problemas con nombres de columna o funciones
        print(f"¡ERROR DE VINCULACIÓN (BinderException) de DuckDB al crear 'censo_geo'!: {e}")
        print("  Esto usualmente significa que un nombre de columna, tabla o función no se encontró o es ambiguo.")
        print("  Revisa cuidadosamente los nombres de las columnas en las CTEs y en la unión final,")
        print("  especialmente los usados para construir CVEGEO y los seleccionados.")
        try: con.execute("ROLLBACK;")
        except: pass
    except Exception as e:
        print(f"¡ERROR GENERAL al crear la tabla 'censo_geo'!: {e}")
        try: con.execute("ROLLBACK;")
        except: pass

print("\n--- Proceso de creación de 'censo_geo' completado (o intentado). ---")

## **Limpieza Final y Revisión: Puliendo el Entorno de Trabajo**

**Concepto Clave: Buenas Prácticas para Concluir un Proceso de Datos**

Hemos llegado al final de nuestro proceso de integración de datos. Creamos la tabla `censo_geo` que combina la información censal con las geometrías de las manzanas. Antes de dar por terminado nuestro trabajo, es una buena práctica realizar algunas acciones de limpieza y revisión para mantener nuestro entorno de base de datos ordenado y asegurar que todo esté como esperamos.

1.  **Eliminación de Tablas Intermedias (Opcional pero Recomendado):**
    *   Durante nuestro proceso, creamos tablas como `censo_all` (datos censales crudos) y `manzanas` (datos geométricos crudos). Una vez que hemos creado la tabla final `censo_geo` que las combina, estas tablas originales podrían considerarse **intermedias** o temporales, ya que sus datos ya están integrados en `censo_geo`.
    *   Para mantener nuestra base de datos (`.duckdb`) más ligera y evitar confusión con tablas que ya no son el producto final principal, podemos eliminarlas usando la instrucción SQL:
        ```sql
        -- DROP TABLE IF EXISTS censo_all;
        -- DROP TABLE IF EXISTS manzanas;
        ```
    *   Usar `IF EXISTS` es importante porque evita errores si las tablas ya fueron eliminadas o si el script se ejecuta parcialmente.
    *   **Beneficios:**
        *   Reduce el tamaño del archivo de la base de datos.
        *   Simplifica el esquema de la base de datos, dejando solo las tablas más relevantes.
        *   Evita el uso accidental de datos intermedios en análisis futuros si `censo_geo` es la fuente autorizada.

2.  **Verificación de Tablas Restantes:**
    *   Después de la limpieza (opcional), es una buena idea verificar qué tablas quedan realmente en nuestra base de datos.
    *   La consulta `SHOW TABLES;` en DuckDB nos listará todas las tablas existentes. Esto nos ayuda a confirmar que la limpieza se realizó como esperábamos y que nuestra tabla `censo_geo` está presente.
    *   Conocer el inventario final de tablas es esencial para la transparencia y para documentar el contenido de nuestra base de datos.

3.  **Confirmación de Cambios (`COMMIT`) y Cierre de Conexión (`CLOSE`):**
    *   **`con.commit()` (Opcional en algunos contextos con DuckDB):** DuckDB a menudo opera en modo de autocommit para sentencias DDL (como `DROP TABLE`) o DML fuera de transacciones explícitas. Sin embargo, si ha habido transacciones explícitas (`BEGIN TRANSACTION;`) que no se han cerrado con un `COMMIT` o `ROLLBACK`, o si queremos ser absolutamente explícitos, un `con.commit()` final asegura que todos los cambios pendientes se escriban de forma permanente en el archivo de la base de datos.
    *   **`con.close()` (Esencial):** Siempre debemos cerrar la conexión a la base de datos cuando hayamos terminado de trabajar con ella. Esto:
        *   Libera los recursos que la conexión estaba utilizando.
        *   Asegura que todos los datos se escriban correctamente en el disco (flushing).
        *   Previene posibles problemas de corrupción o bloqueo del archivo de la base de datos si el script termina abruptamente sin cerrar la conexión.

**Ventajas de un Flujo de Trabajo "Limpio":**

*   **Mantenibilidad:** Un entorno ordenado es más fácil de entender y mantener a largo plazo.
*   **Claridad:** Es evidente cuáles son los datos de entrada, los intermedios y los productos finales.
*   **Eficiencia:** Evita la acumulación de datos u objetos innecesarios que pueden ralentizar las operaciones o consumir espacio.
*   **Profesionalismo:** Demuestra una metodología de trabajo de datos cuidadosa y completa, desde la adquisición hasta la limpieza final.

Finalizar nuestro script con estos pasos de limpieza y cierre asegura que nuestro proceso sea robusto, reproducible y que deje la base de datos en un estado predecible y optimizado.

In [None]:
# Celda 13: Limpieza Final de Tablas Intermedias y Cierre de la Conexión
# ---------------------------------------------------------------------
# Para concluir nuestro proceso, realizaremos algunas acciones de limpieza
# y cerraremos la conexión a nuestra base de datos DuckDB.

print(f"--- Iniciando Limpieza Final y Cierre de Conexión ---")

# 1. Eliminación de Tablas Intermedias (Opcional pero Recomendado)
# -----------------------------------------------------------------
# Una vez que 'censo_geo' ha sido creada, las tablas 'censo_all' y 'manzanas'
# pueden considerarse intermedias, ya que sus datos están contenidos o representados
# en 'censo_geo'. Eliminarlas puede ayudar a mantener la base de datos más ligera
# y organizada.

ELIMINAR_TABLAS_INTERMEDIAS = True # Cambia a False si deseas conservar estas tablas

if ELIMINAR_TABLAS_INTERMEDIAS:
    print("\nEliminando tablas intermedias ('censo_all' y 'manzanas')...")
    try:
        # Usamos 'IF EXISTS' para evitar errores si las tablas no existen o ya fueron eliminadas.
        con.execute("DROP TABLE IF EXISTS censo_all;")
        print("  Tabla 'censo_all' eliminada (si existía).")
        con.execute("DROP TABLE IF EXISTS manzanas;")
        print("  Tabla 'manzanas' eliminada (si existía).")
        print("Limpieza de tablas intermedias completada.")
    except Exception as e:
        # Aunque 'IF EXISTS' debería prevenir la mayoría de los errores,
        # capturamos cualquier otra excepción inesperada durante el DROP.
        print(f"  Ocurrió un error durante la eliminación de tablas intermedias: {e}")
else:
    print("\nSe conservarán las tablas intermedias 'censo_all' y 'manzanas'.")

# 2. Verificar Tablas Restantes en la Base de Datos
# -------------------------------------------------
# Es una buena práctica ver qué tablas quedan en la base de datos.
print("\nVerificando tablas finales en la base de datos...")
try:
    tablas_finales_df = con.execute("SHOW TABLES;").fetchdf()
    if not tablas_finales_df.empty:
        print("Tablas actualmente en la base de datos:")
        print(tablas_finales_df)
        # Verificar si 'censo_geo' está presente
        if 'censo_geo' in tablas_finales_df['name'].tolist():
            print("\n  ¡La tabla principal 'censo_geo' está presente!")
        else:
            print("\n  ADVERTENCIA: ¡La tabla principal 'censo_geo' NO se encontró en la base de datos!")
    else:
        print("No se encontraron tablas en la base de datos (o la base de datos está vacía).")
except Exception as e:
    print(f"  Ocurrió un error al intentar mostrar las tablas: {e}")

# 3. Confirmación de Cambios y Cierre de la Conexión a DuckDB
# -----------------------------------------------------------
# DuckDB a menudo autocomite transacciones para DDL/DML fuera de bloques explícitos.
# Sin embargo, un COMMIT explícito antes de cerrar no hace daño si hubo transacciones
# que no se cerraron o para ser absolutamente seguro.
# Lo más importante es cerrar la conexión para liberar recursos y asegurar
# que todos los datos se escriban correctamente en el archivo de la base de datos.

print("\nCerrando la conexión a la base de datos DuckDB...")
try:
    # con.commit() # Opcional: DuckDB usualmente autocomite, pero no es dañino.
    #                 Si se usaron bloques BEGIN/COMMIT no finalizados, sería necesario.
    con.close()
    print("Conexión a DuckDB cerrada exitosamente.")

    # Verificar si la conexión está realmente cerrada (opcional, para aprendizaje)
    # Intentar usar la conexión después de cerrarla debería generar un error.
    # try:
    #     con.execute("SELECT 1;")
    # except Exception as e_closed:
    #     print(f"  (Intento de usar conexión cerrada generó el error esperado: {e_closed})")

except Exception as e:
    print(f"  Ocurrió un error al cerrar la conexión a DuckDB: {e}")
    print(f"  Es posible que algunos cambios no se hayan guardado correctamente si la conexión no se cerró bien.")

print("\n--- Script de Procesamiento de Datos Geoespaciales y Censales Finalizado ---")

In [None]:
# Celda 14: Exportar la tabla 'censo_geo' a un archivo GeoPackage (usando WKT)
# ---------------------------------------------------------------------------
# En esta celda, leeremos la tabla 'censo_geo' de DuckDB, solicitando la
# geometría como WKT (Well-Known Text). Luego, convertiremos estas cadenas WKT
# a objetos de geometría de Shapely para crear un GeoDataFrame, y finalmente
# lo guardaremos en formato GeoPackage (.gpkg).
# Es crucial REABRIR la conexión a DuckDB, ya que la celda anterior la cierra.

print(f"--- Exportando 'censo_geo' a GeoPackage (usando WKT para geometrías) ---")

# 1. Reabrir Conexión a DuckDB y Cargar Extensión Espacial
# -------------------------------------------------------
con_export = None
# DB_FILE_PATH debe estar definido en celdas anteriores
print(f"Intentando reabrir conexión a DuckDB en: {DB_FILE_PATH}")
try:
    con_export = duckdb.connect(database=DB_FILE_PATH, read_only=False)
    print("  Conexión a DuckDB reabierta exitosamente para exportación.")

    print("  Cargando la extensión 'spatial' de DuckDB...")
    con_export.execute("INSTALL spatial;")
    con_export.execute("LOAD spatial;")
    print("  Extensión 'spatial' de DuckDB cargada/verificada en la nueva conexión.")

except Exception as e_conn:
    print(f"  ¡ERROR CRÍTICO al reabrir la conexión o cargar la extensión 'spatial'!: {e_conn}")
    # raise # Descomentar para detener.

# 2. Leer la Tabla 'censo_geo' solicitando Geometrías como WKT
# ----------------------------------------------------------
gdf_censo_geo = None
if con_export:
    print(f"\nLeyendo la tabla 'censo_geo' de DuckDB (solicitando geometría como WKT)...")
    try:
        table_check = con_export.execute("SELECT COUNT(*) FROM information_schema.tables WHERE table_name = 'censo_geo';").fetchone()
        if not table_check or table_check[0] == 0:
            print("  ¡ERROR! La tabla 'censo_geo' no existe en la base de datos. No se puede exportar.")
        else:
            # Consulta SQL para seleccionar todas las columnas y la geometría como WKT
            # Usamos ST_AsText(geometry) y le damos un alias, por ejemplo, 'geom_wkt'.
            # También seleccionamos todas las demás columnas de 'censo_geo'.
            # Para evitar seleccionar la columna 'geometry' original (que podría ser binaria) y la WKT,
            # podemos listar explícitamente las columnas de atributos o usar EXCLUDE si funciona bien.
            # Por simplicidad aquí, seleccionaremos todo y luego `drop` la original `geometry` si existe además de `geom_wkt`.

            sql_query_censo_geo_wkt = "SELECT *, ST_AsText(geometry) AS geom_wkt FROM censo_geo;"
            df_from_duckdb = con_export.execute(sql_query_censo_geo_wkt).df()

            if df_from_duckdb.empty:
                print("  ADVERTENCIA: La tabla 'censo_geo' está vacía (o la consulta no devolvió filas). "
                      "Se creará un GeoPackage vacío (si es posible).")
                gdf_censo_geo = gpd.GeoDataFrame(geometry=[], crs="EPSG:4326")

            elif 'geom_wkt' not in df_from_duckdb.columns:
                print("  ¡ERROR! La columna 'geom_wkt' (geometría como WKT) no se encontró después de la consulta a DuckDB.")
                print(f"  Columnas disponibles: {df_from_duckdb.columns.tolist()}")
            else:
                print(f"  Datos leídos. Procesando la columna 'geom_wkt' para crear geometrías de Shapely...")
                from shapely import wkt, errors as shapely_errors # Importar para WKT y manejo de errores

                # Función para convertir WKT (string) a objeto Shapely, manejando None y errores
                def parse_wkt_geometry(wkt_string):
                    if wkt_string is None or not isinstance(wkt_string, str) or wkt_string.strip() == "":
                        return None
                    try:
                        return wkt.loads(wkt_string)
                    except shapely_errors.GEOSException as e_wkt: # Error común al parsear WKT
                        # print(f"    Advertencia: Error al leer WKT '{wkt_string[:50]}...': {e_wkt}. Se devolverá None.")
                        return None
                    except Exception as e_gen:
                        # print(f"    Advertencia: Error inesperado al procesar WKT: {e_gen}. Se devolverá None.")
                        return None

                parsed_geometries = df_from_duckdb['geom_wkt'].apply(parse_wkt_geometry)

                # Crear el GeoDataFrame con las geometrías parseadas y los demás atributos.
                # Excluimos la columna 'geom_wkt' y también la columna 'geometry' original
                # si fue seleccionada por el SELECT * para evitar duplicados o confusión.
                attributes_df = df_from_duckdb.drop(columns=['geom_wkt', 'geometry'], errors='ignore')
                gdf_censo_geo = gpd.GeoDataFrame(attributes_df, geometry=parsed_geometries, crs="EPSG:4326")

                null_geometries_count = gdf_censo_geo.geometry.isnull().sum()
                total_geometries = len(gdf_censo_geo)
                print(f"  GeoDataFrame 'gdf_censo_geo' creado con {total_geometries} filas.")
                if null_geometries_count > 0:
                    print(f"    ADVERTENCIA: {null_geometries_count} de {total_geometries} geometrías son nulas después de la conversión WKT.")
                    print(f"    Esto podría indicar problemas con los datos de geometría originales o con la función ST_AsText.")

                if gdf_censo_geo.crs is None: # Debería heredar el CRS del constructor, pero por si acaso.
                    print("    ADVERTENCIA: CRS del GeoDataFrame es None. Reasignando a EPSG:4326.")
                    gdf_censo_geo.set_crs("EPSG:4326", inplace=True)

    except Exception as e_read:
        print(f"  ¡ERROR Inesperado al leer 'censo_geo' y/o convertir geometrías WKT!: {e_read}")
        gdf_censo_geo = None

# 3. Guardar el GeoDataFrame como Archivo GeoPackage
# -------------------------------------------------
if gdf_censo_geo is not None:
    if gdf_censo_geo.empty and len(gdf_censo_geo.columns) <=1 :
         print(f"\nADVERTENCIA: El GeoDataFrame 'gdf_censo_geo' está completamente vacío o solo tiene una columna de geometría vacía.")
         print(f"  Guardar esto resultará en un GeoPackage vacío o podría fallar.")

    NOMBRE_GEOPACKAGE_SALIDA = "censo_geo_wkt.gpkg" # Nombre diferente para esta prueba
    RUTA_GEOPACKAGE_SALIDA = os.path.join(DIR_BASE_INEGI, NOMBRE_GEOPACKAGE_SALIDA)

    print(f"\nGuardando GeoDataFrame como GeoPackage en: '{RUTA_GEOPACKAGE_SALIDA}'...")
    try:
        if os.path.exists(RUTA_GEOPACKAGE_SALIDA):
            print(f"  Un archivo GeoPackage existente se encontró. Será eliminado y reemplazado.")
            os.remove(RUTA_GEOPACKAGE_SALIDA)

        if 'geometry' in gdf_censo_geo.columns or gdf_censo_geo.empty:
            gdf_censo_geo.to_file(RUTA_GEOPACKAGE_SALIDA, driver="GPKG", layer="censo_manzanas_inegi_wkt")
            print(f"  ¡GeoDataFrame guardado exitosamente como GeoPackage!")
            print(f"  Archivo: '{RUTA_GEOPACKAGE_SALIDA}', Capa: 'censo_manzanas_inegi_wkt'")
        else:
             print("  ADVERTENCIA: El GeoDataFrame final no contiene una columna de geometría. No se guardará el GeoPackage.")

    except Exception as e_save:
        print(f"  ¡ERROR al guardar el GeoDataFrame como GeoPackage!: {e_save}")
else:
    print("\nNo se pudo crear el GeoDataFrame 'gdf_censo_geo' o la conexión falló. No se guardará el GeoPackage.")

# 4. Cerrar la Nueva Conexión a DuckDB
# ------------------------------------
if con_export:
    print("\nCerrando la conexión a DuckDB utilizada para la exportación...")
    try:
        con_export.close()
        print("  Conexión de exportación a DuckDB cerrada.")
    except Exception as e_close:
        print(f"  Error al cerrar la conexión de exportación a DuckDB: {e_close}")

print("\n--- Proceso de Exportación a GeoPackage (usando WKT) completado (o intentado). ---")

In [None]:
from google.colab import files
files.download('./inegi_data/censo_geo_wkt.gpkg')