# Carga de Municipios PDET a MongoDB
## Objetivo:

Este notebook realiza el proceso de **ETL** (**E**xtracción, **T**ransformación y **C**arga) para los municipios **PDET** (Programas de Desarrollo con Enfoque Territorial) de Colombia.

### Pasos del Proceso ETL

1.  **Extracción (Extract):** Se obtienen los datos del **Shapefile** del DANE y de la lista oficial de municipios PDET.
2.  **Transformación (Transform):** Los datos se procesan, **filtrando** los municipios PDET y convirtiéndolos al formato **JSON** requerido.
3.  **Carga (Load):** Los documentos JSON resultantes se insertan en la base de datos de **MongoDB**.

### Importar Librerías

In [1]:
import pandas as pd
import geopandas as gpd
import pymongo
from pymongo import MongoClient
import json

# Imprime un mensaje para saber que se cargaron
print("Librerías importadas correctamente.")

Librerías importadas correctamente.


### Definir Constantes y Rutas

In [2]:
# --- Configuración de MongoDB ---
# Pega la cadena de conexión que te dio tu universidad
CADENA_CONEXION_MONGO = "mongodb://is394508:Y7hXfRv10UmhRPH@orion.javeriana.edu.co:27017/is394508_db?authSource=is394508_db"
NOMBRE_BASE_DATOS = "is394508_db"
NOMBRE_COLECCION = "municipios"

# --- Configuración de Archivos Locales ---
# Escribe la ruta completa a tus archivos
RUTA_SHAPEFILE_MUNICIPIOS = r"D:\Javeriana\Bases de datos\proyecto\Municipios\ADMINISTRATIVO\MGN_ADM_MPIO_GRAFICO.shp"
RUTA_EXCEL_PDET = r"D:\Javeriana\Bases de datos\proyecto\MunicipiosPEDT\MunicipiosPDET.xlsx"

# --- Configuración de Columnas ---
# Revisa que estos nombres coincidan con tus archivos
COLUMNA_CODIGO_SHP = "mpio_cdpmp"     # Columna con el código DANE en el .shp
COLUMNA_NOMBRE_SHP = "mpio_cnmbr"     # Columna con el nombre del municipio en el .shp
COLUMNA_DEPTO_SHP = "dpto_cnmbr"      # Columna con el nombre del depto en el .shp
COLUMNA_CODIGOS_PDET = "Código DANE Municipio" # Columna con los códigos en tu Excel

print("Constantes configuradas.")

Constantes configuradas.


### Conexión a la base de datos

In [3]:
try:
    # Intenta conectarse al cliente de MongoDB
    client = MongoClient(CADENA_CONEXION_MONGO)
    
    # Selecciona la base de datos
    db = client[NOMBRE_BASE_DATOS]
    
    # Selecciona la colección
    collection = db[NOMBRE_COLECCION]
    
    # Ping al servidor para confirmar la conexión
    client.admin.command('ping')
    
    print(f"¡Conexión exitosa a MongoDB! Listo para trabajar con la colección '{NOMBRE_COLECCION}'.")

except Exception as e:
    print(f"Error conectando a MongoDB: {e}")
    # Si hay un error, el script se detendrá
    raise

¡Conexión exitosa a MongoDB! Listo para trabajar con la colección 'municipios'.


### Cargar y Preparar Lista de PDET

In [4]:
print(f"Cargando lista de PDET desde: {RUTA_EXCEL_PDET}")

# Carga el archivo Excel en un DataFrame de pandas
try:
    df_pdet_excel = pd.read_excel(RUTA_EXCEL_PDET, dtype={COLUMNA_CODIGOS_PDET: str})
    
    # Convierte la columna de códigos a una lista de Python
    # .dropna() elimina valores nulos y .unique() asegura que no haya duplicados
    # Convertimos la columna a string y luego rellenamos con ceros a la izquierda hasta tener 5 dígitos
    lista_codigos_pdet = df_pdet_excel[COLUMNA_CODIGOS_PDET].astype(str).str.zfill(5).dropna().unique().tolist()
    
    print(f"Lista de PDET cargada. Se encontraron {len(lista_codigos_pdet)} códigos de municipios PDET.")
    print("Primeros 5 códigos:", lista_codigos_pdet[:5])

except FileNotFoundError:
    print(f"¡ERROR! No se encontró el archivo Excel en: {RUTA_EXCEL_PDET}")
except KeyError:
    print(f"¡ERROR! No se encontró la columna '{COLUMNA_CODIGOS_PDET}' en el Excel. Revisa la celda del Paso 2.")
except Exception as e:
    print(f"Error inesperado leyendo el Excel: {e}")

Cargando lista de PDET desde: D:\Javeriana\Bases de datos\proyecto\MunicipiosPEDT\MunicipiosPDET.xlsx
Lista de PDET cargada. Se encontraron 170 códigos de municipios PDET.
Primeros 5 códigos: ['19050', '19075', '19110', '19130', '19137']


### Cargar y Filtrar Shapefile de Municipios

In [5]:
print(f"Cargando Shapefile de municipios desde: {RUTA_SHAPEFILE_MUNICIPIOS}")

try:
    # Carga el Shapefile completo en un GeoDataFrame de geopandas
    gdf_todos_municipios = gpd.read_file(RUTA_SHAPEFILE_MUNICIPIOS)

    print("\n--- NOMBRES DE LAS COLUMNAS ---")
    print(gdf_todos_municipios.columns)
    
    print(f"Shapefile cargado. Total de municipios en Colombia: {len(gdf_todos_municipios)}")
    
    # Asegúrate de que la columna de códigos en el shapefile también sea string
    gdf_todos_municipios[COLUMNA_CODIGO_SHP] = gdf_todos_municipios[COLUMNA_CODIGO_SHP].astype(str)
    
    # --- El Cruce Clave ---
    # Filtra el GeoDataFrame usando la lista de códigos PDET
    gdf_municipios_pdet = gdf_todos_municipios[
        gdf_todos_municipios[COLUMNA_CODIGO_SHP].isin(lista_codigos_pdet)
    ]
    
    print(f"Filtro aplicado. Total de municipios PDET encontrados: {len(gdf_municipios_pdet)}")
    
    # Muestra los primeros 5 municipios encontrados para verificar
    print("\nVerificación de municipios PDET encontrados (primeros 5):")
    print(gdf_municipios_pdet[[COLUMNA_CODIGO_SHP, COLUMNA_NOMBRE_SHP, COLUMNA_DEPTO_SHP]].head())

except FileNotFoundError:
    print(f"¡ERROR! No se encontró el Shapefile en: {RUTA_SHAPEFILE_MUNICIPIOS}")
except KeyError:
    print(f"¡ERROR! No se encontró la columna '{COLUMNA_CODIGO_SHP}' en el Shapefile. Revisa la celda del Paso 2.")
except Exception as e:
    print(f"Error inesperado leyendo el Shapefile: {e}")

Cargando Shapefile de municipios desde: D:\Javeriana\Bases de datos\proyecto\Municipios\ADMINISTRATIVO\MGN_ADM_MPIO_GRAFICO.shp


  _init_gdal_data()



--- NOMBRES DE LAS COLUMNAS ---
Index(['dpto_ccdgo', 'mpio_ccdgo', 'mpio_cdpmp', 'dpto_cnmbr', 'mpio_cnmbr',
       'mpio_crslc', 'mpio_tipo', 'mpio_narea', 'mpio_nano', 'shape_Leng',
       'shape_Area', 'geometry'],
      dtype='object')
Shapefile cargado. Total de municipios en Colombia: 1121
Filtro aplicado. Total de municipios PDET encontrados: 170

Verificación de municipios PDET encontrados (primeros 5):
   mpio_cdpmp mpio_cnmbr dpto_cnmbr
5       05031     AMALFI  ANTIOQUIA
9       05040      ANORÍ  ANTIOQUIA
12      05045   APARTADÓ  ANTIOQUIA
22      05107    BRICEÑO  ANTIOQUIA
24      05120    CÁCERES  ANTIOQUIA


### Transformar Datos a JSON

In [6]:
print("Iniciando transformación a formato JSON...")

documentos_para_insertar = []

# Iteramos sobre cada fila del GeoDataFrame filtrado
for index, municipio in gdf_municipios_pdet.iterrows():
    
    # Crea un diccionario (JSON) con la estructura definida en la Entrega 1
    documento_municipio = {
        "codigo_dane_municipio": municipio[COLUMNA_CODIGO_SHP],
        "nombre": municipio[COLUMNA_NOMBRE_SHP],
        "departamento": municipio[COLUMNA_DEPTO_SHP],
        
        # Esta función convierte la geometría de geopandas al formato GeoJSON estándar
        # que MongoDB entiende perfectamente.
        "geometria": municipio["geometry"].__geo_interface__
    }
    
    # Agrega el documento a nuestra lista
    documentos_para_insertar.append(documento_municipio)

print(f"Transformación completa. Se prepararon {len(documentos_para_insertar)} documentos.")
print("\nEjemplo del primer documento JSON preparado:")
print(json.dumps(documentos_para_insertar[0], indent=2, ensure_ascii=False))

Iniciando transformación a formato JSON...
Transformación completa. Se prepararon 170 documentos.

Ejemplo del primer documento JSON preparado:
{
  "codigo_dane_municipio": "05031",
  "nombre": "AMALFI",
  "departamento": "ANTIOQUIA",
  "geometria": {
    "type": "Polygon",
    "coordinates": [
      [
        [
          -74.85309081799483,
          7.142558036764058
        ],
        [
          -74.85313488578453,
          7.142370745962927
        ],
        [
          -74.85314630338087,
          7.14194002050893
        ],
        [
          -74.85313504568478,
          7.141700031796254
        ],
        [
          -74.85312339901782,
          7.141451722880818
        ],
        [
          -74.85314062961703,
          7.141026674783963
        ],
        [
          -74.85315277305273,
          7.140948616513461
        ],
        [
          -74.85316080309946,
          7.14089698939466
        ],
        [
          -74.8531808382412,
          7.14076820232128


### Carga Final a MongoDB

In [7]:
if len(documentos_para_insertar) > 0:
    print("Iniciando carga a MongoDB...")
    
    # --- Limpieza (Borrar la colección 'drop') ---
    try:
        print(f"Limpiando colección '{NOMBRE_COLECCION}' (método: drop)...")
        collection.drop() # Este es el comando para "borrar la tabla"
        print("Colección antigua eliminada (si existía).")
    except pymongo.errors.OperationFailure as e:
        # Capturamos el error si TAMPOCO tienes permiso de 'drop'
        print(f"ADVERTENCIA: No se pudo hacer 'drop' de la colección (permisos insuficientes). Error: {e}")
        print("Continuando con la inserción. (Podrían generarse duplicados si ya existían datos)")

    
    # --- Inserción ---
    # Inserta todos los documentos en la colección de una sola vez
    print("Insertando nuevos documentos...")
    insert_result = collection.insert_many(documentos_para_insertar)
    
    print("\n--- ¡CARGA COMPLETA! ---")
    print(f"Se insertaron {len(insert_result.inserted_ids)} municipios PDET en la colección.")

else:
    print("No se encontraron documentos para insertar. Revisa los pasos anteriores.")

Iniciando carga a MongoDB...
Limpiando colección 'municipios' (método: drop)...
Colección antigua eliminada (si existía).
Insertando nuevos documentos...

--- ¡CARGA COMPLETA! ---
Se insertaron 170 municipios PDET en la colección.


### Creación Indice Espacial

In [8]:
try:
    collection.create_index([("geometria", pymongo.GEOSPHERE)])
    
    print("¡Índice 2dsphere creado exitosamente en el campo 'geometria'!")

except Exception as e:
    print(f"Error creando el índice: {e}")

¡Índice 2dsphere creado exitosamente en el campo 'geometria'!


### Verificación Final

In [9]:
# Cuenta el número total de documentos en la colección
conteo_documentos = collection.count_documents({})
print(f"Verificación: La colección '{NOMBRE_COLECCION}' ahora tiene {conteo_documentos} documentos.")

# Recupera y muestra un documento de ejemplo de la base de datos
print("\nDocumento de ejemplo recuperado de MongoDB:")
documento_ejemplo = collection.find_one()
if documento_ejemplo:
    # Quitamos la geometría para que sea más fácil de leer
    documento_ejemplo.pop("geometria", None) 
    # También quitamos el _id, que es un objeto especial (ObjectId)
    documento_ejemplo.pop("_id", None)
    print(json.dumps(documento_ejemplo, indent=2, ensure_ascii=False))
else:
    print("No se pudo recuperar un documento.")

client.close()
print("\nConexión a MongoDB cerrada.")

Verificación: La colección 'municipios' ahora tiene 170 documentos.

Documento de ejemplo recuperado de MongoDB:
{
  "codigo_dane_municipio": "05031",
  "nombre": "AMALFI",
  "departamento": "ANTIOQUIA"
}

Conexión a MongoDB cerrada.
