In [None]:
import pandas as pd
import geopandas as gpd
import pymongo
from pymongo import MongoClient
import json
import os
import time
from shapely.geometry import shape  # Para convertir el JSON de geometría a un objeto
import itertools                   # Para leer el archivo por partes



print("Librerías importadas correctamente.")

Librerías importadas correctamente.


In [None]:
# --- Configuración del Proceso ---

# Cambia esto a False para procesar el archivo completo con chunks de 500
PROBAR_CON_100_DATOS = True
TAMANO_CHUNK = 500 # Relevante solo si PROBAR_CON_100_DATOS = False

# --- Conexión al MongoDB externo (SOLO LECTURA) ---
# Molde de la Entrega 2
CADENA_CONEXION_COMPANERA = "mongodb://is394508:Y7hXfRv10UmhRPH@orion.javeriana.edu.co:27017/is394508_db?authSource=is394508_db"
NOMBRE_BASE_DATOS_COMPANERA = "is394508_db"
COLECCION_MUNICIPIOS_COMPANERA = "municipios"

# --- Conexión a local MongoDB (ESCRITURA) ---
# Usamos esto para escribir los edificios filtrados
CADENA_CONEXION_PROPIA = "mongodb://is394512:TsqJFgPGAnbMH8f@orion.javeriana.edu.co:27017/is394512_db?authSource=is394512_db"
NOMBRE_BASE_DATOS_PROPIA = "is394512_db"
COLECCION_EDIFICIOS_PROPIA = "edificios_microsoft_pdet" # Nueva colección limpia

# --- Conexiones a MongoDB ---
try:
    # Cliente para leer municipios PDET
    client_lectura = MongoClient(CADENA_CONEXION_COMPANERA)
    db_lectura = client_lectura[NOMBRE_BASE_DATOS_COMPANERA]
    collection_municipios = db_lectura[COLECCION_MUNICIPIOS_COMPANERA]
    print(f"Conectado a BD (Lectura): '{NOMBRE_BASE_DATOS_COMPANERA}'")
    
    # Cliente para escribir tus edificios
    client_escritura = MongoClient(CADENA_CONEXION_PROPIA)
    db_escritura = client_escritura[NOMBRE_BASE_DATOS_PROPIA]
    collection_edificios = db_escritura[COLECCION_EDIFICIOS_PROPIA]
    print(f"Conectado a BD (Escritura): '{NOMBRE_BASE_DATOS_PROPIA}'")

    # Validar ambas conexiones
    client_lectura.admin.command('ping')
    client_escritura.admin.command('ping')
    print("¡Ambas conexiones a MongoDB exitosas!")

except Exception as e:
    print(f"Error conectando a MongoDB: {e}")
    raise

Conectado a BD compañera (Lectura): 'is394508_db'
Conectado a BD propia (Escritura): 'is394512_db'
¡Ambas conexiones a MongoDB exitosas!


In [None]:
print("Iniciando la carga de municipios PDET desde MongoDB (Compañera)...")
start_time = time.time()

try:
    # Trae todos los documentos de la colección 'municipios'
    cursor_municipios = collection_municipios.find({})
    lista_municipios_docs = list(cursor_municipios)
    
    if not lista_municipios_docs:
        print("¡ERROR! La colección 'municipios' está vacía. No se puede filtrar.")
        raise ValueError("No se encontraron municipios PDET.")

    # 1. Cargamos los documentos en un DataFrame de PANDAS
    df_municipios = pd.DataFrame(lista_municipios_docs)

    # 2. Convertimos la columna 'geometria' (que son dicts)
    #    a objetos de geometría de Shapely
    geometrias_shapely = df_municipios['geometria'].apply(shape)

    # 3. Creamos el GeoDataFrame
    gdf_municipios_pdet = gpd.GeoDataFrame(
        df_municipios, 
        geometry=geometrias_shapely, 
        crs="EPSG:4326"
    )
    
    # 4. Optimizamos el filtro: Unimos todos los 170 polígonos en UNO SOLO
    print("Unificando todas las geometrías PDET en una sola (unary_union)...")
    filtro_pdet_unificado = gdf_municipios_pdet.geometry.unary_union
    
    end_time = time.time()
    print(f"¡Filtro PDET listo! ({len(lista_municipios_docs)} municipios cargados en {end_time - start_time:.2f}s)")
    
except Exception as e:
    print(f"Error cargando los municipios desde MongoDB: {e}")
    raise
finally:
    # Cerramos la conexión de lectura, ya no la necesitamos
    client_lectura.close()
    print("Conexión de Lectura (Compañera) cerrada.")

Iniciando la carga de municipios PDET desde MongoDB (Compañera)...
Unificando todas las geometrías PDET en una sola (unary_union)...


  filtro_pdet_unificado = gdf_municipios_pdet.geometry.unary_union


¡Filtro PDET listo! (170 municipios cargados en 13.94s)
Conexión de Lectura (Compañera) cerrada.


In [4]:
print(f"Preparando tu colección de destino '{COLECCION_EDIFICIOS_PROPIA}'...")

try:
    # 1. Limpiamos la colección para empezar de cero
    print(f"Limpiando colección '{COLECCION_EDIFICIOS_PROPIA}' (método: drop)...")
    collection_edificios.drop()
    print("Colección antigua eliminada.")

    # 2. Crear el índice espacial 2dsphere
    # Lo creamos ANTES de insertar. Usamos sparse=True
    # para ignorar geometrías inválidas de Microsoft.
    print("Creando índice espacial '2dsphere' (sparse=True)...")
    start_time = time.time()
    
    collection_edificios.create_index(
        [("geometria", pymongo.GEOSPHERE)], 
        sparse=True
    )
    
    end_time = time.time()
    print(f"¡Índice 2dsphere creado en {end_time - start_time:.2f}s!")
    
except Exception as e:
    print(f"Error preparando la colección de destino: {e}")
    raise

Preparando tu colección de destino 'edificios_microsoft_pdet'...
Limpiando colección 'edificios_microsoft_pdet' (método: drop)...
Colección antigua eliminada.
Creando índice espacial '2dsphere' (sparse=True)...
¡Índice 2dsphere creado en 0.03s!


In [None]:
# --- Configuración de Archivos Locales ---
RUTA_GEOJSONL_MICROSOFT = r"C:\Users\Simon Esteban G\Downloads\Colombia.geojsonl"

print(f"Archivo de entrada (Microsoft): {RUTA_GEOJSONL_MICROSOFT}")

Archivo de entrada (Microsoft): C:\Users\Simon Esteban G\Downloads\Colombia.geojsonl


In [None]:
# Este bloque reemplaza el pd.read_csv y lee tu GeoJSONL

print(f"Iniciando el proceso ETL para: {RUTA_GEOJSONL_MICROSOFT}")

# Contadores para el reporte final
total_lineas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()

# Abrimos el archivo GeoJSONL
try:
    with open(RUTA_GEOJSONL_MICROSOFT, 'r', encoding='utf-8') as f:
        
        # Bucle principal: Leer el archivo en chunks
        while True:
            # Selecciona la cantidad de líneas a leer
            if PROBAR_CON_100_DATOS:
                print(f"MODO PRUEBA: Leyendo primeras 100 líneas...")
                lineas_chunk_str = list(itertools.islice(f, 100))
            else:
                lineas_chunk_str = list(itertools.islice(f, TAMANO_CHUNK))

            # Si no hay más líneas, salimos del bucle
            if not lineas_chunk_str:
                break 

            total_lineas_procesadas += len(lineas_chunk_str)
            geometrias_json_validas = []

            # 1. (T) Transformar: Convertir líneas de string a JSON (dict)
            for linea in lineas_chunk_str:
                try:
                    geom_json = json.loads(linea)
                    # Validamos que sea una geometría (como descubrimos antes)
                    if 'type' in geom_json and 'coordinates' in geom_json:
                        geometrias_json_validas.append(geom_json)
                except json.JSONDecodeError:
                    continue # Ignora líneas mal formadas

            if not geometrias_json_validas:
                continue # Pasa al siguiente chunk si este estaba vacío

            # 2. (T) Transformar: Convertir dicts a Geometrías Shapely
            geometrias_shapely = [shape(g) for g in geometrias_json_validas]

            # 3. (T) Transformar: Crear el GeoDataFrame del chunk
            gdf_chunk = gpd.GeoDataFrame(
                geometry=geometrias_shapely, 
                crs="EPSG:4326"
            )

            # 4. (T) Filtrar: Usamos el filtro unificado (EL "MOLDE")
            gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

            # 5. (L) Cargar: Si encontramos edificios, los procesamos
            if not gdf_filtrado.empty:
                
                # 6. (T) Calcular Área 
                # Proyectamos a un CRS de Colombia (MAGNA-SIRGAS 3116)
                gdf_proyectado = gdf_filtrado.to_crs("EPSG:3116")
                areas_m2 = gdf_proyectado.geometry.area
                
                # Volvemos a WGS84 (4326) para MongoDB
                gdf_listo_para_mongo = gdf_proyectado.to_crs("EPSG:4326")
                
                # Añadimos la columna de área
                gdf_listo_para_mongo['area_m2'] = areas_m2
                
                # 7. (L) Formatear y Cargar
                documentos_para_insertar = []
                for _, edificio in gdf_listo_para_mongo.iterrows():
                    documento_json = {
                        "fuente": "microsoft",
                        "area_m2": edificio['area_m2'],
                        "geometria": edificio['geometry'].__geo_interface__
                    }
                    documentos_para_insertar.append(documento_json)
                
                # Insertar el lote de documentos en TU base de datos
                collection_edificios.insert_many(documentos_para_insertar)
                
                total_edificios_cargados += len(documentos_para_insertar)
            
            # Si estamos en modo prueba, salimos después del primer lote
            if PROBAR_CON_100_DATOS:
                print("MODO PRUEBA: Proceso de 100 líneas completado.")
                break # Salimos del 'while True'

            # Reporte de progreso
            print(f"Chunk procesado. Líneas leídas: {total_lineas_procesadas}, Edificios PDET cargados: {total_edificios_cargados}")

except FileNotFoundError:
    print(f"¡ERROR! No se encontró el archivo en: {RUTA_GEOJSONL_MICROSOFT}")
except Exception as e:
    print(f"Error inesperado durante el ETL: {e}")
finally:
    # Cerramos la conexión de escritura
    client_escritura.close()
    print("Conexión de Escritura (Propia) cerrada.")

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de líneas (edificios) procesadas del archivo: {total_lineas_procesadas}")
print(f"Total de edificios PDET cargados en tu BD: {total_edificios_cargados}")

Iniciando el proceso ETL para: C:\Users\Simon Esteban G\Downloads\Colombia.geojsonl
MODO PRUEBA: Leyendo primeras 100 líneas...
MODO PRUEBA: Proceso de 100 líneas completado.
Conexión de Escritura (Propia) cerrada.

--- ¡PROCESO COMPLETO! ---
Tiempo total: 0.00 minutos
Total de líneas (edificios) procesadas del archivo: 100
Total de edificios PDET cargados en tu BD: 61
