# Carga de Edificios a MongoDB (Fuente de google)

## Objetivo:
Este notebook realiza el proceso de ETL para los datos de Google Open Buildings

### Pasos del Proceso

1.  **Extrae** las geometrías de los municipios PDET de MongoDB y los datos de los CSVs de Google.
2.  **Transforma** los datos de edificios (CSV) al formato GeoJSON.
3.  **Filtra** los edificios para quedarnos solo con los que están dentro de los polígonos PDET.
4.  **Carga** los edificios filtrados a una nueva colección edificios en MongoDB.

## Importar Librerías

In [1]:
import pandas as pd
import geopandas as gpd
import pymongo
from pymongo import MongoClient
import json
import os
import glob  # Para encontrar archivos
from shapely.wkt import loads  # Para leer las geometrías de Google
from shapely.geometry import shape
import time
from tqdm.notebook import tqdm

print("Librerías importadas correctamente.")

Librerías importadas correctamente.


## Constantes y Conexión a MongoDB

In [2]:
# --- Configuración de MongoDB ---
CADENA_CONEXION_MONGO = "mongodb://is394508:Y7hXfRv10UmhRPH@orion.javeriana.edu.co:27017/is394508_db?authSource=is394508_db"
NOMBRE_BASE_DATOS = "is394508_db"
COLECCION_MUNICIPIOS = "municipios"  # Leemos de aquí
COLECCION_EDIFICIOS = "edificios"    # Escribimos aquí

# --- Configuración del Proceso ---
# Leeremos los CSVs en trozos de 100,000 filas para no saturar la memoria
TAMANO_CHUNK = 500

# --- Conexión a MongoDB ---
try:
    client = MongoClient(CADENA_CONEXION_MONGO)
    db = client[NOMBRE_BASE_DATOS]
    collection_municipios = db[COLECCION_MUNICIPIOS]
    collection_edificios = db[COLECCION_EDIFICIOS]
    
    client.admin.command('ping')
    print(f"¡Conexión exitosa a MongoDB! BD: '{NOMBRE_BASE_DATOS}'")
    print(f"Leeremos de: '{COLECCION_MUNICIPIOS}'")
    print(f"Escribiremos en: '{COLECCION_EDIFICIOS}'")

except Exception as e:
    print(f"Error conectando a MongoDB: {e}")
    raise

¡Conexión exitosa a MongoDB! BD: 'is394508_db'
Leeremos de: 'municipios'
Escribiremos en: 'edificios'


## Obtener Geometrías de Municipios PDET

In [3]:
print("Iniciando la carga de municipios PDET desde MongoDB...")
start_time = time.time()

try:
    # Trae todos los documentos de la colección 'municipios'
    cursor_municipios = collection_municipios.find({})
    lista_municipios_docs = list(cursor_municipios)
    
    if not lista_municipios_docs:
        print("¡ERROR! La colección 'municipios' está vacía. No se puede filtrar.")
        raise ValueError("No se encontraron municipios PDET.")

    # 1. Cargamos los documentos en un DataFrame de PANDAS normal
    df_municipios = pd.DataFrame(lista_municipios_docs)

    # 2. Convertimos manualmente nuestra columna 'geometria' (que son dicts) 
    #    a objetos de geometría de Shapely
    geometrias_shapely = df_municipios['geometria'].apply(shape)

    # 3. Creamos el GeoDataFrame usando el DataFrame y nuestras geometrías
    gdf_municipios_pdet = gpd.GeoDataFrame(
        df_municipios, 
        geometry=geometrias_shapely, 
        crs="EPSG:4326"
    )
    
    # 4. Optimizamos el filtro: Unimos todos los 170 polígonos en UNO SOLO
    print("Unificando todas las geometrías PDET en una sola (unary_union)...")
    filtro_pdet_unificado = gdf_municipios_pdet.geometry.unary_union
    
    end_time = time.time()
    print(f"¡Filtro PDET listo! ({len(lista_municipios_docs)} municipios cargados en {end_time - start_time:.2f}s)")
    
except Exception as e:
    print(f"Error cargando los municipios desde MongoDB: {e}")
    raise

Iniciando la carga de municipios PDET desde MongoDB...
Unificando todas las geometrías PDET en una sola (unary_union)...


  filtro_pdet_unificado = gdf_municipios_pdet.geometry.unary_union


¡Filtro PDET listo! (170 municipios cargados en 12.09s)


## Preparar la Colección edificios_google

In [4]:
print(f"Preparando la colección '{COLECCION_EDIFICIOS}'...")

# 1. Crear el índice espacial 2dsphere
# Lo creamos ANTES de insertar los datos para que el proceso sea más eficiente.
print("Creando índice espacial '2dsphere' en el campo 'geometria'...")
start_time = time.time()

try:
    collection_edificios.create_index([("geometria", pymongo.GEOSPHERE)])
    
    end_time = time.time()
    print(f"¡Índice 2dsphere creado en {end_time - start_time:.2f}s!")
    
except Exception as e:
    print(f"Error creando el índice: {e}")
    raise

Preparando la colección 'edificios'...
Creando índice espacial '2dsphere' en el campo 'geometria'...
¡Índice 2dsphere creado en 0.01s!


## Procesar los CSVs y Cargar a MongoDB

### Procesar archvio 1 (8df)

In [5]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8df_buildings.csv"

In [6]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

Iniciando el proceso de ETL para el archivo: D:\Javeriana\Bases de datos\proyecto\csv google\8df_buildings.csv

--- Procesando Archivo: 8df_buildings.csv ---


  Progreso: 0 chunk [00:00, ? chunk/s]


--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---
Tiempo total: 0.01 minutos
Total de filas CSV procesadas: 22806
Total de edificios PDET cargados (en esta ejecución): 0


### Procesar archvio 2 (8e1)

In [7]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8e1_buildings.csv"

In [8]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

Iniciando el proceso de ETL para el archivo: D:\Javeriana\Bases de datos\proyecto\csv google\8e1_buildings.csv

--- Procesando Archivo: 8e1_buildings.csv ---


  Progreso: 0 chunk [00:00, ? chunk/s]


--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---
Tiempo total: 252.61 minutos
Total de filas CSV procesadas: 277823
Total de edificios PDET cargados (en esta ejecución): 80565


### Procesar archvio 3 (8e3)

In [9]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8e3_buildings.csv"

In [10]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

Iniciando el proceso de ETL para el archivo: D:\Javeriana\Bases de datos\proyecto\csv google\8e3_buildings.csv

--- Procesando Archivo: 8e3_buildings.csv ---


  Progreso: 0 chunk [00:00, ? chunk/s]

KeyboardInterrupt: 

### Procesar archvio 4 (8e5)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8e5_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

### Procesar archvio 5 (8e7)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8e7_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

### Procesar archvio 6 (8e9)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8e9_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

### Procesar archvio 7 (8ef)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\8ef_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

### Procesar archvio 8 (91d)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\91d_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

### Procesar archvio 9 (91f)

In [None]:
# --- Configuración de Archivos Locales ---
RUTA_CSV_INDIVIDUAL = r"D:\Javeriana\Bases de datos\proyecto\csv google\91f_buildings.csv"

In [None]:
print(f"Iniciando el proceso de ETL para el archivo: {RUTA_CSV_INDIVIDUAL}")

# Contadores para el reporte final
total_filas_procesadas = 0
total_edificios_cargados = 0
start_time_proceso = time.time()


csv_file = RUTA_CSV_INDIVIDUAL
print(f"\n--- Procesando Archivo: {os.path.basename(csv_file)} ---")

# Creamos el iterador de chunks
chunk_iterator = pd.read_csv(csv_file, chunksize=TAMANO_CHUNK, encoding='latin-1', 
                             on_bad_lines='skip')

# Envolvemos el iterador con TQDM.
pbar = tqdm(chunk_iterator, desc="  Progreso", unit=" chunk")

# --- BUCLE Por cada "trozo" (chunk) ---
for chunk_df in pbar:
    
    # 1. (T) Transformar: Convertir el texto WKT de Google a geometrías
    geometrias = chunk_df['geometry'].apply(loads)
    
    # 2. (T) Transformar: Convertir el chunk de Pandas a un GeoDataFrame
    gdf_chunk = gpd.GeoDataFrame(chunk_df, geometry=geometrias, crs="EPSG:4326")
    
    # 3. (T) Filtrar: Usamos el filtro unificado para encontrar intersecciones
    gdf_filtrado = gdf_chunk[gdf_chunk.geometry.intersects(filtro_pdet_unificado)]

    total_filas_procesadas += len(chunk_df)
    
    # 4. (L) Cargar: Si encontramos edificios, los formateamos y cargamos
    if not gdf_filtrado.empty:
        
        documentos_para_insertar = []
        
        # Formateamos al JSON que diseñamos en la Entrega 1
        for _, edificio in gdf_filtrado.iterrows():
            documento_json = {
                "fuente": "google",
                "area_m2": edificio['area_in_meters'],
                "confianza": edificio['confidence'],
                "geometria": edificio['geometry'].__geo_interface__
            }
            documentos_para_insertar.append(documento_json)
        
        # Insertar el lote de documentos
        collection_edificios.insert_many(documentos_para_insertar)
        
        total_edificios_cargados += len(documentos_para_insertar)
        
        # Actualizamos el contador en la barra de progreso
        pbar.set_postfix(edificios_cargados=total_edificios_cargados)
        
    else:
        # Si no hay edificios, simplemente continuamos
        pass
    
    # Liberar memoria explícitamente
    del chunk_df, gdf_chunk, gdf_filtrado, geometrias

end_time_proceso = time.time()
print("\n--- ¡PROCESO COMPLETO PARA ESTE ARCHIVO! ---")
print(f"Tiempo total: {(end_time_proceso - start_time_proceso) / 60:.2f} minutos")
print(f"Total de filas CSV procesadas: {total_filas_procesadas}")
print(f"Total de edificios PDET cargados (en esta ejecución): {total_edificios_cargados}")

## Verificación Final

In [None]:
# Cuenta el número total de documentos en la colección
conteo_documentos = collection_edificios.count_documents({})
print(f"Verificación: La colección '{COLECCION_EDIFICIOS}' ahora tiene {conteo_documentos} documentos.")

# Recupera y muestra un documento de ejemplo
print("\nDocumento de ejemplo recuperado de MongoDB:")
documento_ejemplo = collection_edificios.find_one()
if documento_ejemplo:
    # Quitamos la geometría y el _id para que sea más fácil de leer
    documento_ejemplo.pop("geometria", None) 
    documento_ejemplo.pop("_id", None) 
    print(json.dumps(documento_ejemplo, indent=2, ensure_ascii=False))
else:
    print("No se pudo recuperar un documento (la colección puede estar vacía si no se encontraron edificios).")

client.close()
print("\nConexión a MongoDB cerrada.")