In [None]:
from sqlalchemy import create_engine
import urllib.parse
import sys
import pandas as pd

# --- CONFIGURACIÓN SEGURA DE CONEXIÓN ---
USER = "postgres"
PASSWORD = "as52"  
HOST = "localhost"
PORT = "5432"
DB_NAME = "Historico_Hechos_Movilidad" 

password_safe = urllib.parse.quote_plus(PASSWORD)
user_safe = urllib.parse.quote_plus(USER)
db_name_safe = urllib.parse.quote_plus(DB_NAME)
db_connection_str = f'postgresql+psycopg2://{user_safe}:{password_safe}@{HOST}:{PORT}/{db_name_safe}'

try:
    engine = create_engine(
        db_connection_str, 
        connect_args={'client_encoding': 'utf8'}
    )
    with engine.connect() as connection:
        print("Conexión a Base de Datos EXITOSA.")
except Exception as e:
    print(f"ERROR DE CONEXIÓN: {e}")
    sys.exit(1)

def carga_definitiva(ruta_csv, nombre_tabla, mapeo_cols):
    print(f"\n[{nombre_tabla}] Iniciando carga blindada...")
    
    # 1. Ajuste de chunksize: Si la fila es muy ancha, reduce esto a 10000
    chunksize = 50000 
    
    try:
        iterator = pd.read_csv(
            ruta_csv, 
            chunksize=chunksize, 
            encoding='cp1252', 
            encoding_errors='replace',
            engine='python',
            on_bad_lines='skip'
        )
        
        total_rows = 0
        for i, df in enumerate(iterator):
            
            df.columns = [c.strip().lower() for c in df.columns]
            
            cols_corregidas = {}
            for col in df.columns:
                if 'fecha' in col and len(col) > 5: 
                    cols_corregidas[col] = 'fecha'
            
            if cols_corregidas:
                df = df.rename(columns=cols_corregidas)
            
            if 'estacion' in df.columns:
                df = df.drop(columns=['estacion'])
            
            df = df.rename(columns={'estacion_normalizada': 'nombre_estacion'})

            df = df.rename(columns=mapeo_cols)
            
            if 'longitud' in df.columns and 'latitud' in df.columns:
                mask = df['longitud'].notnull() & df['latitud'].notnull()
                df.loc[mask, 'geometria'] = df[mask].apply(
                    lambda x: f"SRID=4326;POINT({x['longitud']} {x['latitud']})", axis=1
                )
            
            if 'fk_tiempo' in df.columns:
                 df['fk_tiempo'] = pd.to_datetime(df['fk_tiempo'], errors='coerce')

            cols_validas = [c for c in df.columns if c in mapeo_cols.values() or c == 'geometria']
            df = df[cols_validas]

            df.to_sql(nombre_tabla, engine, if_exists='append', index=False, method='multi', chunksize=5000)
            total_rows += len(df)
            print(f"   -> Bloque {i+1} OK. Filas acumuladas: {total_rows}")

        print(f"CARGA COMPLETADA: {nombre_tabla} ({total_rows} filas)")

    except Exception as e:
        print(f"ERROR CRÍTICO EN BLOQUE {total_rows // chunksize}: {e}")
        import traceback
        traceback.print_exc()
        sys.exit(1)

mapa_metro_ajustado = {
    'fecha': 'fk_tiempo', 
    'nombre_estacion': 'nombre_estacion',
    'linea': 'linea', 
    'afluencia': 'afluencia', 
    'latitud': 'latitud', 
    'longitud': 'longitud',
    'score_atlas': 'score_atlas', 
    'flag_historico': 'flag_historico', 
    'nivel_riesgo_estatico': 'nivel_riesgo_estatico'
}

carga_definitiva(r"Data_Tratado\Afluencia_Metro_Enriquecido.csv", "fact_afluencia_metro", mapa_metro_ajustado)

✅ Conexión a Base de Datos EXITOSA.

[fact_afluencia_metro] Iniciando carga blindada...
   -> Bloque 1 OK. Filas acumuladas: 50000
   -> Bloque 2 OK. Filas acumuladas: 100000
   -> Bloque 3 OK. Filas acumuladas: 150000
   -> Bloque 4 OK. Filas acumuladas: 200000
   -> Bloque 5 OK. Filas acumuladas: 250000
   -> Bloque 6 OK. Filas acumuladas: 300000
   -> Bloque 7 OK. Filas acumuladas: 350000
   -> Bloque 8 OK. Filas acumuladas: 400000
   -> Bloque 9 OK. Filas acumuladas: 450000
   -> Bloque 10 OK. Filas acumuladas: 500000
   -> Bloque 11 OK. Filas acumuladas: 550000
   -> Bloque 12 OK. Filas acumuladas: 600000
   -> Bloque 13 OK. Filas acumuladas: 650000
   -> Bloque 14 OK. Filas acumuladas: 700000
   -> Bloque 15 OK. Filas acumuladas: 750000
   -> Bloque 16 OK. Filas acumuladas: 800000
   -> Bloque 17 OK. Filas acumuladas: 850000
   -> Bloque 18 OK. Filas acumuladas: 900000
   -> Bloque 19 OK. Filas acumuladas: 950000
   -> Bloque 20 OK. Filas acumuladas: 1000000
   -> Bloque 21 OK. F

In [14]:
import pandas as pd
from sqlalchemy import create_engine
import sys

# CONEXIÓN
db_connection_str = 'postgresql+psycopg2://postgres:as52@localhost:5432/Historico_Hechos_Movilidad'
engine = create_engine(db_connection_str)

def carga_definitiva(ruta_csv, nombre_tabla, mapeo_cols):
    print(f"\n[{nombre_tabla}] Iniciando carga...")
    chunksize = 50000 
    
    try:
        iterator = pd.read_csv(ruta_csv, chunksize=chunksize, encoding='latin-1')
        
        total_rows = 0
        for i, df in enumerate(iterator):
            # 1. Renombrar columnas
            df = df.rename(columns=mapeo_cols)
            
            # 2. Geometría PostGIS
            if 'longitud' in df.columns and 'latitud' in df.columns:
                mask = df['longitud'].notnull() & df['latitud'].notnull()
                df.loc[mask, 'geometria'] = df[mask].apply(
                    lambda x: f"SRID=4326;POINT({x['longitud']} {x['latitud']})", axis=1
                )
            
            # 3. Fechas
            if 'fk_tiempo' in df.columns:
                 df['fk_tiempo'] = pd.to_datetime(df['fk_tiempo'], errors='coerce')

            # 4. Filtrar columnas útiles
            cols_validas = [c for c in df.columns if c in mapeo_cols.values() or c == 'geometria']
            df = df[cols_validas]

            # 5. Insertar
            df.to_sql(nombre_tabla, engine, if_exists='append', index=False, method='multi', chunksize=5000)
            total_rows += len(df)
            print(f"   -> Bloque {i+1} OK. Filas totales: {total_rows}")

        print(f"CARGA COMPLETADA: {nombre_tabla} ({total_rows} filas)")

    except Exception as e:
        print(f"ERROR CRÍTICO: {e}")
        sys.exit(1)

# --- CONFIGURACIÓN ESPECÍFICA PARA ESTE SCRIPT ---
mapa_inviales = {
    'fecha_creacion': 'fk_tiempo', 'hora_creacion': 'hora_creacion', 'latitud': 'latitud',
    'longitud': 'longitud', 'tipo_incidente': 'tipo_incidente', 'alcaldia': 'alcaldia',
    'SCORE_ATLAS': 'score_atlas', 'FLAG_HISTORICO': 'flag_historico', 'NIVEL_RIESGO_ESTATICO': 'nivel_riesgo_estatico'
}

# EJECUCIÓN
carga_definitiva(r"Data_Tratado\Inviales_Enriquecido.csv", "fact_inviales", mapa_inviales)


[fact_inviales] Iniciando carga...
   -> Bloque 1 OK. Filas totales: 50000
   -> Bloque 2 OK. Filas totales: 100000
   -> Bloque 3 OK. Filas totales: 150000
   -> Bloque 4 OK. Filas totales: 200000
   -> Bloque 5 OK. Filas totales: 250000
   -> Bloque 6 OK. Filas totales: 300000
   -> Bloque 7 OK. Filas totales: 350000
   -> Bloque 8 OK. Filas totales: 400000
   -> Bloque 9 OK. Filas totales: 450000
   -> Bloque 10 OK. Filas totales: 500000
   -> Bloque 11 OK. Filas totales: 550000
   -> Bloque 12 OK. Filas totales: 600000
   -> Bloque 13 OK. Filas totales: 650000
   -> Bloque 14 OK. Filas totales: 700000
   -> Bloque 15 OK. Filas totales: 750000
   -> Bloque 16 OK. Filas totales: 800000
   -> Bloque 17 OK. Filas totales: 850000
   -> Bloque 18 OK. Filas totales: 900000
   -> Bloque 19 OK. Filas totales: 950000
   -> Bloque 20 OK. Filas totales: 1000000
   -> Bloque 21 OK. Filas totales: 1050000
   -> Bloque 22 OK. Filas totales: 1100000
   -> Bloque 23 OK. Filas totales: 1150000
   -

In [16]:
import pandas as pd
from sqlalchemy import create_engine
import sys

# CONEXIÓN
db_connection_str = 'postgresql+psycopg2://postgres:as52@localhost:5432/Historico_Hechos_Movilidad'
engine = create_engine(db_connection_str)

def carga_definitiva(ruta_csv, nombre_tabla, mapeo_cols):
    print(f"\n[{nombre_tabla}] Iniciando carga...")
    chunksize = 50000 
    
    try:
        iterator = pd.read_csv(ruta_csv, chunksize=chunksize, encoding='latin-1')
        
        total_rows = 0
        for i, df in enumerate(iterator):
            # 1. Renombrar columnas
            df = df.rename(columns=mapeo_cols)
            
            # 2. Geometría PostGIS
            if 'longitud' in df.columns and 'latitud' in df.columns:
                mask = df['longitud'].notnull() & df['latitud'].notnull()
                df.loc[mask, 'geometria'] = df[mask].apply(
                    lambda x: f"SRID=4326;POINT({x['longitud']} {x['latitud']})", axis=1
                )
            
            # 3. Fechas
            if 'fk_tiempo' in df.columns:
                 df['fk_tiempo'] = pd.to_datetime(df['fk_tiempo'], errors='coerce')

            # 4. Filtrar columnas útiles
            cols_validas = [c for c in df.columns if c in mapeo_cols.values() or c == 'geometria']
            df = df[cols_validas]

            # 5. Insertar
            df.to_sql(nombre_tabla, engine, if_exists='append', index=False, method='multi', chunksize=5000)
            total_rows += len(df)
            print(f"   -> Bloque {i+1} OK. Filas totales: {total_rows}")

        print(f"CARGA COMPLETADA: {nombre_tabla} ({total_rows} filas)")

    except Exception as e:
        print(f"ERROR CRÍTICO: {e}")
        sys.exit(1)

# --- CONFIGURACIÓN ESPECÍFICA PARA ESTE SCRIPT ---
mapa_hechos = {
    'fecha_evento': 'fk_tiempo', 'hora_evento': 'hora_evento', 'tipo_evento': 'tipo_evento',
    'latitud': 'latitud', 'longitud': 'longitud', 'alcaldia': 'alcaldia', 'colonia': 'colonia',
    'SCORE_ATLAS': 'score_atlas', 'FLAG_HISTORICO': 'flag_historico', 'NIVEL_RIESGO_ESTATICO': 'nivel_riesgo_estatico'
}

# EJECUCIÓN
carga_definitiva(r"Data_Tratado\Hechos_Transito_Enriquecido.csv", "fact_hechos_transito", mapa_hechos)


[fact_hechos_transito] Iniciando carga...
   -> Bloque 1 OK. Filas totales: 50000
   -> Bloque 2 OK. Filas totales: 100000
   -> Bloque 3 OK. Filas totales: 132065
CARGA COMPLETADA: fact_hechos_transito (132065 filas)


In [2]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
import urllib.parse
import sys

# --- CONFIGURACIÓN DE CONEXIÓN ---
USER = "postgres"
PASSWORD = "as52" 
HOST = "localhost"
PORT = "5432"
DB_NAME = "Historico_Hechos_Movilidad"

password_safe = urllib.parse.quote_plus(PASSWORD)
user_safe = urllib.parse.quote_plus(USER)
db_connection_str = f'postgresql+psycopg2://{user_safe}:{password_safe}@{HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_connection_str)

def simular_carga_pluviales(ruta_csv, nombre_tabla):
    print("Iniciando Simulación de Fenómeno de Lluvia (Interpolación Diaria)...")
    
    try:
        # 1. Carga del CSV mensual
        df = pd.read_csv(ruta_csv)
        
        # 2. Preprocesamiento
        # Asignamos el dato al día 15 de cada mes para centrar el fenómeno
        df['fecha_ref'] = pd.to_datetime(
            df['ANIO'].astype(str) + '-' + df['MES'].astype(str).str.zfill(2) + '-15'
        )
        
        # Seleccionamos columnas clave
        cols_base = ['CLAVE', 'NOMBRE', 'LON', 'LAT', 'PRECIPITACION', 'fecha_ref']
        df = df[cols_base].sort_values('fecha_ref')

        # 3. Motor de Interpolación (Simulación)
        dfs_simulados = []
        estaciones = df['CLAVE'].unique()
        
        total_estaciones = len(estaciones)
        print(f"   -> Procesando {total_estaciones} estaciones meteorológicas...")

        for idx, estacion in enumerate(estaciones):
            # Filtramos datos de una estación
            dfe = df[df['CLAVE'] == estacion].copy()
            
            # Eliminamos duplicados de fecha/estación si existen
            dfe = dfe.drop_duplicates(subset='fecha_ref')
            
            # Indexamos por fecha
            dfe = dfe.set_index('fecha_ref')
            
            # A. RESAMPLING: Creamos el esqueleto diario
            # B. INTERPOLACIÓN: 'time' conecta los puntos (día 15) linealmente
            #    Esto crea el efecto de transición suave entre meses (colas)
            dfe_diario = dfe.resample('D').interpolate(method='time')
            
            # Rellenamos metadatos estáticos (Nombre, Lat, Lon no cambian)
            dfe_diario['CLAVE'] = dfe_diario['CLAVE'].ffill().bfill()
            dfe_diario['NOMBRE'] = dfe_diario['NOMBRE'].ffill().bfill()
            dfe_diario['LON'] = dfe_diario['LON'].ffill().bfill()
            dfe_diario['LAT'] = dfe_diario['LAT'].ffill().bfill()
            
            # Reset index para recuperar la columna fecha
            dfe_diario = dfe_diario.reset_index().rename(columns={'fecha_ref': 'fecha'})
            
            dfs_simulados.append(dfe_diario)
            
            if (idx + 1) % 10 == 0:
                print(f"      ... Estación {idx + 1}/{total_estaciones} interpolada.")

        # 4. Consolidación
        df_final = pd.concat(dfs_simulados, ignore_index=True)
        
        # Limpieza final (eliminar días que pudieron quedar nulos en extremos muy lejanos)
        df_final = df_final.dropna(subset=['PRECIPITACION'])

        print(f"Simulación completada. Expandido a {len(df_final)} registros diarios.")

        # 5. Preparación para SQL
        # Renombrado
        df_final = df_final.rename(columns={
            'CLAVE': 'clave_estacion',
            'NOMBRE': 'nombre_estacion',
            'PRECIPITACION': 'precipitacion_simulada',
            'LON': 'longitud',
            'LAT': 'latitud',
            'fecha': 'fk_tiempo' # Usamos la fecha como FK
        })
        
        df_final['fecha'] = df_final['fk_tiempo'] # Duplicamos para tener campo fecha explicito

        # Geometría PostGIS
        df_final['geometria'] = df_final.apply(
            lambda x: f"SRID=4326;POINT({x['longitud']} {x['latitud']})", axis=1
        )

        # 6. Ingesta por bloques
        print(f"[{nombre_tabla}] Insertando en BD...")
        chunksize = 10000
        df_final.to_sql(
            nombre_tabla, 
            engine, 
            if_exists='append', 
            index=False, 
            method='multi', 
            chunksize=chunksize
        )
        print(f"CARGA DE PLUVIALES EXITOSA: {len(df_final)} filas.")

    except Exception as e:
        print(f"ERROR: {e}")
        import traceback
        traceback.print_exc()

# EJECUCIÓN
simular_carga_pluviales(r"Data_Tratado\Pluviales_DF.csv", "fact_pluviales")

Iniciando Simulación de Fenómeno de Lluvia (Interpolación Diaria)...
   -> Procesando 265 estaciones meteorológicas...
      ... Estación 10/265 interpolada.
      ... Estación 20/265 interpolada.
      ... Estación 30/265 interpolada.


  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpo

      ... Estación 40/265 interpolada.
      ... Estación 50/265 interpolada.
      ... Estación 60/265 interpolada.
      ... Estación 70/265 interpolada.
      ... Estación 80/265 interpolada.


  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpo

      ... Estación 90/265 interpolada.
      ... Estación 100/265 interpolada.
      ... Estación 110/265 interpolada.
      ... Estación 120/265 interpolada.
      ... Estación 130/265 interpolada.
      ... Estación 140/265 interpolada.
      ... Estación 150/265 interpolada.


  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpo

      ... Estación 160/265 interpolada.
      ... Estación 170/265 interpolada.
      ... Estación 180/265 interpolada.
      ... Estación 190/265 interpolada.
      ... Estación 200/265 interpolada.
      ... Estación 210/265 interpolada.


  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpolate(method='time')
  dfe_diario = dfe.resample('D').interpo

      ... Estación 220/265 interpolada.
      ... Estación 230/265 interpolada.
      ... Estación 240/265 interpolada.
      ... Estación 250/265 interpolada.
      ... Estación 260/265 interpolada.
Simulación completada. Expandido a 433747 registros diarios.
[fact_pluviales] Insertando en BD...
CARGA DE PLUVIALES EXITOSA: 433747 filas.
