In [23]:
import os
import csv
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import geopandas as gpd
import seaborn as sns
import subprocess
from sqlalchemy import create_engine
import gc

In [24]:
provincia_por_valor = {
    1: 'Álava',
    2: 'Albacete',
    3: 'Alicante',
    4: 'Almería',
    5: 'Ávila',
    6: 'Badajoz',
    7: 'Baleares',
    8: 'Barcelona',
    9: 'Burgos',
    10: 'Cáceres',
    11: 'Cádiz',
    12: 'Castellón',
    13: 'Ciudad Real',
    14: 'Córdoba',
    15: 'La Coruña',
    16: 'Cuenca',
    17: 'Girona',
    18: 'Granada',
    19: 'Guadalajara',
    20: 'Gipuzoka',
    21: 'Huelva',
    22: 'Huesca',
    23: 'Jaén',
    24: 'León',
    25: 'Lleida',
    26: 'La Rioja',
    27: 'Lugo',
    28: 'Madrid',
    29: 'Málaga',
    30: 'Murcia',
    31: 'Navarra',
    32: 'Ourense',
    33: 'Asturias',
    34: 'Palencia',
    35: 'Las Palmas',
    36: 'Pontevedra',
    37: 'Salamanca',
    38: 'Tenerife',
    39: 'Cantabria',
    40: 'Segovia',
    41: 'Sevilla',
    42: 'Soria',
    43: 'Tarragona',
    44: 'Teruel',
    45: 'Toledo',
    46: 'Valencia',
    47: 'Valladolid',
    48: 'Vizcaya',
    49: 'Zamora',
    50: 'Zaragoza',
    51: 'Ceuta',
    52: 'Melilla'
}

In [25]:
db_url = "postgresql://postgres:postgres@localhost:5432/datos_telefonia"
engine = create_engine(db_url)

In [26]:
query = "SELECT id, distrito, municipio, gau, provincia FROM centroides"

centroides_df = pd.read_sql(query, engine)

centroides_df_origen = centroides_df.rename(columns={
    'id': 'origen',
    'distrito': 'distrito_origen',
    'municipio': 'municipio_origen',
    'gau': 'gau_origen',
    'provincia': 'provincia_origen'
})
centroides_df_destino = centroides_df.rename(columns={
    'id': 'destino',
    'distrito': 'distrito_destino',
    'municipio': 'municipio_destino',
    'gau': 'gau_destino',
    'provincia': 'provincia_destino'
})

In [27]:
def procesar_y_cargar_csv(csv_path, table_name, centroides_df_origen, centroides_df_destino):
    # Leer el CSV
    df = pd.read_csv(csv_path, sep="|", encoding='UTF-8')
    
    # Aplicar transformaciones
    df = df.dropna(subset=['actividad_origen', 'actividad_destino', 'renta', 'edad', 'sexo'])
    df['fecha'] = pd.to_datetime(df['fecha'].astype(str), format='%Y%m%d')
    df['mes'] = df['fecha'].dt.month
    df['dia'] = df['fecha'].dt.day
    df.rename(columns={'periodo': 'hora'}, inplace=True)
    df['fecha_hora'] = df['fecha'] + pd.to_timedelta(df['hora'], unit='h')
    df['origen'] = df['origen'].astype(str)
    df['destino'] = df['destino'].astype(str)
    df = df[~df['origen'].str.contains('externo') & ~df['destino'].str.contains('externo')]
    df['flujo'] = df['origen'] + ' - ' + df['destino']
    df['residencia_provincia'] = df['residencia'].map(provincia_por_valor)

    df = df.merge(centroides_df_origen, on='origen', how='left')
    df = df.merge(centroides_df_destino, on='destino', how='left')
    df = df.dropna(subset=['distrito_origen','distrito_destino'])

    new_order = [
        'fecha_hora', 'mes', 'dia', 'hora', 'origen', 'destino', 'flujo',
        'distrito_origen', 'distrito_destino', 'municipio_origen', 'municipio_destino', 'gau_origen',
        'gau_destino', 'residencia_provincia', 'provincia_origen', 'provincia_destino',
        'distancia', 'actividad_origen', 'actividad_destino',
         'renta', 'edad', 'sexo', 'viajes', 'viajes_km'
    ]
    
    df = df[new_order]
    
    #df = df[(df['edad'] == '65-100') & (df['gau_origen'].isin(['GAU Sevilla', 'GAU Madrid', 'GAU Barcelona'])) & (df['gau_destino'].isin(['GAU Sevilla', 'GAU Madrid', 'GAU Barcelona']))]
        
    df.to_sql(table_name, engine, if_exists='append', index=False)

In [28]:
carpeta_datos = "./datos_telefonia/"
#Tener en esta carpeta todos los días que se vayan a usar, se unirán todos en la tabla resultado de PostGIS

In [29]:
archivos_csv = [archivo for archivo in os.listdir(carpeta_datos) if archivo.endswith('.csv')]

In [30]:
nombre_tabla = 'viajes_distritos_15_enero'

In [31]:
for archivo in archivos_csv:
    archivo_path = os.path.join(carpeta_datos, archivo)
    procesar_y_cargar_csv(archivo_path, nombre_tabla, centroides_df_origen, centroides_df_destino)

  df = pd.read_csv(csv_path, sep="|", encoding='UTF-8')
