In [17]:
import os
import csv
import numpy as np
import pandas as pd
import matplotlib.pylab as plt
import geopandas as gpd
import seaborn as sns
import subprocess
from sqlalchemy import create_engine
import gc

In [18]:
db_url = "postgresql://postgres:postgres@localhost:5432/curso_uned"
engine = create_engine(db_url)

In [19]:
ids_sevilla = ["4100401", "4100402", "4100403", "4100404", "4100701", "4100702", "41010", "41017", "41021", "41028", 
               "41029", "4103401", "4103402", "4103403", "4103801", "4103802", "4103803", "4103804", "4103805", 
               "41040", "41044", "41047", "4105801", "4105802", "4105803", "41059", "4106901", "4106902", 
               "4106903", "4106904", "41070", "41079", "4108101", "4108102", "41086", "41089", "4109101", 
               "4109102", "4109103", "4109104", "4109105", "4109106", "4109107", "4109108", "4109109", 
               "4109110", "4109111", "41093", "4109501", "4109502", "4109503", "4109504", "4109505", 
               "41096", "41102", "41904"]

In [20]:
carpeta_datos = "./datos_telefonia/"

In [27]:
feria_abril = pd.DataFrame()

In [28]:
for archivo in os.listdir(carpeta_datos):
    if archivo.endswith(".csv"):
        # Construir la ruta completa al archivo
        ruta_archivo = os.path.join(carpeta_datos, archivo)
        
        # Cargar el CSV
        df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
        
        # Filtro para eliminar valores NA
        df = df.dropna(subset=['actividad_origen', 'actividad_destino', 'renta', 'edad', 'sexo'])
        
        # Filtro para seleccionar solo las filas con IDs en ids_sevilla
        df = df[df['origen'].isin(ids_sevilla) & df['destino'].isin(ids_sevilla)]
        
        # Concatenar el DataFrame filtrado al acumulador
        feria_abril = pd.concat([feria_abril, df], axis=0)
        
        # Liberar memoria
        del df
        gc.collect()

  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')
  df = pd.read_csv(ruta_archivo, sep="|", encoding='UTF-8')


In [30]:
#Ahora añadimos código del script de procesado y enriquecimiento de datos
query = "SELECT id, distrito, municipio, gau, provincia FROM centroides"

centroides_df = pd.read_sql(query, engine)

centroides_df_origen = centroides_df.rename(columns={
    'id': 'origen',
    'distrito': 'distrito_origen',
    'municipio': 'municipio_origen',
    'gau': 'gau_origen',
    'provincia': 'provincia_origen'
})
centroides_df_destino = centroides_df.rename(columns={
    'id': 'destino',
    'distrito': 'distrito_destino',
    'municipio': 'municipio_destino',
    'gau': 'gau_destino',
    'provincia': 'provincia_destino'
})

In [31]:
provincia_por_valor = {
    1: 'Álava',
    2: 'Albacete',
    3: 'Alicante',
    4: 'Almería',
    5: 'Ávila',
    6: 'Badajoz',
    7: 'Baleares',
    8: 'Barcelona',
    9: 'Burgos',
    10: 'Cáceres',
    11: 'Cádiz',
    12: 'Castellón',
    13: 'Ciudad Real',
    14: 'Córdoba',
    15: 'La Coruña',
    16: 'Cuenca',
    17: 'Girona',
    18: 'Granada',
    19: 'Guadalajara',
    20: 'Gipuzoka',
    21: 'Huelva',
    22: 'Huesca',
    23: 'Jaén',
    24: 'León',
    25: 'Lleida',
    26: 'La Rioja',
    27: 'Lugo',
    28: 'Madrid',
    29: 'Málaga',
    30: 'Murcia',
    31: 'Navarra',
    32: 'Ourense',
    33: 'Asturias',
    34: 'Palencia',
    35: 'Las Palmas',
    36: 'Pontevedra',
    37: 'Salamanca',
    38: 'Tenerife',
    39: 'Cantabria',
    40: 'Segovia',
    41: 'Sevilla',
    42: 'Soria',
    43: 'Tarragona',
    44: 'Teruel',
    45: 'Toledo',
    46: 'Valencia',
    47: 'Valladolid',
    48: 'Vizcaya',
    49: 'Zamora',
    50: 'Zaragoza',
    51: 'Ceuta',
    52: 'Melilla'
}

In [32]:
def procesar_y_enriquecer_dataframe(df, centroides_df_origen, centroides_df_destino):
    # Aplicar transformaciones
    df = df.dropna(subset=['actividad_origen', 'actividad_destino', 'renta', 'edad', 'sexo'])
    df['fecha'] = pd.to_datetime(df['fecha'].astype(str), format='%Y%m%d')  # Asegúrate de que 'fecha' esté en el formato correcto
    df['mes'] = df['fecha'].dt.month
    df['dia'] = df['fecha'].dt.day
    df.rename(columns={'periodo': 'hora'}, inplace=True)
    df['fecha_hora'] = df['fecha'] + pd.to_timedelta(df['hora'], unit='h')
    df['origen'] = df['origen'].astype(str)
    df['destino'] = df['destino'].astype(str)
    df = df[~df['origen'].str.contains('externo') & ~df['destino'].str.contains('externo')]
    df['flujo'] = df['origen'] + ' - ' + df['destino']
    df['residencia_provincia'] = df['residencia'].map(provincia_por_valor)

    df = df.merge(centroides_df_origen, on='origen', how='left')
    df = df.merge(centroides_df_destino, on='destino', how='left')
    df = df.dropna(subset=['distrito_origen', 'distrito_destino'])

    new_order = [
        'fecha_hora', 'mes', 'dia', 'hora', 'origen', 'destino', 'flujo',
        'distrito_origen', 'distrito_destino', 'municipio_origen', 'municipio_destino', 
        'gau_origen', 'gau_destino', 'residencia_provincia', 'provincia_origen', 'provincia_destino',
        'distancia', 'actividad_origen', 'actividad_destino', 'renta', 'edad', 'sexo', 'viajes', 'viajes_km'
    ]
    
    df = df[new_order]
    
    return df

In [33]:
feria_abril_procesado = procesar_y_enriquecer_dataframe(feria_abril, centroides_df_origen, centroides_df_destino)


In [38]:
table_name = "feria_abril_2023"
feria_abril_procesado.to_sql(table_name, engine, if_exists="replace", index=False)

167