In [None]:
import pandas as pd
import os

# PASO 1: UNIFICAR

In [None]:
# Definimos la carpeta donde están los datos: se creará una carpeta data para que se alojen los Excels descargados de Kaggle
ruta_data = "data"

# Lista exacta de archivos
archivos = [
    "Amazonas_Filtrado.xlsx", "Ancash_Filtrado.xlsx", "Apurimac_Filtrado.xlsx", 
    "Arequipa_Filtrado.xlsx", "Ayacucho_Filtrado.xlsx", "Cajamarca_Filtrado.xlsx",
    "Callao_Filtrado.xlsx", "Cusco_Filtrado.xlsx", "Huancavelica_Filtrado.xlsx",
    "Huanuco_Filtrado.xlsx", "Ica_Filtrado.xlsx", "Junin_Filtrado.xlsx",
    "La_Libertad_Filtrado.xlsx", "Lambayeque_Filtrado.xlsx", "Lima_Filtrado.xlsx",
    "Loreto_Filtrado.xlsx", "Madre_de_Dios_Filtrado.xlsx", "Moquegua_Filtrado.xlsx",
    "Pasco_Filtrado.xlsx", "Piura_Filtrado.xlsx", "Puno_Filtrado.xlsx",
    "San_Martin_Filtrado.xlsx", "Tacna_Filtrado.xlsx", "Tumbes_Filtrado.xlsx",
    "Ucayali_Filtrado.xlsx"
]

lista_dataframes = [] # Lista para almacenar los DataFrames de cada archivo

# Hemos logrado cargar todos los archivos correctamente en DataFrames individuales y los hemos almacenado en la lista 'lista_dataframes'. 
# Ahora, el siguiente paso es unificar todos estos DataFrames en uno solo, que llamaremos 'df_maestro'. 
# Para esto, utilizaremos la función 'pd.concat()' de pandas, que nos permite concatenar varios DataFrames a lo largo de un eje (en este caso, el eje de filas).

In [None]:
# Bucle para leer cada archivo desde la subcarpeta 'data' para llenar de información a la lista de DataFrames creada
# Demorará unos minutos dado que son 25 archivos
for archivo in archivos:
    # Unimos la carpeta 'data' con el nombre del archivo
    ruta_completa = os.path.join(ruta_data, archivo)
    
    if os.path.exists(ruta_completa):
        print(f"Procesando: {archivo}")
        
        # Solo usamos Excel (el csv está excluido)
        df_temp = pd.read_excel(ruta_completa)
        lista_dataframes.append(df_temp)
            
    else:
        print(f"⚠️ Advertencia: El archivo '{archivo}' no se encontró en la carpeta '{ruta_data}'.")

# Unir (concatenar) todos los DataFrames
df_maestro = pd.concat(lista_dataframes, ignore_index=True)

# Limpieza básica
df_maestro.columns = df_maestro.columns.str.lower().str.replace(' ', '_') # Pasar a minúsculas y reemplazar espacios por guiones bajos
df_maestro = df_maestro.drop_duplicates() # Eliminar filas duplicadas

print(f"\n¡Proceso terminado! El archivo unificado tiene {df_maestro.shape[0]} filas y {df_maestro.shape[1]} columnas.")

# Exportar el gran archivo resultante en la misma carpeta del Notebook
nombre_salida = "maestro_inversiones_peru.csv"
df_maestro.to_csv(nombre_salida, index=False)
print(f"El archivo maestro se ha guardado exitosamente como: '{nombre_salida}'")

Procesando: Amazonas_Filtrado.xlsx
Procesando: Ancash_Filtrado.xlsx
Procesando: Apurimac_Filtrado.xlsx
Procesando: Arequipa_Filtrado.xlsx
Procesando: Ayacucho_Filtrado.xlsx
Procesando: Cajamarca_Filtrado.xlsx
Procesando: Callao_Filtrado.xlsx
Procesando: Cusco_Filtrado.xlsx
Procesando: Huancavelica_Filtrado.xlsx
Procesando: Huanuco_Filtrado.xlsx
Procesando: Ica_Filtrado.xlsx
Procesando: Junin_Filtrado.xlsx
Procesando: La_Libertad_Filtrado.xlsx
Procesando: Lambayeque_Filtrado.xlsx
Procesando: Lima_Filtrado.xlsx
Procesando: Loreto_Filtrado.xlsx
Procesando: Madre_de_Dios_Filtrado.xlsx
Procesando: Moquegua_Filtrado.xlsx
Procesando: Pasco_Filtrado.xlsx
Procesando: Piura_Filtrado.xlsx
Procesando: Puno_Filtrado.xlsx
Procesando: San_Martin_Filtrado.xlsx
Procesando: Tacna_Filtrado.xlsx
Procesando: Tumbes_Filtrado.xlsx
Procesando: Ucayali_Filtrado.xlsx

¡Proceso terminado! El archivo unificado tiene 381273 filas y 16 columnas.
El archivo maestro se ha guardado exitosamente como: 'maestro_inversio

In [25]:
# Visualizando el archivo maestro
df_maestro.head()

Unnamed: 0,código_único_de_inversión,nombre_de_la_inversión,monto_viable,estado_de_la_inversión,sector,entidad,ejecutora,fecha_de_registro,fecha_de_viabilidad,costo_actualizado,descripción_de_la_alternativa,beneficiarios,departamento,provincia,distrito,ubigeo
0,2480997.0,MEJORAMIENTO DE LA CARRETERA PE - 5NC Y PE-5NE...,610491400.0,ACTIVO,TRANSPORTES Y COMUNICACIONES,MINISTERIO DE TRANSPORTES Y COMUNICACIONES - MTC,MTC- PRO VIAS NACIONAL,11/02/2020,12/02/2020,656254400.0,Mejoramiento de la carretera en una longitud d...,53751.0,AMAZONAS,CONDORCANQUI,NIEVA,10401
1,2088578.0,SEGUNDA FASE DEL PROGRAMA DE APOYO A LA REFORM...,457920100.0,ACTIVO,SALUD,MINISTERIO DE SALUD,,21/12/2005,18/11/2008,479794600.0,Esta alternativa considera: I. Demanda I.1.I...,1270798.0,AMAZONAS,- TODOS -,- TODOS -,10000
2,2555351.0,"MEJORAMIENTO DE LA CARRETERA PE-5NC, NUEVO SIA...",412206900.0,ACTIVO,TRANSPORTES Y COMUNICACIONES,MINISTERIO DE TRANSPORTES Y COMUNICACIONES - MTC,MTC- PRO VIAS NACIONAL,28/06/2022,14/10/2022,455119800.0,Consiste en el mejoramiento de la carretera co...,22885.0,AMAZONAS,CONDORCANQUI,NIEVA,10401
3,2343984.0,ERRADICACION DE LA MOSCA DE LA FRUTA EN LOS DE...,404418300.0,ACTIVO,AGRICULTURA Y RIEGO,SERVICIO NACIONAL DE SANIDAD AGRARIA - SENASA,PROGRAMA DE DESARROLLO DE SANIDAD AGROPECUARIA...,06/04/2017,28/06/2017,445519300.0,EN EL PRIMER COMPONENTE SE PLANTEA RECOPILAR...,875855.0,AMAZONAS,CHACHAPOYAS,BALSAS,10103
4,2630035.0,CREACION DEL SERVICIO DE TRANSITABILIDAD VIAL ...,372806800.0,ACTIVO,GOBIERNOS REGIONALES,GOBIERNO REGIONAL CAJAMARCA,REGION CAJAMARCA-JAEN,18/01/2024,18/01/2024,372806800.0,Se tiene como superestructura en el tramo cent...,2213.0,AMAZONAS,UTCUBAMBA,EL MILAGRO,10704


# PASO 2: DESCUARTIZAR

In [26]:
# Cargamos la base maestria con el nombre df
df = pd.read_csv("maestro_inversiones_peru.csv", low_memory=False)

In [41]:
# ==========================================
# TABLA 1: DIMENSIÓN GEOGRAFÍA
# ==========================================
# 1. Filtramos las columnas y quitamos vacíos
df_geografia = df[['ubigeo', 'departamento', 'provincia', 'distrito']].dropna(subset=['ubigeo'])

# 2. Eliminamos duplicados basados ÚNICAMENTE en la columna 'ubigeo'
df_geografia = df_geografia.drop_duplicates(subset=['ubigeo'], keep='first')

# 3. Renombramos y convertimos a número entero
df_geografia = df_geografia.rename(columns={'ubigeo': 'ubigeo_id', 'departamento': 'region'})
df_geografia['ubigeo_id'] = df_geografia['ubigeo_id'].astype(int)


In [29]:
# ==========================================
# TABLA 2: DIMENSIÓN SECTORES
# ==========================================
df_sectores = df[['sector']].drop_duplicates().dropna().reset_index(drop=True)

# Crear un ID numérico para cada sector (1, 2, 3...)
df_sectores['sector_id'] = df_sectores.index + 1
df_sectores = df_sectores.rename(columns={'sector': 'nombre_sector'})

In [47]:
# ==========================================
# TABLA 3: TABLA CENTRAL PROYECTOS
# ==========================================
# Primero cruzamos el df original con nuestra nueva tabla de sectores para traernos el "sector_id"
df_cruce = df.merge(df_sectores, left_on='sector', right_on='nombre_sector', how='left')

# Seleccionamos solo las columnas necesarias
columnas_proyectos = [
    'código_único_de_inversión', 'nombre_de_la_inversión', 'fecha_de_registro',
    'sector_id', 'ubigeo', 'monto_viable', 'costo_actualizado', 'estado_de_la_inversión'
]
df_proyectos = df_cruce[columnas_proyectos].drop_duplicates(subset=['código_único_de_inversión']).dropna(subset=['código_único_de_inversión'])

# Renombramos según nuestro diseño SQL
df_proyectos = df_proyectos.rename(columns={
    'código_único_de_inversión': 'proyecto_id',
    'nombre_de_la_inversión': 'nombre_proyecto',
    'fecha_de_registro': 'fecha_registro', # Importante para hacer consultas SQL con filtros de tiempo
    'ubigeo': 'ubigeo_id',
    'monto_viable': 'costo_inicial', # El monto viable es el costo inicial aprobado para el proyecto
    'costo_actualizado': 'costo_total', # Es el costo total del proyecto, no el monto inicial, que suele modificarse con el tiempo
    'estado_de_la_inversión': 'estado'
})

# Limpieza de tipos de datos (quitar el ".0" de los IDs)
df_proyectos['proyecto_id'] = df_proyectos['proyecto_id'].astype(int)
df_proyectos['ubigeo_id'] = df_proyectos['ubigeo_id'].fillna(0).astype(int) # Llenar vacíos con 0 por si acaso

In [42]:
# Visualizamos las tablas resultantes:
# Tabla Geografía
print("Tabla 'geografia':")
print(df_geografia.head())

Tabla 'geografia':
   ubigeo_id    region     provincia                 distrito
0      10401  AMAZONAS  CONDORCANQUI                    NIEVA
1      10000  AMAZONAS     - TODOS -                - TODOS -
3      10103  AMAZONAS   CHACHAPOYAS                   BALSAS
4      10704  AMAZONAS     UTCUBAMBA               EL MILAGRO
5      10118  AMAZONAS   CHACHAPOYAS  SAN FRANCISCO DE DAGUAS


In [32]:
# Tabla Sectores
print("\nTabla 'sectores':")
print(df_sectores.head())


Tabla 'sectores':
                  nombre_sector  sector_id
0  TRANSPORTES Y COMUNICACIONES          1
1                         SALUD          2
2           AGRICULTURA Y RIEGO          3
3          GOBIERNOS REGIONALES          4
4                     EDUCACION          5


In [48]:
# Tabla Proyectos
print("\nTabla 'proyectos':")
print(df_proyectos.head())


Tabla 'proyectos':
   proyecto_id                                    nombre_proyecto  \
0      2480997  MEJORAMIENTO DE LA CARRETERA PE - 5NC Y PE-5NE...   
1      2088578  SEGUNDA FASE DEL PROGRAMA DE APOYO A LA REFORM...   
2      2555351  MEJORAMIENTO DE LA CARRETERA PE-5NC, NUEVO SIA...   
3      2343984  ERRADICACION DE LA MOSCA DE LA FRUTA EN LOS DE...   
4      2630035  CREACION DEL SERVICIO DE TRANSITABILIDAD VIAL ...   

  fecha_registro  sector_id  ubigeo_id  costo_inicial   costo_total  estado  
0     11/02/2020          1      10401   6.104914e+08  6.562544e+08  ACTIVO  
1     21/12/2005          2      10000   4.579201e+08  4.797946e+08  ACTIVO  
2     28/06/2022          1      10401   4.122069e+08  4.551198e+08  ACTIVO  
3     06/04/2017          3      10103   4.044183e+08  4.455193e+08  ACTIVO  
4     18/01/2024          4      10704   3.728068e+08  3.728068e+08  ACTIVO  


# PARTE 3: CARGA A POSTGRESQL

In [50]:
from sqlalchemy import create_engine

In [51]:
# ==========================================
# CARGA A POSTGRESQL
# ==========================================
# Ejecutamos SOLO después de haber creado la base de datos "inversion_publica_db" y las tablas de Geografia, Sectores y Proyectos con sus respectivas columnas e ID's

DB_USER = "postgres"
DB_PASSWORD = os.getenv('alnilam') # COLOCAR EL NOMBRE DE SU VARIABLE SECRETA DE POSTGRESQL LOCAL
DB_HOST = "localhost"
DB_PORT = "5432"
DB_NAME = "inversion_publica_db" 

# Importante
cadena_conexion = f'postgresql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_NAME}?client_encoding=utf8'
engine = create_engine(cadena_conexion)

print("Subiendo a PostgreSQL...")
try:
    # Usamos append para respetar la estructura de pgAdmin
    df_geografia.to_sql('geografia', engine, if_exists='append', index=False)
    df_sectores.to_sql('sectores', engine, if_exists='append', index=False)
    df_proyectos.to_sql('proyectos', engine, if_exists='append', index=False)
except Exception as e:
    print(f"Error en la conexión o carga: {e}")

Subiendo a PostgreSQL...


Verificamos en SQL y empezamos con las operaciones de consulta allá.