# ***Analisis del presupuesto hospitalario del G.C.B.A***
---

*En este proyecto se trabaja con un dataset crudo extraído de la página oficial del Gobierno de la Ciudad de Buenos Aires. El objetivo es llevar a cabo un proceso de ETL (Extracción, Transformación y Carga) para depurar y estructurar la información, de modo que pueda ser utilizada posteriormente en Power BI para el desarrollo de un análisis visual interactivo y eficiente.*

*Partimos de un archivo Excel que contiene el presupuesto ejecutado de forma general por el Gobierno de la Ciudad de Buenos Aires durante el primer trimestre del año 2025. Este archivo presenta la siguiente estructura:*


| Nombre     | Tipo    | Descripción                                                                 |
|------------|---------|------------------------------------------------------------------------------|
| car        | string  | Código de administración central u otro organismo.                          |
| car_desc   | string  | Descripción del tipo de administración.                                     |
| jur        | string  | Código de la jurisdicción correspondiente al organismo.                     |
| Jur_desc   | string  | Descripción de la jurisdicción (e.g., Ministerio, Legislatura).             |
| sjur       | string  | Código de sub-jurisdicción dentro de la jurisdicción principal.             |
| Sjur_desc  | string  | Descripción de la sub-jurisdicción.                                         |
| Ent        | string  | Código de entidad administrativa.                                           |
| Ent_desc   | string  | Descripción de la entidad administrativa.                                   |
| Ogese      | string  | Código del órgano.                                                          |
| Ogese_desc | string  | Descripción del órgano.                                                     |
| UE         | string  | Código de la unidad ejecutora dentro del organismo.                         |
| UE_desc    | string  | Descripción de la unidad ejecutora.                                         |
| Prog       | string  | Código del programa presupuestario.                                         |
| Prog_desc  | string  | Descripción del programa presupuestario.                                    |
| Sprog      | string  | Código de sub-programa dentro del programa presupuestario.                  |
| Sprog_desc | string  | Descripción del sub-programa.                                               |
| Proy       | string  | Código del Proyecto.                                                        |
| Proy_desc  | string  | Descripción del Proyecto.                                                   |
| Act        | string  | Actividad dentro del proyecto.                                              |
| Act_desc   | string  | Descripción de la Actividad.                                                |
| Ob         | string  | Código de Obra asociada, si aplica.                                         |
| Ob_desc    | string  | Descripción de la Obra.                                                     |
| Fin        | string  | Código de Finalidad del gasto.                                              |
| Fin_desc   | string  | Descripción de la Finalidad.                                                |
| Fun        | string  | Código de Función del gasto.                                                |
| Fun_desc   | string  | Descripción de la Función.                                                  |
| Inc        | string  | Código de Inciso presupuestario (categoría general del gasto).              |
| Inc_desc   | string  | Descripción del Inciso.                                                     |
| Ppal       | string  | Principal del gasto (categoría más específica que el inciso).               |
| Ppal_desc  | string  | Descripción del Principal.                                                  |
| Par        | string  | Partida Parcial.                                                            |
| Par_desc   | string  | Descripción de la Partida Parcial.                                          |
| Spar       | string  | Subpartida Parcial.                                                         |
| Spar_desc  | string  | Descripción de la Subpartida Parcial.                                       |
| Eco        | string  | Clasificador económico presupuestario.                                     |
| Eco_desc   | string  | Descripción del Clasificador Económico.                                     |
| Fte        | string  | Código de Fuente de Financiamiento.                                         |
| Fte_desc   | string  | Descripción de la Fuente de Financiamiento.                                 |
| Geo        | string  | Código de localización geográfica o Comuna.                                 |
| Geo_desc   | string  | Descripción de la Localización geográfica.                                  |
| Sanción    | string  | Monto aprobado por la Ley de Presupuesto (crédito sancionado).              |
| Vigente    | string  | Monto actualizado del presupuesto al período vigente.                       |
| Definitivo | string  | Crédito definitivo (puede ser igual a “vigente”).                           |
| Devengado  | string  | Gasto efectivamente devengado (obligación contraída).                       |

---

*Fuente del proyecto: [BA DATA](https://data.buenosaires.gob.ar/lt/dataset/presupuesto-ejecutado-2025/resource/f249cdea-583c-44e5-ba89-01745ae20ec8)*

In [None]:
# Importamos las librerias
import pandas as pd
import numpy as np

In [None]:
# Cargamos el excel
df = pd.read_excel('Data origen BA.xlsx')

In [None]:
# Mostramos el archivo
df.head()

Unnamed: 0,Car,Desc_Car,Jur,Desc_Jur,Sjur,Desc_Sjur,Ent,Desc_Ent,Ogese,Desc_Ogese,...,Eco,Desc_Eco,Fte,Desc_Fte,Geo,Desc_Geo,Sanción,Vigente,Definitivo,Devengado
0,1,Administracion Central,1,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,1,Legislatura De La Ciudad De Buenos Aires,...,21200000,Remuneraciones Al Personal,11,Tesoro De La Ciudad,1,Comuna 1,11035922029,11035922029,1422609000.0,1422609000.0
1,1,Administracion Central,1,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,1,Legislatura De La Ciudad De Buenos Aires,...,21200000,Remuneraciones Al Personal,11,Tesoro De La Ciudad,1,Comuna 1,1186008002,1186008002,184852400.0,184852400.0
2,1,Administracion Central,1,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,1,Legislatura De La Ciudad De Buenos Aires,...,21200000,Remuneraciones Al Personal,11,Tesoro De La Ciudad,1,Comuna 1,1011189790,1011189790,138449600.0,138449600.0
3,1,Administracion Central,1,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,1,Legislatura De La Ciudad De Buenos Aires,...,21200000,Remuneraciones Al Personal,11,Tesoro De La Ciudad,1,Comuna 1,1532672441,1532672441,220639100.0,220639100.0
4,1,Administracion Central,1,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,0,Legislatura De La Ciudad De Buenos Aires,1,Legislatura De La Ciudad De Buenos Aires,...,21200000,Remuneraciones Al Personal,11,Tesoro De La Ciudad,1,Comuna 1,65341879,65341879,9061205.0,9061205.0


In [None]:
df.shape

(36931, 44)

In [None]:
# Lista de columnas relevantes que se van a conservar del DataFrame original.
# Cada par corresponde a un código y su descripción, más las columnas de montos presupuestarios.
columnas_utiles = [
    'Jur', 'Desc_Jur',        # Jurisdicción y su descripción
    'UE', 'Desc_UE',          # Unidad Ejecutora y su descripción
    'Act', 'Desc_Act',        # Actividad y su descripción
    'Inciso', 'Desc_Inc',     # Inciso y su descripción
    'Ppal', 'Desc_Ppal',      # Principal y su descripción
    'Parc', 'Desc_Parc',      # Parcial y su descripción
    'Geo', 'Desc_Geo',        # Ubicación geográfica y su descripción
    'Sanción',                # Presupuesto aprobado inicialmente
    'Vigente',                # Presupuesto vigente (ajustado)
    'Definitivo',             # Crédito definitivo autorizado
    'Devengado'               # Monto efectivamente ejecutado
]

# Filtra el DataFrame original 'df' para quedarse solo con las columnas especificadas.
df_filtrado = df[columnas_utiles]


In [None]:
# Mostramos el resultado
df_filtrado.head()

Unnamed: 0,Jur,Desc_Jur,UE,Desc_UE,Act,Desc_Act,Inciso,Desc_Inc,Ppal,Desc_Ppal,Parc,Desc_Parc,Geo,Desc_Geo,Sanción,Vigente,Definitivo,Devengado
0,1,Legislatura De La Ciudad De Buenos Aires,10,Secretaria Administrativa,1000,Actividad Legislativa,1,Gastos En Personal,2,Personal Transitorio,6,Contribuciones Patronales,1,Comuna 1,11035922029,11035922029,1422609000.0,1422609000.0
1,1,Legislatura De La Ciudad De Buenos Aires,10,Secretaria Administrativa,1000,Actividad Legislativa,1,Gastos En Personal,2,Personal Transitorio,7,Complementos,1,Comuna 1,1186008002,1186008002,184852400.0,184852400.0
2,1,Legislatura De La Ciudad De Buenos Aires,10,Secretaria Administrativa,1000,Actividad Legislativa,1,Gastos En Personal,4,Asignaciones Familiares,1,Personal Permanente,1,Comuna 1,1011189790,1011189790,138449600.0,138449600.0
3,1,Legislatura De La Ciudad De Buenos Aires,10,Secretaria Administrativa,1000,Actividad Legislativa,1,Gastos En Personal,4,Asignaciones Familiares,2,Personal Temporario,1,Comuna 1,1532672441,1532672441,220639100.0,220639100.0
4,1,Legislatura De La Ciudad De Buenos Aires,10,Secretaria Administrativa,1000,Actividad Legislativa,1,Gastos En Personal,5,Asistencia Social Al Personal,9,Asistencia Social Sin Discriminar,1,Comuna 1,65341879,65341879,9061205.0,9061205.0


In [None]:
df_filtrado.shape

(36931, 18)

In [None]:
# Filtro el DataFrame 'df_filtrado' para quedarme únicamente con las filas
# donde la columna 'Desc_UE' (descripción de la Unidad Ejecutora) contenga la palabra "Htal".
# Uso 'case=False' para que la búsqueda no distinga entre mayúsculas y minúsculas.
# Uso 'na=False' para evitar errores en caso de valores nulos.
df_hospitales = df_filtrado[df_filtrado['Desc_UE'].str.contains("Htal", case=False, na=False)]

# Muestro el resultado
df_hospitales.head()

Unnamed: 0,Jur,Desc_Jur,UE,Desc_UE,Act,Desc_Act,Inciso,Desc_Inc,Ppal,Desc_Ppal,Parc,Desc_Parc,Geo,Desc_Geo,Sanción,Vigente,Definitivo,Devengado
17875,40,Ministerio De Salud,410,Htal.Teodoro Alvarez,1000,Conduccion,1,Gastos En Personal,1,Personal Permanente,1,Retribución Del Cargo,7,Comuna 7,6716723379,6716723379,1542088000.0,1542088000.0
17876,40,Ministerio De Salud,410,Htal.Teodoro Alvarez,1000,Conduccion,1,Gastos En Personal,1,Personal Permanente,4,Sueldo Anual Complementario,7,Comuna 7,553446013,553446013,2416987.0,2416987.0
17877,40,Ministerio De Salud,410,Htal.Teodoro Alvarez,1000,Conduccion,1,Gastos En Personal,1,Personal Permanente,6,Contribuciones Patronales,7,Comuna 7,1757379035,1757379035,332785000.0,332785000.0
17878,40,Ministerio De Salud,410,Htal.Teodoro Alvarez,1000,Conduccion,1,Gastos En Personal,1,Personal Permanente,7,Complementos,7,Comuna 7,1213762287,1213762287,372024500.0,372024500.0
17879,40,Ministerio De Salud,410,Htal.Teodoro Alvarez,1000,Conduccion,1,Gastos En Personal,1,Personal Permanente,7,Complementos,7,Comuna 7,315486927,315486927,80604780.0,80604780.0


In [None]:
df_hospitales.shape

(3734, 18)

Dimensión Hospitales.

In [None]:
# Selecciono únicamente las columnas 'UE' (Unidad Ejecutora) y 'Desc_UE' (descripción de la Unidad Ejecutora)
# del DataFrame 'df_hospitales'.
# Estas columnas me van a servir para crear una dimensión de hospitales.
dim_hospitales = (df_hospitales[['UE', 'Desc_UE']]

                 # Elimino filas duplicadas para quedarme con una lista única de hospitales.
                 .drop_duplicates()

                 # Renombro las columnas para que tengan nombres más claros y consistentes.
                 .rename(columns={
                     'UE': 'Id_Hospital',   # Identificador único del hospital
                     'Desc_UE': 'Hospital'  # Nombre del hospital
                 }))

Dimensión Ubicaciones

In [None]:
# Selecciono las columnas 'UE' (Unidad Ejecutora), 'Geo' (código geográfico)
# y 'Desc_Geo' (descripción geográfica) del DataFrame 'df_hospitales'.
# Esto me permitirá crear una dimensión de ubicaciones.
dim_ubicaciones = (df_hospitales[['UE', 'Geo', 'Desc_Geo']]

                  # Elimino duplicados para que cada hospital tenga una única ubicación registrada.
                  .drop_duplicates()

                  # Renombro las columnas para que sean más descriptivas y consistentes.
                  .rename(columns={
                      'UE': 'Id_Hospital',     # Identificador del hospital
                      'Geo': 'Id_Comuna',      # Identificador de la comuna
                      'Desc_Geo': 'Comuna'     # Nombre de la comuna
                  }))

Dimensión Clasificadores

In [None]:
# Selecciono del DataFrame 'df_hospitales' las columnas relacionadas con la clasificación presupuestaria:
# 'Inciso', 'Principal' y 'Partida', junto con sus descripciones.
dim_clasificadores = (
    df_hospitales[['Inciso', 'Desc_Inc', 'Ppal', 'Desc_Ppal', 'Parc', 'Desc_Parc']]

    # Elimino filas duplicadas para quedarme con combinaciones únicas de clasificaciones.
    .drop_duplicates()

    # Renombro las columnas para que sean más claras y fáciles de usar en el modelo de datos.
    .rename(columns={
        'Inciso': 'Id_Inciso',           # Código de inciso
        'Desc_Inc': 'Inciso',            # Nombre/descripción del inciso
        'Ppal': 'Id_Principal',          # Código principal
        'Desc_Ppal': 'Principal',        # Nombre/descripción principal
        'Parc': 'Id_Partida',            # Código de partida
        'Desc_Parc': 'Partida'           # Nombre/descripción de la partida
    })

    # Agrego columnas calculadas:
    .assign(
        # Concateno los códigos de inciso, principal y partida en un formato "X.Y.Z" para tener
        # un clasificador completo legible.
        ClasificadorCompleto=lambda x:
            x['Id_Inciso'].astype(str) + '.' +
            x['Id_Principal'].astype(str) + '.' +
            x['Id_Partida'].astype(str),

        # Creo un identificador numérico único para cada combinación de inciso, principal y partida.
        Id_Clasificador=lambda x: x.groupby(['Id_Inciso', 'Id_Principal', 'Id_Partida']).ngroup() + 1
    )

    # Reordeno las columnas para que 'Id_Clasificador' y 'ClasificadorCompleto' aparezcan primero.
    [['Id_Clasificador', 'ClasificadorCompleto', 'Id_Inciso', 'Inciso',
      'Id_Principal', 'Principal', 'Id_Partida', 'Partida']]
)

Dimensión Actividades

In [None]:
# Primero creo la dimensión de actividades a partir del DataFrame 'df_hospitales'.
dim_actividades = (
    # Selecciono únicamente la columna 'Desc_Act' (descripción de la actividad).
    df_hospitales[['Desc_Act']]

    # Elimino filas donde 'Desc_Act' sea nulo, ya que no me interesan actividades sin nombre.
    .dropna(subset=['Desc_Act'])

    # Elimino filas duplicadas para quedarme con una lista única de actividades.
    .drop_duplicates()

    # Reinicio el índice para que sea consecutivo y limpio.
    .reset_index(drop=True)

    # Creo una nueva columna 'Id_Actividad' que asigna un identificador único a cada actividad.
    .assign(Id_Actividad=lambda x: (x.index + 1).astype(int))

    # Renombro la columna 'Desc_Act' a 'Actividad' para que sea más clara.
    .rename(columns={'Desc_Act': 'Actividad'})

    # Reordeno las columnas para que el identificador aparezca primero.
    [['Id_Actividad', 'Actividad']]
)

Tabla de hechos

In [None]:
# Creo un diccionario para mapear cada descripción de actividad ('Desc_Act') a su Id único ('Id_Actividad').
# Primero limpio nulos y duplicados, luego asigno un ID y convierto a diccionario.
actividad_to_id = (
    df_hospitales[['Desc_Act']]
    .dropna(subset=['Desc_Act'])
    .drop_duplicates()
    .reset_index(drop=True)
    .assign(Id_Actividad=lambda x: (x.index + 1).astype(int))
    .set_index('Desc_Act')['Id_Actividad']
    .to_dict()
)

# Creo un diccionario para mapear cada clasificador completo a su Id único,
# a partir de la tabla dimensión 'dim_clasificadores'.
clasificador_to_id = (
    dim_clasificadores[['ClasificadorCompleto', 'Id_Clasificador']]
    .drop_duplicates()
    .set_index('ClasificadorCompleto')['Id_Clasificador']
    .to_dict()
)

# Construyo la tabla de hechos 'fact_presupuesto' con los datos necesarios para análisis.
fact_presupuesto = (
    df_hospitales[['UE', 'Geo', 'Desc_Act', 'Inciso', 'Ppal', 'Parc',
                  'Sanción', 'Vigente', 'Definitivo', 'Devengado']]

    # Agrego la columna 'ClasificadorCompleto' concatenando los códigos de inciso, principal y partida.
    .assign(
        ClasificadorCompleto=lambda x:
            x['Inciso'].astype(str) + '.' +
            x['Ppal'].astype(str) + '.' +
            x['Parc'].astype(str),

        # Mapeo la columna 'ClasificadorCompleto' a su Id correspondiente.
        Id_Clasificador=lambda x: x['ClasificadorCompleto'].map(clasificador_to_id),

        # Mapeo la descripción de la actividad a su Id, puede haber valores nulos si no hay match.
        Id_Actividad=lambda x: x['Desc_Act'].map(actividad_to_id)
    )

    # Elimino filas donde no se haya podido asignar un Id de actividad válido.
    .dropna(subset=['Id_Actividad'])

    # Convierto 'Id_Actividad' a entero ahora que no quedan nulos.
    .astype({'Id_Actividad': 'int'})

    # Renombro columnas para que tengan nombres más claros y estandarizados.
    .rename(columns={
        'UE': 'Id_Hospital',
        'Geo': 'Id_Comuna',
        'Sanción': 'Sancionado',
        'Definitivo': 'Creditos_Definitivos',
        'Devengado': 'GastoDevengado'
    })

    # Selecciono solo las columnas necesarias para la tabla de hechos.
    [['Id_Hospital', 'Id_Comuna', 'Id_Actividad', 'Id_Clasificador',
      'Sancionado', 'Vigente', 'Creditos_Definitivos', 'GastoDevengado']]
)

Exporto en formato excel.

In [None]:
# Creo un escritor de Excel para exportar varias tablas a un mismo archivo
with pd.ExcelWriter('presupuesto_hospitales.xlsx') as writer:
    # Exporto la dimensión de hospitales a la hoja 'Hospitales', sin incluir índice
    dim_hospitales.to_excel(writer, sheet_name='Hospitales', index=False)

    # Exporto la dimensión de ubicaciones a la hoja 'Ubicaciones'
    dim_ubicaciones.to_excel(writer, sheet_name='Ubicaciones', index=False)

    # Exporto la dimensión de clasificadores a la hoja 'Clasificadores'
    dim_clasificadores.to_excel(writer, sheet_name='Clasificadores', index=False)

    # Exporto la dimensión de actividades a la hoja 'Actividades'
    dim_actividades.to_excel(writer, sheet_name='Actividades', index=False)

    # Exporto la tabla de hechos de presupuesto a la hoja 'Presupuesto'
    fact_presupuesto.to_excel(writer, sheet_name='Presupuesto', index=False)

# Confirmo que el archivo fue exportado correctamente
print("Archivo 'presupuesto_hospitales.xlsx' exportado correctamente.")

Archivo 'presupuesto_hospitales.xlsx' exportado correctamente.


### Dimensión Hospitales

| Nombre       | Tipo   | Descripción                                      |
|--------------|--------|-------------------------------------------------|
| Id_Hospital  | int | Código de la unidad ejecutora dentro del organismo.   |
| Hospital     | string | Descripción de la unidad ejecutora.                     |

---

### Dimensión Ubicaciones

| Nombre       | Tipo   | Descripción                                      |
|--------------|--------|-------------------------------------------------|
| Id_Hospital  | string | Código de la unidad ejecutora dentro del organismo.   |
| Id_Comuna    | string | Código de localización geográfica o comuna.            |
| Comuna       | string | Descripción de la localización geográfica.             |

---

### Dimensión Clasificadores

| Nombre          | Tipo   | Descripción                                                        |
|-----------------|--------|-------------------------------------------------------------------|
| Id_Clasificador | int    | Identificador único del clasificador presupuestario               |
| ClasificadorCompleto | string | Código jerárquico concatenado (Inciso.Principal.Partida)       |
| Id_Inciso       | string | Código de Inciso presupuestario (categoría general del gasto).   |
| Inciso          | string | Descripción del inciso.                                           |
| Id_Principal    | string | Código principal del gasto (subcategoría dentro del inciso).     |
| Principal       | string | Descripción del principal.                                       |
| Id_Partida      | string | Código de partida parcial.                                       |
| Partida         | string | Descripción de la partida parcial.                               |

---

### Dimensión Actividades

| Nombre       | Tipo   | Descripción                      |
|--------------|--------|---------------------------------|
| Id_Actividad | int    | Identificador único de actividad|
| Actividad    | string | Descripción de la actividad     |

---

### Tabla de Hechos Presupuesto

| Nombre             | Tipo   | Descripción                                                      |
|--------------------|--------|-----------------------------------------------------------------|
| Id_Hospital        | string | Código de la unidad ejecutora dentro del organismo.             |
| Id_Comuna          | string | Código de localización geográfica o comuna.                     |
| Id_Actividad       | int    | Identificador único de la actividad.                            |
| Id_Clasificador    | int    | Identificador único del clasificador presupuestario.           |
| Sancionado         | string | Monto aprobado por la Ley de Presupuesto (crédito sancionado).  |
| Vigente            | string | Monto actualizado del presupuesto al período vigente.           |
| Creditos_Definitivos | string | Crédito definitivo (puede ser igual a “vigente”).             |
| GastoDevengado     | string | Gasto efectivamente devengado (obligación contraída).           |
