In [27]:
import pandas as pd
import os

In [29]:
df = pd.read_excel("C:/Users/brent/Downloads/2025_diciembre.xlsx", header=None)
df.head(20)

Unnamed: 0,0,1,2,3,4,5,6,7
0,,,,,,,,DIRECCION NACIONAL
1,,,,,,,,DE INVESTIGACIONES
2,,,,,,,,Y ANALISIS FISCAL
3,,,,,,,,2026-01-02 00:00:00
4,RECAUDACION TRIBUTARIA. DICIEMBRE DE 2025. (1),,,,,,,
5,en millones de pesos,,,,,,,
6,,,,,,,,
7,,,,,,,,
8,,,,,,,,
9,,,,,,,,


In [31]:
df = pd.read_excel("C:/Users/brent/Downloads/2025_diciembre.xlsx", skiprows=12)
df.head()

Unnamed: 0,Concepto,Dic. '25,Dic. '24,Dic. '25 /,Nov.'25,Dic. '25 /.1,Ene-Dic '25,Ene.-Dic. '25 /
0,,,,Dic. '24,,Nov.'25,,Ene.-Dic. '24
1,,,,,,,,
2,,,,,,,,
3,Ganancias,3680713.0,2559543.0,43.80353,3355886.0,9.679308,37063170.0,42.175691
4,Ganancias DGI,3475808.0,2318569.0,49.911753,3157151.0,10.093183,34376380.0,45.349938


In [33]:
#Primero seleccionamos expl√≠citamente las columnas:
df = df[["Concepto", "Dic. '25"]]

In [35]:
#Eliminar filas con NaN en Concepto
df = df.dropna(subset=["Concepto"])

In [37]:
#PASO 3 ‚Äî (Opcional pero recomendado) Resetear √≠ndice
df = df.reset_index(drop=True)
df.head()

Unnamed: 0,Concepto,Dic. '25
0,Ganancias,3680713.0
1,Ganancias DGI,3475808.0
2,Ganancias DGA,204905.5
3,IVA,5436360.0
4,IVA DGI,3781674.0


In [39]:
#PASO 4 ‚Äî (Clave para el proyecto) Renombrar columnas
df = df.rename(columns={
    "Concepto": "impuesto",
    "Dic. '25": "recaudacion_dic_2025"
})
df.head()

Unnamed: 0,impuesto,recaudacion_dic_2025
0,Ganancias,3680713.0
1,Ganancias DGI,3475808.0
2,Ganancias DGA,204905.5
3,IVA,5436360.0
4,IVA DGI,3781674.0


In [67]:
#Automatizar

In [53]:
def procesar_recaudacion_mensual(path_archivo, anio, nombre_mes):
    df = pd.read_excel(path_archivo, skiprows=12)
    
    # Nos quedamos solo con las columnas relevantes
    df = df[["Concepto", df.columns[1]]]
    
    # Eliminamos filas basura
    df = df.dropna(subset=["Concepto"]).reset_index(drop=True)
    
    # Renombramos columnas
    df.columns = ["impuesto", "recaudacion"]
    
    # Agregamos metadatos
    df["anio"] = anio
    df["mes"] = nombre_mes
    
    return df

In [55]:
ruta_carpeta = "C:/Users/brent/Downloads/2025"

dataframes = []

for archivo in os.listdir(ruta_carpeta):
    if archivo.endswith(".xlsx"):
        nombre_mes = archivo.split("_")[1].replace(".xlsx", "")
        path = os.path.join(ruta_carpeta, archivo)
        
        df_mes = procesar_recaudacion_mensual(
            path_archivo=path,
            anio=2025,
            nombre_mes=nombre_mes
        )
        
        dataframes.append(df_mes)


In [87]:
#PASO 1 ‚Äî Concatenar primero
df_2025 = pd.concat(dataframes, ignore_index=True)
df_2025.head()

Unnamed: 0,impuesto,recaudacion,anio,mes
0,Ganancias,2450379.0,2025,abril
1,Ganancias DGI,2250668.0,2025,abril
2,Ganancias DGA,199711.1,2025,abril
3,IVA,4714093.0,2025,abril
4,IVA DGI,3307419.0,2025,abril


In [89]:
# Podemos llevarlo a anula
df_anual = (
    df_2025
    .groupby(["anio", "impuesto"], as_index=False)
    .agg({"recaudacion": "sum"})
)

In [91]:
#PASO 2 ‚Äî Asegurar que recaudacion sea num√©rica
df_2025["recaudacion"] = pd.to_numeric(
    df_2025["recaudacion"],
    errors="coerce"
)

In [93]:
#PASO 3 ‚Äî rellenar las filas sin recaudacion con 0
df_2025["recaudacion"] = df_2025["recaudacion"].fillna(0)

In [95]:
#PASO 4 ‚Äî Convertir a entero (pesos)
df_2025["recaudacion"] = df_2025["recaudacion"].astype(int)

In [97]:
#PASO 5 ‚Äî Formato visual (opcional)
pd.options.display.float_format = '{:,.0f}'.format

In [99]:
#Resultado esperado
df_2025.head()

Unnamed: 0,impuesto,recaudacion,anio,mes
0,Ganancias,2450378,2025,abril
1,Ganancias DGI,2250667,2025,abril
2,Ganancias DGA,199711,2025,abril
3,IVA,4714092,2025,abril
4,IVA DGI,3307418,2025,abril


In [101]:
 #Recaudaci√≥n anual por impuesto (2025)
df_recaudacion_2025 = (
    df_2025
    .groupby(["anio","mes", "impuesto"], as_index=False)
    .agg({"recaudacion": "sum"})
)

df_recaudacion_2025.head()

Unnamed: 0,anio,mes,impuesto,recaudacion
0,2025,abril,el impuesto sobre Pasajes A√©reos y ...,0
1,2025,abril,"30% (F. de Int. Socio Urbana, Obras d...",0
2,2025,abril,"30% de Monotributo impositivo, 10,4% ...",0
3,2025,abril,"6,27% del 11% IVA neto de Reintegros;...",0
4,2025,abril,Devoluciones (-),60000


In [103]:
 #Paso 1.1 ‚Äî Normalizar nombres de impuestos
def normalizar_impuesto(nombre):
    nombre = nombre.upper()
    if "IVA" in nombre:
        return "IVA"
    elif "GANANCIAS" in nombre:
        return "GANANCIAS"
    elif "TOTAL" in nombre:
        return "TOTAL"
    else:
        return None

In [105]:
df_2025["impuesto_std"] = df_2025["impuesto"].apply(normalizar_impuesto)

In [107]:
 #Paso 1.2 ‚Äî Filtrar solo los que nos interesan
df_2025_filtrado = df_2025[
    df_2025["impuesto_std"].isin(["IVA", "GANANCIAS", "TOTAL"])
]

In [109]:
 #sumamos todos los meses por impuesto.
df_recaudacion_anual_2025 = (
    df_2025_filtrado
    .groupby(["anio", "impuesto_std"], as_index=False)
    .agg({"recaudacion": "sum"})
)

In [111]:
#Renombramos columnas para que queden dataset-ready:
df_recaudacion_anual_2025 = df_recaudacion_anual_2025.rename(columns={
    "impuesto_std": "impuesto",
    "recaudacion": "recaudacion_pesos"
})

In [113]:
df_recaudacion_anual_2025.head()

Unnamed: 0,anio,impuesto,recaudacion_pesos
0,2025,GANANCIAS,67570426
1,2025,IVA,111540718
2,2025,TOTAL,421474577


In [121]:
#Exportar dataset final tributario - CSV (recomendado para dataset)
df_recaudacion_anual_2025.to_csv(
    "C:/Users/brent/Downloads/recaudacion_tributaria_anual_2025.csv",
    index=False
)

In [179]:
# Armado de Pipelines
#Funci√≥n: procesar un A√ëO completo (reutilizable)
def procesar_recaudacion_anual(ruta_anio, anio):
    dfs_mensuales = []

    for archivo in os.listdir(ruta_anio):
        if not archivo.endswith(".xlsx"):
            continue

        nombre_mes = archivo.replace(".xlsx", "").split("_")[-1]
        path = os.path.join(ruta_anio, archivo)

        try:
            df = pd.read_excel(path, skiprows=12)

            # Normalizar columnas
            df.columns = (
                df.columns
                .astype(str)
                .str.strip()
                .str.lower()
            )

            # ---- detectar columna de impuesto ----
            posibles_conceptos = [c for c in df.columns if "concepto" in c or "impuesto" in c or "detalle" in c]

            if len(posibles_conceptos) > 0:
                col_impuesto = posibles_conceptos[0]
            else:
                # fallback: primera columna
                col_impuesto = df.columns[0]

            # ---- detectar columna de recaudaci√≥n ----
            col_recaudacion = df.columns[1]

            df = df[[col_impuesto, col_recaudacion]]
            df.columns = ["impuesto", "recaudacion"]

            # Limpieza
            df = df.dropna(subset=["impuesto"])
            df["recaudacion"] = df["recaudacion"].fillna(0)

            # Metadatos
            df["anio"] = anio
            df["mes"] = nombre_mes

            dfs_mensuales.append(df)

        except Exception as e:
            print(f"‚ö†Ô∏è Error en {anio} - {archivo}: {e}")

    if len(dfs_mensuales) == 0:
        return pd.DataFrame()

    return pd.concat(dfs_mensuales, ignore_index=True)


In [181]:
ruta_base = "C:/Users/brent/Downloads/recaudacion"
dfs_anuales = []

for anio in range(2020, 2026):
    ruta_anio = os.path.join(ruta_base, str(anio))

    df_anio = procesar_recaudacion_anual(
        ruta_anio=ruta_anio,
        anio=anio
    )

    # üëá Control de DataFrames vac√≠os
    if not df_anio.empty:
        dfs_anuales.append(df_anio)
    else:
        print(f"‚ö†Ô∏è A√±o {anio} sin datos v√°lidos")

# -------------------------------
# Dataset final integrado
# -------------------------------
df_total = pd.concat(dfs_anuales, ignore_index=True)

‚ö†Ô∏è A√±o 2022 sin datos v√°lidos


In [183]:
df_recaudacion_2020_2025 = pd.concat(
    dfs_anuales,
    ignore_index=True
)

In [187]:
df_recaudacion_2020_2025.info()
df_recaudacion_2020_2025.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1815 entries, 0 to 1814
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   impuesto     1815 non-null   object 
 1   recaudacion  1815 non-null   float64
 2   anio         1815 non-null   int64  
 3   mes          1815 non-null   object 
dtypes: float64(1), int64(1), object(2)
memory usage: 56.8+ KB


Unnamed: 0,impuesto,recaudacion,anio,mes
0,Ganancias,141115,2020,agosto
1,Ganancias DGI,133110,2020,agosto
2,Ganancias DGA,8006,2020,agosto
3,IVA,157977,2020,agosto
4,IVA DGI,107903,2020,agosto


In [203]:
#Paso de estandarizaci√≥n
df = df_recaudacion_2020_2025.copy()

df["impuesto_std"] = (
    df["impuesto"]
    .astype(str)     # seguridad extra
    .str.upper()
    .str.strip()
)

df.loc[df["impuesto_std"].str.contains("IVA", na=False), "impuesto_std"] = "IVA"
df.loc[df["impuesto_std"].str.contains("GANAN", na=False), "impuesto_std"] = "GANANCIAS"
df.loc[df["impuesto_std"].str.contains("TOTAL", na=False), "impuesto_std"] = "TOTAL"

In [209]:
#Filtrar IVA + Ganancias + Total
df_filtrado = df[
    df["impuesto_std"].isin(["IVA", "GANANCIAS", "TOTAL"])
].copy()

In [211]:
#Control rapido
df_filtrado["impuesto_std"].value_counts()

impuesto_std
TOTAL        221
IVA          195
GANANCIAS    117
Name: count, dtype: int64

In [213]:
#Consolidar recaudaci√≥n por a√±o e impuesto
df_consolidado = (
    df_filtrado
    .groupby(["anio", "impuesto_std"], as_index=False)
    .agg(
        recaudacion_total=("recaudacion", "sum")
    )
    .sort_values(["anio", "impuesto_std"])
)

In [215]:
df_consolidado.head()

Unnamed: 0,anio,impuesto_std,recaudacion_total
0,2020,GANANCIAS,1302738
1,2020,IVA,1604043
2,2020,TOTAL,7607538
3,2021,GANANCIAS,580851
4,2021,IVA,971244


In [219]:
#Exportar (cuando confirmes que est√° bien)
df_consolidado.to_csv(
    "C:/Users/brent/Downloads/recaudacion_iva_ganancias_total_2020_2025.csv",
    index=False,
    encoding="utf-8-sig"
)