In [1]:
import pandas as pd
import numpy as np
import requests
import camelot
import logging

In [14]:

# Configuración de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def descargar_pdf(url, ruta_archivo):
    """
    Descarga el archivo PDF desde la URL proporcionada.
    
    Args:
        url (str): URL del archivo PDF.
        ruta_archivo (str): Ruta donde se guardará el archivo PDF.
    
    Returns:
        bool: True si la descarga fue exitosa, False de lo contrario.
    """
    try:
        response = requests.get(url)
        response.raise_for_status()  # Verifica si la respuesta fue exitosa
        with open(ruta_archivo, "wb") as f:
            f.write(response.content)
        logging.info(f"Archivo PDF descargado correctamente en {ruta_archivo}")
        return True
    except requests.RequestException as e:
        logging.error(f"Error al descargar el archivo PDF: {e}")
        return False


def extraer_tablas_de_pdf(ruta_archivo, pages, row):
    """
    Extrae las tablas del archivo PDF utilizando camelot.
    
    Args:
        ruta_archivo (str): Ruta del archivo PDF.
        pages (str): Páginas a considerar.
        row (str): Filas a considerar.
    
    Returns:
        pd.DataFrame: DataFrame con las tablas extraídas.
    """
    try:
        tablas = camelot.read_pdf(ruta_archivo, flavor='stream', pages=pages, row=row)
        df_ingresos = pd.concat([tabla.df for tabla in tablas], ignore_index=True)
        logging.info(f"Tablas extraídas correctamente del archivo PDF")
        return df_ingresos
    except Exception as e:
        logging.error(f"Error al extraer las tablas del archivo PDF: {e}")
        return None


def main():
    url_pdf = "http://datos.jesusmaria.gov.ar/dataset/c94d3a3b-2deb-4ff7-92f7-8570b485ff6a/resource/2ec95fa1-d128-41bd-9aca-59701b3be2fb/download/ingresomarzo2023.pdf" # Agrega aquí la ruta donde se encuentra tu archivo PDF
    ruta_archivo = "IngresosMar23.pdf" # Selecciona un nombre para tu archivo PDF
    pages = "all"
    row = "7-end"

    if descargar_pdf(url_pdf, ruta_archivo):
        df_ingresos = extraer_tablas_de_pdf(ruta_archivo, pages, row)
        if df_ingresos is not None:
            logging.info(f"Resultado:{df_ingresos}/n")
            df_ingresos.to_excel("IngresosMar23.xlsx", index=False)
            logging.info("Archivo Pdf convertido a Excel correctamente")
        else:
            logging.error(f"No se pudieron extraer las tablas del archivo PDF")
    else:
        logging.error(f"No se pudo descargar el archivo PDF")


if __name__ == "__main__":
    main()

2024-10-11 12:11:43,240 - INFO - Archivo PDF descargado correctamente en IngresosMar23.pdf
2024-10-11T12:11:44 - INFO - Processing page-1
2024-10-11 12:11:44,952 - INFO - Processing page-1
2024-10-11T12:11:45 - INFO - Processing page-2
2024-10-11 12:11:45,704 - INFO - Processing page-2
2024-10-11T12:11:46 - INFO - Processing page-3
2024-10-11 12:11:46,399 - INFO - Processing page-3
2024-10-11T12:11:47 - INFO - Processing page-4
2024-10-11 12:11:47,083 - INFO - Processing page-4
2024-10-11T12:11:47 - INFO - Processing page-5
2024-10-11 12:11:47,658 - INFO - Processing page-5
2024-10-11 12:11:47,724 - INFO - Tablas extraídas correctamente del archivo PDF
2024-10-11 12:11:47,731 - INFO - Resultado:             0                                          1      2  \
0       CUENTA                                   CONCEPTO          
1                                                                  
2            1                 PT     INGRESOS CORRIENTES          
3          1.1  PT     I