In [2]:
# notebooks/01_Download_Process_Speeches
# Importaciones
import os
import sys
import logging  # Importa logging

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)

# Añadir el directorio raíz del proyecto a sys.path para importaciones
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from initialize import set_global_logging  # Importa la función de configuración de logging global
from config import TEXT_DIRECTORY, XLSX_DIRECTORY, PDF_DIRECTORY
from utils.file_utils import (
    initialize_blob_client,
    download_all_pdf_files_from_pdf_directory,
    process_pdfs_in_directory,
    save_data_to_excel,
)
from utils.text_processing_utils import process_speeches

# Configurar logging globalmente
set_global_logging()

# Proceso principal
def main():
    # Inicializar cliente de Azure Blob Storage
    blob_client = initialize_blob_client()

    # Descargar archivos PDF desde Azure Blob Storage
    logging.info("Iniciando descarga de archivos PDF...")
    download_all_pdf_files_from_pdf_directory(blob_client)

    # Procesar archivos PDF y guardar textos
    logging.info("Procesando archivos PDF y guardando textos...")
    process_pdfs_in_directory(PDF_DIRECTORY, TEXT_DIRECTORY)

    # Procesar discursos y guardar la información en Excel
    logging.info("Procesando discursos y guardando información en Excel...")
    speech_data = process_speeches(TEXT_DIRECTORY)
    save_data_to_excel(speech_data, XLSX_DIRECTORY, "speech.xlsx")


# Ejecutar el proceso principal
if __name__ == "__main__":
    main()

2024-01-02 10:10:00,770 - INFO - Iniciando descarga de archivos PDF...
2024-01-02 10:10:01,702 - INFO - Existing files skipped: ['Argentina_2022_Alberto_Fernandez.pdf', 'Argentina_2023_Javier_Milei.pdf', 'Colombia_2021_Ivan_Duque.pdf', 'Colombia_2022_Gustavo_Petro.pdf', 'Peru_2014_Ollanta_Humala.pdf', 'Peru_2015_Ollanta_Humala.pdf', 'Peru_2016_Pedro_Kuczynski.pdf', 'Peru_2017_Pedro_Kuczynski.pdf', 'Peru_2018_Martin_Vizcarra.pdf', 'Peru_2019_Martin_Vizcarra.pdf', 'Peru_2020_Martin_Vizcarra.pdf', 'Peru_2021_Pedro_Castillo.pdf', 'Peru_2022_Pedro_Castillo.pdf', 'Peru_2023_Dina_Boluarte.pdf']
2024-01-02 10:10:01,703 - INFO - Procesando archivos PDF y guardando textos...
2024-01-02 10:10:01,704 - INFO - Existing text files skipped: ['Argentina_2022_Alberto_Fernandez.txt', 'Argentina_2023_Javier_Milei.txt', 'Colombia_2021_Ivan_Duque.txt', 'Colombia_2022_Gustavo_Petro.txt', 'Peru_2014_Ollanta_Humala.txt', 'Peru_2015_Ollanta_Humala.txt', 'Peru_2016_Pedro_Kuczynski.txt', 'Peru_2017_Pedro_Kuczyns

In [None]:
# Instalaciones requeridas
# pip install azure-storage-blob