In [2]:
# notebooks/01_Download_Process_Speeches
import os
import sys
import logging

# Configuración del entorno del notebook
notebook_dir = os.path.dirname(os.path.abspath("__file__"))
project_root = os.path.dirname(notebook_dir)

# Añadir el directorio raíz del proyecto a sys.path para importaciones
if project_root not in sys.path:
    sys.path.insert(0, project_root)

from initialize import set_global_logging
from config import TEXT_DIRECTORY, XLSX_DIRECTORY, PDF_DIRECTORY
from utils.file_utils import (
    initialize_blob_client,
    download_all_pdf_files_from_pdf_directory,
    process_pdfs_in_directory_to_txt,
    save_data_to_excel,
)
from utils.text_processing_utils import process_speeches

# Configurar logging globalmente
set_global_logging()


# Proceso principal
def main():
    # Inicializar cliente de Azure Blob Storage
    blob_client = initialize_blob_client()

    # Descargar archivos PDF desde Azure Blob Storage
    logging.info("Iniciando descarga de archivos PDF...")
    download_all_pdf_files_from_pdf_directory(blob_client)

    # Procesar archivos PDF y guardar textos
    logging.info("Procesando archivos PDF y guardando textos...")
    process_pdfs_in_directory_to_txt(PDF_DIRECTORY, TEXT_DIRECTORY)

    # Procesar discursos y guardar la información en Excel
    logging.info("Procesando discursos y guardando información en Excel...")
    speech_data = process_speeches(TEXT_DIRECTORY)
    save_data_to_excel(speech_data, XLSX_DIRECTORY, "speech.xlsx")


# Ejecutar el proceso principal
if __name__ == "__main__":
    main()

2024-01-28 22:15:10,914 - INFO - Iniciando descarga de archivos PDF...
2024-01-28 22:15:12,176 - INFO - Existing files skipped: ['Argentina_2022_Alberto_Fernandez.pdf', 'Argentina_2023_Javier_Milei.pdf', 'Bolivia_2017_Evo_Morales.pdf', 'Bolivia_2018_Evo_Morales.pdf', 'Bolivia_2019_Evo_Morales.pdf', 'Bolivia_2020_Jeanine_Añez.pdf', 'Bolivia_2021_Luis_Arce.pdf', 'Bolivia_2022_Luis_Arce.pdf', 'Bolivia_2023_Luis_Arce.pdf', 'Chile_2019_Sebastián_Piñera.pdf', 'Chile_2021_Sebastián_Piñera.pdf', 'Chile_2022_Gabriel_Boric.pdf', 'Colombia_2002_Andres_Pastrana.pdf', 'Colombia_2010_Alvaro_Uribe.pdf', 'Colombia_2019_Ivan_Duque.pdf', 'Colombia_2021_Ivan_Duque.pdf', 'Colombia_2022_Gustavo_Petro.pdf', 'Ecuador_2023_Daniel_Noboa.pdf', 'Paraguay_2018_Mario_Benítez.pdf', 'Peru_1990_Alberto_Fujimori.pdf', 'Peru_1991_Alberto_Fujimori.pdf', 'Peru_1992_Alberto_Fujimori.pdf', 'Peru_1993_Alberto_Fujimori.pdf', 'Peru_1994_Alberto_Fujimori.pdf', 'Peru_1995_Alberto_Fujimori.pdf', 'Peru_2004_Alejandro_Toledo.pdf',

In [None]:
# Instalaciones requeridas
# pip install azure-storage-blob