In [None]:
import re
import os
import glob
from docx import Document

def get_docx_text(docx_file):
    """
    Lee el contenido completo de un archivo DOCX y lo devuelve como un string.
    """
    document = Document(docx_file)
    textos = [para.text for para in document.paragraphs]
    return "\n".join(textos)

def split_noticias_docx(input_file):
    """
    Lee un archivo DOCX, separa las noticias usando el delimitador 'NOTICIA [Número]',
    y crea un archivo DOCX independiente para cada noticia.
    """
    contenido = get_docx_text(input_file)

    bloques = re.split(r'(?=NOTICIA\s+\d+)', contenido)
    
    if bloques and bloques[0].strip() == "":
        bloques.pop(0)
    
    base_name = os.path.splitext(os.path.basename(input_file))[0]
    
    for bloque in bloques:
        match = re.search(r'NOTICIA\s+(\d+)', bloque)
        if match:
            numero = match.group(1)
        else:
            numero = "desconocido"
        
        doc = Document()
        doc.add_paragraph(bloque.strip())
        
        nombre_archivo = f"{base_name}_Noticia_{numero}.docx"
        doc.save(nombre_archivo)
        print(f"Guardado: {nombre_archivo}")

def main():
    """
    Función principal que procesa todos los archivos DOCX ubicados en la carpeta 'noticias'.
    """
    carpeta = "/projects/AnalizadorNoticiasPruebaModelos/data/Noticias sin procesar"
    
    archivos = glob.glob(os.path.join(carpeta, "*.docx"))
    
    if not archivos:
        print(f"No se encontraron archivos .docx en la carpeta '{carpeta}'.")
        return
    
    for archivo in archivos:
        print(f"Procesando {archivo}...")
        split_noticias_docx(archivo)

if __name__ == "__main__":
    main()


Procesando /projects/AnalizadorNoticiasPruebaModelos/data/Noticias sin procesar/Noticias_Almerimar_I.docx...
Guardado: Noticias_Almerimar_I_Noticia_desconocido.docx
Guardado: Noticias_Almerimar_I_Noticia_1.docx
Guardado: Noticias_Almerimar_I_Noticia_2.docx
Guardado: Noticias_Almerimar_I_Noticia_3.docx
Guardado: Noticias_Almerimar_I_Noticia_4.docx
Guardado: Noticias_Almerimar_I_Noticia_5.docx
Procesando /projects/AnalizadorNoticiasPruebaModelos/data/Noticias sin procesar/Noticias_Almerimar_II.docx...
Guardado: Noticias_Almerimar_II_Noticia_desconocido.docx
Guardado: Noticias_Almerimar_II_Noticia_6.docx
Guardado: Noticias_Almerimar_II_Noticia_7.docx
Guardado: Noticias_Almerimar_II_Noticia_8.docx
Guardado: Noticias_Almerimar_II_Noticia_9.docx
Guardado: Noticias_Almerimar_II_Noticia_10.docx
Procesando /projects/AnalizadorNoticiasPruebaModelos/data/Noticias sin procesar/Noticias_Almerimar_III.docx...
Guardado: Noticias_Almerimar_III_Noticia_desconocido.docx
Guardado: Noticias_Almerimar_III_