# Imports & Database

In [294]:
import pandas as pd
import logging
import os

from functions import post, parse, nuevos_avisos, guardar_avisos, descargar_pdf
#from NLP import extraer_texto_pdf, resumir_texto

In [295]:
palabras_clave = {'energía','energético'}

In [296]:
# Cargar la base de datos existente
database = pd.read_excel('database.xlsx')
database = database.drop(index=database.index)

# Logger

In [297]:
# Configurar logger
logging.basicConfig(
    filename='boletin_errors.log',
    level=logging.INFO,
    format='%(asctime)s [%(levelname)s] %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S'
)

In [298]:
avisos_totales = []
for palabra in palabras_clave :
    try:
        response = post(palabra)
        if response.status_code == 200:
            datos = response.json()
            avisos_totales.extend(parse(datos))
        else:
            logging.warning(f"Error al buscar '{palabra}': Código {response.status_code}")
    except Exception as e:
        logging.error(f"Fallo la búsqueda para '{palabra}': {e}")

In [299]:
if avisos_totales is not None:
    df_nuevos_avisos = nuevos_avisos(avisos_totales, database)

In [300]:
# from PyPDF2 import PdfReader
# from transformers import pipeline

# def resumir_pdf(path_pdf):
#     # Leer texto del PDF
#     reader = PdfReader(path_pdf)
#     texto = ""
#     for page in reader.pages:
#         texto += page.extract_text()
    
#     # Inicializar modelo de resumen
#     summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

#     # Dividir texto en partes si es necesario
#     max_chunk = 1024
#     chunks = [texto[i:i+max_chunk] for i in range(0, len(texto), max_chunk)]
#     print (chunks)
#     resumen = ""

#     for chunk in chunks:
#         resumen += summarizer(chunk, max_length=250, min_length=100, do_sample=False)[0]['summary_text'] + "\n"

#     return resumen.strip()

In [301]:
# import requests
# from PyPDF2 import PdfReader

# def dividir_en_chunks(texto, max_palabras=200):
#     palabras = texto.split()
#     return [" ".join(palabras[i:i + max_palabras]) for i in range(0, len(palabras), max_palabras)]

# def resumir_con_bart(texto, hf_token):
#     if len(texto.strip()) < 50:
#         raise ValueError("Chunk demasiado corto para resumir.")
    
#     api_url = "https://api-inference.huggingface.co/models/facebook/bart-large-cnn"
    
#     headers = {"Authorization": f"Bearer {"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"}"}
#     payload = {"inputs": texto}
#     response = requests.post(api_url, headers=headers, json=payload)
    
#     if response.status_code == 200:
#         return response.json()[0]['summary_text']
#     else:
#         raise Exception(f"[Resumen] Error {response.status_code}: {response.text}")

# def traducir_al_espanol(texto, hf_token):
#     url = "https://api-inference.huggingface.co/models/Helsinki-NLP/opus-mt-en-es"
#     headers = {"Authorization": f"Bearer {hf_token}"}
#     payload = {"inputs": texto}
#     response = requests.post(url, headers=headers, json=payload)
#     if response.status_code == 200:
#         return response.json()[0]['translation_text']
#     else:
#         raise Exception(f"[Traducción] Error {response.status_code}: {response.text}")

# def resumen_partes_pdf_traducido(path_pdf, hf_token):
#     # Leer PDF
#     reader = PdfReader(path_pdf)
#     texto = ""
#     for page in reader.pages:
#         page_text = page.extract_text()
#         if page_text:
#             texto += page_text + "\n"

#     texto = texto.upper()
#     inicio_considerando = texto.find("CONSIDERANDO")
#     inicio_resuelve = texto.find("RESUELVE")

#     if inicio_considerando == -1 or inicio_resuelve == -1:
#         raise ValueError("No se encontraron las secciones CONSIDERANDO y/o RESUELVE.")

#     considerandos = texto[inicio_considerando:inicio_resuelve].strip()
#     resuelve = texto[inicio_resuelve:].strip()

#     partes_considerando = [chunk for chunk in dividir_en_chunks(considerandos) if len(chunk.strip()) >= 50]
#     partes_resuelve = [chunk for chunk in dividir_en_chunks(resuelve) if len(chunk.strip()) >= 50]


#     resumen_considerando = "\n".join([
#         traducir_al_espanol(resumir_con_bart(chunk, hf_token), hf_token)
#         for chunk in partes_considerando
#         if len(chunk.strip().split()) >= 30
#     ])
#     resumen_resuelve = "\n".join([
#         traducir_al_espanol(resumir_con_bart(chunk, hf_token), hf_token)
#         for chunk in partes_resuelve
#     ])

#     return {
#         "considerandos": resumen_considerando.strip(),
#         "resuelve": resumen_resuelve.strip()
#     }


In [302]:
import pdfplumber
import re


def extraer_texto_pdf(path_pdf, guardar_txt=None, margen_sup=80, margen_inf=80):
    """
    Extrae texto de un PDF oficial, separando:
    - CONSIDERANDO: por punto y salto de línea.
    - RESUELVE: por cada ARTÍCULO.
    """

    texto_crudo = ""

    # Extraer texto recortando encabezado y pie
    with pdfplumber.open(path_pdf) as pdf:
        for page in pdf.pages:
            altura = page.height
            area_util = page.within_bbox((0, margen_sup, page.width, altura - margen_inf))
            texto_pagina = area_util.extract_text()
            if texto_pagina:
                texto_crudo += texto_pagina + "\n"

    # Normalizar espacios y saltos
    texto_crudo = re.sub(r'[ \t]+', ' ', texto_crudo)
    texto_crudo = re.sub(r'\n+', '\n', texto_crudo).strip()

    # Buscar las secciones CONSIDERANDO y RESUELVE
    match_considerando = re.search(r'CONSIDERANDO:', texto_crudo, re.IGNORECASE)
    match_resuelve = re.search(r'RESUELVE:', texto_crudo, re.IGNORECASE)

    if not match_considerando or not match_resuelve:
        raise ValueError("No se encontraron ambas secciones 'CONSIDERANDO' y 'RESUELVE'.")

    # Dividir texto en tres partes: preconsiderandos (opcional), considerando, resuelve
    texto_considerando = texto_crudo[match_considerando.end():match_resuelve.start()].strip()
    texto_resuelve = texto_crudo[match_resuelve.end():].strip()

    # === Procesar CONSIDERANDO ===
    # Unir líneas, cortar por punto seguido de salto de línea
    texto_considerando = re.sub(r'\n', ' ', texto_considerando)
    considerando_parrafos = re.split(r'\.\s+', texto_considerando)
    considerando_parrafos = [p.strip() + '.' for p in considerando_parrafos if p.strip()]

    # === Procesar RESUELVE ===
    # Separar por artículos
    articulos = re.split(r'\b(ART[IÍ]CULO\s+\d+°?)', texto_resuelve)
    articulos_limpios = []
    for i in range(1, len(articulos), 2):  # saltamos de a 2: etiqueta y contenido
        etiqueta = articulos[i].strip()
        contenido = articulos[i + 1].strip().replace('\n', ' ')
        articulos_limpios.append(f"{etiqueta} {contenido}")

    # Consolidar texto final
    texto_final = "CONSIDERANDO:\n\n" + "\n\n".join(considerando_parrafos)
    texto_final += "\n\n\nRESUELVE:\n\n" + "\n\n".join(articulos_limpios)

    # Guardar en .txt si se solicita
    if guardar_txt:
        with open(guardar_txt, "w", encoding="utf-8") as f:
            f.write(texto_final)

    return texto_final


In [303]:
import requests
import os



def resumir_con_gpt4(texto, seccion, modelo="gpt-3.5-turbo"):

    API_KEY = "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"
    CHATGPT_URL = "https://api.openai.com/v1/chat/completions"

    headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
    }
    
    prompt = (
        f"Este es el contenido de la sección '{seccion}' de una resolución oficial argentina:\n\n"
        f"{texto}\n\n"
        f"Por favor, redactá un resumen claro, conciso y formal en 5 a 8 líneas."
    )

    payload = {
        "model": modelo,
        "messages": [
            {"role": "system", "content": "Sos un asistente jurídico especializado en documentos oficiales."},
            {"role": "user", "content": prompt}
        ],
        "temperature": 0.4,
        "max_tokens": 500
    }

    response = requests.post(CHATGPT_URL, headers=headers, json=payload)

    if response.status_code == 200:
        return response.json()["choices"][0]["message"]["content"].strip()
    else:
        raise Exception(f"Error {response.status_code}: {response.text}")

In [304]:
if not df_nuevos_avisos.empty:
    guardar_avisos(df_nuevos_avisos,database)
    for index, row in df_nuevos_avisos.iterrows():
        link_aviso = row['Link']
        resolucion = row['Resolución']

        ruta_completa = descargar_pdf(link_aviso,resolucion)
        texto = extraer_texto_pdf(ruta_completa, guardar_txt="salida.txt")

        #print(texto)
        # hf_token = "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" 
        # match_considerando = re.search(r'CONSIDERANDO(.*?)(RESUELVE|ARTÍCULO\s+\d+)', texto, re.DOTALL)
        # match_resuelve = re.search(r'RESUELVE(.*)', texto, re.DOTALL)

        # considerando = match_considerando.group(1).strip() if match_considerando else ""
        # resuelve = match_resuelve.group(1).strip() if match_resuelve else ""

        # resumen_considerando = resumir_con_gpt4(considerando, "CONSIDERANDO")
        # print(resumen_considerando)
        



        # #resumen = resumen_partes_pdf_espanol(ruta_completa, hf_token)
        # # resumen = resumen_desde_huggingface(ruta_completa)
        # resumen = resumen_partes_pdf_traducido(ruta_completa, hf_token)
        # print(resumen)
        break
        # df_avisos.at[index, "Resumen"] = resumen
