# TEST DEL PROYECTO

In [1]:
import fitz  # PyMuPDF
import re
import os
import joblib
import string
import unicodedata
from nltk.corpus import stopwords
import warnings

warnings.filterwarnings("ignore", category=FutureWarning, module='nltk')

def extraer_texto_de_pdf(ruta_pdf):
    """Extrae el texto de un archivo PDF preservando los bloques."""
    try:
        with fitz.open(ruta_pdf) as doc:
            texto_completo = ""
            for pagina in doc:
                bloques = pagina.get_text("blocks", sort=True)
                for b in bloques:
                    texto_completo += b[4]
        return texto_completo
    except Exception as e:
        print(f"  - ERROR al leer el archivo {os.path.basename(ruta_pdf)}: {e}")
        return ""

def extraer_cuerpo_informe(texto_completo):
    """
    Aísla el cuerpo principal del informe de forma más flexible.
    """
    # \s* significa "cero o más espacios en blanco"
    
    # ▼▼▼ LÍNEAS MODIFICADAS ▼▼▼
    marcador_inicio_primario = r"\\bExamen\\s*:" 
    marcador_inicio_secundario = r"Fecha Examen" # Esta es menos propensa a errores
    marcador_fin_cuerpo = r"Dr(\\(a\\))?\\s*\\.|\\bAtentamente\\b|\\bAtte\\.\\b"

    # --- El resto de la función no necesita cambios ---
    match_inicio = re.search(marcador_inicio_primario, texto_completo, re.IGNORECASE)
    if not match_inicio:
        match_inicio = re.search(marcador_inicio_secundario, texto_completo, re.IGNORECASE)
    
    match_fin = re.search(marcador_fin_cuerpo, texto_completo, re.IGNORECASE)

    if match_inicio and match_fin:
        # Si encuentra los marcadores, la advertencia NO aparecerá
        return texto_completo[match_inicio.start():match_fin.start()]
    else:
        # Esta advertencia aparecerá si aún así no los encuentra
        print(f"  - ADVERTENCIA: Marcadores de inicio/fin no encontrados. Se usará el texto completo.")
        return texto_completo

def preprocess_text(text):

    # Descargar stopwords solo si es necesario
    try:
        stop_words = set(stopwords.words('spanish'))
    except LookupError:
        print("Descargando 'stopwords' de NLTK...")
        nltk.download('stopwords')
        stop_words = set(stopwords.words('spanish'))

    text = text.lower()
    forma_nfd = unicodedata.normalize('NFD', text)
    text = "".join([c for c in forma_nfd if not unicodedata.combining(c)])
    text = text.translate(str.maketrans('', '', string.punctuation))
    tokens = text.split()
    tokens = [word for word in tokens if word not in stop_words]
    return " ".join(tokens)

# ==============================================================================
#    FUNCIÓN PRINCIPAL DE PREDICCIÓN
# ==============================================================================

def predecir_informe_pdf(ruta_pdf, modelo, umbral):
    """
    Procesa un único archivo PDF y devuelve su clasificación y probabilidad.
    """
    print(f"----- Analizando el archivo: {os.path.basename(ruta_pdf)} -----")
    
    # Paso 1: Extraer el texto crudo del PDF
    texto_crudo = extraer_texto_de_pdf(ruta_pdf)
    if not texto_crudo:
        return "Error", 0.0, "No se pudo extraer texto."
        
    # Esto te mostrará el texto exacto con todos sus espacios y saltos de línea.
    print("\n--- TEXTO CRUDO EXTRAÍDO (lo que ve el script) ---\n")
    print(repr(texto_crudo)) # Usamos repr() para ver caracteres "invisibles" como \n
    print("\n--- FIN DEL TEXTO CRUDO ---\n")
    
    # El resto del proceso continúa igual...
    cuerpo_informe = extraer_cuerpo_informe(texto_crudo)
    # ... (el resto de la función no cambia)

    cuerpo_informe = extraer_cuerpo_informe(texto_crudo)
    texto_limpio = preprocess_text(cuerpo_informe)
    
    # El pipeline espera una lista de textos
    textos_a_predecir = [texto_limpio]
    
    # Obtener las probabilidades del modelo
    probabilidades = modelo.predict_proba(textos_a_predecir)[0]
    prob_critico = probabilidades[1] # Probabilidad de la clase "Crítico" (etiqueta 1)
    
    # Aplicar el umbral de decisión personalizado
    if prob_critico >= umbral:
        clasificacion_final = "Crítico"
        efectividad = prob_critico
    else:
        clasificacion_final = "No Crítico"
        efectividad = probabilidades[0] # Probabilidad de la clase "No Crítico"
        
    return clasificacion_final, efectividad, texto_limpio

# ==============================================================================
#  EJECUCIÓN DEL SCRIPT
# ==============================================================================

if __name__ == "__main__":
    # --- CONFIGURACIÓN ---
    RUTA_MODELO = 'pipeline_naive_bayes.pkl'
    CARPETA_PARA_TESTEAR = 'Informes_Para_Testear'
    UMBRAL_CRITICIDAD = 0.4 # El umbral optimizado de tu proyecto

    # Cargar el modelo
    try:
        modelo_cargado = joblib.load(RUTA_MODELO)
        print(f" Modelo '{RUTA_MODELO}' cargado exitosamente.")
        print(f" Usando umbral de criticidad personalizado: {UMBRAL_CRITICIDAD:.0%}\n")
    except FileNotFoundError:
        print(f" ERROR: No se encontró el archivo del modelo '{RUTA_MODELO}'.")
        print("Asegúrate de que el archivo del modelo esté en la misma carpeta que este script.")
        modelo_cargado = None
    
    # Procesar la carpeta de informes
    if modelo_cargado:
        if not os.path.isdir(CARPETA_PARA_TESTEAR):
            print(f" ERROR: La carpeta '{CARPETA_PARA_TESTEAR}' no existe.")
            print("Por favor, créala y coloca los PDFs que deseas analizar dentro.")
        else:
            archivos_pdf = [f for f in os.listdir(CARPETA_PARA_TESTEAR) if f.lower().endswith('.pdf')]
            
            if not archivos_pdf:
                print(f" No se encontraron archivos PDF para analizar en la carpeta '{CARPETA_PARA_TESTEAR}'.")
            else:
                print(f" Encontrados {len(archivos_pdf)} archivos PDF. Iniciando análisis...\n")
                
                for nombre_archivo in archivos_pdf:
                    ruta_completa_pdf = os.path.join(CARPETA_PARA_TESTEAR, nombre_archivo)
                    
                    resultado, efectividad, _ = predecir_informe_pdf(ruta_completa_pdf, modelo_cargado, UMBRAL_CRITICIDAD)
                    
                    print("-" * 50)
                    print(f"Archivo: {nombre_archivo}")
                    print(f"  Resultado: {resultado}")
                    print(f"  Porcentaje de efectividad (confianza): {efectividad:.2%}")
                    print("-" * 50)

 Modelo 'pipeline_naive_bayes.pkl' cargado exitosamente.
 Usando umbral de criticidad personalizado: 40%

 Encontrados 2 archivos PDF. Iniciando análisis...

  - ADVERTENCIA: Marcadores de inicio/fin no encontrados. Se usará el texto completo.
--------------------------------------------------
Archivo: resultadoexamen (2).pdf
  Resultado: No Crítico
  Porcentaje de efectividad (confianza): 77.28%
--------------------------------------------------
  - ADVERTENCIA: Marcadores de inicio/fin no encontrados. Se usará el texto completo.
--------------------------------------------------
Archivo: resultadoexamen (3).pdf
  Resultado: No Crítico
  Porcentaje de efectividad (confianza): 77.12%
--------------------------------------------------
