<!-- Portada -->
#  **Proyecto Final Electiva 3**
**Autores:** Sergio Uribe, Ronald Tapias, Oscar Cuadros
**Fecha:** 28 de mayo de 2025  

<!-- Secci√≥n de c√≥digo 1 -->
## üì¶ Importaci√≥n de librer√≠as esenciales y verificaci√≥n de versi√≥n de NumPy

- **openai**: Cliente para usar la API de OpenAI.
- **os, json, re, warnings, datetime**: Funciones est√°ndar para manejo de archivos, fechas, expresiones regulares y advertencias.
- **torch**: PyTorch para manejo de tensores y modelos ML.
- **requests**: Para hacer llamadas HTTP a APIs externas.
- **fitz (PyMuPDF)**: Para abrir y extraer texto de PDFs.
- **numpy**: Para procesamiento num√©rico.  

---

## ‚ö†Ô∏è Verificaci√≥n y manejo de versi√≥n de NumPy

- Si la versi√≥n de NumPy comienza con '2.', deshabilita funcionalidades avanzadas que dependen de `transformers` (problemas de compatibilidad).
- Se recomienda usar NumPy 1.26.4 para compatibilidad plena.
- Solo se importa `transformers` (incluyendo tokenizer y modelo RoBERTa) si la versi√≥n de NumPy es compatible.
- En caso de error al importar transformers, se vuelve a modo simplificado sin `transformers`.


In [65]:
import openai
import os
import json
import torch
import requests
import fitz  # PyMuPDF
from datetime import datetime
import warnings
import re

# Comprobar la versi√≥n de NumPy y mostrar advertencia
import numpy as np
numpy_version = np.__version__
print(f"Versi√≥n de NumPy detectada: {numpy_version}")

if numpy_version.startswith('2.'):
    print("Detectado NumPy 2.x - Se usar√° una versi√≥n simplificada sin transformers")
    USE_TRANSFORMERS = False
    warnings.warn("NumPy 2.x detectado. Algunas funcionalidades avanzadas estar√°n deshabilitadas.")
    print("Para resolverlo permanentemente, ejecuta: pip install numpy==1.26.4")
else:
    USE_TRANSFORMERS = True
    print("NumPy 1.x detectado. Se usar√°n todas las funcionalidades.")
    # Solo importar transformers si tenemos NumPy compatible
    try:
        from transformers import RobertaTokenizer, RobertaForSequenceClassification, pipeline
        print("Transformers cargado correctamente")
    except Exception as e:
        print(f"Error al cargar transformers: {e}")
        USE_TRANSFORMERS = False
        print("Se usar√° una versi√≥n simplificada sin transformers")

Versi√≥n de NumPy detectada: 1.26.4
NumPy 1.x detectado. Se usar√°n todas las funcionalidades.
Transformers cargado correctamente


<!-- Secci√≥n de c√≥digo 2 -->
## üîë Configuraci√≥n de claves API y variables globales para modelos

- **openai.api_key**: Clave de API para usar los servicios de OpenAI (modelos GPT, etc.).
- **NEWS_API_KEY**: Clave para la API de NewsAPI, usada para obtener noticias.
- **GNEWS_API_KEY**: Clave para la API de GNews, alternativa para buscar noticias.

---

## üéØ Variables globales inicializadas en `None`

- **tokenizer**: Tokenizador para procesamiento de texto con transformers (RoBERTa).
- **model**: Modelo de transformers para clasificaci√≥n de texto (RoBERTa).
- **zero_shot_classifier**: Pipeline para clasificaci√≥n sin entrenamiento espec√≠fico (zero-shot).


In [66]:
openai.api_key = "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"

NEWS_API_KEY = "a60047222798471c80fb34ea2639d2fa"
GNEWS_API_KEY = "d4b0f8b8d7738a13d7323b29b6a517d2"

tokenizer = None
model = None
zero_shot_classifier = None

<!-- Secci√≥n de c√≥digo 3 -->
## ü§ñ Inicializaci√≥n de modelos de transformers si est√°n disponibles

- Si `USE_TRANSFORMERS` es True (versi√≥n compatible de NumPy y transformers cargados correctamente):
  - Se carga el tokenizador y modelo base de **RoBERTa** (`roberta-base`) para tareas de clasificaci√≥n de texto.
  - Se inicializa un pipeline de **zero-shot classification** usando el modelo **BART** (`facebook/bart-large-mnli`) para clasificaci√≥n tem√°tica sin entrenamiento espec√≠fico.
- Si ocurre alg√∫n error al cargar los modelos, se muestra el error y se desactiva el uso de transformers (`USE_TRANSFORMERS = False`), para que el c√≥digo use una versi√≥n simplificada sin estos modelos avanzados.


In [67]:
if USE_TRANSFORMERS:
    try:
        # Inicializar modelo RoBERTa para clasificaci√≥n de temas
        tokenizer = RobertaTokenizer.from_pretrained('roberta-base')
        model = RobertaForSequenceClassification.from_pretrained('roberta-base')
        
        # Inicializar pipeline de zero-shot classification para detectar el tema
        zero_shot_classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")
        print("Modelos de transformers inicializados correctamente")
    except Exception as e:
        print(f"Error al inicializar modelos: {e}")
        USE_TRANSFORMERS = False

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu


Modelos de transformers inicializados correctamente


<!-- Secci√≥n de c√≥digo 4 -->
## üïµÔ∏è Funci√≥n para detectar el tema principal de un texto

- **Entrada**: Texto a analizar y lista opcional de temas posibles.
- **Salida**: Tema detectado y nivel de confianza.

### Modo sin transformers (`USE_TRANSFORMERS == False`):
- Se usa un m√©todo b√°sico basado en conteo de coincidencias de palabras clave en el texto (hasta 1000 caracteres).
- Se elige el tema con m√°s coincidencias, asignando una confianza calculada.

### Modo con transformers:
- Se usa el pipeline de **zero-shot classification** (`facebook/bart-large-mnli`) para clasificar el texto en los temas dados.
- Se retorna el tema con mayor probabilidad y su confianza.
- En caso de error, se retorna tema gen√©rico "General" con confianza 0.5.


In [68]:
def detectar_tema(texto, temas_posibles=None):
    """Detectar el tema principal del texto."""
    if not temas_posibles:
        temas_posibles = [
            "COVID-19", "Salud", "Pol√≠tica", "Econom√≠a", "Tecnolog√≠a", 
            "Ciencia", "Deportes", "Entretenimiento", "Educaci√≥n", "Medio Ambiente"
        ]
    
    texto_corto = texto[:1000]  
    
    if not USE_TRANSFORMERS:
        tema_detectado = "General"
        max_coincidencias = 0
        confianza = 0.5  # Confianza por defecto
        
        for tema in temas_posibles:
            palabras_tema = tema.lower().split()
            coincidencias = 0
            
            for palabra in palabras_tema:
                if palabra.lower() in texto_corto.lower():
                    coincidencias += texto_corto.lower().count(palabra.lower())
            
            if coincidencias > max_coincidencias:
                max_coincidencias = coincidencias
                tema_detectado = tema
                confianza = min(0.5 + (coincidencias / 10), 0.95)
        
        return tema_detectado, confianza
    
    try:
        resultado = zero_shot_classifier(texto_corto, temas_posibles)
        tema_principal = resultado['labels'][0]
        confianza = resultado['scores'][0]
        return tema_principal, confianza
    except Exception as e:
        print(f"Error al detectar tema con zero-shot: {e}")
        return "General", 0.5

<!-- Secci√≥n de c√≥digo 5 -->
## üìÑ Funci√≥n para extraer texto de un archivo PDF

- **Entrada**: Ruta del archivo PDF.
- **Proceso**:  
  - Abre el PDF usando PyMuPDF (`fitz`).
  - Recorre cada p√°gina y extrae su texto.
  - Concatena el texto de todas las p√°ginas en una sola cadena.

- **Salida**: Texto completo extra√≠do del PDF.  
- En caso de error, muestra mensaje y retorna cadena vac√≠a.


In [69]:
def extraer_texto_pdf(path_pdf):
    """Extraer texto de un archivo PDF."""
    try:
        doc = fitz.open(path_pdf)
        texto = ""
        for pagina in doc:
            texto += pagina.get_text()
        return texto
    except Exception as e:
        print(f"Error al extraer texto del PDF: {e}")
        return ""

<!-- Secci√≥n de c√≥digo 6 -->
## üì∞ Funci√≥n para buscar noticias relacionadas con un tema espec√≠fico

- **Entrada**:  
  - `tema`: palabra o frase para buscar noticias.  
  - `cantidad`: n√∫mero m√°ximo de noticias a obtener (por defecto 5).

- **Proceso**:  
  1. Intenta obtener noticias desde **NewsAPI** usando la clave `NEWS_API_KEY`.  
  2. Si no hay resultados o falla, intenta con **GNews** usando `GNEWS_API_KEY`.  
  3. Si a√∫n no hay resultados, usa una API p√∫blica alternativa (**Spaceflight News API**) que no requiere clave.  

- **Salida**: Lista de diccionarios con informaci√≥n de noticias: t√≠tulo, descripci√≥n, fecha, fuente y URL.

- En caso de errores en las APIs, muestra mensajes pero contin√∫a intentando las siguientes fuentes.


In [70]:
def buscar_noticias(tema, cantidad=5):
    """Buscar noticias relacionadas con un tema espec√≠fico."""
    noticias = []
    
    # Intentar con NewsAPI primero
    if NEWS_API_KEY:
        try:
            url = f"https://newsapi.org/v2/everything?q={tema}&sortBy=relevancy&pageSize={cantidad}&apiKey={NEWS_API_KEY}&language=es"
            response = requests.get(url)
            data = response.json()
            
            if data.get('status') == 'ok' and data.get('articles'):
                for articulo in data['articles'][:cantidad]:
                    noticias.append({
                        'titulo': articulo.get('title', ''),
                        'descripcion': articulo.get('description', ''),
                        'fecha': articulo.get('publishedAt', ''),
                        'fuente': articulo.get('source', {}).get('name', ''),
                        'url': articulo.get('url', '')
                    })
        except Exception as e:
            print(f"Error con NewsAPI: {e}")
    
    # Si no hay resultados o error, intentar con GNews
    if not noticias and GNEWS_API_KEY:
        try:
            url = f"https://gnews.io/api/v4/search?q={tema}&token={GNEWS_API_KEY}&lang=es&max={cantidad}"
            response = requests.get(url)
            data = response.json()
            
            if data.get('articles'):
                for articulo in data['articles'][:cantidad]:
                    noticias.append({
                        'titulo': articulo.get('title', ''),
                        'descripcion': articulo.get('description', ''),
                        'fecha': articulo.get('publishedAt', ''),
                        'fuente': articulo.get('source', {}).get('name', ''),
                        'url': articulo.get('url', '')
                    })
        except Exception as e:
            print(f"Error con GNews: {e}")
    
    # Si todav√≠a no hay resultados, usar API p√∫blica alternativa
    if not noticias:
        try:
            url = f"https://api.spaceflightnewsapi.net/v3/articles?_limit={cantidad}&title_contains={tema}"
            response = requests.get(url)
            data = response.json()
            
            for articulo in data[:cantidad]:
                noticias.append({
                    'titulo': articulo.get('title', ''),
                    'descripcion': articulo.get('summary', ''),
                    'fecha': articulo.get('publishedAt', ''),
                    'fuente': articulo.get('newsSite', ''),
                    'url': articulo.get('url', '')
                })
        except Exception as e:
            print(f"Error con API de noticias alternativa: {e}")
    
    return noticias

<!-- Secci√≥n de c√≥digo 7 -->
## üòä Funci√≥n para analizar el sentimiento de un texto

- **Modo sin transformers** (`USE_TRANSFORMERS == False`):  
  - Utiliza una lista simple de palabras positivas y negativas para contar ocurrencias en el texto (sin contexto ni aprendizaje).  
  - Retorna sentimiento basado en cu√°l grupo tiene m√°s coincidencias y una confianza calculada.

- **Modo con transformers** (`USE_TRANSFORMERS == True`):  
  - Usa el tokenizador y modelo de **RoBERTa** para clasificaci√≥n de sentimiento.  
  - Convierte el texto a tensores, obtiene logits, calcula probabilidades y predice el sentimiento con mayor confianza.  
  - Mapea la predicci√≥n a etiquetas: 0 = positivo, 1 = negativo, otros casos a neutral.

- En caso de error en el modelo, retorna sentimiento neutral con confianza est√°ndar.


In [71]:
def analizar_sentimiento(texto):
    """Analizar el sentimiento del texto."""
    if not USE_TRANSFORMERS:
        # Implementaci√≥n alternativa de an√°lisis de sentimiento usando palabras clave
        palabras_positivas = ['bueno', 'excelente', 'genial', 'incre√≠ble', 'positivo', '√©xito', 'feliz', 'alegre', 'satisfecho']
        palabras_negativas = ['malo', 'terrible', 'horrible', 'negativo', 'fracaso', 'triste', 'infeliz', 'insatisfecho']
        
        texto_lower = texto.lower()
        count_pos = sum(texto_lower.count(p) for p in palabras_positivas)
        count_neg = sum(texto_lower.count(n) for n in palabras_negativas)
        
        if count_pos > count_neg:
            return "positivo", 0.5 + min(count_pos / (count_pos + count_neg + 1), 0.45)
        elif count_neg > count_pos:
            return "negativo", 0.5 + min(count_neg / (count_pos + count_neg + 1), 0.45)
        else:
            return "neutral", 0.5
    
    # Usar RoBERTa si est√° disponible
    try:
        inputs = tokenizer(texto, return_tensors="pt", truncation=True, padding=True, max_length=512)
        outputs = model(**inputs)
        logits = outputs.logits
        probs = torch.softmax(logits, dim=1)
        pred = torch.argmax(probs).item()
        conf = probs[0, pred].item()
        
        sentimiento = "neutral"
        if pred == 0:
            sentimiento = "positivo"
        elif pred == 1:
            sentimiento = "negativo"
        
        return sentimiento, conf
    except Exception as e:
        print(f"Error al analizar sentimiento con RoBERTa: {e}")
        return "neutral", 0.5

<!-- Secci√≥n de c√≥digo 8 -->
## ‚úÖ Funci√≥n para verificar la veracidad de un texto usando GPT-4

- **Entrada**:  
  - `texto`: texto a analizar.  
  - `tema` (opcional): contexto tem√°tico para ayudar en la verificaci√≥n.

- **Proceso**:  
  - Limita el texto a 4000 caracteres para evitar exceso de tokens.  
  - Construye un prompt detallado para pedir al modelo GPT-4 que analice:  
    1) si el texto tiene informaci√≥n falsa o enga√±osa,  
    2) cu√°les afirmaciones espec√≠ficas son falsas,  
    3) explicaci√≥n de falsedades,  
    4) contradicciones internas,  
    5) puntuaci√≥n de veracidad (0 a 100).  
  - Env√≠a la petici√≥n a OpenAI con temperatura baja para respuestas m√°s precisas.  
  - Extrae la puntuaci√≥n y clasifica la veracidad en categor√≠as (Verdadero, Mayormente verdadero, etc.).  
  - Intenta extraer afirmaciones falsas del texto generado por GPT-4.  
  - Devuelve un diccionario con la categor√≠a de veracidad, confianza num√©rica, razones (afirmaciones falsas) y el an√°lisis completo.

- **Manejo de errores**:  
  - En caso de excepci√≥n, retorna estado de error con informaci√≥n del fallo.


In [72]:
def verificar_veracidad(texto, tema=None):
    """Verificar la veracidad de un texto usando GPT-4."""
    if not texto:
        return {"veracidad": "No determinable", "confianza": 0, "razones": ["Texto vac√≠o"], "fuentes_contradictorias": []}
        
    texto_analizar = texto[:4000] if len(texto) > 4000 else texto
    prompt = f"""Analiza el siguiente texto y determina su veracidad. 
    Identifica afirmaciones falsas, enga√±osas o inexactas. 
    Proporciona un an√°lisis detallado que incluya:
    1. Si el texto contiene informaci√≥n falsa o enga√±osa
    2. Qu√© afirmaciones espec√≠ficas son falsas o enga√±osas
    3. La explicaci√≥n de por qu√© son falsas
    4. Cualquier contradicci√≥n interna en el texto
    5. Una puntuaci√≥n de veracidad del 0 al 100

    Texto para analizar:
    """
    if tema:
        prompt += f"\nTema: {tema}\n"
    prompt += f"\n{texto_analizar}"
    
    try:
        messages = [
            {"role": "system", "content": "Eres un verificador de hechos experto. Tu tarea es analizar textos para determinar su veracidad, identificar informaci√≥n falsa o enga√±osa, y explicar por qu√©. Tus respuestas deben seguir un formato estructurado que incluya: 1) Veredicto de veracidad, 2) Afirmaciones falsas identificadas, 3) Explicaci√≥n de cada falsedad, 4) Puntuaci√≥n de veracidad."},
            {"role": "user", "content": prompt}
        ]
        response = openai.chat.completions.create(
            model="gpt-4o-mini",
            messages=messages,
            max_tokens=800,
            temperature=0.3
        )
        analisis = response.choices[0].message.content
        patron_puntuacion = r"(?:puntuaci[o√≥]n|veracidad).*?(?:de|es).*?(\d+)"
        match_puntuacion = re.search(patron_puntuacion, analisis.lower())
        puntuacion = int(match_puntuacion.group(1)) if match_puntuacion else 50
        categoria = "No determinable"
        if puntuacion >= 80:
            categoria = "Verdadero"
        elif puntuacion >= 60:
            categoria = "Mayormente verdadero"
        elif puntuacion >= 40:
            categoria = "Parcialmente verdadero"
        elif puntuacion >= 20:
            categoria = "Mayormente falso"
        else:
            categoria = "Falso"
        patron_afirmaciones = r"(?:afirmaci[o√≥]n(?:es)? falsa(?:s)?|informaci[o√≥]n falsa)[:\s]*([^\n.]*)"
        match_afirmaciones = re.search(patron_afirmaciones, analisis.lower())
        afirmaciones_falsas = []
        if match_afirmaciones:
            afirmaciones_falsas = [a.strip() for a in re.split(r"[\n\d\.\-‚Ä¢]+", match_afirmaciones.group(1)) if a.strip()]
        if not afirmaciones_falsas and puntuacion < 60:
            afirmaciones_falsas = ["El an√°lisis detect√≥ contenido cuestionable pero no especific√≥ afirmaciones concretas"]
        return {
            "veracidad": categoria,
            "confianza": puntuacion/100,
            "razones": afirmaciones_falsas,
            "analisis_completo": analisis
        }
    except Exception as e:
        print(f"Error al verificar veracidad: {e}")
        return {"veracidad": "Error en an√°lisis", "confianza": 0, "razones": [f"Error: {e}"], "analisis_completo": ""}


<!-- Secci√≥n de c√≥digo 9 -->
## üì∞ Funci√≥n para verificar la veracidad de una noticia espec√≠fica

- **Entrada**: Diccionario `noticia` con campos t√≠picos: t√≠tulo, descripci√≥n, fuente y fecha.
- **Proceso**:  
  - Valida que la entrada sea un diccionario v√°lido.  
  - Construye un texto concatenado con la informaci√≥n relevante de la noticia.  
  - Llama a la funci√≥n `verificar_veracidad` para analizar el texto completo y evaluar su veracidad.

- **Salida**: Resultado estructurado de la funci√≥n `verificar_veracidad` con veredicto, confianza, razones y an√°lisis completo.


In [73]:
def verificar_noticia(noticia):
    """Verificar la veracidad de una noticia espec√≠fica."""
    if not noticia or not isinstance(noticia, dict):
        return {"veracidad": "No determinable", "confianza": 0, "razones": ["Formato de noticia inv√°lido"]}
    texto_analizar = f"T√≠tulo: {noticia.get('titulo','')}\n\n"
    texto_analizar += f"Descripci√≥n: {noticia.get('descripcion','')}\n\n"
    texto_analizar += f"Fuente: {noticia.get('fuente','')}\n"
    texto_analizar += f"Fecha: {noticia.get('fecha','')}\n"
    return verificar_veracidad(texto_analizar)

<!-- Secci√≥n de c√≥digo 10 -->
## üìã Funci√≥n para extraer afirmaciones principales verificables de un texto

- **Entrada**:  
  - `texto`: texto completo a analizar.  
  - `cantidad`: n√∫mero m√°ximo de afirmaciones a extraer (por defecto 5).

- **Proceso**:  
  - Valida que el texto tenga suficiente longitud (>50 caracteres).  
  - Recorta el texto a m√°ximo 3000 caracteres para no exceder l√≠mite de tokens.  
  - Solicita a GPT-4 (modelo `gpt-4o-mini`) que devuelva solo una lista numerada con las afirmaciones m√°s importantes o controvertidas para verificar.  
  - Extrae esas afirmaciones con expresiones regulares para numeraci√≥n.  

- **Salida**: Lista con las afirmaciones extra√≠das (m√°ximo `cantidad`).  
- En caso de error, retorna lista vac√≠a y muestra el error.


In [74]:
def extraer_afirmaciones(texto, cantidad=5):
    """Extraer afirmaciones principales de un texto para verificaci√≥n."""
    if not texto or len(texto) < 50:
        return []
    texto_corto = texto[:3000] if len(texto) > 3000 else texto
    try:
        messages = [
            {"role": "system", "content": "Extrae las principales afirmaciones verificables del siguiente texto. Devuelve SOLO una lista numerada de las 5 afirmaciones m√°s importantes o controvertidas que requieren verificaci√≥n de hechos. No incluyas opiniones o juicios de valor."},
            {"role": "user", "content": texto_corto}
        ]
        response = openai.chat.completions.create(
            model="gpt-4o-mini",
            messages=messages,
            max_tokens=300,
            temperature=0.3
        )
        resultado = response.choices[0].message.content
        afirmaciones = []
        for line in resultado.strip().split('\n'):
            match = re.match(r'^\d+\.\s*(.+)$', line.strip())
            if match:
                afirmaciones.append(match.group(1).strip())
        return afirmaciones[:cantidad]
    except Exception as e:
        print(f"Error al extraer afirmaciones: {e}")
        return []

<!-- Secci√≥n de c√≥digo 11 -->
## üîç Funci√≥n para verificar la veracidad de una afirmaci√≥n espec√≠fica

- **Entrada**:  
  - `afirmacion`: texto con la afirmaci√≥n a verificar.  
  - `tema` (opcional): contexto tem√°tico para mejorar el an√°lisis.

- **Proceso**:  
  - Valida que la afirmaci√≥n no est√© vac√≠a.  
  - Construye un prompt para GPT-4 pidi√©ndole que determine si la afirmaci√≥n es Verdadera, Falsa, Parcialmente verdadera o No verificable, con explicaci√≥n.  
  - Env√≠a el prompt al modelo `gpt-4o-mini`.  
  - Extrae el veredicto del texto devuelto usando expresiones regulares.  
  - Retorna un diccionario con el veredicto y la explicaci√≥n completa.

- **Manejo de errores**:  
  - En caso de excepci√≥n, devuelve un resultado de error con mensaje.


In [75]:
def verificar_afirmacion(afirmacion, tema=None):
    """Verificar una afirmaci√≥n espec√≠fica."""
    if not afirmacion:
        return {"veracidad": "No determinable", "explicacion": "Afirmaci√≥n vac√≠a"}
    try:
        prompt = f"Verifica la siguiente afirmaci√≥n y determina si es verdadera, falsa o no verificable."
        if tema:
            prompt += f"\n\nContexto: La afirmaci√≥n est√° relacionada con el tema de '{tema}'."
        prompt += f"\n\nAfirmaci√≥n: '{afirmacion}'"
        messages = [
            {"role": "system", "content": "Eres un verificador de hechos experto. Tu tarea es analizar una afirmaci√≥n y determinar su veracidad bas√°ndote en hechos verificables. Da un veredicto claro (Verdadero/Falso/Parcialmente verdadero/No verificable) seguido de una explicaci√≥n concisa."},
            {"role": "user", "content": prompt}
        ]
        response = openai.chat.completions.create(
            model="gpt-4o-mini",
            messages=messages,
            max_tokens=300,
            temperature=0.3
        )
        resultado = response.choices[0].message.content
        match = re.search(r"(verdadero|falso|parcialmente verdadero|no verificable)", resultado.lower())
        veredicto = "No determinable"
        if match:
            t = match.group(1)
            if "falso" in t and "parcialmente" not in t:
                veredicto = "Falso"
            elif "verdadero" in t and "parcialmente" not in t:
                veredicto = "Verdadero"
            elif "parcialmente" in t:
                veredicto = "Parcialmente verdadero"
            elif "no verificable" in t:
                veredicto = "No verificable"
        return {"veracidad": veredicto, "explicacion": resultado}
    except Exception as e:
        print(f"Error al verificar afirmaci√≥n: {e}")
        return {"veracidad": "Error en an√°lisis", "explicacion": f"Error: {e}"}

<!-- Secci√≥n de c√≥digo 12 -->
## üí¨ Chatbot tem√°tico con opci√≥n de verificaci√≥n de hechos

- **Entrada**:  
  - `pregunta`: consulta del usuario.  
  - `tema`: tema espec√≠fico para contextualizar la respuesta (por defecto "General").  
  - `contexto_texto`: texto adicional para contexto (por ejemplo, texto extra√≠do de un PDF).  
  - `noticias`: lista de noticias recientes relacionadas para enriquecer la respuesta.  
  - `verificar`: booleano para activar verificaci√≥n de hechos en la respuesta.

- **Proceso**:  
  - Construye un prompt que incluye tema, contexto resumido, y noticias recientes (m√°ximo 3).  
  - Ajusta las instrucciones del sistema seg√∫n si se activa la verificaci√≥n de hechos, solicitando an√°lisis cr√≠tico y aclaraci√≥n sobre informaci√≥n cuestionable.  
  - Env√≠a la consulta al modelo GPT-4 (`gpt-4o-mini`) para generar respuesta.  
  - Captura errores y devuelve un mensaje adecuado en caso de fallo.

- **Salida**: Texto generado como respuesta a la pregunta, contextualizado y opcionalmente verificado.


In [76]:
def chatbot_tematico(pregunta, tema="General", contexto_texto=None, noticias=None, verificar=False):
    """Chatbot que proporciona respuestas basadas en temas espec√≠ficos."""
    prompt = f"Tema: {tema}\n"
    if contexto_texto:
        contexto_resumido = contexto_texto[:2000] + "..." if len(contexto_texto) > 2000 else contexto_texto
        prompt += f"Contexto del documento:\n{contexto_resumido}\n\n"
    if noticias:
        prompt += "Noticias recientes sobre este tema:\n"
        for i, noticia in enumerate(noticias[:3], 1):
            prompt += f"{i}. {noticia['titulo']} - {noticia['descripcion']}\n"
        prompt += "\n"
    system_content = f"Eres un asistente experto en {tema}. Proporciona informaci√≥n precisa basada en los datos disponibles."
    if verificar:
        system_content = f"Eres un asistente experto en {tema} con capacidades de verificaci√≥n de hechos. Analiza cr√≠ticamente la informaci√≥n proporcionada. Identifica posibles afirmaciones falsas o enga√±osas y verifica su veracidad antes de responder. Al responder, indica claramente qu√© informaci√≥n es verificable y cu√°l podr√≠a ser cuestionable."
        prompt += "\nIMPORTANTE: Verifica la veracidad de tu respuesta. Indica expl√≠citamente cuando la informaci√≥n pueda ser cuestionable o no verificable."
    prompt += f"\nPregunta: {pregunta}"
    messages = [
        {"role": "system", "content": system_content},
        {"role": "user", "content": prompt}
    ]
    try:
        response = openai.chat.completions.create(
            model="gpt-4o-mini",
            messages=messages,
            max_tokens=500,
            temperature=0.7
        )
        return response.choices[0].message.content
    except Exception as e:
        print(f"Error al generar respuesta: {e}")
        return f"Lo siento, ocurri√≥ un error al generar la respuesta: {str(e)}"

<!-- Secci√≥n de c√≥digo 15 -->
## üìä Funci√≥n para an√°lisis masivo de archivos y evaluaci√≥n del rendimiento del modelo de veracidad

- **Entrada**:  
  - `directorio_verdaderas`: carpeta con archivos de noticias verdaderas.  
  - `directorio_falsas`: carpeta con archivos de noticias falsas.  
  - `max_archivos`: n√∫mero m√°ximo de archivos a analizar por carpeta (por defecto 10).

- **Proceso**:  
  - Lee archivos (txt o pdf) de cada carpeta.  
  - Para cada archivo:  
    - Extrae texto (PDF o texto plano).  
    - Detecta el tema con `detectar_tema`.  
    - Verifica la veracidad con `verificar_veracidad`.  
    - Clasifica como correcto o incorrecto seg√∫n la confianza y si el archivo es verdadero o falso.  
    - Registra detalles y actualiza matriz de confusi√≥n:  
      - VP: Verdadero Positivo, VN: Verdadero Negativo, FP: Falso Positivo, FN: Falso Negativo.  
  - Calcula m√©tricas comunes de evaluaci√≥n: precisi√≥n, recall, F1-score y exactitud (accuracy).

- **Salida**: Diccionario con resultados detallados, m√©tricas y matriz de confusi√≥n para an√°lisis del desempe√±o.


In [77]:
def analisis_masivo_archivos(directorio_verdaderas, directorio_falsas, max_archivos=10):
    """Analizar m√∫ltiples archivos para evaluar rendimiento del modelo de veracidad."""
    import glob
    
    def leer_archivo(ruta):
        """Leer contenido de archivo (txt o pdf)."""
        try:
            if ruta.lower().endswith('.pdf'):
                return extraer_texto_pdf(ruta)
            else:
                with open(ruta, 'r', encoding='utf-8') as f:
                    return f.read()
        except Exception as e:
            print(f"Error leyendo {ruta}: {e}")
            return ""
    
    resultados = {
        'verdaderas': {'archivos': [], 'correctos': 0, 'incorrectos': 0, 'detalles': []},
        'falsas': {'archivos': [], 'correctos': 0, 'incorrectos': 0, 'detalles': []},
        'metricas': {},
        'confusion_matrix': {'VP': 0, 'VN': 0, 'FP': 0, 'FN': 0}
    }
    
    print("üîç Iniciando an√°lisis masivo de archivos...")
    print("=" * 50)
    
    # Procesar archivos verdaderos
    print(f"\nüì∞ Analizando archivos de noticias VERDADERAS...")
    archivos_verdaderos = glob.glob(os.path.join(directorio_verdaderas, "*"))[:max_archivos]
    
    for i, archivo in enumerate(archivos_verdaderos, 1):
        print(f"  [{i}/{len(archivos_verdaderos)}] Procesando: {os.path.basename(archivo)}")
        contenido = leer_archivo(archivo)
        
        if contenido:
            tema_detectado, conf_tema = detectar_tema(contenido)
            resultado_verificacion = verificar_veracidad(contenido, tema=tema_detectado)
            
            # Clasificar como correcto si veracidad >= 60% (Verdadero o Mayormente verdadero)
            es_correcto = resultado_verificacion['confianza'] >= 0.6
            
            detalle = {
                'archivo': os.path.basename(archivo),
                'tema': tema_detectado,
                'confianza_tema': conf_tema,
                'veracidad': resultado_verificacion['veracidad'],
                'confianza_veracidad': resultado_verificacion['confianza'],
                'clasificacion_correcta': es_correcto,
                'contenido_preview': contenido[:200] + "..." if len(contenido) > 200 else contenido
            }
            
            resultados['verdaderas']['detalles'].append(detalle)
            
            if es_correcto:
                resultados['verdaderas']['correctos'] += 1
                resultados['confusion_matrix']['VP'] += 1  # Verdadero Positivo
            else:
                resultados['verdaderas']['incorrectos'] += 1
                resultados['confusion_matrix']['FN'] += 1  # Falso Negativo
    
    # Procesar archivos falsos
    print(f"\nüö´ Analizando archivos de noticias FALSAS...")
    archivos_falsos = glob.glob(os.path.join(directorio_falsas, "*"))[:max_archivos]
    
    for i, archivo in enumerate(archivos_falsos, 1):
        print(f"  [{i}/{len(archivos_falsos)}] Procesando: {os.path.basename(archivo)}")
        contenido = leer_archivo(archivo)
        
        if contenido:
            tema_detectado, conf_tema = detectar_tema(contenido)
            resultado_verificacion = verificar_veracidad(contenido, tema=tema_detectado)
            
            # Clasificar como correcto si veracidad < 60% (Falso, Mayormente falso, Parcialmente verdadero)
            es_correcto = resultado_verificacion['confianza'] < 0.6
            
            detalle = {
                'archivo': os.path.basename(archivo),
                'tema': tema_detectado,
                'confianza_tema': conf_tema,
                'veracidad': resultado_verificacion['veracidad'],
                'confianza_veracidad': resultado_verificacion['confianza'],
                'clasificacion_correcta': es_correcto,
                'contenido_preview': contenido[:200] + "..." if len(contenido) > 200 else contenido
            }
            
            resultados['falsas']['detalles'].append(detalle)
            
            if es_correcto:
                resultados['falsas']['correctos'] += 1
                resultados['confusion_matrix']['VN'] += 1  # Verdadero Negativo
            else:
                resultados['falsas']['incorrectos'] += 1
                resultados['confusion_matrix']['FP'] += 1  # Falso Positivo
    
    # Calcular m√©tricas de rendimiento
    cm = resultados['confusion_matrix']
    total = cm['VP'] + cm['VN'] + cm['FP'] + cm['FN']
    
    if total > 0:
        precision = cm['VP'] / (cm['VP'] + cm['FP']) if (cm['VP'] + cm['FP']) > 0 else 0
        recall = cm['VP'] / (cm['VP'] + cm['FN']) if (cm['VP'] + cm['FN']) > 0 else 0
        f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
        accuracy = (cm['VP'] + cm['VN']) / total
        
        resultados['metricas'] = {
            'precision': precision,
            'recall': recall,
            'f1_score': f1_score,
            'accuracy': accuracy,
            'total_archivos': total
        }
    
    return resultados

<!-- Secci√≥n de c√≥digo 13.6 -->
## üìà Funci√≥n para generar reporte detallado del an√°lisis masivo

- **Entrada**: Diccionario `resultados` del an√°lisis masivo.
- **Proceso**:  
  - Muestra estad√≠sticas generales de rendimiento.
  - Presenta matriz de confusi√≥n con m√©tricas.
  - Lista archivos correctamente e incorrectamente clasificados.
  - Genera an√°lisis de temas m√°s frecuentes.
  - Identifica patrones en clasificaciones err√≥neas.

- **Salida**: Reporte completo formateado para consola con estad√≠sticas y recomendaciones.

In [78]:
def mostrar_reporte_analisis(resultados):
    """Mostrar reporte detallado del an√°lisis masivo."""
    print("\n" + "="*60)
    print("üìä REPORTE DETALLADO DE AN√ÅLISIS DE VERACIDAD")
    print("="*60)
    
    # Estad√≠sticas generales
    total_verdaderas = len(resultados['verdaderas']['detalles'])
    total_falsas = len(resultados['falsas']['detalles'])
    correctos_verdaderas = resultados['verdaderas']['correctos']
    correctos_falsas = resultados['falsas']['correctos']
    
    print(f"\nüìà ESTAD√çSTICAS GENERALES:")
    print(f"   ‚Ä¢ Total de archivos analizados: {total_verdaderas + total_falsas}")
    print(f"   ‚Ä¢ Archivos de noticias verdaderas: {total_verdaderas}")
    print(f"   ‚Ä¢ Archivos de noticias falsas: {total_falsas}")
    print(f"   ‚Ä¢ Clasificaciones correctas: {correctos_verdaderas + correctos_falsas}")
    print(f"   ‚Ä¢ Tasa de acierto general: {((correctos_verdaderas + correctos_falsas) / (total_verdaderas + total_falsas) * 100):.1f}%")
    
    # M√©tricas de rendimiento
    if 'metricas' in resultados and resultados['metricas']:
        metricas = resultados['metricas']
        print(f"\nüéØ M√âTRICAS DE RENDIMIENTO:")
        print(f"   ‚Ä¢ Precisi√≥n: {metricas['precision']:.3f} ({metricas['precision']*100:.1f}%)")
        print(f"   ‚Ä¢ Recall (Sensibilidad): {metricas['recall']:.3f} ({metricas['recall']*100:.1f}%)")
        print(f"   ‚Ä¢ F1-Score: {metricas['f1_score']:.3f} ({metricas['f1_score']*100:.1f}%)")
        print(f"   ‚Ä¢ Exactitud: {metricas['accuracy']:.3f} ({metricas['accuracy']*100:.1f}%)")
    
    # Matriz de confusi√≥n
    cm = resultados['confusion_matrix']
    print(f"\nüî¢ MATRIZ DE CONFUSI√ìN:")
    print(f"   ‚Ä¢ Verdaderos Positivos (VP): {cm['VP']} - Noticias verdaderas correctamente identificadas")
    print(f"   ‚Ä¢ Verdaderos Negativos (VN): {cm['VN']} - Noticias falsas correctamente identificadas")
    print(f"   ‚Ä¢ Falsos Positivos (FP): {cm['FP']} - Noticias falsas clasificadas como verdaderas")
    print(f"   ‚Ä¢ Falsos Negativos (FN): {cm['FN']} - Noticias verdaderas clasificadas como falsas")
    
    # An√°lisis detallado por categor√≠a
    print(f"\n‚úÖ AN√ÅLISIS DE NOTICIAS VERDADERAS:")
    if total_verdaderas > 0:
        print(f"   ‚Ä¢ Correctamente clasificadas: {correctos_verdaderas}/{total_verdaderas} ({correctos_verdaderas/total_verdaderas*100:.1f}%)")
        print(f"   ‚Ä¢ Incorrectamente clasificadas: {total_verdaderas - correctos_verdaderas}/{total_verdaderas} ({(total_verdaderas - correctos_verdaderas)/total_verdaderas*100:.1f}%)")
        
        # Mostrar archivos mal clasificados
        incorrectos = [d for d in resultados['verdaderas']['detalles'] if not d['clasificacion_correcta']]
        if incorrectos:
            print(f"   \n   ‚ö†Ô∏è Archivos verdaderos mal clasificados como falsos:")
            for archivo in incorrectos:
                print(f"      - {archivo['archivo']}: {archivo['veracidad']} (confianza: {archivo['confianza_veracidad']*100:.1f}%)")
    
    print(f"\n‚ùå AN√ÅLISIS DE NOTICIAS FALSAS:")
    if total_falsas > 0:
        print(f"   ‚Ä¢ Correctamente clasificadas: {correctos_falsas}/{total_falsas} ({correctos_falsas/total_falsas*100:.1f}%)")
        print(f"   ‚Ä¢ Incorrectamente clasificadas: {total_falsas - correctos_falsas}/{total_falsas} ({(total_falsas - correctos_falsas)/total_falsas*100:.1f}%)")
        
        # Mostrar archivos mal clasificados
        incorrectos = [d for d in resultados['falsas']['detalles'] if not d['clasificacion_correcta']]
        if incorrectos:
            print(f"   \n   ‚ö†Ô∏è Archivos falsos mal clasificados como verdaderos:")
            for archivo in incorrectos:
                print(f"      - {archivo['archivo']}: {archivo['veracidad']} (confianza: {archivo['confianza_veracidad']*100:.1f}%)")
    
    # An√°lisis de temas
    todos_detalles = resultados['verdaderas']['detalles'] + resultados['falsas']['detalles']
    temas = {}
    for detalle in todos_detalles:
        tema = detalle['tema']
        if tema not in temas:
            temas[tema] = {'total': 0, 'correctos': 0}
        temas[tema]['total'] += 1
        if detalle['clasificacion_correcta']:
            temas[tema]['correctos'] += 1
    
    print(f"\nüè∑Ô∏è AN√ÅLISIS POR TEMAS:")
    for tema, stats in temas.items():
        precision_tema = (stats['correctos'] / stats['total'] * 100) if stats['total'] > 0 else 0
        print(f"   ‚Ä¢ {tema}: {stats['correctos']}/{stats['total']} correctos ({precision_tema:.1f}%)")
    
    # Recomendaciones
    print(f"\nüí° RECOMENDACIONES:")
    if resultados['metricas']['accuracy'] < 0.7:
        print(f"   ‚Ä¢ La exactitud est√° por debajo del 70%. Considera ajustar los umbrales de clasificaci√≥n.")
    if resultados['metricas']['precision'] < 0.7:
        print(f"   ‚Ä¢ La precisi√≥n es baja. Hay muchos falsos positivos (noticias falsas clasificadas como verdaderas).")
    if resultados['metricas']['recall'] < 0.7:
        print(f"   ‚Ä¢ El recall es bajo. Se est√°n perdiendo muchas noticias verdaderas (falsos negativos).")
    
    print(f"\nüìã Para mejorar el rendimiento:")
    print(f"   1. Revisar manualmente los archivos mal clasificados")
    print(f"   2. Ajustar los prompts de verificaci√≥n de veracidad")
    print(f"   3. Considerar usar un modelo m√°s especializado")
    print(f"   4. Aumentar el tama√±o del conjunto de datos de entrenamiento")

In [79]:
def guardar_respuesta(tema, pregunta, respuesta, verificacion=None):
    """Guardar la pregunta y respuesta en un archivo de historial."""
    try:
        historial = []
        fecha = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        registro = {
            "fecha": fecha,
            "tema": tema,
            "pregunta": pregunta,
            "respuesta": respuesta
        }
        if verificacion:
            registro["verificacion"] = verificacion
        os.makedirs("historial", exist_ok=True)
        filename = f"historial/historial_{datetime.now().strftime('%Y%m%d')}.json"
        if os.path.exists(filename):
            with open(filename, "r", encoding="utf-8") as f:
                try:
                    historial = json.load(f)
                except:
                    historial = []
        historial.append(registro)
        with open(filename, "w", encoding="utf-8") as f:
            json.dump(historial, f, ensure_ascii=False, indent=2)
        print(f"Respuesta guardada en {filename}")
    except Exception as e:
        print(f"Error al guardar respuesta: {e}")


<!-- Secci√≥n de c√≥digo 14 -->
## üöÄ Bucle principal de ejecuci√≥n interactiva

- Al iniciar, muestra informaci√≥n sobre el sistema y el modo de operaci√≥n (con o sin transformers, claves API configuradas).
- Presenta un men√∫ con opciones para el usuario:
  1. Hacer una pregunta sobre un tema (usa chatbot tem√°tico, busca noticias, opci√≥n de verificaci√≥n).
  2. Analizar un PDF y detectar informaci√≥n falsa (extrae texto, detecta tema, sentimiento, verifica veracidad, extrae afirmaciones y permite su verificaci√≥n individual).
  3. Buscar noticias sobre un tema espec√≠fico (muestra resultados, permite verificar noticias y preguntar sobre ellas).
  4. Verificar una afirmaci√≥n espec√≠fica (verificaci√≥n puntual con explicaci√≥n).
  - Opci√≥n para salir del programa.

- Cada opci√≥n gu√≠a al usuario mediante entradas y muestra resultados claros y estructurados.
- Maneja errores b√°sicos en entradas y da feedback en consola.


In [80]:
if __name__ == "__main__":
    print("Sistema IA con APIs de Noticias, An√°lisis de PDFs y Verificaci√≥n de Hechos")
    print("-" * 60)
    if not USE_TRANSFORMERS:
        print("MODO B√ÅSICO: Funcionando sin modelos de transformers")
        print("Algunas funcionalidades como an√°lisis avanzado de sentimiento y clasificaci√≥n de temas ser√°n limitadas.")
    if not NEWS_API_KEY and not GNEWS_API_KEY:
        print("ADVERTENCIA: No has configurado claves para APIs de noticias.")
        print("Las funciones de b√∫squeda de noticias ser√°n limitadas.")
        print("Obt√©n una clave gratuita en: https://newsapi.org/ o https://gnews.io/")
        print("-" * 60)
    while True:
        print("\nSelecciona una opci√≥n:")
        print("1. Hacer una pregunta sobre un tema")
        print("2. Analizar un PDF y detectar informaci√≥n falsa")
        print("3. Buscar noticias sobre un tema espec√≠fico")
        print("4. Verificar una afirmaci√≥n espec√≠fica")
        print("5. An√°lisis masivo de archivos (20 archivos: 10 verdaderos + 10 falsos)")
        print("salir. Salir del programa")
        modo = input("\nOpci√≥n: ")
        if modo.lower() in ['salir', 'exit', 'quit']:
            print("¬°Gracias por usar el sistema!")
            break
        if modo == '1':
            tema = input("¬øSobre qu√© tema quieres hacer tu pregunta? ")
            pregunta = input("Tu pregunta: ")
            verificar_flag = input("¬øQuieres verificar la veracidad de la respuesta? (s/n): ").lower() in ['s','si','s√≠']
            print(f"\nBuscando informaci√≥n reciente sobre '{tema}'...")
            noticias = buscar_noticias(tema)
            if noticias:
                print(f"Encontradas {len(noticias)} noticias relacionadas.")
            else:
                print("No se encontraron noticias relacionadas.")
            respuesta = chatbot_tematico(pregunta, tema=tema, noticias=noticias, verificar=verificar_flag)
            print("\nRespuesta:")
            print(respuesta)
            guardar_respuesta(tema, pregunta, respuesta)
        elif modo == '2':
            ruta_pdf = input("Ruta completa del PDF: ")
            print("\nExtrayendo texto del PDF...")
            texto_extraido = extraer_texto_pdf(ruta_pdf)
            if not texto_extraido:
                print("No se pudo extraer texto del PDF. Verifica la ruta e intenta de nuevo.")
                continue
            vista_previa = texto_extraido[:200] + "..." if len(texto_extraido) > 200 else texto_extraido
            print(f"\nVista previa del texto:\n{vista_previa}\n")
            print("Analizando tema del documento...")
            tema_detectado, confianza_tema = detectar_tema(texto_extraido)
            print(f"Tema principal detectado: {tema_detectado} (confianza: {confianza_tema:.2f})")
            sentimiento, conf_sentimiento = analizar_sentimiento(texto_extraido[:512])
            print(f"Sentimiento general del texto: {sentimiento.upper()} (confianza: {conf_sentimiento:.2f})")
            print("\nVerificando veracidad del contenido (esto puede tomar un momento)...")
            resultado_verificacion = verificar_veracidad(texto_extraido, tema=tema_detectado)
            print(f"\nüîç AN√ÅLISIS DE VERACIDAD: {resultado_verificacion['veracidad'].upper()}")
            print(f"üìä Nivel de confianza: {resultado_verificacion['confianza']*100:.1f}%")
            if resultado_verificacion['veracidad'] in ["Falso", "Mayormente falso", "Parcialmente verdadero"]:
                print("\n‚ö†Ô∏è Se detectaron posibles informaciones falsas o enga√±osas:")
                for i, razon in enumerate(resultado_verificacion['razones'], 1):
                    print(f"  {i}. {razon}")
            else:
                print("\n‚úÖ No se detectaron problemas significativos de veracidad en el documento.")
            print("\nExtrayendo afirmaciones principales del documento...")
            afirmaciones = extraer_afirmaciones(texto_extraido)
            if afirmaciones:
                print("\nAfirmaciones principales identificadas:")
                for i, afirmacion in enumerate(afirmaciones, 1):
                    print(f"  {i}. {afirmacion}")
                verificar_mas = input("\n¬øQuieres verificar alguna afirmaci√≥n espec√≠fica? (s/n):").lower() in ['s','si','s√≠']
                if verificar_mas:
                    while True:
                        idx_input = input("Ingresa el n√∫mero de la afirmaci√≥n a verificar (0 para salir): ")
                        try:
                            idx = int(idx_input)
                            if idx == 0: break
                            if 1 <= idx <= len(afirmaciones):
                                print(f"\nVerificando: '{afirmaciones[idx-1]}'...")
                                res_aff = verificar_afirmacion(afirmaciones[idx-1], tema=tema_detectado)
                                print(f"Veredicto: {res_aff['veracidad']}")
                                print(f"An√°lisis:\n{res_aff['explicacion']}")
                            else:
                                print("N√∫mero de afirmaci√≥n inv√°lido.")
                        except ValueError:
                            print("Por favor ingresa un n√∫mero v√°lido.")
            print(f"\nBuscando informaci√≥n adicional sobre '{tema_detectado}'...")
            noticias = buscar_noticias(tema_detectado)
            if noticias:
                print(f"Encontradas {len(noticias)} noticias relacionadas con el tema.")
            while True:
                pregunta = input("\nHaz una pregunta sobre el documento (o escribe 'salir' para volver): ")
                if pregunta.lower() in ['salir','exit','quit']: break
                respuesta = chatbot_tematico(pregunta, tema=tema_detectado, contexto_texto=texto_extraido, noticias=noticias, verificar=True)
                print("\nRespuesta:")
                print(respuesta)
                guardar_respuesta(tema_detectado, pregunta, respuesta, verificacion=resultado_verificacion['veracidad'])
        elif modo == '3':
            tema = input("¬øSobre qu√© tema quieres buscar noticias? ")
            cantidad_input = input("¬øCu√°ntas noticias quieres ver? (1-10): ")
            try:
                cantidad = int(cantidad_input)
                if cantidad < 1 or cantidad > 10: cantidad = 5
            except:
                cantidad = 5
            print(f"\nBuscando {cantidad} noticias sobre '{tema}'...")
            noticias = buscar_noticias(tema, cantidad)
            if noticias:
                print(f"\nSe encontraron {len(noticias)} noticias:")
                for i, noti in enumerate(noticias,1):
                    print(f"\n{i}. {noti['titulo']}")
                    print(f"   {noti['descripcion']}")
                    print(f"   Fuente: {noti['fuente']} - Fecha: {noti['fecha']}")
                    print(f"   URL: {noti['url']}")
                try:
                    idx_v = int(input("\n¬øQuieres verificar alguna noticia? Ingresa el n√∫mero (0 para ninguna): "))
                    if 1 <= idx_v <= len(noticias):
                        print(f"\nVerificando noticia {idx_v}: '{noticias[idx_v-1]['titulo']}'...")
                        res_noticia = verificar_noticia(noticias[idx_v-1])
                        print(f"\nüîç AN√ÅLISIS DE VERACIDAD: {res_noticia['veracidad'].upper()}")
                        print(f"üìä Nivel de confianza: {res_noticia['confianza']*100:.1f}%")
                        if res_noticia['veracidad'] in ["Falso","Mayormente falso","Parcialmente verdadero"]:
                            print("\n‚ö†Ô∏è Motivos de preocupaci√≥n:")
                            for i, r in enumerate(res_noticia['razones'],1): print(f"  {i}. {r}")
                        else:
                            print("\n‚úÖ Esta noticia parece confiable.")
                except:
                    pass
                while True:
                    preg2 = input("\n¬øQuieres hacer una pregunta sobre estas noticias? (escribe 'salir' para volver): ")
                    if preg2.lower() in ['salir','exit','quit','no']: break
                    resp2 = chatbot_tematico(preg2, tema=tema, noticias=noticias, verificar=True)
                    print("\nRespuesta:")
                    print(resp2)
                    guardar_respuesta(tema, preg2, resp2)
            else:
                print("No se encontraron noticias sobre ese tema.")
        elif modo == '4':
            afirm = input("Escribe la afirmaci√≥n que quieres verificar: ")
            tema_aff = input("¬øSobre qu√© tema est√° relacionada esta afirmaci√≥n? (opcional): ") or None
            if afirm:
                print("\nVerificando afirmaci√≥n...")
                res_aff = verificar_afirmacion(afirm, tema=tema_aff)
                print(f"\nüîç VEREDICTO: {res_aff['veracidad'].upper()}")
                print(f"\nAn√°lisis detallado:\n{res_aff['explicacion']}")
            else:
                print("No has proporcionado ninguna afirmaci√≥n para verificar.")
        elif modo == '5':
            print("\nüìä AN√ÅLISIS MASIVO DE ARCHIVOS - EVALUACI√ìN DE RENDIMIENTO")
            print("=" * 55)
            print("Este an√°lisis requiere dos directorios:")
            print("1. Directorio con archivos de noticias VERDADERAS (hasta 10 archivos)")
            print("2. Directorio con archivos de noticias FALSAS (hasta 10 archivos)")
            print("\nFormatos soportados: .txt, .pdf\n")
            
            dir_verdaderas = input("Ruta del directorio con noticias VERDADERAS: ").strip('"')
            dir_falsas = input("Ruta del directorio con noticias FALSAS: ").strip('"')
            
            # Validar que los directorios existan
            if not os.path.exists(dir_verdaderas):
                print(f"‚ùå Error: No se encontr√≥ el directorio '{dir_verdaderas}'")
                continue
            if not os.path.exists(dir_falsas):
                print(f"‚ùå Error: No se encontr√≥ el directorio '{dir_falsas}'")
                continue
            
            max_archivos_input = input("¬øCu√°ntos archivos procesar por categor√≠a? (m√°ximo 10, por defecto 10): ")
            try:
                max_archivos = int(max_archivos_input) if max_archivos_input else 10
                max_archivos = min(max_archivos, 10)  # L√≠mite m√°ximo
            except:
                max_archivos = 10
            
            print(f"\nüöÄ Iniciando an√°lisis de hasta {max_archivos} archivos por categor√≠a...")
            print("‚è∞ Este proceso puede tomar varios minutos...\n")
            
            try:
                # Ejecutar an√°lisis masivo
                resultados = analisis_masivo_archivos(dir_verdaderas, dir_falsas, max_archivos)
                
                # Mostrar reporte detallado
                mostrar_reporte_analisis(resultados)
                
                # Preguntar si quiere guardar los resultados
                guardar = input("\nüíæ ¬øQuieres guardar estos resultados en un archivo JSON? (s/n): ").lower() in ['s','si','s√≠']
                if guardar:
                    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
                    filename = f"analisis_masivo_{timestamp}.json"
                    try:
                        with open(filename, 'w', encoding='utf-8') as f:
                            json.dump(resultados, f, ensure_ascii=False, indent=2, default=str)
                        print(f"‚úÖ Resultados guardados en: {filename}")
                    except Exception as e:
                        print(f"‚ùå Error al guardar archivo: {e}")
                
                # Opci√≥n de an√°lisis interactivo
                while True:
                    analisis_extra = input("\nüîç ¬øQuieres revisar alg√∫n archivo espec√≠fico en detalle? (s/n): ").lower()
                    if analisis_extra not in ['s','si','s√≠']:
                        break
                    
                    print("\nArchivos disponibles:")
                    todos_archivos = []
                    
                    print("\nüì∞ Noticias VERDADERAS:")
                    for i, detalle in enumerate(resultados['verdaderas']['detalles'], 1):
                        estado = "‚úÖ" if detalle['clasificacion_correcta'] else "‚ùå"
                        print(f"  {len(todos_archivos)+1}. {estado} {detalle['archivo']} - {detalle['veracidad']} ({detalle['confianza_veracidad']*100:.1f}%)")
                        todos_archivos.append(('verdaderas', detalle))
                    
                    print("\nüö´ Noticias FALSAS:")
                    for i, detalle in enumerate(resultados['falsas']['detalles'], 1):
                        estado = "‚úÖ" if detalle['clasificacion_correcta'] else "‚ùå"
                        print(f"  {len(todos_archivos)+1}. {estado} {detalle['archivo']} - {detalle['veracidad']} ({detalle['confianza_veracidad']*100:.1f}%)")
                        todos_archivos.append(('falsas', detalle))
                    
                    try:
                        idx = int(input(f"\nSelecciona un archivo (1-{len(todos_archivos)}, 0 para salir): "))
                        if idx == 0:
                            break
                        if 1 <= idx <= len(todos_archivos):
                            categoria, detalle = todos_archivos[idx-1]
                            print(f"\nüìÑ AN√ÅLISIS DETALLADO: {detalle['archivo']}")
                            print(f"{'='*50}")
                            print(f"Categor√≠a real: {categoria.upper()}")
                            print(f"Tema detectado: {detalle['tema']} (confianza: {detalle['confianza_tema']:.2f})")
                            print(f"Veracidad detectada: {detalle['veracidad']}")
                            print(f"Confianza en veracidad: {detalle['confianza_veracidad']*100:.1f}%")
                            print(f"Clasificaci√≥n correcta: {'‚úÖ S√ç' if detalle['clasificacion_correcta'] else '‚ùå NO'}")
                            print(f"\nVista previa del contenido:")
                            print(f"{'-'*30}")
                            print(detalle['contenido_preview'])
                        else:
                            print("N√∫mero inv√°lido.")
                    except ValueError:
                        print("Por favor ingresa un n√∫mero v√°lido.")
                        
            except Exception as e:
                print(f"‚ùå Error durante el an√°lisis masivo: {e}")
                print("Verifica que los directorios contengan archivos v√°lidos (.txt o .pdf)")
        else:
            print("Opci√≥n inv√°lida. Por favor, intenta de nuevo.")

Sistema IA con APIs de Noticias, An√°lisis de PDFs y Verificaci√≥n de Hechos
------------------------------------------------------------

Selecciona una opci√≥n:
1. Hacer una pregunta sobre un tema
2. Analizar un PDF y detectar informaci√≥n falsa
3. Buscar noticias sobre un tema espec√≠fico
4. Verificar una afirmaci√≥n espec√≠fica
5. An√°lisis masivo de archivos (20 archivos: 10 verdaderos + 10 falsos)
salir. Salir del programa

Extrayendo texto del PDF...

Vista previa del texto:
 
21 
   Vol. 2, n¬∞ 13,  5 de enero de 2021 
 ART√çCULO ORIGINAL  
COVID-19: la gran pandemia de 2020# 
Samuel Ponce de Le√≥n Rosales& 
Coordinador del Programa Universitario de Investigaci√≥n en Salud, ...

Analizando tema del documento...
Tema principal detectado: COVID-19 (confianza: 0.88)
Sentimiento general del texto: POSITIVO (confianza: 0.51)

Verificando veracidad del contenido (esto puede tomar un momento)...

üîç AN√ÅLISIS DE VERACIDAD: MAYORMENTE VERDADERO
üìä Nivel de confianza: 75.0%

‚úÖ No 