In [None]:
# Carga de librer√≠as

import warnings
warnings.filterwarnings("ignore")

from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
import textwrap
import os
import re
from datetime import datetime, timedelta


#Ruta del chroma
CHROMA_PATH = "Datos/vector_db_chile_2025"

In [6]:
#Keys y rutas
api_key = "AIzaSyDJfceT_JhD999werzwIrHOH9lHWmMucgI" # key de Google
Chromadb_path = "Datos/vector_db_chile_2025"  # ruta de ChromaDB


# LLM GEMINI
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3,
    google_api_key=api_key
)

# Embeddings y base de datos
emb = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

# Base de datos Chroma
db = Chroma(
    persist_directory=Chromadb_path,
    embedding_function=emb,
    collection_name="noticias_chile_2025"
)
# Comprobaci√≥n b√°sica de la colecci√≥n Chroma
try:
    total = db._collection.count()
    print(f"Total de documentos en 'noticias_chile_2025': {total}")
    
except Exception as e:
    print("Error al comprobar la base de datos:", e)

# Configuraci√≥n del RAG
retriever = db.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 25, "fetch_k": 100}
)

# Plantilla del prompt
prompt = ChatPromptTemplate.from_template("""
Eres SophiaChronos, una analista que SOLO puede usar la informaci√≥n
entregada en el bloque "Contexto". No puedes usar conocimiento externo
ni tu memoria de entrenamiento.

REGLAS IMPORTANTES:
- Asume que TODAS las noticias del contexto son reales.
- Si el contexto NO contiene informaci√≥n relevante para responder,
  di: "No encontr√© noticias sobre ese tema en la base de datos."
- NUNCA inventes hechos.
- NUNCA digas que la fecha no ha ocurrido.
- Responde con estilo period√≠stico claro.
- Cita siempre: medio | fecha | link.

Contexto:
{context}

Pregunta: {question}

Respuesta (usa SOLO el contexto):
""")

Total de documentos en 'noticias_chile_2025': 35438


In [None]:
# Lista de regiones
REGIONES_CLAVE = [
    "Arica", "Tarapac√°", "Antofagasta", "Atacama", "Coquimbo", "La Serena",
    "Valpara√≠so", "Vi√±a", "Metropolitana", "Santiago", "O'Higgins", "Rancagua",
    "Maule", "Talca", "√ëuble", "Chill√°n", "Biob√≠o", "Concepci√≥n",
    "Araucan√≠a", "Temuco", "Los R√≠os", "Valdivia", "Los Lagos", "Puerto Montt",
    "Ays√©n", "Magallanes", "Punta Arenas"
]

# Modo Hibrido de recuperaci√≥n de documentos para responder preguntas
def recuperar_documentos_hibridos(pregunta, db_chroma, k_final=25):
    
    # Modo Francotirador: filtra exacto de fecha.
    # Modo Cronol√≥gico: Ordena por fecha.
    # Modo Sem√°ntico: Ordena por relevancia.
    
    # Detecci√≥n de fecha exacta
    patron_fecha = r"(\d{1,2})\s+de\s+(septiembre)"
    match_fecha = re.search(patron_fecha, pregunta.lower())
    
    fecha_objetivo = None
    if match_fecha:
        dia = match_fecha.group(1).zfill(2) 
        mes = "09" 
        fecha_objetivo = f"2025-{mes}-{dia}"
        print(f"Buscando fecha exacta {fecha_objetivo}")

    # Deteccion por tiempo relativo
    palabras_clave_tiempo = ["semana", "√∫ltim", "reciente", "ayer", "hoy", "d√≠as", "mes", "fecha", "septiembre"]
    es_busqueda_temporal = any(p in pregunta.lower() for p in palabras_clave_tiempo)
    
    # Busqueda Masiva Inicial
    print(f"Escaneando 2000 vectores candidatos...")
    docs_candidatos = db_chroma.similarity_search(pregunta, k=2000)
    
    docs_filtrados = []
    
    # Aplicaci√≥n de filtro por regi√≥n
    region_objetivo = None
    for region in REGIONES_CLAVE:
        if region.lower() in pregunta.lower():
            region_objetivo = region
            break
            
    if region_objetivo:
        region_clean = region_objetivo.lower()
        print(f"   ‚Ü≥ 2. Filtrando por regi√≥n: '{region_objetivo}'")
        for doc in docs_candidatos:
            meta_regiones = str(doc.metadata.get("regiones", "")).lower()
            texto_contenido = doc.page_content.lower()
            if region_clean in meta_regiones or region_clean in texto_contenido:
                docs_filtrados.append(doc)
    else:
        docs_filtrados = docs_candidatos




    
    docs_finales = []
    
    # Busqueda por Fecha exacta
    # Se le da 1 dia de margen, porque a veces las noticias se publican al dia sgte
    if fecha_objetivo:
        print("Aplicando filtro de fecha exacta") 
        fecha_obj_dt = datetime.strptime(fecha_objetivo, "%Y-%m-%d")
        fecha_next_dt = fecha_obj_dt + timedelta(days=1)
        fecha_next = fecha_next_dt.strftime("%Y-%m-%d")
        
        for doc in docs_filtrados:
            f_doc = doc.metadata.get("fecha", "")
            if f_doc == fecha_objetivo or f_doc == fecha_next:
                docs_finales.append(doc)
        
        if len(docs_finales) > 0:
            print(f" Encontrados {len(docs_finales)} documentos de la fecha exacta.")
            return docs_finales
        else:
            print("No hubo noticias exactas en esa fecha. Volviendo a b√∫squeda sem√°ntica...")
            docs_finales = docs_filtrados

    # Busqueda por orden cronol√≥gico (preguntas temporales y por si falla la exacta)
    elif es_busqueda_temporal:
        print("Reordenando por fecha")
        try:
            docs_filtrados.sort(key=lambda x: x.metadata.get("fecha", "0000-00-00"), reverse=True)
            docs_finales = docs_filtrados
        except:
            docs_finales = docs_filtrados
            
    # Busqueda por relevancia
    else:
        print("Aplicando busqueda por relevancia.")
        docs_finales = docs_filtrados

    return docs_finales[:k_final]


# Formateo de string de contexto para el prompt
def formatear(docs, max_chars=1200):
    # Incluye medio, fecha, link y t√≠tulo
    bloques = []
    for doc in docs:
        meta = doc.metadata or {}
        medio = meta.get("medio", "medio desconocido")
        fecha = meta.get("fecha", "fecha desconocida")
        url = meta.get("url", "link no disponible")
        titulo = meta.get("titulo", "T√≠tulo no disponible")
        contenido = doc.page_content.strip()
        bloques.append(
            f"{medio} | {fecha} | {url}\nT√≠tulo: {titulo}\n{contenido}"
        )
    contexto = "\n\n---\n\n".join(bloques)
    if max_chars and len(contexto) > max_chars:
        contexto = contexto[:max_chars] + " ..."
    return contexto


# Funcion de SophiaChronos
def sophia(pregunta):
    print(f"\nSophiaChronos pensando: '{pregunta}'")
    
    try:
        # Recuperaci√≥n Manual de Documentos
        docs = recuperar_documentos_hibridos(pregunta, db)
        
        if not docs:
            print(" No hay documentos despu√©s del filtro.")
            return

        # Formatear contexto para el prompt
        contexto_str = formatear(docs)
        
        # Generar respuesta
        mensaje_final = prompt.format(context=contexto_str, question=pregunta)
        
        print(" Generando respuesta con Gemini...")
        respuesta = llm.invoke(mensaje_final)
        
        print("="*90)
        print("SOPHIA CHRONOS DICE:")
        print("="*90)
        print(textwrap.fill(respuesta.content, 100))
        print("="*90)
        
    except Exception as e:
        print(f"Error: {e}")

# EJECUTA ESTA PRUEBA ESPEC√çFICA
#sophia("¬øQu√© pas√≥ con Gabriel Boric en septiembre 2025?")
#sophia("Resumen del acuerdo litio entre Codelco y SQM")
#sophia("¬øHubo incendios forestales graves en esa √©poca?")
#sophia("¬øQu√© dijo la oposici√≥n sobre la reforma de pensiones?")
#sophia("¬øque paso en valdivia la ultima semana de septiembre de 2025? Listar los eventos principales")
sophia("Que paso en antofagasta el 20 de septiembre en temas de seguridad")
#sophia("Cuantas noticias de seguridad durante el mes de septiembre de 2025?")


SophiaChronos pensando: 'Que paso en antofagasta el 20 de septiembre en temas de seguridad'
   üéØ MODO FRANCOTIRADOR: Buscando fecha exacta 2025-09-20
   ‚Ü≥ 1. Escaneando 2000 vectores candidatos...
   ‚Ü≥ 2. Filtrando por regi√≥n: 'Antofagasta'
   ‚Ü≥ 3. Aplicando filtro de fecha exacta (+1 d√≠a margen).
   ‚úÖ ¬°√âxito! Encontrados 3 documentos de la fecha exacta.

üîç [DEBUG] ¬øQu√© fechas est√° leyendo Sophia realmente?
   üìÖ 2025-09-20 | Reforma tributaria de cuatro puntos y un...
   üìÖ 2025-09-20 | Reforma tributaria de cuatro puntos y un...
   üìÖ 2025-09-20 | HRA no ha registrado aumento de de atenc...
--------------------------------------------------
   ‚Ü≥ Generando respuesta con Gemini...
SOPHIA CHRONOS DICE:
No encontr√© noticias sobre ese tema en la base de datos.
