In [24]:
# Carga de librer√≠as

import warnings
warnings.filterwarnings("ignore")

from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
import textwrap
import os
import re
from datetime import datetime, timedelta

#Ruta del chroma
CHROMA_PATH = "Datos/vector_db_chile_2025"

In [2]:
#Keys y rutas
api_key = "AIzaSyDJfceT_JhD999werzwIrHOH9lHWmMucgI" # key de Google
Chromadb_path = "Datos/vector_db_chile_2025"  # ruta de ChromaDB


# LLM GEMINI
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3,
    google_api_key=api_key
)

# Embeddings y base de datos
emb = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

# Base de datos Chroma
db = Chroma(
    persist_directory=Chromadb_path,
    embedding_function=emb,
    collection_name="noticias_chile_2025"
)
# Comprobaci√≥n b√°sica de la colecci√≥n Chroma
try:
    total = db._collection.count()
    print(f"Total de documentos en 'noticias_chile_2025': {total}")
    if total:
        vista = db._collection.get(limit=3, include=["metadatas", "documents"])
        for i, (doc, meta) in enumerate(zip(vista["documents"], vista["metadatas"]), 1):
            print(f"[{i}] {meta.get('medio','?')} | {meta.get('fecha','?')} | {meta.get('url','#')}")
            print(doc[:200], "...\n")
except Exception as e:
    print("Error al comprobar la base de datos:", e)

# Configuraci√≥n del RAG
retriever = db.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 15, "fetch_k": 60}
)

# Plantilla del prompt
prompt = ChatPromptTemplate.from_template("""
Eres SophiaChronos, una analista que SOLO puede usar la informaci√≥n
entregada en el bloque "Contexto". No puedes usar conocimiento externo
ni tu memoria de entrenamiento.

REGLAS IMPORTANTES:
- Asume que TODAS las noticias del contexto son reales.
- Si el contexto NO contiene informaci√≥n relevante para responder,
  di: "No encontr√© noticias sobre ese tema en la base de datos."
- NUNCA inventes hechos.
- NUNCA digas que la fecha no ha ocurrido.
- Responde con estilo period√≠stico claro.
- Cita siempre: medio | fecha | link.

Contexto:
{context}

Pregunta: {question}

Respuesta (usa SOLO el contexto):
""")

Total de documentos en 'noticias_chile_2025': 35438
[1] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178710/banderazo-u-desmanes-incendio-laserena.html
En un incendio termin√≥ el "banderazo" convocado por hinchas de la  Universidad de Chile  en la ciudad de La Serena, previo a su duelo por Copa Sudamericana frente a  Alianza Lima. El equipo universita ...

[2] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178710/banderazo-u-desmanes-incendio-laserena.html
Asimismo, se hicieron presentes voluntarios de Bomberos, quienes controlaron el siniestro, ocurrido en una zona de pastizales. El seremi de Seguridad P√∫blica de Coquimbo,  Adio Gonzalez,  calific√≥ el  ...

[3] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178669/femicidio-uso-tobilleras-vif-pololeo.html
Tras registrarse un nuevo caso de femicidio en que el victimario ten√≠a denuncias de violencia intrafamiliar por parte de la v√≠ctima, la diputada  Natalia R

In [3]:
# Se definen las regiones y se detecta en la pregunta la region mencionada
REGIONES_CLAVE = [
    "Arica", "Tarapac√°", "Antofagasta", "Atacama", "Coquimbo", "La Serena",
    "Valpara√≠so", "Vi√±a", "Metropolitana", "Santiago", "O'Higgins", "Rancagua",
    "Maule", "Talca", "√ëuble", "Chill√°n", "Biob√≠o", "Concepci√≥n",
    "Araucan√≠a", "Temuco", "Los R√≠os", "Valdivia", "Los Lagos", "Puerto Montt",
    "Ays√©n", "Magallanes", "Punta Arenas"
]

def obtener_retriever_inteligente(pregunta, db_chroma):
    """
    Detecta si la pregunta menciona una regi√≥n y ajusta el filtro de metadatos.
    """
    filtro = {}
    region_detectada = None
    
    # B√∫squeda insensible a may√∫sculas/min√∫sculas
    for region in REGIONES_CLAVE:
        if region.lower() in pregunta.lower():
            region_detectada = region
            # Filtro $contains busca la subcadena en el metadato "regiones"
            filtro = {"regiones": {"$contains": region}}
            break 
            
    # Configuraci√≥n base (MMR para diversidad)
    search_kwargs = {"k": 15, "fetch_k": 60}
    
    # Si detectamos regi√≥n, aplicamos el filtro estricto
    if filtro:
        print(f"üìç [SISTEMA] Filtro activado para regi√≥n: {region_detectada}")
        search_kwargs["filter"] = filtro
        
    return db_chroma.as_retriever(
        search_type="mmr",
        search_kwargs=search_kwargs
    )





# Formateador de documentos
def formatear(docs):
    return "\n\n".join(
        f"[{i+1}] **{d.metadata.get('medio','?')}** | "
        f"{d.metadata.get('fecha','?')} | {d.metadata.get('url','#')}\n"
        f"{d.page_content[:800]}..."
        for i, d in enumerate(docs)
    )





# Cadena RAG
chain = {
    "context": retriever | formatear,
    "question": RunnablePassthrough()
} | prompt | llm | StrOutputParser()

# Funci√≥n para interactuar con SophiaChronos
def sophia(pregunta):
    print("SophiaChronos pensando...\n")
    respuesta = chain.invoke(pregunta)
    print("="*90)
    print("SOPHIA CHRONOS DICE:")
    print("="*90)
    print(textwrap.fill(respuesta, 100))
    print("="*90)


#sophia("¬øQu√© pas√≥ con Gabriel Boric en septiembre 2025?")
#sophia("Resumen del acuerdo litio entre Codelco y SQM")
#sophia("¬øHubo incendios forestales graves en esa √©poca?")
#sophia("¬øQu√© dijo la oposici√≥n sobre la reforma de pensiones?")
sophia("¬øque paso en valdivia la ultima semana de septiembre de 2025? Listar los eventos principales")
sophia("Que paso en antofagasta el 20 de septiembre en temas de seguridad")
sophia("Cuantas noticias de seguridad durante el mes de septiembre de 2025?")


# Ajustar chunks si es necesario para responder preguntas
# Agente para razonar y mejorar respuestas. 


SophiaChronos pensando...

SOPHIA CHRONOS DICE:
No encontr√© noticias sobre ese tema en la base de datos.
SophiaChronos pensando...

SOPHIA CHRONOS DICE:
No encontr√© noticias sobre ese tema en la base de datos.
SophiaChronos pensando...

SOPHIA CHRONOS DICE:
Durante el mes de septiembre de 2025, se registraron diez noticias relacionadas con seguridad en la
base de datos:  1.  **latercera** | 2025-09-10 | https://www.latercera.com/nacional/noticia/mas-
de-3300-detenidos-deja-masivo-operativo-a-nivel-nacional-se-allanaron-mas-de-160-domicilios/ 2.
**latercera** | 2025-09-11 | https://www.latercera.com/nacional/noticia/municipios-de-la-rm-encaran-
el-11-de-septiembre-con-fuertes-operativos-de-seguridad-y-conmemoraciones-dispares/ 3.  **emol** |
2025-09-05 | https://www.emol.com/noticias/Nacional/2025/09/05/1177092/ataque-comisaria-
huechuraba.html 4.  **latercera** | 2025-09-25 | https://www.latercera.com/nacional/noticia/el-fake-
del-presidente-de-la-camara-aseguro-ser-autor-de-50-leyes

In [27]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
import textwrap

# --- 1. CONFIGURACI√ìN ---
# Lista de regiones para detecci√≥n (igual que antes)
REGIONES_CLAVE = [
    "Arica", "Tarapac√°", "Antofagasta", "Atacama", "Coquimbo", "La Serena",
    "Valpara√≠so", "Vi√±a", "Metropolitana", "Santiago", "O'Higgins", "Rancagua",
    "Maule", "Talca", "√ëuble", "Chill√°n", "Biob√≠o", "Concepci√≥n",
    "Araucan√≠a", "Temuco", "Los R√≠os", "Valdivia", "Los Lagos", "Puerto Montt",
    "Ays√©n", "Magallanes", "Punta Arenas"
]

# --- 2. RECUPERADOR CON FILTRO EN PYTHON (POST-RETRIEVAL) ---
def recuperar_documentos_hibridos(pregunta, db_chroma, k_final=25):
    """
    Estrategia v3.0 (Definitiva):
    1. Modo Francotirador: Si detecta "20 de septiembre", filtra EXACTO esa fecha.
    2. Modo Cronol√≥gico: Si pide "semana", ordena por fecha.
    3. Modo Sem√°ntico: Si es tema general, ordena por relevancia.
    """
    
    # --- 1. DETECCI√ìN DE FECHA EXACTA (Regex) ---
    # Busca patrones como "20 de septiembre" o "20/09"
    # Asumimos a√±o 2025 por tu dataset
    patron_fecha = r"(\d{1,2})\s+de\s+(septiembre)"
    match_fecha = re.search(patron_fecha, pregunta.lower())
    
    fecha_objetivo = None
    if match_fecha:
        dia = match_fecha.group(1).zfill(2) # Convierte "5" en "05"
        # Mapeo simple porque solo tienes septiembre
        mes = "09" 
        fecha_objetivo = f"2025-{mes}-{dia}"
        print(f"   üéØ MODO FRANCOTIRADOR: Buscando fecha exacta {fecha_objetivo}")

    # --- 2. DETECCI√ìN DE INTENCI√ìN TEMPORAL GENERAL ---
    palabras_clave_tiempo = ["semana", "√∫ltim", "reciente", "ayer", "hoy", "d√≠as", "mes", "fecha", "septiembre"]
    es_busqueda_temporal = any(p in pregunta.lower() for p in palabras_clave_tiempo)
    
    # --- 3. B√öSQUEDA MASIVA ---
    print(f"   ‚Ü≥ 1. Escaneando 2000 vectores candidatos...")
    docs_candidatos = db_chroma.similarity_search(pregunta, k=2000)
    
    docs_filtrados = []
    
    # --- 4. FILTRADO REGIONAL ---
    region_objetivo = None
    for region in REGIONES_CLAVE:
        if region.lower() in pregunta.lower():
            region_objetivo = region
            break
            
    if region_objetivo:
        region_clean = region_objetivo.lower()
        print(f"   ‚Ü≥ 2. Filtrando por regi√≥n: '{region_objetivo}'")
        for doc in docs_candidatos:
            meta_regiones = str(doc.metadata.get("regiones", "")).lower()
            texto_contenido = doc.page_content.lower()
            if region_clean in meta_regiones or region_clean in texto_contenido:
                docs_filtrados.append(doc)
    else:
        docs_filtrados = docs_candidatos

    # --- 5. APLICACI√ìN DE ESTRATEGIAS ---
    
    docs_finales = []
    
    # ESTRATEGIA A: FECHA EXACTA (Prioridad M√°xima)
    if fecha_objetivo:
        print("   ‚Ü≥ 3. Aplicando filtro de fecha exacta (+1 d√≠a margen).")
        # Calculamos d√≠a siguiente por si la noticia sali√≥ en el diario del d√≠a despu√©s
        fecha_obj_dt = datetime.strptime(fecha_objetivo, "%Y-%m-%d")
        fecha_next_dt = fecha_obj_dt + timedelta(days=1)
        fecha_next = fecha_next_dt.strftime("%Y-%m-%d")
        
        for doc in docs_filtrados:
            f_doc = doc.metadata.get("fecha", "")
            # Si coincide con el d√≠a pedido O el d√≠a siguiente
            if f_doc == fecha_objetivo or f_doc == fecha_next:
                docs_finales.append(doc)
        
        if len(docs_finales) > 0:
            print(f"   ‚úÖ ¬°√âxito! Encontrados {len(docs_finales)} documentos de la fecha exacta.")
            return docs_finales # Retorno inmediato, ignoramos relevancia sem√°ntica
        else:
            print("   ‚ö†Ô∏è No hubo noticias exactas en esa fecha. Volviendo a b√∫squeda sem√°ntica...")
            docs_finales = docs_filtrados # Fallback

    # ESTRATEGIA B: ORDEN CRONOL√ìGICO (Si pidi√≥ "semana" o fall√≥ la fecha exacta)
    elif es_busqueda_temporal:
        print("   ‚Ü≥ 3. Reordenando por fecha (Usuario pidi√≥ tiempo relativo).")
        try:
            docs_filtrados.sort(key=lambda x: x.metadata.get("fecha", "0000-00-00"), reverse=True)
            docs_finales = docs_filtrados
        except:
            docs_finales = docs_filtrados
            
    # ESTRATEGIA C: SEM√ÅNTICA PURA (Por defecto)
    else:
        print("   ‚Ü≥ 3. Manteniendo orden por relevancia.")
        docs_finales = docs_filtrados

    return docs_finales[:k_final]

# --- 3. NUEVA FUNCI√ìN SOPHIA ---
def sophia(pregunta):
    print(f"\nSophiaChronos pensando: '{pregunta}'")
    
    try:
        # A. Recuperaci√≥n Manual
        docs = recuperar_documentos_hibridos(pregunta, db)
        
        if not docs:
            print("‚ùå No hay documentos despu√©s del filtro.")
            return

        # --- ZONA DE DEBUGGING (CR√çTICO) ---
        print("\nüîç [DEBUG] ¬øQu√© fechas est√° leyendo Sophia realmente?")
        fechas_encontradas = []
        for d in docs:
            f = d.metadata.get('fecha', 'Sin fecha')
            t = d.metadata.get('titulo', 'Sin t√≠tulo')[:40]
            print(f"   üìÖ {f} | {t}...")
            fechas_encontradas.append(f)
        print("-" * 50)
        # -----------------------------------

        # 2. Formatear contexto
        contexto_str = formatear(docs)
        
        # 3. Generar respuesta
        mensaje_final = prompt.format(context=contexto_str, question=pregunta)
        
        print("   ‚Ü≥ Generando respuesta con Gemini...")
        respuesta = llm.invoke(mensaje_final)
        
        print("="*90)
        print("SOPHIA CHRONOS DICE:")
        print("="*90)
        print(textwrap.fill(respuesta.content, 100))
        print("="*90)
        
    except Exception as e:
        print(f"‚ùå Error: {e}")

# EJECUTA ESTA PRUEBA ESPEC√çFICA
#sophia("¬øQu√© pas√≥ con Gabriel Boric en septiembre 2025?")
#sophia("Resumen del acuerdo litio entre Codelco y SQM")
#sophia("¬øHubo incendios forestales graves en esa √©poca?")
#sophia("¬øQu√© dijo la oposici√≥n sobre la reforma de pensiones?")
#sophia("¬øque paso en valdivia la ultima semana de septiembre de 2025? Listar los eventos principales")
sophia("Que paso en antofagasta el 20 de septiembre en temas de seguridad")
#sophia("Cuantas noticias de seguridad durante el mes de septiembre de 2025?")


SophiaChronos pensando: 'Que paso en antofagasta el 20 de septiembre en temas de seguridad'
   üéØ MODO FRANCOTIRADOR: Buscando fecha exacta 2025-09-20
   ‚Ü≥ 1. Escaneando 2000 vectores candidatos...
   ‚Ü≥ 2. Filtrando por regi√≥n: 'Antofagasta'
   ‚Ü≥ 3. Aplicando filtro de fecha exacta (+1 d√≠a margen).
   ‚úÖ ¬°√âxito! Encontrados 3 documentos de la fecha exacta.

üîç [DEBUG] ¬øQu√© fechas est√° leyendo Sophia realmente?
   üìÖ 2025-09-20 | Reforma tributaria de cuatro puntos y un...
   üìÖ 2025-09-20 | Reforma tributaria de cuatro puntos y un...
   üìÖ 2025-09-20 | HRA no ha registrado aumento de de atenc...
--------------------------------------------------
   ‚Ü≥ Generando respuesta con Gemini...
SOPHIA CHRONOS DICE:
No encontr√© noticias sobre ese tema en la base de datos.
