In [1]:
# Carga de librerías

import warnings
warnings.filterwarnings("ignore")

from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_chroma import Chroma
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
import textwrap
import os

#Ruta del chroma
CHROMA_PATH = "Datos/vector_db_chile_2025"

In [9]:
#Keys y rutas
api_key = "AIzaSyBg8IIi_2thFWDvuFayEwUxcIa4r4m8XSY" # key de Google
Chromadb_path = "Datos/vector_db_chile_2025"  # ruta de ChromaDB


# LLM GEMINI
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3,
    google_api_key=api_key
)

# Embeddings y base de datos
emb = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

# Base de datos Chroma
db = Chroma(
    persist_directory=Chromadb_path,
    embedding_function=emb,
    collection_name="noticias_chile_2025"
)
# Comprobación básica de la colección Chroma
try:
    total = db._collection.count()
    print(f"Total de documentos en 'noticias_chile_2025': {total}")
    if total:
        vista = db._collection.get(limit=3, include=["metadatas", "documents"])
        for i, (doc, meta) in enumerate(zip(vista["documents"], vista["metadatas"]), 1):
            print(f"[{i}] {meta.get('medio','?')} | {meta.get('fecha','?')} | {meta.get('url','#')}")
            print(doc[:200], "...\n")
except Exception as e:
    print("Error al comprobar la base de datos:", e)

# Configuración del RAG
retriever = db.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 25, "fetch_k": 60}
)

# Plantilla del prompt
prompt = ChatPromptTemplate.from_template("""
Eres SophiaChronos, una analista que SOLO puede usar la información
entregada en el bloque "Contexto". No puedes usar conocimiento externo
ni tu memoria de entrenamiento.

REGLAS IMPORTANTES:
- Asume que TODAS las noticias del contexto son reales.
- Si el contexto NO contiene información relevante para responder,
  di: "No encontré noticias sobre ese tema en la base de datos."
- NUNCA inventes hechos.
- NUNCA digas que la fecha no ha ocurrido.
- Responde con estilo periodístico claro.
- Cita siempre: medio | fecha | link.

Contexto:
{context}

Pregunta: {question}

Respuesta (usa SOLO el contexto):
""")

Total de documentos en 'noticias_chile_2025': 35438
[1] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178710/banderazo-u-desmanes-incendio-laserena.html
En un incendio terminó el "banderazo" convocado por hinchas de la  Universidad de Chile  en la ciudad de La Serena, previo a su duelo por Copa Sudamericana frente a  Alianza Lima. El equipo universita ...

[2] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178710/banderazo-u-desmanes-incendio-laserena.html
Asimismo, se hicieron presentes voluntarios de Bomberos, quienes controlaron el siniestro, ocurrido en una zona de pastizales. El seremi de Seguridad Pública de Coquimbo,  Adio Gonzalez,  calificó el  ...

[3] emol | 2025-09-24 | https://www.emol.com/noticias/Nacional/2025/09/24/1178669/femicidio-uso-tobilleras-vif-pololeo.html
Tras registrarse un nuevo caso de femicidio en que el victimario tenía denuncias de violencia intrafamiliar por parte de la víctima, la diputada  Natalia Romero

In [None]:
# Formateador de documentos
def formatear(docs):
    return "\n\n".join(
        f"[{i+1}] **{d.metadata.get('medio','?')}** | "
        f"{d.metadata.get('fecha','?')} | {d.metadata.get('url','#')}\n"
        f"{d.page_content[:800]}..."
        for i, d in enumerate(docs)
    )

# Cadena RAG
chain = {
    "context": retriever | formatear,
    "question": RunnablePassthrough()
} | prompt | llm | StrOutputParser()

# Función para interactuar con SophiaChronos
def sophia(pregunta):
    print("SophiaChronos pensando...\n")
    respuesta = chain.invoke(pregunta)
    print("="*90)
    print("SOPHIA CHRONOS DICE:")
    print("="*90)
    print(textwrap.fill(respuesta, 100))
    print("="*90)


sophia("¿Qué pasó con Gabriel Boric en septiembre 2025?")
sophia("Resumen del acuerdo litio entre Codelco y SQM")+
sophia("¿Hubo incendios forestales graves en esa época?")
sophia("¿Qué dijo la oposición sobre la reforma de pensiones?")



SophiaChronos pensando...

SOPHIA CHRONOS DICE:
Durante septiembre de 2025, el Presidente Gabriel Boric estuvo involucrado en una serie de eventos
tanto a nivel nacional como internacional, marcando un mes de intensa actividad a seis meses del
término de su mandato.  A principios de mes, el 3 de septiembre, el mandatario participó en la
conmemoración del 30° aniversario del Instituto Internacional para la Democracia y la Asistencia
Electoral (IDEA), donde pronunció un discurso sobre los riesgos actuales para la democracia,
destacando que las amenazas son "sutiles" y "ya no necesitan bombardear el Palacio de Gobierno"
(latercera | 2025-09-03 | https://www.latercera.com/politica/noticia/boric-afirma-que-amenazas-
actuales-a-la-democracia-son-sutiles-y-remarca-ya-no-necesitan-bombardear-el-palacio-de-gobierno/).
El 4 de septiembre, el presidente de Renovación Nacional, Rodrigo Galilea, emplazó a Boric y sus
ministros a retomar las conversaciones sobre el voto obligatorio sin multas (cnnch