# RAG embeddings

## 0. Libraries

In [1]:
import os, json, ast, requests
import numpy as np
import pandas as pd

# Optional fallback if faiss is not installed
try:
    import faiss
    _has_faiss = True
except Exception:
    _has_faiss = False
    from sklearn.neighbors import NearestNeighbors


## 1. Config

In [2]:
# ---------- CONFIG ----------
CSV_PATH = "/home/jggomez/Desktop/IRIS/iris-uc3m/data/Base de datos Noticias 27102025.xlsx - Noticias_embeddings.csv"
TEXT_COL = "textonoticia"
EMBED_COL = "embedding"   # column with JSON-list OR use emb_0... columns
METADATA_COLS = [
    "G√©nero periodista",
    "G√©nero personas noticias", "IA principal", "Significado IA",
    "Referencias pol√≠ticas igualdad", "Denuncia desigualdad g√©nero",
    "Presencia mujeres racializadas", "Presencia  mujeres discapacidad",
    "Presencia diversidad generacional", "Menciona IA", "Lenguaje sexista",
    "Masculino gen√©rico", "Hombre humanidad", "Uso dual zorra",
    "No uso cargos mujeres", "Sexismo social", "Androcentrismo_",
    "Mujeres sin nombre", "Asimetr√≠a mujer hombre", "Infantilizaci√≥n mujeres",
    "Denominaci√≥n sexualizada", "Denominaci√≥n redundante", "Denominaci√≥n dependiente",
    "Criterios excepci√≥n", "Comparaci√≥n mujeres/hombres"
]
OLLAMA_EMBED_URL = "http://localhost:11434/api/embed"
OLLAMA_MODEL = "embeddinggemma:300m"

## 2. Helpers

In [3]:
# === Helpers ===
def parse_embedding_cell(x):
    if isinstance(x, str):
        try:
            return json.loads(x)
        except Exception:
            try:
                return ast.literal_eval(x)
            except Exception:
                return None
    elif isinstance(x, (list, np.ndarray)):
        return list(x)
    else:
        return None

def l2_normalize(arr):
    arr = np.asarray(arr, dtype=np.float32)
    norms = np.linalg.norm(arr, axis=1, keepdims=True)
    norms[norms == 0] = 1.0
    return arr / norms

def get_ollama_embedding(text, url=OLLAMA_EMBED_URL, model=OLLAMA_MODEL, timeout=30):
    payload = {"model": model, "input": text}
    r = requests.post(url, json=payload, timeout=timeout)
    r.raise_for_status()
    data = r.json()
    # direct cases
    if isinstance(data, dict) and "embedding" in data and isinstance(data["embedding"], list) and len(data["embedding"])>0:
        return np.array(data["embedding"], dtype=np.float32)
    # recursive search for first numeric list
    def find_first_array(obj):
        if isinstance(obj, list):
            if obj and all(isinstance(x, (int, float)) for x in obj):
                return obj
            for el in obj:
                res = find_first_array(el)
                if res is not None:
                    return res
        if isinstance(obj, dict):
            for v in obj.values():
                res = find_first_array(v)
                if res is not None:
                    return res
        return None
    arr = find_first_array(data)
    if arr is None:
        raise RuntimeError(f"No embedding array found in Ollama response: {data}")
    if len(arr) == 0:
        raise RuntimeError("Embedding returned empty by Ollama.")
    return np.array(arr, dtype=np.float32)

## 3. Load data

In [4]:
# === 1) Load CSV and embeddings ===
df = pd.read_csv(CSV_PATH)
print("Loaded rows:", len(df))

# detect embedding format
if EMBED_COL in df.columns:
    df["__embedding_list"] = df[EMBED_COL].apply(parse_embedding_cell)
    df = df[df["__embedding_list"].notna()].reset_index(drop=True)
    embeddings = np.vstack(df["__embedding_list"].values).astype(np.float32)
else:
    emb_cols = [c for c in df.columns if c.startswith("emb_")]
    if not emb_cols:
        raise ValueError("No embeddings found: neither column 'embedding' nor emb_ cols.")
    emb_cols = sorted(emb_cols, key=lambda x: int(x.split("_")[1]))
    embeddings = df[emb_cols].to_numpy(dtype=np.float32)
    df["__embedding_list"] = list(embeddings.tolist())

n, d = embeddings.shape
print("Embeddings shape:", embeddings.shape)

# normalize
emb_norm = l2_normalize(embeddings)

Loaded rows: 1246
Embeddings shape: (1246, 768)


## 4. Build index

In [5]:
# === 2) Build index (FAISS if available, else sklearn) ===
if _has_faiss:
    index = faiss.IndexFlatIP(d)  # inner product on normalized vectors = cosine similarity
    index.add(emb_norm)
    use_faiss = True
    print("FAISS index built.")
else:
    nbrs = NearestNeighbors(n_neighbors=10, metric="cosine").fit(embeddings)  # cosine distance
    use_faiss = False
    print("Sklearn NearestNeighbors built (cosine).")

FAISS index built.


## 5. Retrieve

In [6]:
# === 3) Retrieval function ===
def retrieve_top_k(query_text, k=3, return_metadata_cols=None):
    if return_metadata_cols is None:
        return_metadata_cols = METADATA_COLS + [TEXT_COL]
    # 1) embed query
    q = get_ollama_embedding(query_text)
    if q.shape[0] != d:
        raise RuntimeError(f"Query embedding dim {q.shape[0]} != index dim {d}")
    q = q.reshape(1, -1).astype(np.float32)
    q_norm = l2_normalize(q)
    results = []
    if use_faiss:
        # FAISS returns inner-product (higher = more similar)
        scores, idxs = index.search(q_norm, k)
        scores = scores[0].tolist()
        idxs = idxs[0].tolist()
        for score, idx in zip(scores, idxs):
            if idx < 0: continue
            row = df.iloc[idx]
            meta = {c: (row[c] if c in row.index else None) for c in return_metadata_cols}
            results.append({
                "doc_index": int(idx),
                "score": float(score),   # cosine similarity
                "text": str(row.get(TEXT_COL, "")),
                "metadata": meta
            })
    else:
        # sklearn returns cosine distance (0 best). convert to similarity = 1 - distance
        distances, idxs = nbrs.kneighbors(q, n_neighbors=k)
        distances = distances[0].tolist()
        idxs = idxs[0].tolist()
        for dist, idx in zip(distances, idxs):
            sim = 1.0 - float(dist)
            row = df.iloc[idx]
            meta = {c: (row[c] if c in row.index else None) for c in return_metadata_cols}
            results.append({
                "doc_index": int(idx),
                "score": sim,
                "text": str(row.get(TEXT_COL, "")),
                "metadata": meta
            })
    return results

## 6. Test

In [7]:
noticias_test = [
    # 1. Pol√≠tica ‚Äî invisibilizaci√≥n + minimizaci√≥n + fuentes masculinas
    """
    El Gobierno anunci√≥ esta ma√±ana una reestructuraci√≥n completa del Ministerio de Ciencia,
    un √°rea que la nueva ministra, Ana Robles, ‚Äúintentar√° gestionar con prudencia‚Äù, seg√∫n palabras
    del presidente. Durante la presentaci√≥n, el presidente destac√≥ la ‚Äúexperiencia t√©cnica‚Äù de los
    secretarios de Estado ‚Äîtodos ellos hombres‚Äî y atribuy√≥ a ellos la responsabilidad de ‚Äúmarcar el rumbo
    cient√≠fico de los pr√≥ximos a√±os‚Äù.

    Aunque Robles tiene m√°s de veinte a√±os de trayectoria en investigaci√≥n internacional,
    en el acto se insisti√≥ en su ‚Äúcar√°cter dialogante‚Äù y ‚Äúcapacidad de escucha‚Äù, mencionando su vida familiar
    en varias ocasiones. De los doce an√°lisis citados como respaldo t√©cnico, once fueron elaborados por expertos
    varones; la √∫nica investigadora mencionada apareci√≥ como ‚Äúcolaboradora‚Äù.

    La cobertura medi√°tica posterior subray√≥ la ‚Äúimagen cercana‚Äù de la ministra y su ‚Äútono suave‚Äù, compar√°ndola
    con su predecesor, ‚Äúconocido por su firmeza‚Äù. En ning√∫n art√≠culo se destac√≥ el historial cient√≠fico de Robles ni
    su liderazgo en proyectos europeos, mientras que m√∫ltiples titulares destacaron la ‚Äúsolidez del equipo masculino
    que la asesorar√°‚Äù. Organizaciones feministas han criticado la presentaci√≥n por reproducir un modelo de liderazgo
    centrado en figuras masculinas y relegar a la ministra a un papel m√°s simb√≥lico que t√©cnico.
    """,

    # 2. Tecnolog√≠a ‚Äî estereotipos + infantilizaci√≥n + atribuci√≥n parcial
    """
    La empresa DataForge present√≥ hoy su nuevo asistente de inteligencia artificial, desarrollado por un equipo
    de m√°s de 70 ingenieros. En los materiales de prensa, la compa√±√≠a destac√≥ repetidamente el papel de ‚Äúlos j√≥venes talentos‚Äù
    masculinos del departamento de algoritmia, mostrando fotos y citas extensas de los hombres del equipo.

    Entre las desarrolladoras figura Laura M., una ingeniera con diez a√±os de experiencia en aprendizaje profundo,
    pero el comunicado de la empresa la menciona √∫nicamente como ‚Äúuna de las chicas del equipo de dise√±o‚Äù.
    En un v√≠deo promocional, Laura aparece sonriendo y sosteniendo una tableta sin participar en explicaciones t√©cnicas.
    En redes sociales, la empresa respondi√≥ a un comentario diciendo que ‚ÄúLaura aporta sensibilidad al producto‚Äù.

    El producto ha recibido elogios por su capacidad de an√°lisis predictivo, pero ninguna de las notas difundidas por
    DataForge atribuye esas mejoras al subequipo liderado por Laura, responsable del modelo de series temporales.
    Varias ONG tecnol√≥gicas criticaron la comunicaci√≥n por reproducir estereotipos de g√©nero y por reducir el aporte t√©cnico
    de las desarrolladoras a roles decorativos.
    """,

    # 3. Deportes ‚Äî sexualizaci√≥n + androcentrismo + √©nfasis f√≠sico
    """
    La liga de baloncesto femenina arranc√≥ este fin de semana con un lleno total en varios estadios, pero la mayor√≠a
    de los titulares se centraron en la apariencia de las jugadoras. Varios medios destacaron que las ‚Äúestrellas del equipo‚Äù
    lucieron ‚Äúatuendos llamativos‚Äù y ‚Äúpeinados impecables‚Äù, dedicando tan solo unas l√≠neas a los resultados deportivos.

    En la rueda de prensa posterior al partido, a la base del equipo, Marta C., se le pregunt√≥ por ‚Äúc√≥mo consigue
    mantenerse en forma mientras concilia su vida personal‚Äù, mientras que al entrenador masculino se le solicitaron an√°lisis
    t√°cticos detallados. En el mismo art√≠culo, un periodista afirm√≥ que la ‚Äúbelleza natural‚Äù de Marta es ‚Äúuno de los grandes
    atractivos de la competici√≥n‚Äù.

    Pese a su actuaci√≥n sobresaliente ‚Äî28 puntos y 11 asistencias‚Äî, su rendimiento fue descrito como ‚Äúuna sorpresa agradable‚Äù
    mientras que el p√≠vot masculino del equipo filial, con un rendimiento menor, fue calificado como ‚Äúuna promesa consolidada
    del baloncesto nacional‚Äù.
    """,

    # 4. Econom√≠a/empresa ‚Äî condescendencia + dudas sobre autoridad femenina
    """
    La directiva de la empresa log√≠stica TransMar asumi√≥ ayer la presidencia tras la renuncia del anterior responsable.
    En su comunicado oficial, varios consejeros ‚Äîtodos hombres‚Äî afirmaron que conf√≠an en que la nueva presidenta, Clara D√≠ez,
    ‚Äúsabr√° manejar las relaciones internas con mano suave‚Äù y destacaron su ‚Äúsensibilidad natural para tratar con los empleados‚Äù.

    Aunque D√≠ez ha dirigido durante seis a√±os la expansi√≥n internacional de la compa√±√≠a, la noticia fue tratada en algunos medios
    como ‚Äúun desaf√≠o inesperado para la ejecutiva‚Äù, insinuando que podr√≠a necesitar ‚Äúapoyo permanente del equipo senior‚Äù.
    Un editorial se√±alaba: ‚ÄúA Clara se la ve trabajadora y muy organizada, aunque quiz√° le falte presencia para negociar
    con clientes importantes‚Äù.

    En contraste, cuando el director anterior fue nombrado, los medios resaltaron su ‚Äúambici√≥n‚Äù, ‚Äúliderazgo firme‚Äù
    y ‚Äúvisi√≥n estrat√©gica‚Äù, sin mencionar nunca su vida personal ni su apariencia.
    """,

    # 5. Sociedad ‚Äî culpabilizaci√≥n de v√≠ctimas + minimizaci√≥n
    """
    La polic√≠a inform√≥ hoy sobre una agresi√≥n ocurrida en un bar de la ciudad. Aunque el informe oficial describe el suceso
    como un ataque en grupo contra una mujer, varios titulares insinuaron que la v√≠ctima ‚Äúhab√≠a bebido m√°s de la cuenta‚Äù
    y ‚Äúdeambulaba sola de madrugada‚Äù.

    En algunos art√≠culos se sugiere que la mujer ‚Äúprovoc√≥ la situaci√≥n‚Äù al ‚Äúllamar la atenci√≥n de los hombres‚Äù, pese a que
    la investigaci√≥n preliminar no indica conducta inapropiada por su parte. Los art√≠culos incluyen declaraciones extensas
    de los hombres implicados, que alegan ‚Äúmalentendidos‚Äù y ‚Äúbromas que se salieron de control‚Äù, mientras que la declaraci√≥n
    de la v√≠ctima aparece resumida en una sola frase.

    Las organizaciones feministas se√±alan que este tipo de tratamiento medi√°tico reproduce patrones de culpabilizaci√≥n
    de las mujeres v√≠ctimas y minimiza la responsabilidad de los agresores, reforzando estereotipos profundamente arraigados.
    """
]

In [8]:
# ============================================
# üîé SUMMARY TABULAR POR VARIABLE EN TOP-K
# ============================================

def summarize_variables(top_results, metadata_cols, min_width=40):
    """
    top_results: salida de retrieve_top_k(...)
    metadata_cols: variables del dataset
    min_width: ancho m√≠nimo por columna (default=40)
    """

     # Header: Variable | Doc 1 | Doc 2 | Doc 3
    headers = ["VARIABLE"] + [f"Doc {i+1}" for i in range(len(top_results))]

    # Calculamos un ancho grande
    col_widths = [max(len(h), min_width) for h in headers]

    print("\n" + "="* (sum(col_widths) + 3 * (len(headers)-1)))
    print("üìä RESUMEN DE VARIABLES POR DOCUMENTO (FILAS = VARIABLES)")
    print("="* (sum(col_widths) + 3 * (len(headers)-1)))

   

    

    def fmt_row(cols):
        return " | ".join(str(c).ljust(w) for c, w in zip(cols, col_widths))

    # Print header
    print(fmt_row(headers))
    print("-" * (sum(col_widths) + 3 * (len(headers)-1)))

    # Rows: una variable por fila
    for var in metadata_cols:
        row = [var]
        for r in top_results:
            val = r["metadata"].get(var, "")
            row.append("" if val is None else str(val))
        print(fmt_row(row))

    print("="*(sum(col_widths) + 3 * (len(headers)-1)) + "\n")

In [9]:
# === Example usage ===
top3 = retrieve_top_k(noticias_test[4], k=3)

# imprimir los resultados b√°sicos
for i, r in enumerate(top3, 1):
    print(f"Rank {i}: idx={r['doc_index']}, score={r['score']:.4f}")
    print("Preview:", r['text'][:200].replace("\n", " "))
    print("-"*50)

# resumen por variables
summarize_variables(top3, METADATA_COLS)

Rank 1: idx=1235, score=0.5982
Preview: muchas son las ocasiones en las que ponemos las noticias y vemos que en diferentes partes del mundo se han producido tiroteos o han alertado de individuos armados con comportamientos agresivos que, en
--------------------------------------------------
Rank 2: idx=1111, score=0.5909
Preview: la guardia civil investiga en mallorca un caso de manipulaci√≥n pornogr√°fica de im√°genes con inteligencia artificial que afecta a chicas menores de edad. los autores fueron igualmente varios menores de
--------------------------------------------------
Rank 3: idx=385, score=0.5899
Preview: nuevo varapalo de bruselas a meta, la empresa matriz de facebook. la comisi√≥n europea ha denunciado este lunes a la compa√±√≠a por violar la ley de mercados digitales (dma por sus siglas en ingl√©s) con 
--------------------------------------------------

üìä RESUMEN DE VARIABLES POR DOCUMENTO (FILAS = VARIABLES)
VARIABLE                                 | Doc 1         

## 7. Agents

In [10]:
from langchain_community.utilities import WikipediaAPIWrapper
from langchain.tools import tool

# === Tool: Wikipedia (ES) ===
wiki = WikipediaAPIWrapper(lang="es", top_k_results=3, doc_content_chars_max=2000)

@tool("wikipedia_search")
def wikipedia_search(query: str) -> str:
    """Busca en Wikipedia (es) y devuelve un resumen de los mejores resultados."""
    try:
        result = wiki.run(query)
        return result if isinstance(result, str) else str(result)
    except Exception as e:
        return f"Error en Wikipedia: {e}"


In [11]:
from langchain_community.tools import DuckDuckGoSearchRun
from langchain.tools import tool

ddg_search = DuckDuckGoSearchRun()

@tool("duckduckgo_search")
def duck_search(query: str) -> str:
    """Busca en la web usando DuckDuckGo y devuelve un resumen breve."""
    try:
        return ddg_search.run(query)
    except Exception as e:
        return f"Error en DuckDuckGo: {e}"


In [12]:

from langchain.agents import initialize_agent, AgentType
from crewai import Agent, Task, Crew
from langchain_community.llms import Ollama

# Inicializamos el modelo local
ollama_model = Ollama(model="gemma3:4b", base_url="http://localhost:11434")


# === Agente con herramientas (incluye Wikipedia) ===
tools = [wikipedia_search, duck_search]
react_agent = initialize_agent(
    tools=tools,
    llm=ollama_model,
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True,
)

# Ejemplo de uso
query = "Busca en la web actual qui√©n es Pedro S√°nchez y resume en 3 frases."
react_result = react_agent.invoke({"input": query})
print(react_result["output"])


  ollama_model = Ollama(model="gemma3:4b", base_url="http://localhost:11434")
  react_agent = initialize_agent(




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mI need to find out who Pedro S√°nchez is and summarize him in 3 sentences. I will use a web search to do this.
Action: duckduckgo_search
Action Input: "Pedro S√°nchez"[0m
Observation: [33;1m[1;3mNo good DuckDuckGo Search Result was found[0m
Thought:

  with DDGS() as ddgs:


[32;1m[1;3mOkay, DuckDuckGo didn't provide a helpful result. Let's try Wikipedia to get a more detailed overview.
Action: wikipedia_search
Action Input: "Pedro S√°nchez"[0m
Observation: [36;1m[1;3mPage: Pedro S√°nchez
Summary: Pedro S√°nchez P√©rez-Castej√≥n (Madrid, 29 de febrero de 1972)‚Äã es un pol√≠tico y economista espa√±ol, actual presidente del Gobierno de Espa√±a desde 2018 (7 a√±os, 5 meses y 17 d√≠as). Es secretario general del Partido Socialista Obrero Espa√±ol (PSOE) desde 2017, cargo que ya hab√≠a desempe√±ado entre 2014 y 2016.‚Äã
Licenciado en Ciencias Econ√≥micas y Empresariales por el Real Centro Universitario Mar√≠a Cristina de El Escorial y doctor en Econom√≠a y Empresa por la Universidad Camilo Jos√© Cela, su carrera pol√≠tica la comenz√≥ como concejal en el Ayuntamiento de Madrid, entre 2004 y 2009. Luego fue diputado en el Congreso en la ix y x legislaturas. En 2014 sucedi√≥ a Alfredo P√©rez Rubalcaba al frente de la secretar√≠a general del PSOE, y en 2015 y

  with DDGS() as ddgs:


[32;1m[1;3mOkay, DuckDuckGo didn't provide a helpful result. Let's try Wikipedia to get a more detailed overview.
Action: wikipedia_search
Action Input: "Pedro S√°nchez"[0m
Observation: [36;1m[1;3mPage: Pedro S√°nchez
Summary: Pedro S√°nchez P√©rez-Castej√≥n (Madrid, 29 de febrero de 1972)‚Äã es un pol√≠tico y economista espa√±ol, actual presidente del Gobierno de Espa√±a desde 2018 (7 a√±os, 5 meses y 17 d√≠as). Es secretario general del Partido Socialista Obrero Espa√±ol (PSOE) desde 2017, cargo que ya hab√≠a desempe√±ado entre 2014 y 2016.‚Äã
Licenciado en Ciencias Econ√≥micas y Empresariales por el Real Centro Universitario Mar√≠a Cristina de El Escorial y doctor en Econom√≠a y Empresa por la Universidad Camilo Jos√© Cela, su carrera pol√≠tica la comenz√≥ como concejal en el Ayuntamiento de Madrid, entre 2004 y 2009. Luego fue diputado en el Congreso en la ix y x legislaturas. En 2014 sucedi√≥ a Alfredo P√©rez Rubalcaba al frente de la secretar√≠a general del PSOE, y en 2015 y

  with DDGS() as ddgs:


[32;1m[1;3mThought:Okay, DuckDuckGo didn't provide a helpful result. Let's try Wikipedia to get a more detailed overview.
Action: wikipedia_search
Action Input: "Pedro S√°nchez"[0m
Observation: [36;1m[1;3mPage: Pedro S√°nchez
Summary: Pedro S√°nchez P√©rez-Castej√≥n (Madrid, 29 de febrero de 1972)‚Äã es un pol√≠tico y economista espa√±ol, actual presidente del Gobierno de Espa√±a desde 2018 (7 a√±os, 5 meses y 17 d√≠as). Es secretario general del Partido Socialista Obrero Espa√±ol (PSOE) desde 2017, cargo que ya hab√≠a desempe√±ado entre 2014 y 2016.‚Äã
Licenciado en Ciencias Econ√≥micas y Empresariales por el Real Centro Universitario Mar√≠a Cristina de El Escorial y doctor en Econom√≠a y Empresa por la Universidad Camilo Jos√© Cela, su carrera pol√≠tica la comenz√≥ como concejal en el Ayuntamiento de Madrid, entre 2004 y 2009. Luego fue diputado en el Congreso en la ix y x legislaturas. En 2014 sucedi√≥ a Alfredo P√©rez Rubalcaba al frente de la secretar√≠a general del PSOE, y e

  with DDGS() as ddgs:



Observation: [33;1m[1;3mNo good DuckDuckGo Search Result was found[0m
Thought:[32;1m[1;3mOkay, DuckDuckGo didn't provide a helpful result. Let's try Wikipedia to get a more detailed overview.
Action: wikipedia_search
Action Input: "Pedro S√°nchez"[0m
Observation: [36;1m[1;3mPage: Pedro S√°nchez
Summary: Pedro S√°nchez P√©rez-Castej√≥n (Madrid, 29 de febrero de 1972)‚Äã es un pol√≠tico y economista espa√±ol, actual presidente del Gobierno de Espa√±a desde 2018 (7 a√±os, 5 meses y 17 d√≠as). Es secretario general del Partido Socialista Obrero Espa√±ol (PSOE) desde 2017, cargo que ya hab√≠a desempe√±ado entre 2014 y 2016.‚Äã
Licenciado en Ciencias Econ√≥micas y Empresariales por el Real Centro Universitario Mar√≠a Cristina de El Escorial y doctor en Econom√≠a y Empresa por la Universidad Camilo Jos√© Cela, su carrera pol√≠tica la comenz√≥ como concejal en el Ayuntamiento de Madrid, entre 2004 y 2009. Luego fue diputado en el Congreso en la ix y x legislaturas. En 2014 sucedi√≥ a 

## 8. Agente de Igualdad

In [13]:
from langchain_community.tools import DuckDuckGoSearchRun
from langchain.tools import tool
from typing import List, Dict
import datetime

ddg_search = DuckDuckGoSearchRun()

def format_results(results: List[Dict]) -> str:
    """
    Formatea resultados en texto corto para el LLM.
    results: lista de dicts (seg√∫n salida de ddg_search.run)
    """
    lines = []
    for i, r in enumerate(results[:5], start=1):
        title = r.get("title") or ""
        snippet = r.get("body") or r.get("snippet") or ""
        url = r.get("href") or r.get("url") or ""
        lines.append(f"{i}. {title}\n   {snippet}\n   {url}")
    return "\n\n".join(lines)

@tool("duckduckgo_search_eq")
def duck_search_eq(query: str) -> str:
    """
    B√∫squeda web especializada para agente de igualdad.
    Devuelve: fecha_consulta | resumen_snippets | urls
    """
    try:
        raw = ddg_search.run(query)  # normalmente devuelve texto; algunos wrappers devuelven estructura
        # Intentamos manejar ambos formatos: string o lista/dict
        if isinstance(raw, str):
            return f"[{datetime.date.today()}] Resultados (texto):\n\n{raw}"
        # si es lista/dict:
        formatted = format_results(raw if isinstance(raw, list) else raw.get("results", []))
        return f"[{datetime.date.today()}] Resultados (formateados):\n\n{formatted}"
    except Exception as e:
        return f"Error en DuckDuckGo: {e}"


In [14]:
from langchain.tools import tool
from langchain_community.llms import Ollama

ollama_model = Ollama(model="gemma3:4b", base_url="http://localhost:11434")

@tool("analizar_igualdad_web")
def analizar_igualdad_web(query: str) -> str:
    """
    Pipeline:
      1) Hace b√∫squeda especializada (duck_search_eq)
      2) Llama al LLM para:
         - Resumir hallazgos en 3-4 l√≠neas
         - Evaluar si hay sesgo (SIN_SEXISMO, SESGO_SUTIL, SEXISMO_EXPL√çCITO)
         - Extraer 2 evidencias (texto corto + url)
         - Sugerir 2 acciones correctivas (para periodista/editor)
    """
    # 1) obtener contexto desde la tool duck
    context = duck_search_eq(query)
    # 2) prompt para el LLM
    prompt = f"""
Eres un/una experta en detecci√≥n de sesgo de g√©nero. Tienes este contexto obtenido de la web:
{context}

Tareas (devuelve JSON estricto con las claves abajo):
1) resumen: S√≠ntesis en 3 frases.
2) etiqueta: una de ["SIN_SEXISMO","SESGO_SUTIL","SEXISMO_EXPL√çCITO"].
3) evidencias: lista con 2 objetos {{"texto": "...", "url": "...", "porqu√©": "..."}}
4) recomendaciones: lista con 2 recomendaciones pr√°cticas para el periodista/editor.

Devuelve SOLO JSON.
"""
    try:
        resp = ollama_model(prompt)
        # resp podr√≠a ser objeto; convertir a string
        return str(resp)
    except Exception as e:
        return f"Error en LLM: {e}"


In [15]:
from langchain.memory import ConversationBufferMemory
from langchain.agents import initialize_agent, AgentType

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

equality_agent = initialize_agent(
    tools=[wikipedia_search, duck_search_eq, analizar_igualdad_web],
    llm=ollama_model,
    agent=AgentType.CONVERSATIONAL_REACT_DESCRIPTION,
    memory=memory,
    verbose=True,
)


  memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)


In [16]:
# 1) Pedido directo de investigaci√≥n + an√°lisis
q1 = "Investiga la cobertura sobre 'Irene Montero' (pol√≠tica) y eval√∫a si los titulares muestran sesgo de g√©nero. Resume y da acciones."

res1 = equality_agent.invoke({"input": q1})
print(res1["output"])




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m```
Thought: Do I need to use a tool? Yes
Action: analizar_igualdad_web
Action Input: analizar_igualdad_web[0m

  context = duck_search_eq(query)
  with DDGS() as ddgs:
  resp = ollama_model(prompt)



Observation: [38;5;200m[1;3m```json
{
  "resumen": "El texto proporcionado es un resultado negativo de la b√∫squeda utilizando DuckDuckGo. No contiene informaci√≥n sobre sesgos de g√©nero, ni resultados de b√∫squeda relevantes para esta tarea.  La tarea se centra en analizar resultados de b√∫squeda en busca de sesgos de g√©nero.  Por lo tanto, la tarea no ofrece evidencia para identificar ning√∫n tipo de sesgo.",
  "etiqueta": "SIN_SEXISMO",
  "evidencias": [
    {
      "texto": "No good DuckDuckGo Search Result was found",
      "url": "URL_NO_DISPONIBLE",
      "porqu√©": "El texto en s√≠ mismo es una declaraci√≥n de que no se encontr√≥ un resultado de b√∫squeda, no proporciona informaci√≥n que pueda indicar sesgo de g√©nero. La ausencia de un resultado de b√∫squeda no implica la ausencia de sesgo, s√≥lo que no fue encontrado."
    }
  ],
  "recomendaciones": [
    "Si el objetivo es detectar sesgos de g√©nero en los resultados de b√∫squeda, es crucial proporcionar a la herramien

  with DDGS() as ddgs:



Observation: [38;5;200m[1;3m```json
{
  "1) resumen": "La definici√≥n de \"analizar\" seg√∫n el RAE se centra en la acci√≥n de examinar o estudiar algo con cuidado. Se ejemplifica su uso en contextos como el an√°lisis de problemas o obras literarias. El texto destaca la funci√≥n tr√°nsitoria del verbo, especificando que implica la realizaci√≥n de un an√°lisis.",
  "2) etiqueta": "SIN_SEXISMO",
  "3) evidencias": [
    {
      "texto": "‚ÄúEl autor analiza los problemas econ√≥micos de las familias rurales‚Äù",
      "url": "https://www.rae.es/convlex/convlex_articulos_analizar",
      "porqu√©": "Aunque la frase es neutral en apariencia, la focalizaci√≥n en \"familias rurales\" podr√≠a, impl√≠citamente, reforzar estereotipos de g√©nero asociados al √°mbito dom√©stico y familiar, aunque no hay un sesgo expl√≠cito."
    },
    {
      "texto": "analizar una obra literaria",
      "url": "https://www.rae.es/convlex/convlex_articulos_analizar",
      "porqu√©": "El uso de 'obra literaria