## Bot experto en leyes electorales

In [1]:
# imports

import os
import glob
from dotenv import load_dotenv
import gradio as gr

In [2]:
# Importamos LangChain, Chroma, Plotly y herramientas necesarias

from langchain.document_loaders import DirectoryLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.schema import Document
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_chroma import Chroma
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import numpy as np
import plotly.graph_objects as go
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.embeddings import HuggingFaceEmbeddings

In [3]:
# Nombre del directorio donde se guardar√° la base de datos vectorial
db_name = "vector_db"

In [4]:
# Cargar las variables de entorno desde el archivo llamado .env
load_dotenv(override=True)  

# Obtener la clave de la API de OpenAI desde las variables de entorno
# Si no se encuentra, se asigna un valor por defecto (√∫til si no est√°s usando un archivo .env)
os.environ['OPENAI_API_KEY'] = os.getenv('OPENAI_API_KEY',  'your-key-if-not-using-env')


In [5]:
# Cargar documentos usando los cargadores (loaders) de LangChain
# Se toma todo lo que est√© en las subcarpetas dentro de "knowledge-base"
folders = glob.glob("knowledge-base/*")

# Funci√≥n para agregar un tipo de documento como metadato.
# Esto permite identificar m√°s adelante de qu√© subcarpeta provino cada documento.
def agregar_metadatos(doc, tipo_doc):
    doc.metadata["doc_type"] = tipo_doc
    return doc

text_loader_kwargs = {'encoding': 'utf-8'}

# Lista donde se almacenar√°n todos los documentos cargados
documents = []

# Recorremos cada carpeta dentro de la base de conocimiento
for folder in folders:
    # El tipo de documento se extrae del nombre de la carpeta
    tipo_doc = os.path.basename(folder)
    
    # Se crea un cargador para todos los archivos Markdown (*.md) dentro de la carpeta
    loader = DirectoryLoader(
        folder,
        glob="**/*.md",
        loader_cls=TextLoader,
        loader_kwargs=text_loader_kwargs
    )
    
    # Se cargan los documentos desde esa carpeta
    folder_docs = loader.load()
    
    # Se agregan los metadatos y se agregan a la lista principal
    documents.extend([agregar_metadatos(doc, tipo_doc) for doc in folder_docs])

# Se define c√≥mo se dividir√°n los documentos en fragmentos (chunks)
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

# Versi√≥n alternativa de splitter, mejora las separaciones:
# from langchain.text_splitter import RecursiveCharacterTextSplitter

# text_splitter = RecursiveCharacterTextSplitter(
#     chunk_size=1000,
#     chunk_overlap=300,
#     separators=["\n# ", "\n## "]
# )

chunks = text_splitter.split_documents(documents)

# Imprime la cantidad total de fragmentos generados
print(f"N√∫mero total de fragmentos: {len(chunks)}")

# Imprime los tipos de documentos (carpetas origen) que se encontraron
print(f"Tipos de documento encontrados: {set(doc.metadata['doc_type'] for doc in documents)}")


Created a chunk of size 1931, which is longer than the specified 1000
Created a chunk of size 1039, which is longer than the specified 1000
Created a chunk of size 2010, which is longer than the specified 1000
Created a chunk of size 1373, which is longer than the specified 1000
Created a chunk of size 2203, which is longer than the specified 1000
Created a chunk of size 1633, which is longer than the specified 1000
Created a chunk of size 1095, which is longer than the specified 1000
Created a chunk of size 1188, which is longer than the specified 1000
Created a chunk of size 1197, which is longer than the specified 1000
Created a chunk of size 1420, which is longer than the specified 1000
Created a chunk of size 2569, which is longer than the specified 1000
Created a chunk of size 2760, which is longer than the specified 1000
Created a chunk of size 1307, which is longer than the specified 1000
Created a chunk of size 1212, which is longer than the specified 1000
Created a chunk of s

N√∫mero total de fragmentos: 266
Tipos de documento encontrados: {'C√≥digo electoral', 'Manual autoridades de mesa', 'Candidatos'}


In [6]:
#Miramos un poco lo que arm√≥.
# documents

## Armamos los embeddings

In [7]:
# Importa el modelo de embeddings de OpenAI (usa representaciones vectoriales del texto)
embeddings = OpenAIEmbeddings()

# Para usar embeddings gratuitos de HuggingFace (por ejemplo, el modelo "all-MiniLM-L6-v2"),
# reemplazar la l√≠nea anterior con estas dos:
#from langchain.embeddings import HuggingFaceEmbeddings
#embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

# Si ya existe una base de datos vectorial con ese nombre, se elimina.
# Esto se hace para evitar conflictos o duplicados al rehacer el proceso desde cero.
if os.path.exists(db_name):
    Chroma(persist_directory=db_name, embedding_function=embeddings).delete_collection()

# Crea una nueva base de datos vectorial (vectorstore) a partir de los documentos fragmentados.
# Cada fragmento es convertido en un vector usando el modelo de embeddings.
# La base de datos se guarda en el directorio especificado por 'db_name'.
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory=db_name
)

# Imprime cu√°ntos documentos (fragmentos de texto) fueron almacenados en la base de datos vectorial.
print(f"Base de datos vectorial creada con {vectorstore._collection.count()} documentos")

Base de datos vectorial creada con 266 documentos


In [8]:
# Vamos a investigar los vectores almacenados

# Se accede directamente a la colecci√≥n subyacente del almac√©n vectorial
collection = vectorstore._collection

# Se obtiene la cantidad total de vectores almacenados
count = collection.count()

# Se extrae un vector de ejemplo (el primero) incluyendo sus embeddings (representaci√≥n num√©rica)
sample_embedding = collection.get(limit=1, include=["embeddings"])["embeddings"][0]

# Se calcula cu√°ntas dimensiones tiene ese vector
dimensions = len(sample_embedding)

# Se imprime cu√°ntos vectores hay y cu√°ntas dimensiones tiene cada uno
print(f"Hay {count:,} vectores con {dimensions:,} dimensiones en la base de datos vectorial")


Hay 266 vectores con 1,536 dimensiones en la base de datos vectorial


## Unimos todo con LangChain

In [None]:
# El precio es un factor importante para nuestra empresa, por lo tanto vamos modelos de bajo costo

# Crear un nuevo modelo de chat con OpenAI
#MODEL = "gpt-4o-mini"  # Este modelo es una versi√≥n m√°s econ√≥mica dentro de la familia GPT-4o
#llm = ChatOpenAI(temperature=0.7, model_name=MODEL)

# Alternativa: Para usar Ollama localmente, descoment√° esta l√≠nea en su lugar
llm = ChatOpenAI(temperature=0.7, model_name='llama3.2', base_url='http://localhost:11434/v1', api_key='ollama')

# Configurar la memoria de conversaci√≥n para el chat
# Esto permite que el modelo recuerde lo que se dijo anteriormente en la conversaci√≥n
memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)

# El "retriever" es una abstracci√≥n sobre el VectorStore que se usar√° durante RAG (Retrieval-Augmented Generation)
retriever = vectorstore.as_retriever(search_kwargs={"k": 25})

# Integraci√≥n de todos los componentes:
# Se crea una cadena de conversaci√≥n que incluye:
# - el modelo de lenguaje (llm)
# - el sistema de recuperaci√≥n de informaci√≥n (retriever)
# - la memoria conversacional (memory)
conversation_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=retriever,
    memory=memory
)


In [25]:
print("Total embeddings indexados:", vectorstore._collection.count())


Total embeddings indexados: 266


In [26]:
from collections import Counter
cnt = Counter(chunk.metadata.get("doc_type") for chunk in chunks)
print(cnt)


Counter({'C√≥digo electoral': 237, 'Candidatos': 20, 'Manual autoridades de mesa': 9})


In [27]:
# ¬øest√°n todos los doc_type en el vectorstore?
for doc_type, _ in cnt.items():
    example = next(ch for ch in chunks if ch.metadata["doc_type"] == doc_type)
    # intenta buscar ese chunk:
    res = vectorstore.similarity_search_with_score(example.page_content[:50], k=1)
    print(doc_type, res)


Candidatos [(Document(id='d8ea2d4b-fef7-4f44-ac9c-a53651fe57b7', metadata={'doc_type': 'Candidatos', 'source': 'knowledge-base\\Candidatos\\Lista completa candidatos - C√≥digo 1.md'}, page_content='# Lista 1 ‚Äì MOVIMIENTO DE INTEGRACI√ìN Y DESARROLLO\n\n**Candidatos (lista completa)**\n\n1. Caruso Lombardi Ricardo Daniel  \n2. Villar Agustina  \n3. Arancio Miguel Angel  \n4. Lernoud Mar√≠a del Pilar  \n5. Testori Schroeder Pablo C√©sar Luciano  \n6. Radice Andrea Carla  \n7. Vega Osvaldo Rub√©n  \n8. Young Valeria Ver√≥nica  \n9. Devita Rodrigo Nahuel  \n10. De Santi M√≥nica Emilia  \n11. Pe√±a Rodrigo  \n12. Rotoli Mar√≠a Eugenia  \n13. Mosquera Andr√©s Alberto  \n14. Arias Pereyra Gabriela Laura  \n15. Uz Juan Ignacio  \n16. Albrecht Mar√≠a Alejandra  \n17. Baletti Lucas Agust√≠n  \n18. Herrera Diana Melisa  \n19. Buletti Carlos Alberto  \n20. Calabrese Sandra Mar√≠a  \n21. Mario Casti√±eira Christian Diego  \n22. Nappa Sol Mariana  \n23. Ravanetti Am√©rico Marcelo  \n24. Pace Madel

In [28]:
# Probamos una pregunta (no tiene el prompt de sistema)

query = "¬øPuedo ir a votar disfrazado de un candidato?"
result = conversation_chain.invoke({"question": query})
print(result["answer"])

No, no es permitido ir disfrazado de un candidato a votar. En la mayor√≠a de los pa√≠ses democr√°ticos, el voto es un derecho y un deber ciudadano que se ejerce de manera secreta y libre.

En Estados Unidos, por ejemplo, la ley federal y estatal establece que los votantes deben identificarse de manera adecuada antes de emitir su voto. Esto incluye presentar una identificaci√≥n v√°lida, como un pasaporte, licencia de conducir o tarjeta de identidad.

Ir disfrazado de un candidato puede considerarse una forma de intimidaci√≥n electoral o fraude electoral, y puede tener consecuencias legales graves. Adem√°s, comprometer el proceso democr√°tico es perjudicial para la salud de la democracia y puede erosionar la confianza en las instituciones electorales.

Es importante recordar que el voto es un derecho y una responsabilidad personal, y debe ser ejercido de manera responsable y respetuosa. Si est√°s interesado en apoyar a un candidato o causa pol√≠tica, lo mejor es hacerlo de manera abierta

In [29]:
from langchain.prompts import PromptTemplate
from langchain.chains import ConversationalRetrievalChain

# A√±adimos esta clase para investigar qu√© se env√≠a "detr√°s de escena" durante una consulta
from langchain_core.callbacks import StdOutCallbackHandler

memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)

#Prompt de sistema. 
# Obs: Podr√≠a mejorarse: Es algo antip√°tico, si se le dice hola dice que no encuentra la respuesta. Pero no es por el prompt sino que siempre busca contexto
template = """You are **ElectoAI**, an expert electoral assistant for the **2025 legislative elections in the City of Buenos Aires (CABA)**.

**Role & Scope**  
- Proporcion√°s respuestas **claras**, **precisas** y **neutrales** sobre procedimientos electorales, normativas vigentes, situaciones pr√°cticas en el lugar de votaci√≥n y candidaturas, bas√°ndote √∫nicamente en la informaci√≥n provista en el contexto recuperado.  
- El contexto puede incluir documentos oficiales (leyes, reglamentos, instructivos, padrones) y tambi√©n materiales informativos confiables sobre candidatos, boletas y listas.  
- Si no hay informaci√≥n suficiente en el contexto para responder, dec√≠: ‚ÄúLo siento, no dispongo de informaci√≥n sobre ese punto.‚Äù

**Instrucciones**  
1. **Us√° solo la informaci√≥n incluida en la secci√≥n de contexto m√°s abajo. No inventes ni completes por fuera.  
2. Siempre que sea posible, **mencion√° la fuente** del dato (‚ÄúSeg√∫n la Ley X‚Ä¶‚Äù, ‚ÄúSeg√∫n el instructivo‚Ä¶‚Äù, ‚ÄúSeg√∫n el material informativo‚Ä¶‚Äù).  
3. Respond√© primero de forma **breve y directa**, luego ampli√° si es necesario (m√°ximo 2 oraciones).  
4. Us√° un lenguaje **neutral**, **claro** y **accesible** para jueces de mesa, fiscales, autoridades y votantes.

**Casos que pod√©s responder**  
- Procedimientos ante situaciones comunes (faltan boletas, DNI no v√°lido, votantes enojados, etc.).  
- Reglas sobre el acceso al local (ropa partidaria, acompa√±antes, animales, horarios).  
- Informaci√≥n sobre **candidatos, listas y boletas**, si est√° presente en el contexto.  
- Consultas de **autoridades de mesa**, como:  
  - ¬øQu√© hacer si no se presenta el presidente?  
  - ¬øQui√©n debe firmar el acta?  
  - ¬øQui√©n reemplaza a qui√©n en caso de ausencia?  
  - ¬øQui√©n puede asistir al escrutinio?  
  - ¬øQu√© responsabilidad tiene cada cargo en la mesa?  
  - ¬øQu√© se hace si falta una autoridad o un fiscal?

---

**Contexto**:  
{context}

**Pregunta**:  
{question}

**Respuesta**:
"""

custom_prompt = PromptTemplate.from_template(template)

# Ahora lo pasamos al construir la cadena
conversation_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=retriever,
    memory=memory,
    combine_docs_chain_kwargs={"prompt": custom_prompt},
    callbacks=[StdOutCallbackHandler()]  # Este callback muestra en consola lo que se env√≠a y recibe
)

Ahora vamos a levantar esto con Gradio usando la interfaz de Chat -


In [30]:
# Encapsulamos la l√≥gica del chat en una funci√≥n
def chat(pregunta, historial):
    # Se invoca la cadena de conversaci√≥n pasando la pregunta del usuario
    resultado = conversation_chain.invoke({"question": pregunta})
    
    # Imprimimos en consola:
    print(resultado["answer"])
    
    # Se devuelve solo la respuesta generada por el modelo
    return resultado["answer"]


In [31]:
# Y en Gradio:
view = gr.ChatInterface(
    chat,
    title="üó≥Ô∏è ElectoAI ‚Äì Asistente Electoral 2025",
    description="Consult√° sobre normativas, procedimientos y candidaturas en la Ciudad de Buenos Aires.",
    type="messages"
).launch(share=True)


* Running on local URL:  http://127.0.0.1:7862
* Running on public URL: https://f07dd9ce332b582374.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


# Debugging

Diagn√≥stico: Chunks m√°s relevantes de una query?

In [32]:
# Primero podemos mirar la numeraci√≥n de los chunks creados a partir de un archivo. Sabiendo la pregunta, sabriamos cual ser√≠a el chunk m√°s relevante y ah√≠
# vemos si aparece en la b√∫squeda o que puntuaci√≥n tiene que hace que no aparezca.
nombre_archivo = "Cu√°ndo se vota.md"

chunks_objetivo = [
    chunk for chunk in chunks
    if nombre_archivo in chunk.metadata["source"]
]

for i, chunk in enumerate(chunks_objetivo):
    # Buscar su √≠ndice global dentro de todos los chunks
    index_global = chunks.index(chunk)
    
    print(f"\n--- Chunk {i+1} (√≠ndice global: {index_global}) ---\n")
    print(chunk.page_content)



--- Chunk 1 (√≠ndice global: 258) ---

# Cu√°ndo votamos

Las elecciones locales en la Ciudad Aut√≥noma de Buenos Aires se realizar√°n en una fecha distinta a la de las elecciones nacionales. No habr√° elecciones Primarias Abiertas, Simult√°neas y Obligatorias (PASO). La jornada electoral se llevar√° a cabo el d√≠a domingo del mes de mayo de 2025.


In [33]:
query = "Cu√°ndo votamos"

resultados = vectorstore.similarity_search_with_score(query, k=50)

for doc, score in resultados:
    print(f"Score: {score:.2f}")
    print(doc.page_content[:200])
    print("---")


Score: 0.28
# Cu√°ndo votamos

Las elecciones locales en la Ciudad Aut√≥noma de Buenos Aires se realizar√°n en una fecha distinta a la de las elecciones nacionales. No habr√° elecciones Primarias Abiertas, Simult√°nea
---
Score: 0.31
# Qu√© votamos

Se elegir√° una lista de candidatos/as a Diputados/as para la Legislatura de la CABA mediante el sistema de Boleta √önica Electr√≥nica (BUE). La lista estar√° compuesta por treinta (30) tit
---
Score: 0.34
#### Art√≠culo 210: Emisi√≥n del voto. La emisi√≥n del sufragio se lleva a cabo mediante el siguiente procedimiento:
1) Cuando el/la elector/a se encuentre en el puesto de votaci√≥n o frente al dispositiv
---
Score: 0.36
#### Art√≠culo 203: Derecho a votar. Toda persona que figure en el padr√≥n y acredite su identidad mediante la
exhibici√≥n del Documento Nacional de Identidad habilitante, en las condiciones establecidas
---
Score: 0.37
#### Art√≠culo 142: Opciones de voto. El dispositivo electr√≥nico del Sistema electr√≥nico de emisi√≥n 

In [34]:
# Paso 1: crear el embedding de la query
query = "cuando se vota"
query_embedding = embeddings.embed_query(query)

# Paso 2: elegir un chunk espec√≠fico
chunk = chunks[259]  # por ejemplo, el chunk que quiero evaluar (ese n√∫mero es el indice global que encontramos gracias a que m√°s arriba vimos los chunks de cada documente)
chunk_embedding = embeddings.embed_documents([chunk.page_content])[0]

# Opci√≥n A: distancia Eucl√≠dea (L2)
l2_distance = np.linalg.norm(np.array(query_embedding) - np.array(chunk_embedding))
print(f"Distancia L2: {l2_distance:.4f}")

# Opci√≥n B: similitud coseno (m√°s alta = m√°s similar)
cos_sim = np.dot(query_embedding, chunk_embedding) / (
    np.linalg.norm(query_embedding) * np.linalg.norm(chunk_embedding)
)
print(f"Similitud coseno: {cos_sim:.4f}")


Distancia L2: 0.6341
Similitud coseno: 0.7989




[1m> Entering new ConversationalRetrievalChain chain...[0m


[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mYou are **ElectoAI**, an expert electoral assistant for the **2025 legislative elections in the City of Buenos Aires (CABA)**.

**Role & Scope**  
- Proporcion√°s respuestas **claras**, **precisas** y **neutrales** sobre procedimientos electorales, normativas vigentes, situaciones pr√°cticas en el lugar de votaci√≥n y candidaturas, bas√°ndote √∫nicamente en la informaci√≥n provista en el contexto recuperado.  
- El contexto puede incluir documentos oficiales (leyes, reglamentos, instructivos, padrones) y tambi√©n materiales informativos confiables sobre candidatos, boletas y listas.  
- Si no hay informaci√≥n suficiente en el contexto para responder, dec√≠: ‚ÄúLo siento, no dispongo de informaci√≥n sobre ese punto.‚Äù

**Instrucciones**  
1. **Us√° solo la informaci√≥n incluida en la secci√≥