In [22]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.vectorstores.pgvector import PGVector
from langchain.prompts.prompt import PromptTemplate
from langchain_ollama import ChatOllama
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import AIMessage, HumanMessage,SystemMessage
from pydantic import BaseModel
from typing import List

import redis
import json

In [2]:
class Utf8TextLoader(TextLoader):
    def __init__(self, *args, **kwargs):
        kwargs['encoding'] = 'utf-8'
        super().__init__(*args, **kwargs)

loader = DirectoryLoader(
    "./DATA", glob="**/*.txt", loader_cls=Utf8TextLoader, show_progress=True
)
docs = loader.load()

100%|██████████| 5/5 [00:00<00:00, 2500.48it/s]


In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)
chunks = text_splitter.split_documents(docs)
len(chunks)

In [3]:
embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
CONNECTION_STRING = "postgresql+psycopg2://admin:admin@127.0.0.1:5433/vectordb"
COLLECTION_NAME = "vectordb_bienestar"

vectorstore = PGVector(
    connection_string=CONNECTION_STRING,
    embedding_function=embedding_function,
    collection_name=COLLECTION_NAME,
)



  from tqdm.autonotebook import tqdm, trange
  vectorstore = PGVector(
  vectorstore = PGVector(


In [None]:
vectorstore.add_documents(chunks)

In [18]:
import psycopg2
TABLE_NAME = "langchain_pg_embedding"
CONN_STRING = "dbname='vectordb' user='admin' host='127.0.0.1' port='5433' password='admin'"
conn = psycopg2.connect(CONN_STRING)
cur = conn.cursor()

query = f"SELECT COUNT(*) FROM {TABLE_NAME};"

cur.execute(query)
row_count = cur.fetchone()[0]

print(f"Total rows in '{TABLE_NAME}': {row_count}")

cur.close()
conn.close()


Total rows in 'langchain_pg_embedding': 1


In [13]:
delete_query = f"DELETE FROM {TABLE_NAME};"

conn = psycopg2.connect(CONN_STRING)
cur = conn.cursor()
cur.execute(delete_query)
conn.commit()
print(f"Deleted all rows from '{TABLE_NAME}'")
cur.close()
conn.close()


Deleted all rows from 'langchain_pg_embedding'


In [4]:
retriever = vectorstore.as_retriever()

In [5]:
retriever.invoke("Cuáles son los costos de incorporación")

[Document(metadata={'source': 'DATA\\preguntas.txt'}, page_content='¿Cuáles son los costos de incorporación y afiliación al Servicio de Bienestar? Cuota de incorporación, que corresponde a un 2% del sueldo imponible o hasta el tope imponible del mes, se descuenta sólo en el primer mes de ingreso. \n2. Aporte mensual, que corresponde a un 1,7% del sueldo imponible o hasta el tope imponible del mes.\u200b\u200b'),
 Document(metadata={'source': 'DATA\\contacto.txt'}, page_content='\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b¿Cómo incorporarse?\nDebes poseer la calidad jurídica de planta, contrata o suplencia, y rellenar el formulario de incorporación. Luego lo debes enviar bienestar@minenergia.cl \n\nBajos Costos\nCuota de incorporación: 0.7% del imponible (se paga por única vez al momento de ingresar).\nCuota de descuento mensual: 1,7% del imponible.\n\ncontacto \nRomina Vallejos Gallardo - Encargada de Bienestar\nbienestar@

In [6]:
chat = ChatOllama(model="mistral",temperature=0,stream=True)

In [7]:
rephrase_template = """Dada la siguiente conversación y una pregunta de seguimiento, reformule la pregunta de seguimiento para que sea una pregunta independiente, en su idioma original..

Historial de chat:
{chat_history}
Entrada de seguimiento: {question}
Pregunta independiente:"""

REPHRASE_TEMPLATE = PromptTemplate.from_template(rephrase_template)
rephrase_chain = REPHRASE_TEMPLATE | chat | StrOutputParser()

template = """Como un asistente del departamento de Bienestar del Ministerio de energia, 
Responde la pregunta lo mas precisa posible basándose únicamente en el siguiente contexto:

{context}

Pregunta: {question}
"""
ANSWER_PROMPT = ChatPromptTemplate.from_template(template)

In [8]:
retrieval_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | ANSWER_PROMPT
    | chat
    | StrOutputParser()
)

final_chain = rephrase_chain | retrieval_chain

In [9]:
final_chain.invoke(
    {
        "question": "como se envian los gastos medicos",
        "chat_history": [
           
        ],
    }
)

'1. Primero, debes llevar el formulario del seguro al médico o dentista para que llene los datos solicitados.\n2. En caso de una continuación de un tratamiento o una atención de urgencia, no es necesario que el formulario sea llenado por el médico.\n3. Luego, envía el formulario rellenado al seguro para su rembolso.\n4. No se especifica en el contexto cómo se realizan las transferencias de gastos médicos, pero se recomienda siempre solicitar el reembolso en caso de que I-med no lo realice en línea.'

In [30]:
ROLE_CLASS_MAP = {
    "asistente": AIMessage,
    "usuario": HumanMessage,
    "system": SystemMessage
}

class Message(BaseModel):
    role: str
    content: str

class Conversation(BaseModel):
    conversation: List[Message]


In [11]:
message = {
        "question": "que beneficios hay",
        "chat_history": [
           
        ],
    }

In [12]:
events = []
async for event in final_chain.astream_events(message, version="v1"):
    events.append(event)
event_types = {event["event"] for event in events}
print("Unique event types:", event_types)

Unique event types: {'on_chat_model_start', 'on_parser_start', 'on_retriever_end', 'on_chat_model_end', 'on_chain_start', 'on_retriever_start', 'on_chat_model_stream', 'on_chain_stream', 'on_prompt_start', 'on_parser_end', 'on_prompt_end', 'on_parser_stream', 'on_chain_end'}


In [13]:
count = 0
async for event in  final_chain.astream_events(message, version="v1"):
    #print(event)
    if event["event"] == "on_chat_model_start":
        print("Stream started...", flush=True)
        count+=1
    elif event["event"] == "on_chat_model_stream" and count>1:
        print(event["data"]["chunk"].content, end="", flush=True)

Stream started...
Stream started...
 Los beneficios que se obtienen son el reembolso del 50% del monto gastado en prestaciones dentales con un tope anual de $325.000.- por grupo familiar, y también podrás acceder a diversos beneficios como solicitud de préstamos a tasas preferenciales, bonos de nacimiento, matrimonio, etc., solicitud de reembolsos médicos, y también podrás acceder a diversos beneficios como becas de estudios (10 becas) y ayuda médica hasta $500.000.

In [15]:
async for chunk in final_chain.astream(message):
    print(chunk, end="", flush=True)

 Los beneficios que se obtienen son el reembolso del 50% del monto gastado en prestaciones dentales con un tope anual de $325.000.- por grupo familiar, y también podrás acceder a diversos beneficios como solicitud de préstamos a tasas preferenciales, bonos de nacimiento, matrimonio, etc., solicitud de reembolsos médicos, y también podrás acceder a diversos beneficios como becas de estudios (10 becas) y ayuda médica hasta $500.000.

In [28]:
r = redis.Redis(host='localhost', port=6379, db=0)
existing_conversation_json = r.get("_p9aqylt5y")
existing_conversation = json.loads(existing_conversation_json)
print(existing_conversation["conversation"])

[{'role': 'asistente', 'content': 'Hola, ¿en que puedo ayudarlo?'}, {'role': 'usuario', 'content': 'como se envian los gastos medicos'}, {'role': 'asistente', 'content': '1. Llevar el formulario del seguro al médico o dentista para que llene los datos solicitados, como por ejemplo: el diagnóstico y los procedimientos asociados al diagnóstico.<br>2. En situaciones especiales no es necesario que el formulario sea llenado por el médico, como en el caso de una continuación de un tratamiento o una atención de urgencia.<br>3. Detalles sobre los porcentajes de reembolso según la prestación médica realizada no se especifican en el contexto proporcionado.<br>4. Algunas prestaciones como consultas médicas y exámenes, la cobertura aplica automáticamente por I-med (no siempre, hay que fijarse en el bono), por eso se recomienda siempre andar con el formulario, para solicitar el reembolso en caso de que I-med no lo realice en línea.<br>5. No se especifica cómo se realizan las transferencias de gasto

In [31]:
def create_messages(conversation):
    return [ROLE_CLASS_MAP[message["role"]](content=message["content"]) for message in conversation]

In [33]:
conversation = create_messages(conversation=existing_conversation["conversation"])
print(conversation)

[AIMessage(content='Hola, ¿en que puedo ayudarlo?', additional_kwargs={}, response_metadata={}), HumanMessage(content='como se envian los gastos medicos', additional_kwargs={}, response_metadata={}), AIMessage(content='1. Llevar el formulario del seguro al médico o dentista para que llene los datos solicitados, como por ejemplo: el diagnóstico y los procedimientos asociados al diagnóstico.<br>2. En situaciones especiales no es necesario que el formulario sea llenado por el médico, como en el caso de una continuación de un tratamiento o una atención de urgencia.<br>3. Detalles sobre los porcentajes de reembolso según la prestación médica realizada no se especifican en el contexto proporcionado.<br>4. Algunas prestaciones como consultas médicas y exámenes, la cobertura aplica automáticamente por I-med (no siempre, hay que fijarse en el bono), por eso se recomienda siempre andar con el formulario, para solicitar el reembolso en caso de que I-med no lo realice en línea.<br>5. No se especif

In [34]:
final_chain.invoke(
    {
        "question": "No, really?",
        "chat_history": conversation,
    }
)

" La información detallada sobre los porcentajes de reembolso según la prestación médica realizada se encuentra en el documento especificado como 'DATA\\\\preguntas.txt'."