In [23]:
from langchain_community.document_loaders import DirectoryLoader, TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.vectorstores.pgvector import PGVector
from langchain.prompts.prompt import PromptTemplate
from langchain_ollama import ChatOllama
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.messages import AIMessage, HumanMessage

In [24]:
class Utf8TextLoader(TextLoader):
    def __init__(self, *args, **kwargs):
        kwargs['encoding'] = 'utf-8'
        super().__init__(*args, **kwargs)

loader = DirectoryLoader(
    "./DATA", glob="**/*.txt", loader_cls=Utf8TextLoader, show_progress=True
)
docs = loader.load()

100%|██████████| 5/5 [00:00<00:00, 1667.58it/s]


In [25]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)
chunks = text_splitter.split_documents(docs)
len(chunks)

33

In [64]:
embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2")
CONNECTION_STRING = "postgresql+psycopg2://admin:admin@127.0.0.1:5433/vectordb"
COLLECTION_NAME = "vectordb_bienestar"

vectorstore = PGVector(
    connection_string=CONNECTION_STRING,
    embedding_function=embedding_function,
    collection_name=COLLECTION_NAME,
)

vectorstore.add_documents(chunks)

  vectorstore = PGVector(


['76c66d14-aae0-48f5-8530-1d71779650f7',
 'ef723cee-1529-4e42-846b-b89c60db2997',
 'ecac84fb-9755-4ad7-a1d3-508b4243d692',
 '358d8a76-06d6-46ce-96fa-64fe59e9f853',
 'bbcda815-3727-48ca-95cb-705cece8b4ea',
 '9aefe31a-05ef-40c2-bf14-662e42769ec9',
 'cd412564-df20-4cda-a505-0891c2e59233',
 'fabfbad3-5f95-4f0f-b54b-0fa1554fd252',
 '26804fc8-94b4-4d7a-9331-75f28c2db050',
 'a7cf8ea8-a27f-48d4-9120-bcc2ff9a81b0',
 'f130ef39-94bd-4787-a77b-6cfde1dcc649',
 '348286e4-ea6c-4ad7-9c07-288e458693ca',
 'df8c0660-098e-4c55-848a-a136dd89d243',
 '4abe69e1-5b3d-4a3a-8b3b-6fcfb29b8016',
 '4284d746-f8e0-4420-8ac0-d1cbf99a07e3',
 'd4e7c904-ce5f-4c10-9274-aa203c87528f',
 '03f8a54e-6b44-4cb6-ae2f-6f880b3eb884',
 'b3a223ba-44c5-408d-acd7-f003ac97ea96',
 '470df73e-a32f-48e7-99a2-974ed91287e4',
 'b59370fa-12fc-4472-94c5-a1af2e215218',
 '10aad46d-2698-4f00-8d62-3834278f1d9a',
 '8173af24-d30a-4c4b-850b-6f12d05d224d',
 '1a64c9c4-7efc-4d75-a1b4-70ec11e67504',
 '662388d0-7d1c-4ce0-b162-987cd51d45c0',
 'db5a0398-da9f-

In [65]:
import psycopg2
TABLE_NAME = "langchain_pg_embedding"
CONN_STRING = "dbname='vectordb' user='admin' host='127.0.0.1' port='5433' password='admin'"
conn = psycopg2.connect(CONN_STRING)
cur = conn.cursor()

query = f"SELECT COUNT(*) FROM {TABLE_NAME};"

cur.execute(query)
row_count = cur.fetchone()[0]

print(f"Total rows in '{TABLE_NAME}': {row_count}")

cur.close()
conn.close()


Total rows in 'langchain_pg_embedding': 33


In [66]:
retriever = vectorstore.as_retriever()

In [67]:
retriever.invoke("Cuáles son los costos de incorporación")

[Document(metadata={'source': 'DATA\\preguntas.txt'}, page_content='¿Cuáles son los costos de incorporación y afiliación al Servicio de Bienestar? Cuota de incorporación, que corresponde a un 2% del sueldo imponible o hasta el tope imponible del mes, se descuenta sólo en el primer mes de ingreso. \n2. Aporte mensual, que corresponde a un 1,7% del sueldo imponible o hasta el tope imponible del mes.\u200b\u200b'),
 Document(metadata={'source': 'DATA\\contacto.txt'}, page_content='\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b\u200b¿Cómo incorporarse?\nDebes poseer la calidad jurídica de planta, contrata o suplencia, y rellenar el formulario de incorporación. Luego lo debes enviar bienestar@minenergia.cl \n\nBajos Costos\nCuota de incorporación: 0.7% del imponible (se paga por única vez al momento de ingresar).\nCuota de descuento mensual: 1,7% del imponible.\n\ncontacto \nRomina Vallejos Gallardo - Encargada de Bienestar\nbienestar@

In [68]:
rephrase_template = """Dada la siguiente conversación y una pregunta de seguimiento, reformule la pregunta de seguimiento para que sea una pregunta independiente, en su idioma original..

Historial de chat:
{chat_history}
Entrada de seguimiento: {question}
Pregunta independiente:"""

REPHRASE_TEMPLATE = PromptTemplate.from_template(rephrase_template)
rephrase_chain = REPHRASE_TEMPLATE | ChatOllama(model="mistral",temperature=0) | StrOutputParser()

template = """Como un asistente del departamento de Bienestar del Ministerio de energia, 
Responda la pregunta lo mas completa posible basándose únicamente en el siguiente contexto.:

{context}

Pregunta: {question}
"""
ANSWER_PROMPT = ChatPromptTemplate.from_template(template)

In [69]:
retrieval_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | ANSWER_PROMPT
    | ChatOllama(model="mistral",temperature=0)
    | StrOutputParser()
)

final_chain = rephrase_chain | retrieval_chain

In [70]:
final_chain.invoke(
    {
        "question": "como se envian los gastos medicos",
        "chat_history": [
           
        ],
    }
)

'1. Primero, es necesario ir al médico o dentista y llevar el formulario del seguro que está disponible en la sección Formularios. El médico deberá llenar los datos solicitados, como por ejemplo: el diagnóstico por la atención y los procedimientos asociados al diagnóstico.\n\n2. En situaciones especiales no es necesario que el formulario sea llenado por el médico, como en el caso de una continuación de un tratamiento o una atención de urgencia.\n\n3. Detalles sobre los porcentajes de reembolso según la prestación médica realizada no se proporcionan en este contexto.\n\n4. Algunas prestaciones como consultas médicas y exámenes, la cobertura aplica automáticamente por I-med (no siempre, hay que fijarse en el bono), por eso se recomienda siempre andar con el formulario, para solicitar el reembolso en caso de que I-med no lo realice en línea.\n\n5. No se proporciona información sobre cómo se realizan las transferencias de gastos médicos en este contexto. Es posible que sea necesario contac

In [None]:
final_chain.invoke(
    {
        "question": "No, really?",
        "chat_history": [
            HumanMessage(content="What does the dog like to eat?"),
            AIMessage(content="Thuna!"),
        ],
    }
)