# LangChain QA Test (IOF)

In [3]:
# %pip install langchain --quiet
# %pip install pypdf --quiet
# %pip install openai --quiet
# %pip install unstructured --quiet

In [4]:
# %pip install tiktoken --quiet

In [5]:
# %pip install "langchain[docarray]"

In [18]:
# %pip install jq --quiet

Note: you may need to restart the kernel to use updated packages.


In [105]:
!pip install "docarray[hnswlib]" --quiet
!pip install faiss-cpu --quiet


In [6]:
import os

In [26]:
from pathlib import Path
import json

In [12]:
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import CSVLoader
from langchain.vectorstores import DocArrayInMemorySearch
from IPython.display import display, Markdown

from langchain.document_loaders import JSONLoader as Loader

from langchain.indexes import VectorstoreIndexCreator

In [66]:
from langchain.vectorstores import DocArrayHnswSearch

In [None]:
from langchain.vectorstores import 

In [67]:
OPENAI_API_KEY = "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"
os.environ.update({'OPENAI_API_KEY': OPENAI_API_KEY})

## IOF Data Cleaning 

In [14]:
file = Path('./IOF/iof_scrapped_pages.json')
assert file.exists()


In [36]:
data = json.loads(Path(file).read_text())


In [54]:
# Clean Step #1 - Remove null texts
for item in data:
    if not isinstance(item['text'], str):
        data.pop(data.index(item))

In [56]:
# Clean Step #2 - Remove all uninformative text before AGENDAR ONLINE
for item in data:
    
    text = item.get('text')
    descr = item.get('description')
      
    if text is None:
        continue 
    
    item['text'] = text.split('AGENDAR ONLINE')[1]

    

In [59]:
# Clean Step #3 - Remove
# disclosure_text = 'Responsável ' + json_file[8]['text'].split('\nResponsável ')[1]
for item in data:
    
    text = item.get('text')
    descr = item.get('description')
      
    if text is None:
        continue 
    
    item['text'] = text.split('\nResponsável')[0]
    
# json_file.append({'description': 'Informações Gerais', 'text': disclosure_text})

In [61]:
len(data)

55

In [62]:
with open(file.with_name('iof_pages_clean.json'), 'w') as json_file:
    json.dump(data, json_file)
    

In [68]:
with open(file.with_name('iof_pages_small.json'), 'w') as json_file:
    json.dump(data[:2], json_file)
    

## Create the Index

In [123]:
from langchain.indexes import VectorstoreIndexCreator
from langchain.vectorstores import FAISS
from langchain.indexes.vectorstore import VectorStoreIndexWrapper

from langchain.embeddings.openai import OpenAIEmbeddings


In [102]:
loader = Loader(file_path=file.with_name('iof_pages_small.json').as_posix(), jq_schema='.[].text', text_content=True)

In [103]:
docs = loader.load()

In [106]:
embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(
    docs, embeddings,)

In [107]:
db.similarity_search('Voces fazem cirurgias?')

[Document(page_content=' \nFacebook-f Instagram Google \nAGENDAR CONSULTA \nMenu \nMenu \nPesquisar \nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nAnterior \nPróximo \nSobre o Instituto\nCom mais de 30 anos de tradição e localizado no centro de Florianópolis, no Instituto de Olhos de Florianópolis você receberá um atendimento especial e personalizado para cuidar da saúde dos seus olhos.. \nSAIBA MAIS

In [109]:
index = VectorstoreIndexCreator(
    vectorstore_cls=FAISS,
    # vectorstore_kwards=dict(work_dir="hnswlib_store/")
).from_loaders([loader])

In [110]:
query = "Voces fazem cirurgias?"

response = index.query(query)

display(Markdown(response))

 Sim, fazemos cirurgias. Você pode ver mais informações sobre as cirurgias que oferecemos clicando no link "VER CIRURGIAS" no topo da página.

In [113]:
FAISS.save_local?

[0;31mSignature:[0m [0mFAISS[0m[0;34m.[0m[0msave_local[0m[0;34m([0m[0mself[0m[0;34m,[0m [0mfolder_path[0m[0;34m:[0m [0;34m'str'[0m[0;34m,[0m [0mindex_name[0m[0;34m:[0m [0;34m'str'[0m [0;34m=[0m [0;34m'index'[0m[0;34m)[0m [0;34m->[0m [0;34m'None'[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Save FAISS index, docstore, and index_to_docstore_id to disk.

Args:
    folder_path: folder path to save index, docstore,
        and index_to_docstore_id to.
    index_name: for saving with a specific index file name
[0;31mFile:[0m      /opt/conda/lib/python3.10/site-packages/langchain/vectorstores/faiss.py
[0;31mType:[0m      function

In [111]:
index.vectorstore.

<langchain.vectorstores.faiss.FAISS at 0xffff73d74070>

In [None]:
VectorstoreIndexCreator.f

In [114]:
type(index)

langchain.indexes.vectorstore.VectorStoreIndexWrapper

In [115]:
from langchain.indexes.vectorstore import VectorStoreIndexWrapper

In [117]:
new_index = VectorStoreIndexWrapper(vectorstore=index.vectorstore)

In [119]:
new_index.query(query)

' Sim, fazemos cirurgias. Você pode ver mais informações sobre as cirurgias que oferecemos clicando no link "VER CIRURGIAS" no topo da página.'

In [98]:
embeddings = OpenAIEmbeddings()
db = DocArrayInMemorySearch.from_documents(
    docs, embeddings, n_dim=1536
)

In [100]:
db.similarity_search(query)

[Document(page_content=' \nFacebook-f Instagram Google \nAGENDAR CONSULTA \nMenu \nMenu \nPesquisar \nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nExcelência técnica \ncom olhar humano.\nAGENDE UMA CONSULTA\nPrecisão e segurança\npara o seu diagnóstico.\nVER EXAMES\nCirurgias Oculares\nVER CIRURGIAS\nSua opinião é \nimportante para nós.\nDEIXE SUA AVALIAÇÃO\nAnterior \nPróximo \nSobre o Instituto\nCom mais de 30 anos de tradição e localizado no centro de Florianópolis, no Instituto de Olhos de Florianópolis você receberá um atendimento especial e personalizado para cuidar da saúde dos seus olhos.. \nSAIBA MAIS

In [15]:
query = "Que tipos de informação estão disponíveis no FAQ?"
response = index.query(query)
display(Markdown(response))

 O FAQ fornece informações sobre como limpar óculos de natação, diferenças entre as lentes, tecnologias, armações, vedações e narigueiras, e como usar um spray ou líquido antifog.

In [16]:
query = "Como limpar o óculos?"
response = index.query(query)
display(Markdown(response))

 O primeiro passo para higienizar/limpar os óculos é enxaguá-los com água filtrada e gelada após nadar em qualquer tipo de água. Tanto o sal quanto o cloro podem causar danos nas lentes, tiras, presilhas e na película antiembaçante, portanto, trate de enxaguar seus óculos com água limpa após cada uso. Agora é a hora de secar os óculos. O correto é deixar os óculos secarem naturalmente e fora da luz solar, pois o calor pode derreter as partes de silicone e trincar a lente. Certifique-se de que seus óculos estão totalmente secos antes de guardá-los, caso contrário bactérias e fungos podem danificar o produto. Por último, mas não menos importante, guarde seus ó

In [18]:
docs = loader.load()

In [21]:
docs[1]

IndexError: list index out of range

In [24]:
docs = loader.load_and_split()