# LangChain multi-doc retriever with ChromaDB

## Setting up LangChain

In [2]:
import os

os.environ["OPENAI_API_KEY"] = "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"

In [1]:
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import DirectoryLoader


from InstructorEmbedding import INSTRUCTOR
from langchain.embeddings import HuggingFaceInstructEmbeddings

  from tqdm.autonotebook import trange


## Load multiple and process documents

In [5]:
# Load and process the pdf files

loader = DirectoryLoader('../data', glob="./*.pdf", loader_cls=PyPDFLoader)

documents = loader.load()

In [6]:
len(documents)

1416

In [7]:
#splitting the text into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

In [8]:
len(texts)

4868

## HF Embeddings

In [9]:
import torch
torch.cuda.is_available()

True

In [11]:
use_cuda = torch.cuda.is_available()
device = torch.device("cuda" if use_cuda else "cpu")
print("Device: ",device)

Device:  cuda


In [12]:
if use_cuda:
    print('__CUDNN VERSION:', torch.backends.cudnn.version())
    print('__Number CUDA Devices:', torch.cuda.device_count())
    print('__CUDA Device Name:',torch.cuda.get_device_name(0))
    print('__CUDA Device Total Memory [GB]:',torch.cuda.get_device_properties(0).total_memory/1e9)

__CUDNN VERSION: 8902
__Number CUDA Devices: 1
__CUDA Device Name: NVIDIA GeForce RTX 3050 Ti Laptop GPU
__CUDA Device Total Memory [GB]: 4.094427136


In [20]:
from langchain.embeddings import HuggingFaceEmbeddings, SentenceTransformerEmbeddings

model_name = "sentence-transformers/all-mpnet-base-v2"

hf = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": "cuda"})


In [21]:
hf

HuggingFaceEmbeddings(client=SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
), model_name='sentence-transformers/all-mpnet-base-v2', cache_folder=None, model_kwargs={'device': 'cuda'}, encode_kwargs={}, multi_process=False, show_progress=False)

## create the DB

In [22]:
# Embed and store the texts
# Supplying a persist_directory will store the embeddings on disk
persist_directory = 'db'

## Here is the nmew embeddings being used
embedding = hf

vectordb = Chroma.from_documents(documents=texts, 
                                 embedding=embedding,
                                 persist_directory=persist_directory)

In [23]:
# persiste the db to disk
vectordb.persist()
vectordb = None

In [24]:
# Now we can load the persisted database from disk, and use it as normal. 
vectordb = Chroma(persist_directory=persist_directory, 
                  embedding_function=embedding)

## Make a retriever

In [33]:
retriever = vectordb.as_retriever(search_kwargs={"k": 10})

In [34]:
docs = retriever.get_relevant_documents("What is Etude de la céramique?")

In [35]:
len(docs)

10

In [36]:
docs[6]

Document(page_content='58 ou en Bourgogne sur le site aristocratique de Vix « Le Mont-\nLassois » (voir étude de D. Bardel). Cette céramique peinte est décorée de motifs géométriques (grecques, chevrons, croix de St-André….) influencés par le répertoire décoratif méditerranéen. \nLes productions céramiques du Hallstatt final/Tène ancienne de Gif-sur- \nYvette présentent une homogénéité et des spécificités permettant d’envisager des productions au niveau local, voir à l’échelle du site. C’est un constat assez récurrent visible au travers de corpus suffisamment importants, et notamment au travers de la céramique peinte.\nLa carte de répartition des céramiques \n(Fig. 79)  est évocatrice. Si on \nla retrouve dans les fosses comme dans les trous de poteaux, des', metadata={'page': 162, 'source': '../data/F004769_01_BD.pdf'})

## Make a chain

In [37]:
# create the chain to answer questions 
qa_chain = RetrievalQA.from_chain_type(llm=OpenAI(), 
                                  chain_type="stuff", 
                                  retriever=retriever, 
                                  return_source_documents=True)

In [38]:
## Cite sources

import textwrap

def wrap_text_preserve_newlines(text, width=110):
    # Split the input text into lines based on newline characters
    lines = text.split('\n')

    # Wrap each line individually
    wrapped_lines = [textwrap.fill(line, width=width) for line in lines]

    # Join the wrapped lines back together using newline characters
    wrapped_text = '\n'.join(wrapped_lines)

    return wrapped_text

def process_llm_response(llm_response):
    print(wrap_text_preserve_newlines(llm_response['result']))
    print('\n\nSources:')
    for source in llm_response["source_documents"]:
        print(source.metadata['source'])

## full example

In [41]:
# full example
query = "c'est quoi Les occupations de l’âge du Bronze final?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Les occupations de l'âge du Bronze final font référence à une période de l'histoire de l'humanité, située
entre 1300 et 800 avant Jésus-Christ, où l'on a pu observer de nombreux changements sociaux et culturels,
notamment dans les modes de vie et les pratiques agricoles. Cette période a également vu l'émergence de
l'utilisation du fer dans la fabrication d'outils et d'armes.


Sources:
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/BB07037101_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/BB07037101_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf


In [42]:
query = "pourquoi on a abondonné le chemin est-ouest?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Il est abandonné au cours de la période antique en raison de la situation des tracés 24 et 28 qui l'impactent
directement, ainsi que de l'évolution des aménagements et des parcelles sur le site.


Sources:
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/F004769_01_BD.pdf
../data/DB05030807_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
../data/F004769_01_BD.pdf
../data/DB05023502_BD.pdf
../data/DB05023502_BD.pdf
