<a href="https://colab.research.google.com/github/PradipNichite/Youtube-Tutorials/blob/main/Chroma_DB_with_Langchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



1.   Indexing Documents with Langchain Utilities in Chroma DB
2.   Retrieving Semantically Similar Documents for a Specific Query
3.   Persistence in Chroma DB
4.   Integrating Chroma DB with LLM (OpenAI Chat Models)
5.   Using Question-Answering Chain to Extract Answers from Documents
6.   Utilizing RetrieverQA Chain

Youtube Video : https://youtu.be/5NG8mefEsCU

In [1]:
# %pip install llmsherpa langchain chromadb
# !pip install sentence-transformers
# !pip install transformers
# !pip install  accelerate
# !pip install bitsandbytes
# !pip install langchainhub
# !pip install -U langchain-community
# !pip install huggingface_hub


Collecting llmsherpa
  Downloading llmsherpa-0.1.4-py3-none-any.whl.metadata (14 kB)
Collecting langchain
  Downloading langchain-0.2.6-py3-none-any.whl.metadata (7.0 kB)
Collecting chromadb
  Downloading chromadb-0.5.3-py3-none-any.whl.metadata (6.8 kB)
Collecting langchain-core<0.3.0,>=0.2.10 (from langchain)
  Downloading langchain_core-0.2.10-py3-none-any.whl.metadata (6.0 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.2-py3-none-any.whl.metadata (2.1 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.83-py3-none-any.whl.metadata (13 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.1-py3-none-any.whl.metadata (4.3 kB)
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.5.0-py2.py3-none-any

In [2]:
# !apt-get install git-lfs
# !git lfs install

Reading package lists... Done
Building dependency tree       
Reading state information... Done
git-lfs is already the newest version (2.9.2-1).
0 upgraded, 0 newly installed, 0 to remove and 75 not upgraded.
Error: Failed to call git rev-parse --git-dir: exit status 128 
Git LFS initialized.


Files Used : https://github.com/PradipNichite/Youtube-Tutorials/tree/main/chroma_db/pets

In [None]:
# !git config --global credential.helper 'cache --timeout=3600'
# !echo "machine huggingface.co login user password $token" > ~/.netrc

In [3]:
import os
os.environ['HUGGINGFACEHUB_API_TOKEN'] ='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'

In [5]:
import os
from langchain.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

emb_model = "sentence-transformers/all-MiniLM-L6-v2"
embeddings = HuggingFaceEmbeddings(
    model_name=emb_model,
    cache_folder=os.getenv('SENTENCE_TRANSFORMERS_HOME')
)
# The vectorstore to use to index the summaries
vectorstore = Chroma(
    collection_name="mm_rag_mistral",
    embedding_function=embeddings,
    persist_directory="FiscaBOT_vector_store",
)

from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryStore
import uuid
from langchain.schema.document import Document

 # Initialize the storage layer
store = InMemoryStore()
id_key = "doc_id"

retriever = MultiVectorRetriever(
        vectorstore=vectorstore,
        docstore=store,
        id_key=id_key
    )


def add_documents(retriever, doc_contents, filename, document_type):
    doc_ids = [str(uuid.uuid4()) for _ in doc_contents]
    child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
    sub_docs = []

    # Assuming the first two contents are company name and sector
    # company_name = doc_contents[0] if len(doc_contents) > 0 else "Unknown"
    # activity_sector = doc_contents[1] if len(doc_contents) > 1 else "Unknown"
    # document_context = f"Company: {company_name}, Sector: {activity_sector}"

    for i, doc in enumerate(doc_contents):
        _id = doc_ids[i]
        _sub_docs = child_text_splitter.create_documents([doc])
        for _doc in _sub_docs:
            _doc.metadata['doc_id'] = _id
            _doc.metadata['pdf_name'] = filename
#             _doc.metadata['year'] = year
            _doc.metadata['document_type'] = document_type
            # _doc.metadata['document_context'] = document_context  # New metadata field

        sub_docs.extend(_sub_docs)

    retriever.vectorstore.add_documents(sub_docs)
    retriever.docstore.mset(list(zip(doc_ids, doc_contents)))

  warn_deprecated(
  from tqdm.autonotebook import tqdm, trange
2024-07-02 16:59:11.552646: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-07-02 16:59:11.552754: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-07-02 16:59:11.672270: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [6]:
from llmsherpa.readers import LayoutPDFReader

llmsherpa_api_url = "https://readers.llmsherpa.com/api/document/developer/parseDocument?renderFormat=all"
pdf_reader = LayoutPDFReader(llmsherpa_api_url)

In [7]:
# Categorize elements by type
def categorize_elements(doc):
    """
    Categorize extracted elements from a PDF into  texts.
    """
    texts=[]

    for chunk in doc.chunks():
      texts.append(str(chunk.to_context_text()))

    return texts

In [8]:
import os
import concurrent.futures

def process_pdf(folder_path, filename):
    pdf_path = os.path.join(folder_path, filename)
    doc = pdf_reader.read_pdf(pdf_path)  # Assuming 'read_pdf' is the correct method

    # Obtenir le nom du dossier parent comme type de document
    document_type = os.path.basename(os.path.dirname(pdf_path))

    add_documents(retriever, categorize_elements(doc), filename, document_type)
    return f"Processed {filename}"

def main(root_folder):
    # Créer un ThreadPoolExecutor
    with concurrent.futures.ThreadPoolExecutor() as executor:
        futures = []
        # Parcourir récursivement tous les répertoires
        for folder_path, _, filenames in os.walk(root_folder):
            for filename in filenames:
                if filename.endswith(".pdf"):
                    # Soumettre des tâches à l'executor
                    future = executor.submit(process_pdf, folder_path, filename)
                    futures.append(future)

if __name__ == "__main__":
    main("/kaggle/input/datasetpdf-fiscabot")
    vectorstore.persist()


  warn_deprecated(


In [9]:
!zip -r FiscaBOT_vector_store.zip FiscaBOT_vector_store

  pid, fd = os.forkpty()
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  adding: FiscaBOT_vector_store/ (stored 0%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/ (stored 0%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/index_metadata.pickle (deflated 42%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/header.bin (deflated 55%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/data_level0.bin (deflated 12%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/link_lists.bin (deflated 82%)
  adding: FiscaBOT_vector_store/30e8327a-b950-4c53-a7e7-17c901ae87ab/length.bin (deflated 59%)
  adding: FiscaBOT_vector_store/chroma.sqlite3 (deflated 53%)


In [10]:
import os

# Specify the path to the zip file
zip_file_path = 'FiscaBOT_vector_store'

# Get the size of the zip file
zip_file_size = os.path.getsize(zip_file_path)

# Convert size to human-readable format
def convert_bytes(size):
    for x in ['bytes', 'KB', 'MB', 'GB', 'TB']:
        if size < 1024.0:
            return "%3.1f %s" % (size, x)
        size /= 1024.0

# Print the size of the zip file
print("Size of the zip file:", convert_bytes(zip_file_size))


Size of the zip file: 4.0 KB


In [34]:
# !pip install unstructured
# !pip install "unstructured[pdf]"
# !pip install "unstructured[all-docs]" langchain langchain_community \
#  chromadb langchain-experimental
# !pip uninstall -y pdfminer.six
# !pip install pdfminer.six==20201018
# !pip install pdfplumber
!pip install PyMuPDF


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting PyMuPDF
  Downloading PyMuPDF-1.24.7-cp310-none-manylinux2014_x86_64.whl.metadata (3.4 kB)
Collecting PyMuPDFb==1.24.6 (from PyMuPDF)
  Downloading PyMuPDFb-1.24.6-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.4 kB)
Downloading PyMuPDF-1.24.7-cp310-none-manylinux2014_x86_64.whl (3.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.5/3.5 MB[0m [31m14.8 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading PyMuPDFb-1.24.6-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (15.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.7/15.7 MB[0m [31m32.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[0mInstalling collected packages: PyMuPDFb, PyMuPDF
Successfully installed PyMuPDF-1.24.7 PyMuPDFb-1.24.6


https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/recursive_text_splitter

In [43]:
import os
import fitz  # PyMuPDF
from langchain.text_splitter import RecursiveCharacterTextSplitter

class Document:
    def __init__(self, page_content, metadata=None):
        self.page_content = page_content
        self.metadata = metadata

def partition_pdf(pdf_path):
    text = ""
    with fitz.open(pdf_path) as pdf:
        for page in pdf:
            text += page.get_text()
    return text

def load_docs(directory):
    documents = []
    for root, _, files in os.walk(directory):
        for filename in files:
            if filename.endswith('.pdf'):
                file_path = os.path.join(root, filename)
                text = partition_pdf(file_path)
                documents.append(Document(page_content=text, metadata={"source": file_path}))
    return documents

directory = '/kaggle/input/datasetpdf-fiscabot/PDF Data'

docs = load_docs(directory)

def split_docs(docs, chunk_size=1000, chunk_overlap=20):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
    return text_splitter.split_documents(docs)

split_docs_result = split_docs(docs)
print(len(split_docs_result))


1572


In [44]:
from langchain.embeddings import SentenceTransformerEmbeddings
embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")



In [45]:
from langchain.vectorstores import Chroma
db = Chroma.from_documents(docs, embeddings)

In [46]:
query = "2. DETERMINATION DU REVENU NET "
matching_docs = db.similarity_search(query)

In [47]:
matching_docs[0]

Document(page_content="VII. AUTRES REVENUS \n \n1.  DÉFINITION \n \nARTICLE 36 : Les autres revenus sont constitués des revenus de source \nétrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. \n \nFont également partie de la catégorie autre revenue : \n- les revenus réalisés des jeux de pari, de hasard et de loterie, \n- les revenus déterminés selon les dépenses personnelles ostensibles et \nnotoires et selon l’accroissement du patrimoine conformément aux \ndispositions de l’article 43 du présent code en cas de non réalisation \nde revenus dans la catégorie des bénéfices industriels et commerciaux \nou des bénéfices des professions non commerciales ou des bénéfices \nde l’exploitation agricole ou de pêche. \n(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) \n \n2. DETERMINATION DU REVENU NET \n \nARTICLE 37 : Le revenu net est constitué par les sommes effectivement perçues \nde l'étranger et par le montant brut provenant des jeux de pari, de hasard et de \nloterie

In [48]:
print(matching_docs[0].page_content)

VII. AUTRES REVENUS 
 
1.  DÉFINITION 
 
ARTICLE 36 : Les autres revenus sont constitués des revenus de source 
étrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. 
 
Font également partie de la catégorie autre revenue : 
- les revenus réalisés des jeux de pari, de hasard et de loterie, 
- les revenus déterminés selon les dépenses personnelles ostensibles et 
notoires et selon l’accroissement du patrimoine conformément aux 
dispositions de l’article 43 du présent code en cas de non réalisation 
de revenus dans la catégorie des bénéfices industriels et commerciaux 
ou des bénéfices des professions non commerciales ou des bénéfices 
de l’exploitation agricole ou de pêche. 
(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) 
 
2. DETERMINATION DU REVENU NET 
 
ARTICLE 37 : Le revenu net est constitué par les sommes effectivement perçues 
de l'étranger et par le montant brut provenant des jeux de pari, de hasard et de 
loterie et par le revenu déterminé selon les dépens

In [49]:
matching_docs = db.similarity_search_with_score(query,k=2)
matching_docs

[(Document(page_content="VII. AUTRES REVENUS \n \n1.  DÉFINITION \n \nARTICLE 36 : Les autres revenus sont constitués des revenus de source \nétrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. \n \nFont également partie de la catégorie autre revenue : \n- les revenus réalisés des jeux de pari, de hasard et de loterie, \n- les revenus déterminés selon les dépenses personnelles ostensibles et \nnotoires et selon l’accroissement du patrimoine conformément aux \ndispositions de l’article 43 du présent code en cas de non réalisation \nde revenus dans la catégorie des bénéfices industriels et commerciaux \nou des bénéfices des professions non commerciales ou des bénéfices \nde l’exploitation agricole ou de pêche. \n(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) \n \n2. DETERMINATION DU REVENU NET \n \nARTICLE 37 : Le revenu net est constitué par les sommes effectivement perçues \nde l'étranger et par le montant brut provenant des jeux de pari, de hasard et de \nloter

Persist a ChromaDB instance

In [52]:
persist_directory = "FiscaBOT_vector_store"

vectordb = Chroma.from_documents(
    documents=docs, embedding=embeddings, persist_directory='FiscaBOT_vector_store'
)


In [53]:
vectordb.persist()

In [54]:
new_db = Chroma(persist_directory=persist_directory, embedding_function=embeddings)

In [55]:
matching_docs = new_db.similarity_search_with_score(query)
matching_docs[0]

(Document(page_content="VII. AUTRES REVENUS \n \n1.  DÉFINITION \n \nARTICLE 36 : Les autres revenus sont constitués des revenus de source \nétrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. \n \nFont également partie de la catégorie autre revenue : \n- les revenus réalisés des jeux de pari, de hasard et de loterie, \n- les revenus déterminés selon les dépenses personnelles ostensibles et \nnotoires et selon l’accroissement du patrimoine conformément aux \ndispositions de l’article 43 du présent code en cas de non réalisation \nde revenus dans la catégorie des bénéfices industriels et commerciaux \nou des bénéfices des professions non commerciales ou des bénéfices \nde l’exploitation agricole ou de pêche. \n(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) \n \n2. DETERMINATION DU REVENU NET \n \nARTICLE 37 : Le revenu net est constitué par les sommes effectivement perçues \nde l'étranger et par le montant brut provenant des jeux de pari, de hasard et de \nloteri

##LLM

In [56]:
#from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain import HuggingFaceHub
from langchain.memory import ChatMessageHistory, ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain

llm = HuggingFaceHub(
    repo_id='mistralai/Mistral-7B-Instruct-v0.2',
    model_kwargs= {'temperature':0.1, 'max_length':1024},
    )

  warn_deprecated(


###Document QA

https://python.langchain.com/docs/modules/chains/additional/question_answering

https://python.langchain.com/docs/modules/chains/document/

In [57]:
from langchain.chains.question_answering import load_qa_chain
# chain = load_qa_chain(llm, chain_type="stuff")
chain = load_qa_chain(llm, chain_type="stuff",verbose=True)

In [58]:
query = "DETERMINATION DU REVENU NET"
matching_docs = db.similarity_search(query)
answer =  chain.run(input_documents=matching_docs, question=query)
answer

  warn_deprecated(




[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mUse the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.

VII. AUTRES REVENUS 
 
1.  DÉFINITION 
 
ARTICLE 36 : Les autres revenus sont constitués des revenus de source 
étrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. 
 
Font également partie de la catégorie autre revenue : 
- les revenus réalisés des jeux de pari, de hasard et de loterie, 
- les revenus déterminés selon les dépenses personnelles ostensibles et 
notoires et selon l’accroissement du patrimoine conformément aux 
dispositions de l’article 43 du présent code en cas de non réalisation 
de revenus dans la catégorie des bénéfices industriels et commerciaux 
ou des bénéfices des professions non commerciales ou des bénéfices 
de l’exploitation agricole ou de p

"Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.\n\nVII. AUTRES REVENUS \n \n1.  DÉFINITION \n \nARTICLE 36 : Les autres revenus sont constitués des revenus de source \nétrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. \n \nFont également partie de la catégorie autre revenue : \n- les revenus réalisés des jeux de pari, de hasard et de loterie, \n- les revenus déterminés selon les dépenses personnelles ostensibles et \nnotoires et selon l’accroissement du patrimoine conformément aux \ndispositions de l’article 43 du présent code en cas de non réalisation \nde revenus dans la catégorie des bénéfices industriels et commerciaux \nou des bénéfices des professions non commerciales ou des bénéfices \nde l’exploitation agricole ou de pêche. \n(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) \n \n2. DETERMINATION DU REVENU NET \n \nARTICLE 37 : Le revenu net

### Retrieval QA

In [59]:
from langchain.chains import RetrievalQA
retrieval_chain = RetrievalQA.from_chain_type(llm, chain_type="stuff", retriever=db.as_retriever())
retrieval_chain.run(query)

"Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.\n\nVII. AUTRES REVENUS \n \n1.  DÉFINITION \n \nARTICLE 36 : Les autres revenus sont constitués des revenus de source \nétrangère n'ayant pas été soumis au paiement de l'impôt dans le pays d'origine. \n \nFont également partie de la catégorie autre revenue : \n- les revenus réalisés des jeux de pari, de hasard et de loterie, \n- les revenus déterminés selon les dépenses personnelles ostensibles et \nnotoires et selon l’accroissement du patrimoine conformément aux \ndispositions de l’article 43 du présent code en cas de non réalisation \nde revenus dans la catégorie des bénéfices industriels et commerciaux \nou des bénéfices des professions non commerciales ou des bénéfices \nde l’exploitation agricole ou de pêche. \n(Ajouté Art 19-1 LF 2015-53 du 25/12/2015) \n \n2. DETERMINATION DU REVENU NET \n \nARTICLE 37 : Le revenu net