In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document
from langchain.vectorstores import Chroma
from langchain_pinecone import PineconeVectorStore
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.llms import Ollama
from langchain.chains import create_history_aware_retriever
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
import textwrap
import os
from IPython.display import display
from IPython.display import Markdown
import glob
from FlagEmbedding import FlagReranker
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough,RunnableParallel,RunnableLambda
from langchain.chains import create_history_aware_retriever
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.messages import SystemMessage,HumanMessage
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from operator import itemgetter
from langchain_community.chat_message_histories import ChatMessageHistory
from langchain.load import dumps, loads

In [2]:
os.environ["PINECONE_API_KEY"] = "9721efa4-ff98-4bc5-9b28-93919d1657a5"

os.environ["GOOGLE_API_KEY"] = "AIzaSyBs7fa0hdQsl2cPEQYwLhsO5INKQZxt0Vk"

# prompt = hub.pull("mehdixlabetix/rag-law-fr")
gemini = ChatGoogleGenerativeAI(model="gemini-1.5-pro-latest", convert_system_message_to_human=True)
gemini_1 = ChatGoogleGenerativeAI(model="gemini-1.0-pro-latest", convert_system_message_to_human=True)
mistral = Ollama(model="mistral")

embedder = HuggingFaceEmbeddings(
    model_name = "BAAI/bge-m3"
)

persist_directory = 'docs/chroma/'


# Document loader and splitter

In [5]:
# pdf_files = glob.glob("src/*.pdf")
# pages = []

# for pdf_file in pdf_files:
#     pages.extend(PyPDFLoader(pdf_file).load_and_split())

# for page in pages:
#     page.page_content = page.page_content.replace("Imprimerie Officielle de la République Tunisienne", "")
#     page.page_content = page.page_content.replace("/tatweel", "")

# doc_chunks = []
# text_splitter = RecursiveCharacterTextSplitter(
#     chunk_size=850,
#     separators=["\nArticle", "\n\n", "\n", ".", "!", "?", ",", " ", ""],
#     chunk_overlap=100,
# )
# chunks = text_splitter.split_documents(pages)
# len(chunks)



# vectordb = Chroma.from_documents(
#     documents=chunks,
#     embedding=embedder,
#     persist_directory=persist_directory
# ) 
# vectordb.persist()

# OR

# index_name = "pfa"
# os.environ["PINECONE_API_KEY"] = "9721efa4-ff98-4bc5-9b28-93919d1657a5"
#docsearch = PineconeVectorStore.from_documents(chunks, embedder, index_name=index_name)
#docsearch = PineconeVectorStore(index_name=index_name,embedding=embedder)

In [8]:
vectordb = Chroma(persist_directory=persist_directory,embedding_function=embedder)
retriever = vectordb.as_retriever()
print(vectordb._collection.count())

15880


# Retrieval
### 4 methods

### First method : multiQuery

In [9]:
# simple retrieval chain
question = "Comment créer un fond de commerce?"
retriever = vectordb.as_retriever(search_type="mmr",search_kwargs={"k": 5})
docs = retriever.get_relevant_documents(question)

len(docs)

5

### Second method : multiQuery

In [63]:
template = """Tu es un assistant juridique. 
Votre mission consiste à générer cinq versions différentes de la question initiale de l'utilisateur,
afin de récupérer des documents pertinents dans une base de données vectorielle. 
En proposant plusieurs points de vue sur la question de l'utilisateur, votre objectif
est de l'aider à surmonter certaines limitations de la recherche de similarité basée sur la distance. 
Fournissez ces questions alternatives séparées par des sauts de ligne. Question originale: {input}"""
prompt_perspectives = ChatPromptTemplate.from_template(template)


generate_queries = (
    prompt_perspectives 
    | mistral
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

def get_unique_union(documents):
    flattened_docs = [dumps(doc) for sublist in documents for doc in sublist]
    unique_docs = list(set(flattened_docs))
    return [loads(doc) for doc in unique_docs]

retrieval_chain_multiquery = generate_queries | retriever.map() | get_unique_union
docs = retrieval_chain_multiquery.invoke({"input":question})
len(docs)

20

### Third method : RAG-Fusion

In [30]:
template = """Tu es un assistant juridique. 
Votre mission consiste à générer cinq versions différentes de la question initiale de l'utilisateur,
afin de récupérer des documents pertinents dans une base de données vectorielle. 
En proposant plusieurs points de vue sur la question de l'utilisateur, votre objectif
est de l'aider à surmonter certaines limitations de la recherche de similarité basée sur la distance. 
Fournissez ces questions alternatives séparées par des sauts de ligne. Question originale: {input}"""
prompt_perspectives = ChatPromptTemplate.from_template(template)

generate_queries = (
    prompt_perspectives 
    | mistral
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

def reciprocal_rank_fusion(results: list[list], k=60):
    fused_scores = {}
    for docs in results:
        for rank, doc in enumerate(docs):
            doc_str = dumps(doc)
            if doc_str not in fused_scores:
                fused_scores[doc_str] = 0
            previous_score = fused_scores[doc_str]
            fused_scores[doc_str] += 1 / (rank + k)
    reranked_results = [
        (loads(doc), score)
        for doc, score in sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)
    ]
    return reranked_results

retrieval_chain_rag_fusion = generate_queries | retriever.map() | reciprocal_rank_fusion
docs = retrieval_chain_rag_fusion.invoke({"input": question})
len(docs)

9

### third method : Decomposition

In [81]:
template = """Tu es un assistant utile qui génère plusieurs sous-questions à partir d'une question initiale.
L'objectif est de décomposer la question initiale en un ensemble de sous-problèmes ou de sous-questions pouvant
être répondus de manière isolée.
Génère des requêtes de recherche multiples liées à : {question}
Sortie (3 requêtes) :"""
prompt_perspectives = ChatPromptTemplate.from_template(template)

generate_queries = (
    prompt_perspectives 
    | mistral
    | StrOutputParser() 
    | (lambda x: x.split("\n"))
)

#...

# Prompt Engineering and generation

In [55]:
contextualize_q_system_prompt = """ Compte tenu de l'historique des discussions et de la dernière question de l'utilisateur \
qui peut faire référence à un contexte dans l'historique de la discussion, formuler quelques phrase autonome \
qui peut récapituler l'historique de la discussion. Prenez en compte que vous êtes toujours en Tunisie.\
Ne PAS répondre à la question,juste la reformuler si nécessaire et sinon la renvoyer telle quelle."""
contextualize_q_prompt = ChatPromptTemplate.from_messages(
    [
        ("system", contextualize_q_system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
history_aware_retriever = create_history_aware_retriever(
    gemini, retrieval_chain_multiquery, contextualize_q_prompt
)

In [74]:
qa_system_prompt = """ Tu es un assistant juridique spécialisé dans la loi en TUNISIE.
    Ta mission est de répondre aux questions des gens sur différents aspects juridiques ,en te limitant aux informations générales et en évitant les cas sensibles ou extrêmes.
    Si une question dépasse ton champ d'expertise ou si elle concerne un sujet très délicat, tu dois informer l'utilisateur que tu ne peux pas fournir d'aide spécifique dans ce cas.
    Utilise les pièces suivantes du contexte pour répondre. Utilise un langage simple et accessible pour garantir que tout le monde puisse comprendre tes réponses.
    developper autant que possible et donner des exemples si necessaire.
    Contexte: {context}.Cite à la fin les articles du contexte."""
qa_prompt = ChatPromptTemplate.from_messages(
    [
        ("assistant", qa_system_prompt),
        MessagesPlaceholder("chat_history"),
        ("human", "{input}"),
    ]
)
docs=[]
def save_docs(inputs):
    global docs
    docs = [x.metadata for x in inputs['context']]
    return docs


#question_answer_chain = create_stuff_documents_chain(gemini, qa_prompt,document_prompt=None)

#uncomment this chain to get safety ratings with the answer
question_answer_chain = (
     RunnableParallel({
    'context':RunnableLambda(save_docs),     
    'chat_history': itemgetter('chat_history'),
    'input': itemgetter('input')}) 
    | qa_prompt
    | gemini

)

rag_chain = create_retrieval_chain(history_aware_retriever, question_answer_chain)

## Streaming

In [76]:
chat_history = []
question = "Comment pui-je créer une société anonyme?"


async def async_generator_wrapper(sync_gen):
    for item in sync_gen:
        yield item
answer=[]
metadata = None
async for text in async_generator_wrapper(rag_chain.stream({"input": question, "chat_history": chat_history})):
    if ('answer' in text):
        answer.append(text['answer'].content)
        print(text['answer'].content, flush=True)
        metadata = text['answer'].response_metadata # store the metadata
chat_history.extend([HumanMessage(question), SystemMessage(answer)])




##
 Créer une société anonyme en Tunisie: Étapes clés

La création d'une
 société anonyme (SA) en Tunisie implique plusieurs étapes importantes. Voici un aperçu général
 du processus:

**1. Choix de la dénomination sociale:**

*   Vérifiez la disponibilité du nom choisi auprès du Registre National
 des Entreprises (RNE).
*   Le nom doit être unique et ne pas ressembler à une autre société existante.

**2. Rédaction
 des statuts:**

*   Les statuts constituent le document fondateur de la SA et définissent son fonctionnement.
*   Ils doivent contenir des informations telles que la dénomination sociale, l'objet social, le capital social,
 la durée de vie de la société, la composition du conseil d'administration, etc. 
*   Il est conseillé de faire appel à un professionnel du droit pour la rédaction des statuts.

**3. Capital social:**


*   Le capital social minimum pour une SA est de 5000 dinars.
*   Il est divisé en actions, et chaque actionnaire détient une partie du capital en fonctio

In [34]:
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

to_markdown(answer['answer'].content)

> ## Création d'une Société Anonyme (SA) en Tunisie: 
> 
> La création d'une SA en Tunisie nécessite plusieurs étapes clés. Voici un aperçu général:
> 
> **1. Conditions Préalables:**
> 
> * **Nombre d'associés:** Minimum 7 actionnaires.
> * **Capital social:** Pas de minimum légal, mais il doit être divisé en actions. 
> * **Responsabilité:** Limitée aux apports de chaque actionnaire.
> 
> **2. Choix du type de SA:**
> 
> * **SA faisant appel public à l'épargne:** Si vous souhaitez lever des fonds auprès du public.
> * **SA ne faisant pas appel public à l'épargne:** Si vous n'avez pas besoin de lever des fonds auprès du public.
> 
> **3. Procédure de constitution:**
> 
> * **Rédaction des statuts:** Un document officiel qui définit les règles de fonctionnement de la société.
> * **Dépôt au greffe du tribunal:** Le projet de statuts doit être déposé au greffe du tribunal de première instance du lieu du siège social.
> * **Publication au JORT:** Un avis de constitution doit être publié au Journal Officiel de la République Tunisienne (JORT).
> * **Immatriculation au Registre du Commerce:** Une fois toutes les formalités accomplies, la société est immatriculée au Registre du Commerce.
> 
> **4. Éléments importants des statuts:**
> 
> * Dénomination sociale de la société.
> * Forme juridique (SA).
> * Siège social.
> * Objet social.
> * Montant du capital social et répartition des actions.
> * Modalités de fonctionnement des organes de la société (assemblée générale, conseil d'administration, etc.).
> * Règles de répartition des bénéfices et des pertes.
> 
> **5. Conseils:**
> 
> * **Assistance professionnelle:** Il est recommandé de faire appel à un avocat ou un expert-comptable pour vous accompagner dans la création de votre SA.
> * **Délais:** La procédure de création peut prendre plusieurs semaines.
> * **Coûts:** Des frais de greffe, de publication et d'immatriculation sont à prévoir. 
> 
> **Informations complémentaires:**
> 
> * **SA à capital variable:** Possibilité de modifier le capital social sans modifier les statuts.
> * **SA unipersonnelle:** Possibilité de créer une SA avec un seul actionnaire.
> * **SA à directoire et conseil de surveillance:** Structure de gouvernance alternative à la SA classique.
> 
> **Important:** 
> 
> Ces informations sont générales et ne constituent pas un avis juridique. Il est important de consulter un professionnel pour obtenir des conseils adaptés à votre situation spécifique. 


In [71]:
docs

[{'page': 20, 'source': 'src\\Assurance.pdf'},
 {'page': 157, 'source': 'src\\societe.pdf'},
 {'page': 231, 'source': 'src\\societe.pdf'},
 {'page': 29, 'source': 'src\\societe.pdf'},
 {'page': 3, 'source': 'src\\societe.pdf'},
 {'page': 45, 'source': 'src\\societe.pdf'},
 {'page': 111, 'source': 'src\\societe.pdf'},
 {'page': 107, 'source': 'src\\societe.pdf'},
 {'page': 141, 'source': 'src\\societe.pdf'},
 {'page': 62, 'source': 'src\\societe.pdf'},
 {'page': 50, 'source': 'src\\societe.pdf'},
 {'page': 133, 'source': 'src\\societe.pdf'},
 {'page': 197, 'source': 'src\\societe.pdf'},
 {'page': 51, 'source': 'src\\societe.pdf'},
 {'page': 5, 'source': 'src\\societe.pdf'},
 {'page': 226, 'source': 'src\\societe.pdf'}]

In [70]:
metadata

{'finish_reason': 'STOP',
 'safety_ratings': [{'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HATE_SPEECH',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HARASSMENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_DANGEROUS_CONTENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False}]}

In [31]:
chat_history = []

ai_msg_1 = rag_chain.invoke({"input": question, "chat_history": chat_history})
print(ai_msg_1)
chat_history.extend([HumanMessage(question),ai_msg_1['answer']])


reranking successful
[Document(page_content="14Le Président de la République par intéri m ne peut présenter sa candidature à la \nPrésidence de la République même en cas de démission. \nLe Président de la République par intéri m exerce les attributions dévolues au \nPrésident de la République sans, toutef ois, pouvoir recourir au référendum, \ndémettre le Gouvernement, dissoudre la  Chambre des députés ou prendre les \nmesures exceptionnelles pr évues par l'article 46. \nIl ne peut être procédé, au cours de la période de la Présidence par intérim, ni à \nla modification de la Constitution ni à la présentation d'une motion de censure \ncontre le Gouvernement. \nDurant cette même période, des élection s présidentielles sont organisées pour \nélire un nouveau Président de la Répu blique pour un mandat de cinq ans. \nLe nouveau Président de la République peut dissoudre la Chambre des députés", metadata={'page': 13, 'source': 'src\\Constitution_de_la_republique_tunisiennefr.pdf'}), Document



{'input': 'je veux devenir président de la république, que je dois faire ?', 'chat_history': [], 'context': [Document(page_content="14Le Président de la République par intéri m ne peut présenter sa candidature à la \nPrésidence de la République même en cas de démission. \nLe Président de la République par intéri m exerce les attributions dévolues au \nPrésident de la République sans, toutef ois, pouvoir recourir au référendum, \ndémettre le Gouvernement, dissoudre la  Chambre des députés ou prendre les \nmesures exceptionnelles pr évues par l'article 46. \nIl ne peut être procédé, au cours de la période de la Présidence par intérim, ni à \nla modification de la Constitution ni à la présentation d'une motion de censure \ncontre le Gouvernement. \nDurant cette même période, des élection s présidentielles sont organisées pour \nélire un nouveau Président de la Répu blique pour un mandat de cinq ans. \nLe nouveau Président de la République peut dissoudre la Chambre des députés", metadata={

In [99]:
second_question = "qu'est ce que j'ai demandé dans la derniere question?"
ai_msg_2 = rag_chain.invoke({"input": second_question, "chat_history": chat_history})

print(ai_msg_2)



{'input': "qu'est ce que j'ai demandé dans la derniere question?", 'chat_history': [HumanMessage(content='Comment pui-je créer une société anonyme?'), '## Création d\'une société anonyme en Tunisie : Étapes clés\n\nLa création d\'une société anonyme (SA) en Tunisie implique plusieurs étapes et exigences légales. Voici un aperçu général du processus :\n\n**1. Conditions préalables :**\n\n* **Nombre d\'actionnaires :**  Au minimum 7 actionnaires sont requis pour constituer une SA.\n* **Capital social minimum :** Le capital social minimum est de 10 millions de dinars, entièrement libérés. Pour les SA opérant exclusivement dans un domaine d\'assurance, le minimum est de 3 millions de dinars.\n* **Dénomination sociale :**  Choisissez un nom unique qui n\'est pas déjà utilisé par une autre société et qui inclut la mention "Société Anonyme" ou "S.A.".\n\n**2. Étapes de constitution :**\n\n* **Rédaction des statuts :**  Élaborez les statuts de la société, document définissant son fonctionnemen

In [100]:
to_markdown(ai_msg_2["answer"] )

> Vous m'avez demandé comment créer une société anonyme. 


# Query safety evaluation

In [18]:
ai_msg_2['answer'].response_metadata

{'finish_reason': 'STOPSTOPSTOPSTOPSTOPSTOPSTOPSTOPSTOPSTOP',
 'safety_ratings': [{'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HATE_SPEECH',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HARASSMENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_DANGEROUS_CONTENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HATE_SPEECH',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_HARASSMENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_DANGEROUS_CONTENT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'category': 'HARM_CATEGORY_SEXUALLY_EXPLICIT',
   'probability': 'NEGLIGIBLE',
   'blocked': False},
  {'catego