In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document
from langchain_community.embeddings import OllamaEmbeddings
from langchain.vectorstores.faiss import FAISS
from langchain_community.embeddings import HuggingFaceHubEmbeddings
from langchain import hub
from langchain.vectorstores import Chroma
from langchain_pinecone import PineconeVectorStore
from langchain_community.embeddings import HuggingFaceEmbeddings
import pickle
from langchain_community.llms import Ollama
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain import hub
import pathlib
import textwrap
import os
import google.generativeai as genai
from IPython.display import display
from IPython.display import Markdown
import glob

genai.configure(api_key="AIzaSyBs7fa0hdQsl2cPEQYwLhsO5INKQZxt0Vk")

prompt = hub.pull("mehdixlabetix/rag-law-fr")
llm = Ollama(model="mistral")


# Document loader

In [3]:
pdf_files = glob.glob("src/*.pdf")
pages = []

for pdf_file in pdf_files:
    pages.extend(PyPDFLoader(pdf_file).load_and_split())

for page in pages:
    page.page_content = page.page_content.replace("Imprimerie Officielle de la République Tunisienne", "")


# Splitter


In [8]:
doc_chunks = []
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,
    separators=["\nArticle", "\n\n", "\n", ".", "!", "?", ",", " ", ""],
    chunk_overlap=100,
)
chunks = text_splitter.split_documents(pages)
len(chunks)


17144

# Vectorstores
## for now BAAI/bge-m3 is the best embedder

#### In the cloud (pinecone)

In [None]:
import os
os.environ["PINECONE_API_KEY"] = "9721efa4-ff98-4bc5-9b28-93919d1657a5"
# embedder = HuggingFaceEmbeddings(
#     model_name = 'dangvantuan/sentence-camembert-large'
# )

index_name = "pfa"

#docsearch = PineconeVectorStore.from_documents(chunks, embedder, index_name=index_name)
#docsearch = PineconeVectorStore(index_name=index_name,embedding=embedder)

#### Locally (chroma)

In [2]:

embedder = HuggingFaceEmbeddings(
    model_name = "BAAI/bge-m3"
)
persist_directory = 'docs/chroma_bge/'
# vectordb = Chroma.from_documents(
#     documents=chunks,
#     embedding=embedder,
#     persist_directory=persist_directory
# ) 
# vectordb.persist()
vectordb = Chroma(persist_directory=persist_directory,embedding_function=embedder)
print(vectordb._collection.count())

28127


# Retrieval
### 4 methodes

In [3]:

query="comment devenir le président du république  ?"

#needs optimization
# rewrite_prompt = " Fournir une meilleure requête au moteur de recherche web pour répondre à la question donnée,commençant les requêtes par '**' et en terminant les requêtes par '**'.Répondez en une seule phrase. Question :"+query+". Réponse (la réponse doit etre en français):"
# rewrited_prompt=llm.invoke(rewrite_prompt)
# rewrited_prompt = rewrited_prompt.split('**')[1]

#méthode 1 avec retriever
retriever = vectordb.as_retriever(search_type="mmr",search_kwargs={"k": 20})
matched_docs = retriever.get_relevant_documents(query)
# for i, d in enumerate(matched_docs):
#     print(f"\n## Document {i}\n")
#     print(d.page_content)


#méthode 2 avec mmr
found_docs = vectordb.max_marginal_relevance_search(query, k=10, fetch_k=500)
print(found_docs)
for i, doc in enumerate(found_docs):
    print(f"{i + 1}.", doc.page_content, "\n\n")

#méthode 3 avec similarity search
# sim_docs = vectordb.similarity_search_with_score(rewrited_prompt, k=5)  
# for result in sim_docs:
#     print("\n")
#     print(result[1])
#     print(result[0].page_content)

#méthode 4 avec multiquery qui utilise le llm pour trouver le contexte
# llm_retriever = MultiQueryRetriever.from_llm(retriever=vectordb.as_retriever(), llm=llm)
# unique_docs = llm_retriever.get_relevant_documents(query=query)
# print(unique_docs)
    

[Document(page_content="Article 39 (Modifié par la loi constitutionne lle n° 88-88 du 25 juillet 1988 et par \nla loi constitutionnelle n°2002-51 du 1er juin 2002). \nLe Président de la République est élu po ur cinq ans au suffr age universel, libre, \ndirect et secret, et à la majorité absolu e des voix exprimées, au cours des trente \nderniers jours du mandat présidentiel. Da ns le cas où cette majorité n'est pas \nobtenue au premier tour du scrutin, il est procédé le deuxième dimanche qui suit le", metadata={'page': 9, 'source': 'src\\Constitution_de_la_republique_tunisiennefr.pdf'}), Document(page_content="216  - être titulaire d'un diplôme de l'enseignement supérieur, \n- ne dépassant pas 1'âge de 40 ans au moment du dépôt de la \ndéclaration de constitution, \n- assumer personnellement et à plein temps la responsabilité de la \ngestion du projet, \n- détenir au moins 51% du capital.", metadata={'page': 215, 'source': 'src\\societe.pdf'}), Document(page_content="la république une 

In [4]:
from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation


# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
scores = reranker.compute_score([[query,context.page_content] for context in found_docs ], normalize=True)
print(scores) 
#rank the context.page_content by the scores
reranked_found_docs=sorted(zip(scores,found_docs),reverse=True)
#remove the scores and keep only the context.page_content
sorted_found_docs=[doc[1] for doc in reranked_found_docs] 


[0.894330073820674, 0.0073113696786473135, 9.757145549457082e-05, 0.0003701476204857351, 0.001028890933324941, 0.0010197286697439074, 0.0008882279844170483, 9.160766356162972e-05, 1.6915896553358822e-05, 4.53378612592238e-05]


# Prompt Engineering and generation

In [5]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

final_prompt = prompt.invoke({"context":format_docs(sorted_found_docs), "question":query})

print(final_prompt)

messages=[HumanMessage(content=" Tu es un assistant juridique spécialisé dans la loi en Tunisie. Ta mission est de répondre aux questions des gens sur différents aspects juridiques ,en te limitant aux informations générales et en évitant les cas sensibles ou extrêmes. Si une question dépasse ton champ d'expertise ou si elle concerne un sujet délicat, tu dois informer l'utilisateur que tu ne peux pas fournir d'aide spécifique dans ce cas. Utilise les pièces suivantes du contexte pour répondre. Utilise un langage simple et accessible pour garantir que tout le monde puisse comprendre tes réponses. Gardez votre réponse brève et efficace maximum quatre ou cinq phrases.\xa0Tu dois répondre en français.\n Question: comment devenir le président du république  ?.\nContexte: Article 39 (Modifié par la loi constitutionne lle n° 88-88 du 25 juillet 1988 et par \nla loi constitutionnelle n°2002-51 du 1er juin 2002). \nLe Président de la République est élu po ur cinq ans au suffr age universel, libr

In [14]:
llm.invoke(final_prompt)

" The text provided is a French law or decree with various articles outlining different provisions. Here's a brief summary of some of the articles:\n\nArticle 57: Establishes the Court of Justice of the European Union as the highest judicial authority in EU law.\n\nArticle 84: Outlines the composition, roles, and responsibilities of the European Court of Human Rights.\n\nArticle 131: Punishes individuals who form political parties or associations with military members.\n\nThe remaining articles cover various topics such as the appointment and duties of certain officials, tax exemptions for agricultural equipment and boats, and reporting requirements for companies. There are also provisions related to discrimination, surveillance, and the handling of confidential information."

In [6]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

model = genai.GenerativeModel('gemini-1.5-pro-latest')

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


In [7]:
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))


response = model.generate_content(final_prompt.messages[0].content,stream=True)
for chunk in response:
  print(chunk.text)


  

##
 Devenir Président de la République en Tunisie : Les conditions

Pour devenir Président de
 la République en Tunisie, il faut remplir plusieurs conditions :

* **Nationalité tun
isienne**: Vous devez être de nationalité tunisienne depuis la naissance, et vos parents doivent également être Tunisiens de naissance.
* **Â
ge**: Vous devez avoir au moins 35 ans au moment de la candidature.
* **Religion**: Vous devez être de religion musulmane. 

* **Élections**: Vous devez vous présenter aux élections présidentielles et obtenir la majorité absolue des voix exprimées. 

**Attention**: Ces informations sont générales et peuvent être sujettes à modification. Pour des informations plus précises et actual
isées, il est conseillé de consulter les textes juridiques officiels ou de solliciter l'avis d'un professionnel du droit. 



In [54]:
response._result.candidates[0].safety_ratings

[category: HARM_CATEGORY_SEXUALLY_EXPLICIT
probability: NEGLIGIBLE
, category: HARM_CATEGORY_HATE_SPEECH
probability: NEGLIGIBLE
, category: HARM_CATEGORY_HARASSMENT
probability: NEGLIGIBLE
, category: HARM_CATEGORY_DANGEROUS_CONTENT
probability: NEGLIGIBLE
]