In [3]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document
from langchain_community.embeddings import OllamaEmbeddings
from langchain.vectorstores.faiss import FAISS
from langchain_community.embeddings import HuggingFaceHubEmbeddings
from langchain import hub
from langchain.vectorstores import Chroma
from langchain_pinecone import PineconeVectorStore
from langchain_community.embeddings import HuggingFaceEmbeddings
import pickle
from langchain_community.llms import Ollama
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain import hub
import pathlib
import textwrap
import os
import google.generativeai as genai
from IPython.display import display
from IPython.display import Markdown
import glob
from FlagEmbedding import FlagReranker

In [4]:
genai.configure(api_key="AIzaSyBs7fa0hdQsl2cPEQYwLhsO5INKQZxt0Vk")

os.environ["PINECONE_API_KEY"] = "9721efa4-ff98-4bc5-9b28-93919d1657a5"

prompt = hub.pull("mehdixlabetix/rag-law-fr")

llm = Ollama(model="mistral")

embedder = HuggingFaceEmbeddings(
    model_name = "BAAI/bge-m3"
)

persist_directory = 'db/'

# Document loader

In [17]:
pdf_files = glob.glob("src/*.pdf")
pages = []

for pdf_file in pdf_files:
    pages.extend(PyPDFLoader(pdf_file).load_and_split())

for page in pages:
    page.page_content = page.page_content.replace("Imprimerie Officielle de la République Tunisienne", "")
    page.page_content = page.page_content.replace("/tatweel", "")


# Splitter


In [18]:
doc_chunks = []
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=850,
    separators=["\nArticle", "\n\n", "\n", ".", "!", "?", ",", " ", ""],
    chunk_overlap=100,
)
chunks = text_splitter.split_documents(pages)
len(chunks)


15880

# Vectorstores
## for now BAAI/bge-m3 is the best embedder

#### In the cloud (pinecone)

In [None]:
index_name = "pfa"

#docsearch = PineconeVectorStore.from_documents(chunks, embedder, index_name=index_name)
#docsearch = PineconeVectorStore(index_name=index_name,embedding=embedder)

#### Locally (chroma)

In [5]:
# vectordb = Chroma.from_documents(
#     documents=chunks,
#     embedding=embedder,
#     persist_directory=persist_directory
# ) 
# vectordb.persist()
vectordb = Chroma(persist_directory=persist_directory,embedding_function=embedder)
print(vectordb._collection.count())

16200


# Retrieval
### 4 methodes

In [6]:

query="que faire si j'étais victime de fraude  ?"

#needs optimization
# rewrite_prompt = " Fournir une meilleure requête au moteur de recherche web pour répondre à la question donnée,commençant les requêtes par '**' et en terminant les requêtes par '**'.Répondez en une seule phrase. Question :"+query+". Réponse (la réponse doit etre en français):"
# rewrited_prompt=llm.invoke(rewrite_prompt)
# rewrited_prompt = rewrited_prompt.split('**')[1]

#méthode 1 avec retriever
# retriever = vectordb.as_retriever(search_type="mmr",search_kwargs={"k": 20})
# matched_docs = retriever.get_relevant_documents(query)
# for i, d in enumerate(matched_docs):
#     print(f"\n## Document {i}\n")
#     print(d.page_content)


#méthode 2 avec mmr
# found_docs = vectordb.max_marginal_relevance_search(query, k=10, fetch_k=500)
# print(found_docs)
# for i, doc in enumerate(found_docs):
#     print(f"{i + 1}.", doc.page_content, "\n\n")

#méthode 3 avec similarity search
# sim_docs = vectordb.similarity_search_with_score(rewrited_prompt, k=5)  
# for result in sim_docs:
#     print("\n")
#     print(result[1])
#     print(result[0].page_content)

#méthode 4 avec multiquery qui utilise le llm pour trouver le contexte
llm_retriever = MultiQueryRetriever.from_llm(retriever=vectordb.as_retriever(), llm=llm)
unique_docs = llm_retriever.get_relevant_documents(query=query)
print(unique_docs)
    

[Document(page_content="106  d’enlèvement, de fraude, de tromperie, d’abus d’autorité ou d’une \nsituation de vulnérabilité ou par l’offre ou l’acceptation de sommes d’argent ou avantages ou dons ou promesses de dons afin d’obtenir le consentement d’une personne ayant autorité sur une autre aux fins d’exploitation, quellequ’en soit la forme, que cette exploitation soit \ncommise par l’auteur de ces faits ou en vue de mettre cette personne à la disposition d'un tiers. \nL’exploitation comprend l’exploitation de la prostitution d’autrui \nou d’autres formes d’exploitation sexuelle, le travail ou les services \nforcés, l’esclavage ou les pratiques analogues à l’esclavage, la \nservitude ou la mendicité, le prélèvement total ou partiel d’organes, de \ntissus, de cellules, de gamètes et de gènes ou toutes autres formes \nd’exploitation. \n2. La situation de vulnérabilité :", metadata={'page': 99, 'source': 'src\\Penal.pdf'}), Document(page_content='Article 17.-  S’il est établi, sur la base

# Reranking (using bge reranker)

In [7]:
reranker = FlagReranker('BAAI/bge-reranker-v2-m3', use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation

# You can map the scores into 0-1 by set "normalize=True", which will apply sigmoid function to the score
scores = reranker.compute_score([[query,context.page_content] for context in unique_docs ], normalize=True)
print(scores) 
#rank the context.page_content by the scores
reranked_found_docs=sorted(zip(scores,unique_docs),reverse=True)
#remove the scores and keep only the context.page_content
sorted_found_docs=[doc[1] for doc in reranked_found_docs] 


[0.004116916554126183, 0.0013278319990507588, 0.0010414568992331637, 0.00016737721067446043, 0.0025154421213604322, 0.0001679474609040185, 0.002165525049323891, 0.0006810867175171679, 1.6398194134129173e-05]


# Prompt Engineering and generation

In [8]:
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

final_prompt = prompt.invoke({"context":format_docs(sorted_found_docs), "question":query})

print(final_prompt)

messages=[HumanMessage(content=" Tu es un assistant juridique spécialisé dans la loi en Tunisie. Ta mission est de répondre aux questions des gens sur différents aspects juridiques ,en te limitant aux informations générales et en évitant les cas sensibles ou extrêmes. Si une question dépasse ton champ d'expertise ou si elle concerne un sujet délicat, tu dois informer l'utilisateur que tu ne peux pas fournir d'aide spécifique dans ce cas. Utilise les pièces suivantes du contexte pour répondre. Utilise un langage simple et accessible pour garantir que tout le monde puisse comprendre tes réponses. Gardez votre réponse brève et efficace maximum quatre ou cinq phrases.\xa0Tu dois répondre en français.\n Question: que faire si j'étais victime de fraude  ?.\nContexte: 106  d’enlèvement, de fraude, de tromperie, d’abus d’autorité ou d’une \nsituation de vulnérabilité ou par l’offre ou l’acceptation de sommes d’argent ou avantages ou dons ou promesses de dons afin d’obtenir le consentement d’un

#### mistral LLM

In [9]:
llm.invoke(final_prompt)

" Si vous avez été victime de fraude, il est important de signaler cette affaire aux autorités compétentes. Vous pouvez prendre certaines mesures pour protéger vous-même et empêcher la propagation de la fraude. Selon les textes prévus dans le code des monnaies et des changements, vous devriez prendre les suivantes mesures :\n\n1. Si vous n'avez pas pu vérifier les informations d'identification fournies ou si elles sont insuffisantes ou manifestement fictives, ne ouvrez pas de compte, nouez ou poursuivez une relation d'affaires, ou effectuez l'opération ou la transaction suspecte.\n2. Si vous avez perdu ou si elle a été volée une lettre de change, vous pouvez demander le paiement de cette lettre et l'obtenir par une ordonnance en justifiant de votre propriété.\n3. Dans tous les cas, si vous soupçonnez un blanchiment d'argent ou un financement du terrorisme, vous devez prendre les mesures nécessaires pour fournir des copies des données d'identification et autres documents y afférents à l

#### list of gemini versions (optional)

In [6]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


#### Gemini (stream)

In [10]:
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

model = genai.GenerativeModel('gemini-1.5-pro-latest')

# response = model.generate_content(final_prompt.messages[0].content)

response = model.generate_content(final_prompt.messages[0].content,stream=True)
for chunk in response:
  print(chunk.text)

##
 Victime de fraude en Tunisie : Que faire ? 

Si vous
 avez été victime de fraude en Tunisie, il est crucial d'agir rapidement et
 de prendre les mesures adéquates :

**1. Rassemblez des preuves**: Conservez tous les documents, messages ou autres preuves liés à
 la fraude. Cela pourrait inclure des contrats, des reçus, des relevés bancaires ou des captures d'écran.

**2. Signalez la
 fraude aux autorités**: Déposez une plainte auprès du poste de police le plus proche et informez votre banque si la fraude est liée à des transactions financières. Il est important de signaler la fraude pour qu'une enquête puisse être ouverte.


**3. Contactez un avocat**: Un avocat spécialisé en droit pénal ou en droit commercial peut vous conseiller sur vos droits et les options qui s'offrent à vous, et vous accompagner dans les démarches juridiques.

**4.
 Signalez la fraude à l'Instance Nationale de Lutte Contre la Corruption (INLUCC)**: Si la fraude implique un fonctionnaire public ou un organisme 

# Query safety evaluation

In [54]:
response._result.candidates[0].safety_ratings

[category: HARM_CATEGORY_SEXUALLY_EXPLICIT
probability: NEGLIGIBLE
, category: HARM_CATEGORY_HATE_SPEECH
probability: NEGLIGIBLE
, category: HARM_CATEGORY_HARASSMENT
probability: NEGLIGIBLE
, category: HARM_CATEGORY_DANGEROUS_CONTENT
probability: NEGLIGIBLE
]