In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install -q accelerate langchain langchain_community unstructured sentence-transformers chromadb gradio openai langchain-openai tqdm ragas

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m280.0/280.0 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m817.0/817.0 kB[0m [31m14.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m19.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m28.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m156.3/156.3 kB[0m [31m21.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m525.5/525.5 kB[0m [31m26.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.9/16.9 MB[0m [31m61.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.4/227.4 kB[0m [31m26.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━

In [3]:
from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores.chroma import Chroma
import os
import shutil
import torch
import openai
from getpass import getpass
import re

In [4]:
openai.api_key = getpass("Please provide your OpenAI Key: ")
os.environ["OPENAI_API_KEY"] = openai.api_key

Please provide your OpenAI Key: ··········


In [5]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Build the Vector DB

In [None]:
%%capture
CHROMA_PATH = "./chroma"
DATA_PATH = "./datasets"

embeding_model_name = "sentence-transformers/LaBSE"
embeding_model_kwargs = {'device': device}
embeding_encode_kwargs = {'normalize_embeddings': False}

embedding_function = HuggingFaceEmbeddings(model_name=embeding_model_name,model_kwargs=embeding_model_kwargs,encode_kwargs=embeding_encode_kwargs)

## Naive Document Splitting

In [None]:
with open('/content/business_law.txt', 'r') as file:
  text = file.read()

In [None]:
def generate_data_store():
    documents = load_documents()
    chunks = split_text(documents)
    save_to_chroma(chunks)


def load_documents():
    loader = DirectoryLoader(DATA_PATH, glob="*.txt")
    documents = loader.load()
    return documents


def split_text(documents: list[Document]):
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=300,
        chunk_overlap=100,
        length_function=len,
        add_start_index=True,
    )
    chunks = text_splitter.split_documents(documents)
    print(f"Split {len(documents)} documents into {len(chunks)} chunks.")

    return chunks


def save_to_chroma(chunks: list[Document]):
    if os.path.exists(CHROMA_PATH):
        shutil.rmtree(CHROMA_PATH)

    db = Chroma.from_documents(
        chunks,
        embedding_function,
        persist_directory=CHROMA_PATH
    )

    db.persist()
    print(f"Saved {len(chunks)} chunks to {CHROMA_PATH}.")

In [None]:
generate_data_store()

In [None]:
# backup the sqlite database

## Chunking based on Law Articles

In [7]:
BUSINESS_LAW_TXT_PATH = '/content/drive/MyDrive/IRI_LAW/datasets/business_law.txt'

with open(BUSINESS_LAW_TXT_PATH, 'r') as file:
  text = file.read()

# preprocess
temp = ''
for c in text:
  if c != '\u200c':
    temp += c

text = temp

In [8]:
pattern = r'(^ماده) (\d+)'

matches = re.finditer(pattern, text, re.MULTILINE)
indexes = [m.start() for m in matches]

splitted = []
for i, j in zip([0] + indexes, indexes + [len(text)]):
  splitted.append(text[i:j])

In [9]:
from langchain.docstore.document import Document

chunks = []
for d in splitted:
  chunks.append(Document(page_content=d))

In [10]:
db = Chroma.from_documents(
    chunks,
    embedding_function,
    # persist_directory='/content/'
)

In [11]:
question = 'شرایط تاجر بودن چیست؟'
r = db.similarity_search_with_relevance_scores(question, k=5)
r

[(Document(page_content='ماده 1 - تاجر كسي است كه شغل معمولي خود را معاملات تجارتي قرار بدهد.\n\n'),
  0.304079919638911),
 (Document(page_content='ماده 3 - معاملات ذيل باعتبار تاجر بودن متعاملين يا يكي از آنها تجارتي محسوب ميشود:\n1) كليه معاملات بين تجار و كسبه و صرافان و بانكها.\n2) كليه معاملاتي كه تاجر يا غير تاجر براي حوائج تجارتي خود مينمايد.\n3) كليه معاملاتيكه اجزاء يا خدمه يا شاگرد تاجر براي امور تجارتي ارباب خود مينمايد.\n4) كليه معاملات شركت هاي تجارتي.\n\n'),
  0.2532847906946726),
 (Document(page_content='ماده 345 - هر گاه طرفين معامله يا يكي از آنها باعتبار تعهد شخص دلال معامله نمود دلال ضامن معامله است.\n\n'),
  0.2285157621743964),
 (Document(page_content='ماده 577 - صاحب تجارتخانة كه شريك در تجارتخانه ندارد نميتواند اسمي براي تجارتخانه خود انتخاب كند كه موهم وجود شريك باشد.\n\n'),
  0.22637790543052982),
 (Document(page_content='ماده 7 - دفتر روزنامه دفتري است كه تاجر بايد همه روزه مطالبات و ديون و داد و ستد تجارتي و معاملات راجع به اوراق تجارتي (از قبيل خريد و فروش و

In [117]:
# db.persist()

In [None]:
# backup the sqlite database

# Load the Vector DB

In [7]:
# vector database for business law
!cp -r /content/drive/MyDrive/IRI_LAW/chroma ./chroma

In [8]:
db = Chroma(persist_directory=CHROMA_PATH, embedding_function=embedding_function)

In [9]:
def find_relevant_results(query, k=3):
  results = db.similarity_search_with_relevance_scores(query, k=k)
  return results

In [10]:
res = find_relevant_results('چگونه می‌توان شرکتی را به ثبت رساند و چه مدارکی لازم است؟')
res

[(Document(page_content='امضاي مجاز شركت رسيده و مشتمل بر نكات زير باشد: الف - نام و شماره ثبت شركت. ب - موضوع شركت و نوع فعاليتهاي آن ج - مركز اصلي شركت و در صورتيكه شركت شعبي داشته باشد نشاني شعب آن د - در صورتيكه شركت براي مدت محدود تشكيل شده باشد تاريخ انقضاء مدت آن هـ - سرمايه شركت و مبلغ پرداخت شده آن. و - اگر سهام', metadata={'source': 'datasets/business_law.txt', 'start_index': 108869}),
  0.40191792789816005),
 (Document(page_content='ماده 8(الحاقي 24ˏ12ˏ1347)- طرح اساسنامه بايد با قيد تاريخ به امضاء مؤسسين رسيده و مشتمل بر مطالب زير باشد: 1 - نام شركت 2 - موضوع شركت بطور صريح و منجز 3 - مدت شركت 4 - مركز اصلي شركت و محل شعب آن اگر تأسيس شعبه مورد نظر باشد. 5 - مبلغ سرمايه شركت و تعيين مقدار نقد و غير نقد آن به تفكيك. 6 - تعداد', metadata={'source': 'datasets/business_law.txt', 'start_index': 8311}),
  0.3983542432691699),
 (Document(page_content='ماده 60(الحاقي 24ˏ12ˏ1347)- ورقه قرضه بايد شامل نكات زير بوده و بهمان ترتيبي كه براي امضاي اوراق سهام مقرر شده است امضاء بشود:\n\n1

In [11]:
print(res[0][0].page_content)

امضاي مجاز شركت رسيده و مشتمل بر نكات زير باشد: الف - نام و شماره ثبت شركت. ب - موضوع شركت و نوع فعاليتهاي آن ج - مركز اصلي شركت و در صورتيكه شركت شعبي داشته باشد نشاني شعب آن د - در صورتيكه شركت براي مدت محدود تشكيل شده باشد تاريخ انقضاء مدت آن هـ - سرمايه شركت و مبلغ پرداخت شده آن. و - اگر سهام


# Configure RAG



## Init Language Model

## MaralGPT-7B

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig

model_name_or_id = "MaralGPT/Maral-7B-alpha-1"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_id)
llm = AutoModelForCausalLM.from_pretrained(model_name_or_id, torch_dtype=torch.bfloat16, device_map="auto")

In [None]:
from typing import Any, List, Mapping, Optional

from langchain_core.callbacks.manager import CallbackManagerForLLMRun
from langchain_core.language_models.llms import LLM


class CustomLLM(LLM):

    @property
    def _llm_type(self) -> str:
        return "MistralForCausalLM"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
        **kwargs: Any,
    ) -> str:
      inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
      outputs = llm.generate(**inputs, generation_config=generation_config)
      return tokenizer.decode(outputs[0], skip_special_tokens=True)

llm = CustomLLM()

In [None]:
generation_config = GenerationConfig(
    do_sample=True,
    top_k=1,
    temperature=0.5,
    max_new_tokens=300,
    pad_token_id=tokenizer.eos_token_id
)
def process_query(query):
    results = find_relevant_results(query)
    if len(results) == 0 or results[0][1] < 0.25:
        return ("اطلاعاتی که مرتبط با سوال شما باشد را در پایگاه دانش خود پیدا نکردم!")
    context = "\n\n---\n\n".join([doc.page_content for doc, _score in results])
    prompt = prompt.format(context=context, question=query)
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    outputs = llm.generate(**inputs, generation_config=generation_config)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

## GPT 3.5-turbu

In [13]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

## Create Prompt Template

In [12]:
from langchain.prompts import ChatPromptTemplate

PROMPT_TEMPLATE = """
فقط بر اساس متن زیر به سوال پاسخ دهید:

{context}

---

با توجه به متن بالا به سوال پاسخ دهید:
{question}

پاسخ:
"""

prompt = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)

## Chain All Elements

In [14]:
retriever = db.as_retriever(search_type="similarity_score_threshold", search_kwargs={"score_threshold": .25, "k": 3})

In [15]:
from operator import itemgetter
from langchain_core.runnables import RunnablePassthrough

qa_chain = (
    {"context": itemgetter("question") | retriever, "question": itemgetter("question")}
    | RunnablePassthrough.assign(context=itemgetter("context"))
    | {"response": prompt | llm, "context": itemgetter("context")}
)

# Process a Single Question

## Serve in Gradio

In [16]:
import gradio as gr

def run_query(query):
  resp = qa_chain.invoke({"question" : query})
  return resp["response"].content

with gr.Blocks() as demo:
    query = gr.Textbox(label="Question", rtl=True, lines=5)
    output = gr.Textbox(label="Answer", rtl=True, lines=10)
    greet_btn = gr.Button("Query")
    greet_btn.click(fn=run_query, inputs=query, outputs=output, api_name="run_query")

demo.launch();

Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://3e9c6ba962cf00ac5e.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


In [17]:
demo.close()

Closing server running on port: 7860


# Evaluation

In [None]:
# import locale
# locale.getpreferredencoding = lambda: "UTF-8"

In [15]:
!cp -r /content/drive/MyDrive/IRI_LAW/evaluation ./evaluation

In [16]:
import pandas as pd

BUSSINESS_LAW_PATH = './evaluation/business_law/easy.csv'
df = pd.read_csv(BUSSINESS_LAW_PATH)
df.head()

Unnamed: 0,Question,Answer
0,شرایط تاجر بودن چیست؟,تاجر کسی است که شغل معمولی خود را معاملات تجار...
1,خرید یا تحصیل مال منقول برای چه منظوری جزء معا...,برای فروش یا اجاره، چه تصرفاتی در آن شده باشد ...
2,انواع عملیاتی که جزء معاملات تجارتی محسوب می‌ش...,عملیات دلالی، حق‌العمل‌کاری، عاملی و تأسیسات م...
3,تأسیس و به کار انداختن کارخانه تحت چه شرایطی ج...,برای رفع حوائج شخصی نباشد. (ماده 2)
4,چه نوع معاملاتی بین تجار و کسبه تجارتی محسوب م...,کلیه معاملات بین تجار و کسبه و صرافان و بانک‌ه...


In [17]:
test_questions = df["Question"].values.tolist()
test_groundtruths = df["Answer"].values.tolist()

In [127]:
from tqdm import tqdm

answers = []
contexts = []

for question in tqdm(test_questions, desc='Processing'):
  response = qa_chain.invoke({"question" : question})
  answers.append(response["response"].content)
  contexts.append([context.page_content for context in response["context"]])

Processing: 100%|██████████| 20/20 [00:36<00:00,  1.81s/it]


In [128]:
from datasets import Dataset

response_dataset = Dataset.from_dict({
    "question" : test_questions,
    "answer" : answers,
    "contexts" : contexts,
    "ground_truth" : test_groundtruths
})

In [129]:
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    answer_correctness,
    context_recall,
    context_precision,
)

metrics = [
    faithfulness,
    answer_relevancy,
    context_recall,
    context_precision,
    answer_correctness,
]

In [130]:
results = evaluate(response_dataset, metrics)

Evaluating:   0%|          | 0/100 [00:00<?, ?it/s]

In [131]:
results

{'faithfulness': 0.7367, 'answer_relevancy': 0.8038, 'context_recall': 0.8108, 'context_precision': 0.5458, 'answer_correctness': 0.6188}

In [132]:
res_pd = results.to_pandas()
res_pd

Unnamed: 0,question,answer,contexts,ground_truth,faithfulness,answer_relevancy,context_recall,context_precision,answer_correctness
0,شرایط تاجر بودن چیست؟,شرایط تاجر بودن شامل انجام معاملات تجاری به صو...,[ماده 1 - تاجر كسي است كه شغل معمولي خود را مع...,تاجر کسی است که شغل معمولی خود را معاملات تجار...,0.0,0.966249,1.0,1.0,0.895567
1,خرید یا تحصیل مال منقول برای چه منظوری جزء معا...,خرید یا تحصیل مال منقول برای منظور فروش یا اجا...,[ماده 4 - معاملات غير منقول بهيچوجه تجارتي محس...,برای فروش یا اجاره، چه تصرفاتی در آن شده باشد ...,1.0,0.918036,1.0,0.333333,0.728639
2,انواع عملیاتی که جزء معاملات تجارتی محسوب می‌ش...,همه معاملات تجارتی محسوب می‌شوند مگر اینکه ثاب...,[ماده 4 - معاملات غير منقول بهيچوجه تجارتي محس...,عملیات دلالی، حق‌العمل‌کاری، عاملی و تأسیسات م...,0.5,0.892479,1.0,0.333333,0.857541
3,تأسیس و به کار انداختن کارخانه تحت چه شرایطی ج...,تأسیس و به کار انداختن کارخانه جزء معاملات تجا...,[ماده 1 - تاجر كسي است كه شغل معمولي خود را مع...,برای رفع حوائج شخصی نباشد. (ماده 2),0.0,0.926233,0.0,0.0,0.706671
4,چه نوع معاملاتی بین تجار و کسبه تجارتی محسوب م...,کلیه معاملات بین تجار و کسبه تجارتی محسوب می‌شود.,[ماده 3 - معاملات ذيل باعتبار تاجر بودن متعامل...,کلیه معاملات بین تجار و کسبه و صرافان و بانک‌ه...,,0.945362,1.0,1.0,0.73723
5,دفاتری که تاجر باید داشته باشد کدامند؟,1. دفتر روزنامه\n2. دفتر کپیه,[ماده 438 - انبارها و حجرهها و صندوق و اسناد و...,دفتر روزنامه، دفتر کل، دفتر دارایی، و دفتر کپی...,1.0,0.748576,0.75,1.0,0.732888
6,دفتر روزنامه چه نوع اطلاعاتی را باید ثبت کند؟,دفتر روزنامه باید همه روزه مطالبات و دیون و دا...,[ماده 7 - دفتر روزنامه دفتري است كه تاجر بايد ...,مطالبات، دیون، داد و ستد تجارتی و معاملات راجع...,1.0,0.811721,1.0,1.0,0.728294
7,دفتر کل چگونه باید تنظیم شود؟,باید تنظیم شود.,[],کلیه معاملات را لااقل هفته یک مرتبه از دفتر رو...,,0.0,1.0,0.0,0.205245
8,دفتر دارایی چه اطلاعاتی را شامل می‌شود؟,دفتر دارایی شامل اسناد، نوشتجات، اسباب و اثاثی...,[ماده 438 - انبارها و حجرهها و صندوق و اسناد و...,صورت جامعی از کلیه دارایی منقول و غیر منقول و ...,1.0,0.950056,0.0,0.0,0.213697
9,نحوه ثبت مراسلات و مخابرات در دفتر کپیه چگونه ...,مراسلات و مخابرات باید توسط تاجر در دفتر کپیه ...,[ماده 10 - دفتر كپيه دفتري است كه تاجر بايد كل...,کلیه مراسلات و مخابرات و صورت‌حساب‌های صادره ب...,1.0,0.901492,1.0,1.0,0.733164


In [133]:
res_pd.to_csv('results_article_based.csv', index=True)