<a href="https://colab.research.google.com/github/LujainOwaimer/Exercises/blob/main/RAG_Exam.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Traffic Violation RAG System
In this exam, you will implement a Retrieval-Augmented Generation (RAG) system that uses a language model and a vector database to answer questions about traffic violations. The goal is to generate answers with relevant data based on a dataset of traffic violations and fines.

Here are helpful resources:
* [LangChain](https://www.langchain.com/)
* [groq cloud documentation](https://console.groq.com/docs/models)
* [LangChain HuggingFace](https://python.langchain.com/docs/integrations/text_embedding/sentence_transformers/)
* [Chroma Vector Store](https://python.langchain.com/docs/integrations/vectorstores/chroma/)
* [Chroma Website](https://docs.trychroma.com/getting-started)
* [ChatGroq LangChain](https://python.langchain.com/docs/integrations/chat/groq/)
* [LLM Chain](https://api.python.langchain.com/en/latest/chains/langchain.chains.llm.LLMChain.html#langchain.chains.llm.LLMChain)

Dataset [source](https://www.moi.gov.sa/wps/portal/Home/sectors/publicsecurity/traffic/contents/!ut/p/z0/04_Sj9CPykssy0xPLMnMz0vMAfIjo8ziDTxNTDwMTYy83V0CTQ0cA71d_T1djI0MXA30gxOL9L30o_ArApqSmVVYGOWoH5Wcn1eSWlGiH1FSlJiWlpmsagBlKCQWqRrkJmbmqRqUZebngB2gUJAKdERJZmqxfkG2ezgAhzhSyw!!/)

Some installs if needed:
```python
!pip install langchain_huggingface langchain langchain-community langchain_chroma Chroma langchain_groq LLMChain
```

In [1]:
!kaggle datasets download -d khaledzsa/dataset
!unzip dataset.zip

Dataset URL: https://www.kaggle.com/datasets/khaledzsa/dataset
License(s): unknown
Downloading dataset.zip to /content
  0% 0.00/3.73k [00:00<?, ?B/s]
100% 3.73k/3.73k [00:00<00:00, 9.46MB/s]
Archive:  dataset.zip
  inflating: Dataset.csv             


## Step 1: Install Required Libraries

In [36]:
!pip install langchain_huggingface



To begin, install the necessary libraries for this project. The libraries include `LangChain` for building language model chains, and `Chroma` for managing a vector database.

In [28]:
!pip install langchain_huggingface langchain langchain-community langchain_chroma Chroma langchain_groq


Collecting langchain_huggingface
  Using cached langchain_huggingface-0.1.0-py3-none-any.whl.metadata (1.3 kB)
Collecting langchain-community
  Using cached langchain_community-0.3.0-py3-none-any.whl.metadata (2.8 kB)
Collecting langchain_chroma
  Using cached langchain_chroma-0.1.4-py3-none-any.whl.metadata (1.6 kB)
Collecting Chroma
  Using cached Chroma-0.2.0.tar.gz (5.8 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting langchain_groq
  Using cached langchain_groq-0.2.0-py3-none-any.whl.metadata (2.9 kB)
Collecting sentence-transformers>=2.6.0 (from langchain_huggingface)
  Downloading sentence_transformers-3.1.0-py3-none-any.whl.metadata (23 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.5.2-py3-none-any.whl.metadata (3.5 kB)
Collecting chromadb!=0.5.4,!=0.5.5,<0.6.0,>

In [41]:
import pandas as pd
import os
import markdown
from langchain.text_splitter import RecursiveCharacterTextSplitter
!pip install -U langchain-community
from langchain.embeddings import SentenceTransformerEmbeddings
!pip install chromadb
from langchain.vectorstores import Chroma



# Step 2: Load the Traffic Violations Dataset

You are provided with a dataset of traffic violations. Load the CSV file into a pandas DataFrame and preview the first few rows of the dataset using `.head()`. You can also try and see the dataset's characteristics.

In [42]:
df = pd.read_csv('/content/Dataset.csv')
df.head()

Unnamed: 0,المخالفة,الغرامة
0,قيادة المركبة في الأسواق التي لا يسمح بالقيادة...,الغرامة المالية 100 - 150 ريال
1,ترك المركبة مفتوحة وفي وضع التشغيل بعد مغادرتها.,الغرامة المالية 100 - 150 ريال
2,عدم وجود تأمين ساري للمركبة.,الغرامة المالية 100 - 150 ريال
3,عبور المشاة للطرق من غير الأماكن المخصصة لهم.,الغرامة المالية 100 - 150 ريال
4,عدم تقيد المشاة بالإشارات الخاصة بهم.,الغرامة المالية 100 - 150 ريال


## Step 3: Create Markdown Content from the Dataset

For each traffic violation in the dataset, you will generate markdown text that describes the violation and the associated fine. Create a loop to iterate through the dataset and store the generated markdown in a list. Each fine should look like this:

**المخالفة** - الغرامة

In [64]:
directory = 'data/markdown_files'
os.makedirs(directory, exist_ok=True)

In [69]:
for i in range(0, len(df)):

    violation  = df['المخالفة'].iloc[i]
    fine  = df['الغرامة'].iloc[i]

    markdown_content = f"# {violation}\n\n"
    markdown_content += f"{fine}\n\n"

    with open(f'{directory}/{i}.md', 'w', encoding='utf-8') as file:
        file.write(markdown_content)

In [71]:
import markdown

markdown_texts = []
for filename in os.listdir(directory):
    if filename.endswith(".md"):
        with open(os.path.join(directory, filename), 'r', encoding='utf-8') as file:
            markdown_content = file.read()
            html_content = markdown.markdown(markdown_content)
            markdown_texts.append(html_content)

In [74]:
markdown_texts[0]

'<h1>طمس لوحات المركبة.</h1>\n<p>الغرامة المالية 3000 - 6000 ريال</p>'

## Step 4: Chunk the Markdown Data

Using LangChain's `RecursiveCharacterTextSplitter`, split the markdown texts into smaller chunks that will be stored in the vector database.

In [76]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=30,
)

splitted_text = text_splitter.create_documents(markdown_texts)

In [77]:
splitted_text

[Document(metadata={}, page_content='<h1>طمس لوحات المركبة.</h1>\n<p>الغرامة المالية 3000 - 6000 ريال</p>'),
 Document(metadata={}, page_content='<h1>قيادة المركبة في الأسواق التي لا يسمح بالقيادة فيها.</h1>\n<p>الغرامة المالية 100 - 150 ريال</p>'),
 Document(metadata={}, page_content='<h1>عدم ربط حزام الأمان.</h1>\n<p>الغرامة المالية 150 - 300 ريال</p>'),
 Document(metadata={}, page_content='<h1>استعمال المركبة لغير الغرض الذي رخصت من أجله.</h1>\n<p>الغرامة المالية 500 - 900 ريال</p>'),
 Document(metadata={}, page_content='<h1>القيادة على أكتاف الطريق وعلى الأرصفة أو المسارات التي يمنع القيادة فيها.</h1>\n<p>الغرامة المالية 1000 - 2000 ريال</p>'),
 Document(metadata={}, page_content='<h1>عدم قيام السائق الذي يرغب في تغيير مساره بإعطاء الأفضلية لسائق المركبة التي تسير في اتجاه مستقيم في حال سير المركبتين متحاذيتين بشكل متواز.</h1>\n<p>الغرامة المالية 500 - 900 ريال</p>'),
 Document(metadata={}, page_content='<h1>نقل الركاب في الأماكن غير المخصصة لهم في المركبة.</h1>\n<p>الغرامة المالية

## Step 5: Generate Embeddings for the Documents

Generate embeddings for the chunks of text using HuggingFace's pre-trained Arabic language model. These embeddings will be stored in a `Chroma` vector store.

In [54]:
model_name = "Omartificial-Intelligence-Space/GATE-AraBert-v0"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
hf = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

embeddings = HuggingFaceEmbeddings(model_name=model_name)

vector_store = Chroma.from_texts(chunks, embeddings)


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/205 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/7.50k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/672 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/541M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/2.02k [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/761k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.78M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/695 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [80]:

from langchain_community.vectorstores import Chroma

db = Chroma(
    embedding_function=hf,
    persist_directory="./chroma_langchain_db",
)

  db = Chroma(


In [81]:
db.add_documents(splitted_text)
db.persist()

  db.persist()


# Step 6: Define the RAG Prompt Template

Define a custom prompt template in Arabic to retrieve traffic violation-related answers based on the context. Ensure the template encourages the model to give **advice** in **Arabic**, staying within the context provided.

In [82]:
from langchain_core.prompts import PromptTemplate

PROMPT_TEMPLATE="""
give advice and answer the question  in arabic only based only on the context:
Context: {context}
Question: {question}
your advice:
"""

prompt_template = PromptTemplate(
    template=PROMPT_TEMPLATE, input_variables=["context", "question"]
)

## Step 7: Initialize the Language Model

Initialize the language model using the Groq API. Set up the model with a specific configuration, including the API key, temperature setting, and model name.

In [83]:
!pip install openai -q

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/375.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m375.0/375.0 kB[0m [31m16.3 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/318.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m318.9/318.9 kB[0m [31m23.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [84]:
!pip install langchain_groq -q

In [56]:
from google.colab import userdata
userdata.get('lujain')

'2147'

In [59]:
groq_api_key = "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"

In [85]:
from langchain_groq import ChatGroq

llm = ChatGroq(
    model="mixtral-8x7b-32768",
    temperature=0.2,
    max_tokens=None,
    timeout=None,
    max_retries=2,
    api_key=groq_api_key
)

In [86]:
from langchain.chains import LLMChain
from langchain_community.llms import OpenAI

model2 = LLMChain(llm=OpenAI(), prompt=prompt_template)

  model2 = LLMChain(llm=OpenAI(), prompt=prompt_template)
  model2 = LLMChain(llm=OpenAI(), prompt=prompt_template)


## Step 8: Create the LLM Chain

Now, you will create an LLM Chain that combines the language model and the prompt template you defined. This chain will be used to generate responses based on the retrieved context.

In [87]:
from langchain.chains import LLMChain

model = LLMChain(llm=llm, prompt=prompt_template)

## Step 9: Implement the Query Function

Create a function `query_rag` that will take a user query as input, retrieve relevant context from the vector store, and use the language model to generate a response based on that context.

In [88]:
def query_rag(query: str):
    similarity_search_results = db.similarity_search_with_score(query, k=1)
    context_text = ([doc.page_content for doc, _score in similarity_search_results])

    rag_response = model.invoke({"context": context_text, "question": query})

    return rag_response

In [89]:
def query_rag_with_model2(query: str):
    similarity_search_results = db.similarity_search_with_score(query, k=1)
    context_text = ([doc.page_content for doc, _score in similarity_search_results])

    rag_response = model2.invoke({"context": context_text, "question": query})

    return rag_response

## Step 10: Inference - Running Queries in the RAG System

In this final step, you will implement an inference pipeline to handle real-time queries. You will allow the system to retrieve the most relevant violations and fines based on a user's input and generate a response.

1. Inference Workflow:

  * The user inputs a query (e.g., "ماهي الغرامة على القيادة بدون رخصة؟").
  * The system searches for the most relevant context from the traffic violation vector store.
  * It generates an answer and advice based on the context.

2. Goal:
  * Run the inference to answer questions based on the traffic violation dataset.

In [90]:
respon = query_rag('ماهي الغرامة على القيادة بدون رخصة؟')
respon

{'context': ['<h1>قيادة المركبة برخصة قيادة لا تتناسب مع حجم المركبة ونوع استخدامها.</h1>\n<p>الغرامة المالية 1000 - 2000 ريال</p>'],
 'question': 'ماهي الغرامة على القيادة بدون رخصة؟',
 'text': 'النص الذي تم تقديمه لي لا يتحدد فيه غرامة على القيادة بدون رخصة، ولكن يتحدد فيه غرامة على قيادة المركبة برخصة لا تتناسب مع حجم المركبة ونوع استخدامها، وهي تبلغ ما بين 1000 و 2000 ريال.\n\nيجب على السياقين احترام القوانين والأنظمة المقدمة من قبل الحكومات للحفاظ على سلامة المرور والمجتمع. ويجب عليهم اتباع الشروط والأحكام المتعلقة بالحصول على رخصة قيادة تتناسب مع نوع المركبة التي يرغبون في قيادتها.\n\nغرامة القيادة بدون رخصة قد تكون أكبر من هذه الغرامة، وقد يتم إتخاذ إجراءات أخرى مثل الإحباط أو الحبس في بعض البلدان. لذلك، يشير هذا النص إلى أهمية الحصول على رخصة قيادة صحيحة قبل قيادة أي مركبة.'}

In [94]:
respon = query_rag_with_model2('ماهي الغرامة على القيادة بدون رخصة؟')
respon

RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

In [92]:
response = query_rag('ماهي الغرامة التباطؤ في السير على نحو يعرقل الحركة؟')
response

{'context': ['<h1>التباطؤ في السير على نحو يعرقل الحركة.</h1>\n<p>الغرامة المالية 300 - 500 ريال</p>'],
 'question': 'ماهي الغرامة التباطؤ في السير على نحو يعرقل الحركة؟',
 'text': 'الغرامة المالية للتباطؤ في السير على نحو يعرقل الحركة تبلغ ما بين 300 و 500 ريال ، كما هو موضح في السياق المقدم. يجب على الجميع الاحترام للسرعات المحددة والتي تؤثر في سلامة المرور والحركة النقلية.\n\nMy advice is to always follow the specified speed limits and be mindful of how your driving may affect the flow of traffic and overall safety of transportation.'}