# RAG

## API Keys

In [1]:
from config import METISAI_API_KEY

## Collect Text Files

In [None]:
# from langchain_community.text_splitter import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader, UnstructuredMarkdownLoader

ModuleNotFoundError: No module named 'langchain_community.text_splitter'

In [1]:
from pathlib import Path

NUMBER_OF_LASTEST_NEWS = 1000
index_path = "../index/varzesh3.com/news/"

def collect_text_files(root_dir, pattern= "*.md"):
    return list(Path(root_dir).rglob(pattern))

texts_paths = collect_text_files(index_path)

texts_paths.sort()
texts_paths = texts_paths[-NUMBER_OF_LASTEST_NEWS : ]
print('Number of Latest Docs:' , len(texts_paths))

Number of Latest Docs: 1000


In [None]:
import os
from langchain_core.documents import Document

file_path = '../index/'

docs = []

for markdown_path in texts_paths:

    print(markdown_path)

    with open(markdown_path, "r", encoding='utf-8') as f:
        content = f.read()
    
    if len(content) % 1000 > 0:
        content += " " * (1000 - len(content) % 1000)

    for i in range(0, len(content), 1000):
        chunk = content[i:i + 1000]
        # print(chunk)
        doc = Document(page_content=chunk, metadata={})
        docs.append(doc)


../index/varzesh3.com/news/2167628-تصمیم-بزرگ-این-ستاره-در-بارسا-ماندنی-است.md
../index/varzesh3.com/news/2167276-برد-نفس-گیر-خاتون-در-دربی-بزرگ-لیگ-زنان.md
../index/varzesh3.com/news/2167196-مهم-ترین-فیفادی-جام-جهانی-در-انتظار-سردار-آزمون.md
../index/varzesh3.com/news/2167638-اولین-تمرین-پرسپولیس-در-کاظمی-ریکاوری.md
../index/varzesh3.com/news/2167143-اعتراف-صریح-رونالدو-از-طاس-شدن-وحشت-دارم.md
../index/varzesh3.com/news/2167773-مس-رفسنجان-دختران-هوادار-را-به-میدان-آورد.md
../index/varzesh3.com/news/2167027-شوخی-زشت-و-عجیب-با-لیگ-برتر-والیبال-ایران.md
../index/varzesh3.com/news/2167259-مورینیو-باعث-فحاشی-به-من-و-خانواده-ام-شد.md
../index/varzesh3.com/news/2167516-تیم-ملی-خیلی-زود-ریکاوری-کرد.md
../index/varzesh3.com/news/2167364-اشلوت-فقط-با-شانس-لیورپول-را-قهرمان-کرد.md
../index/varzesh3.com/news/2167666-عجله-میلان-برای-تمدید-قرارداد-مدافع-انگلیسی.md
../index/varzesh3.com/news/2167671-روز-بازنشستگی-رونالدو-اشک-خواهیم-ریخت.md
../index/varzesh3.com/news/2167433-درخواست-وایرال-فوتبالیس

In [6]:
len(docs)

1416

## Vector Store

In [7]:
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from pydantic import SecretStr

# Set UP the link
vector_store = Chroma(
    collection_name="test",
    embedding_function=OpenAIEmbeddings(
        model="text-embedding-3-small",
        api_key=SecretStr(METISAI_API_KEY),
        base_url="https://api.metisai.ir/openai/v1",
    ),
)

for i in range(int(len(docs) / 250 + 1)):
    vector_store.add_documents(docs[i*250: (i+1)*250], ids=[str(j + i * 250) for j in range(len(docs))])

  vector_store = Chroma(


In [8]:
vector_store._collection.count()

1416

## LLM

In [9]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model="gpt-4.1-nano",
    api_key=SecretStr(METISAI_API_KEY),
    base_url="https://api.metisai.ir/openai/v1",
    temperature=0.1,
    verbose=True,
)

In [10]:
a = llm.invoke("ارلینگ هالند چند گل ملی زده است؟")
print(a.content)

تا تاریخ اکتبر 2023، ارلینگ هالند حدود 26 گل ملی برای تیم ملی نروژ زده است. لطفاً توجه داشته باشید که این آمار ممکن است تغییر کرده باشد، بنابراین برای اطلاعات به‌روزتر، به منابع رسمی مراجعه کنید.


## Prompt

In [None]:
from langchain import PromptTemplate

template = """
لطفا بر اساس مطالب داده شده به سوال پاسخ بده

مطالب: {context}
سوال: {question}
جواب:
"""

prompt = PromptTemplate(
  template=template,
  input_variables=["context", "question"]
)

## Chain

In [12]:
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

rag_chain = (
  {"context": vector_store.as_retriever(),  "question": RunnablePassthrough()}
  | prompt
  | llm
  | StrOutputParser()
)

In [13]:
result = rag_chain.invoke("ارلینگ هالند چند گل ملی زده است؟")
print(result)

ارلینگ هالند در حال حاضر ۵۰ گل ملی زده است.


## Accuracy

In [24]:
def rag_answer(question):

    return rag_chain.invoke(question)

def llm_answer(question):
    
    return llm.invoke(question).content

In [1]:
import pandas as pd
from tqdm.notebook import tqdm

tqdm.pandas()

development_questions_csv_path = '../questions/IctFootballQuestions 2024-10-13.csv'
development_questions_csv = pd.read_csv(development_questions_csv_path)
development_questions_csv

Unnamed: 0,Category,Question,Answer,GPT 5 with Search,GPT 4.1 nano,ICT-LLM
0,Board,تیم اول جدول لیگ برتر چیه؟,تراکتور,Right,Wrong,Wrong
1,Board,تیم ۱۵ ام لیگ برتر کیه؟,مس رفسنجان,Wrong,Wrong,Wrong
2,Board,استقلال تیم چندم جدول هست؟,تیم هشتم,Wrong,Wrong,Wrong
3,Board,برترین گلزن لیگ تا به اینجا کیست؟,کسری طاهری و علی علیپور با ۴ گل,Right,Wrong,Wrong
4,Match,نتیجه بازی آخر تیم ‌ذوب آهن چه شد؟,تساوی صفر صفر برابر سپاهان,Wrong,Wrong,Wrong
5,Match,نتیجه بازی آخر تیم ملوان چه شد؟,برد ۱ بر هیچ برابرخیبر خرم آباد,Wrong,Wrong,Wrong
6,Match,آخرین بازی تیم پرسپولیس مقابل چه تیمی بود؟,گل گهر سیرجان,Wrong,Wrong,Wrong
7,Match,آخرین بازی تیم خیبر خرم آباد مقابل چه تیمی بود؟,ملوان,Wrong,Wrong,Wrong
8,Goal,گل های بازی فجرسپاسی و استقلال خوزستان توسط چه...,محمود مطلق زاده برای فجر سپاسی و محمدرضا مهدی ...,Right,Wrong,Wrong
9,Goal,گل های بازی ملوان و خیبر خرم آباد توسط چه کسان...,ابوذر صفر زاده ۱ گل برای ملوان,Right,Wrong,Wrong


In [22]:
development_questions_csv['prediction'] = development_questions_csv['Question'].progress_map(rag_answer)
development_questions_csv

  0%|          | 0/25 [00:00<?, ?it/s]

Unnamed: 0,Category,Question,Answer,GPT Answer,prediction
0,Board,تیم اول جدول لیگ برتر چیه؟,تراکتور,Right,با توجه به مطالب ارائه شده، اطلاعات دقیقی دربا...
1,Board,تیم ۱۵ ام لیگ برتر کیه؟,مس رفسنجان,Wrong,در مطالب ارائه شده، هیچ اشاره‌ای به تیمی با رت...
2,Board,استقلال تیم چندم جدول هست؟,تیم هشتم,Right,با توجه به مطالب ارائه شده، اطلاعات دقیقی دربا...
3,Board,برترین گلزن لیگ تا به اینجا کیست؟,کسری طاهری و علی علیپور با ۴ گل,Wrong,بر اساس مطالب داده شده، حسین‌زاده به عنوان آقا...
4,Match,نتیجه بازی آخر تیم ‌ذوب آهن چه شد؟,تساوی صفر صفر برابر سپاهان,Right,نتیجه بازی آخر تیم ذوب‌آهن در متن ذکر نشده است.
5,Match,نتیجه بازی آخر تیم ملوان چه شد؟,برد ۱ بر هیچ برابرخیبر خرم آباد,Right,نتیجه بازی آخر تیم ملوان در مطالب ارائه شده ذک...
6,Match,آخرین بازی تیم پرسپولیس مقابل چه تیمی بود؟,گل گهر سیرجان,Right,آخرین بازی تیم پرسپولیس مقابل تیم عقاب بود.
7,Match,آخرین بازی تیم خیبر خرم آباد مقابل چه تیمی بود؟,ملوان,Right,آخرین بازی تیم خیبر خرم آباد مقابل تیم پرسپولی...
8,Goal,گل های بازی فجرسپاسی و استقلال خوزستان توسط چه...,محمود مطلق زاده برای فجر سپاسی و محمدرضا مهدی ...,Right,در مطلب ارائه شده، نام افراد یا بازیکنانی که گ...
9,Goal,گل های بازی ملوان و خیبر خرم آباد توسط چه کسان...,ابوذر صفر زاده ۱ گل برای ملوان,Right,در مطالب ارائه شده، هیچ اطلاعاتی درباره گل‌های...


In [25]:
development_questions_csv['gpt_api'] = development_questions_csv['Question'].progress_map(llm_answer)
development_questions_csv

  0%|          | 0/25 [00:00<?, ?it/s]

Unnamed: 0,Category,Question,Answer,GPT Answer,prediction,gpt_api
0,Board,تیم اول جدول لیگ برتر چیه؟,تراکتور,Right,با توجه به مطالب ارائه شده، اطلاعات دقیقی دربا...,متأسفانه من نمی‌توانم وضعیت زنده و به‌روز جدول...
1,Board,تیم ۱۵ ام لیگ برتر کیه؟,مس رفسنجان,Wrong,در مطالب ارائه شده، هیچ اشاره‌ای به تیمی با رت...,تا تاریخ آخرین بروزرسانی من در اکتبر ۲۰۲۳، تیم...
2,Board,استقلال تیم چندم جدول هست؟,تیم هشتم,Right,با توجه به مطالب ارائه شده، اطلاعات دقیقی دربا...,متأسفانه، من نمی‌توانم وضعیت فعلی جدول رده‌بند...
3,Board,برترین گلزن لیگ تا به اینجا کیست؟,کسری طاهری و علی علیپور با ۴ گل,Wrong,بر اساس مطالب داده شده، حسین‌زاده به عنوان آقا...,متأسفانه، من تا تاریخ اکتبر ۲۰۲۳ به‌روزرسانی ش...
4,Match,نتیجه بازی آخر تیم ‌ذوب آهن چه شد؟,تساوی صفر صفر برابر سپاهان,Right,نتیجه بازی آخر تیم ذوب‌آهن در متن ذکر نشده است.,متأسفانه من اطلاعات به‌روز در مورد نتایج بازی‌...
5,Match,نتیجه بازی آخر تیم ملوان چه شد؟,برد ۱ بر هیچ برابرخیبر خرم آباد,Right,نتیجه بازی آخر تیم ملوان در مطالب ارائه شده ذک...,متأسفانه من اطلاعات به‌روز در مورد نتایج بازی‌...
6,Match,آخرین بازی تیم پرسپولیس مقابل چه تیمی بود؟,گل گهر سیرجان,Right,آخرین بازی تیم پرسپولیس مقابل تیم عقاب بود.,آخرین بازی تیم پرسپولیس در زمان آخرین به‌روزرس...
7,Match,آخرین بازی تیم خیبر خرم آباد مقابل چه تیمی بود؟,ملوان,Right,آخرین بازی تیم خیبر خرم آباد مقابل تیم پرسپولی...,متأسفانه من اطلاعات به‌روز در مورد نتایج بازی‌...
8,Goal,گل های بازی فجرسپاسی و استقلال خوزستان توسط چه...,محمود مطلق زاده برای فجر سپاسی و محمدرضا مهدی ...,Right,در مطلب ارائه شده، نام افراد یا بازیکنانی که گ...,در بازی بین تیم‌های فجر سپاسی و استقلال خوزستا...
9,Goal,گل های بازی ملوان و خیبر خرم آباد توسط چه کسان...,ابوذر صفر زاده ۱ گل برای ملوان,Right,در مطالب ارائه شده، هیچ اطلاعاتی درباره گل‌های...,متأسفانه من اطلاعات دقیقی درباره گل‌های بازی ب...
