**`This code shows how to use FAISS and LangChain to build a generative QA model or chatbot, using the model: gpt-4. `**

Dataset: CGSQuAD

Dataset format: XLSX

Two main components are required: **prompt** and **response**. The richer the response, the better the generated answer is. The **"context"** is used as the input column, as the model performs similarity search (using embeddings indexing)

* Dataset file name: CGSQuAD.xlsx
* Necessary columns: context
* Optional columns: question, answers
* Unecessary columns: answer_start, pq_id
* Output file name: similarity_evaluation_GPT_4.csv, similarity_evaluation_GPT_4.xlsx


#Install dependencies

In [1]:
!pip install langchain
!pip install openai
!pip install colab-env -qU
!pip install tiktoken
!pip install faiss-gpu
!pip install -U sentence-transformers
!pip install pandas

Collecting langchain
  Downloading langchain-0.0.336-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m14.6 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.2-py3-none-any.whl (28 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langsmith<0.1.0,>=0.0.63 (from langchain)
  Downloading langsmith-0.0.64-py3-none-any.whl (45 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.5/45.5 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain)
  Downloading marshmallow-3.20.1-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.4/49.4 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langch

#Use an OpenAI API key

Requires an OpenAI account: https://platform.openai.com/



In [2]:
import os
os.environ["OPENAI_API_KEY"] = "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"

#Test  some questions to make sure the API works

In [None]:
from langchain.llms import OpenAI
llm = OpenAI(model_name="text-davinci-003")

In [None]:
question = "ماهي أصعب لغة برمجة في العالم؟"
print(llm(question))



اللغة البرمجية الأصعب في العالم هي لغة الآلة C.


In [None]:
question = "What are the top 4 resources to learn Golang in 2023?"
print(llm(question))



1. Go by Example: This is a great resource for learning Go, as it provides example code for each concept, making it easy to understand and apply to real world use cases.

2. A Tour of Go: This is an interactive tour of the Go programming language by the official Go team. It introduces the language and its concepts in a step-by-step manner.

3. Golang Tutorials: This website provides a number of tutorials and examples to help you learn Go. It also provides some tips and tricks to help you write better Go code.

4. GoDoc: This is an official documentation site for Go, where you can find detailed information about the language, its syntax, and its libraries.


#Create an auto prompt and chain it to the model

In [None]:
from langchain import PromptTemplate
template = "What are the top {k} resources to learn {this} in 2023?"
prompt = PromptTemplate(template=template,input_variables=['k','this'])

from langchain import LLMChain
chain = LLMChain(llm=llm,prompt=prompt)

In [None]:
input = {'k':3,'this':'cooking'}
print(chain.run(input))



1. YouTube – With its vast library of instructional cooking videos, YouTube is an excellent resource for learning how to cook.

2. Web-based cooking classes – Online cooking classes are becoming increasingly popular, as they provide an interactive way to learn about cooking techniques and recipes.

3. Cookbooks – Cookbooks are a great way to learn cooking basics as well as more advanced techniques. Look for cookbooks that are tailored to your experience level and interests.


#Import Facebook FAISS and LangChain packages

In [3]:
import os, dotenv
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.document_loaders.csv_loader import CSVLoader

from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain import PromptTemplate

#Use minimized unique contexts to reduce costs

In [4]:
import pandas as pd
import re
import heapq
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
nltk.download('punkt')
data_file = "/content/CGSQuAD.xlsx"
data = pd.read_excel(data_file)
def extract_relevant_sentences(text, answer, answer_start, n_sentences=2):
    sentences = text.split('. ')#'. ' as a sentence slicer

    answer_start = answer_start#get answer location
    answer_end = answer_start + len(str(answer))

    start_index = 0#identify start and end of relevant context
    end_index = len(sentences)

    for i, sentence in enumerate(sentences):
        if sentence.lower().find(str(answer).lower()) != -1:
            counter = 1
            while i - counter >= 0 and counter <= n_sentences:#get n sentences from right and left
                start_index = i - counter
                counter += 1

            counter = 1
            while i + counter < len(sentences) and counter <= n_sentences:
                end_index = i + counter + 1
                counter += 1
            break

    new_context = '. '.join(sentences[start_index:end_index])#construct the relevant context out of the extracted sentences

    if not new_context.endswith('.'):#add a period at the last sentence
        new_context += '.'

    return new_context

data['context'] = data.apply(lambda row: extract_relevant_sentences(row['context'], row['answers'], row['answer_start']), axis=1)#for each context, call the function
data.to_csv("minimized_contexts.csv", index=False)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [5]:
data['context'][0]

'رسالة كلية الدراسات العليا هي العمل المخطط الهادف الى المساهمة في تنمية إمكانات جامعة الكويت لتكون مؤسسة علمية تعليمية متميزة. أهداف كلية الدراسات العليا تشمل اتاحة فرص تعليم ومواكبة التطور العالمي وصنع المثقف العصري وتناول قضايا المجتمع الكويتي. مهام كلية الدراسات العليا تشمل الموافقة على برامج الدراسات العليا ووضع الأنظمة وتحديد أسس القبول وعمل التقويم الدوري وطرح برامج اختصاصية.'

In [6]:
import pandas as pd

df=data
unique_contexts = df["context"].unique()#extract unique contexts
unique_df = pd.DataFrame({"context": unique_contexts})#new df to hold the unique contexts
print(unique_df.count())
output_file = "unique_contexts.csv"
unique_df.to_csv(output_file, index=False)

context    272
dtype: int64


#Calculate the number of tokens using NLTK and OpenAI Tiktoken

This is a method that helps in estimating billings. Detailed description of the billings of the made API requests are found here: https://platform.openai.com/account/usage

In [7]:
import pandas as pd
import nltk
import tiktoken
nltk.download('perluniprops')
nltk.download('nonbreaking_prefixes')
nltk.download('punkt')

from nltk.tokenize import word_tokenize

num_tokens_list_nltk = []
num_tokens_list_tiktoken = []
i=1
sum=0
for context in df["context"].unique():
    print("Context: ", i)
    tokens_nltk = word_tokenize(context)#tokenize
    num_tokens_nltk = len(tokens_nltk)
    print("NLTK: ", num_tokens_nltk)
    num_tokens_list_nltk.append(num_tokens_nltk)

    #choose model first, each OpenAI model has different toenization method
    #gpt-4 and gpt-3.5-turbo-16k have the same tokenizer
    tiktoken_encoding = tiktoken.encoding_for_model("gpt-4")
    tokens_tiktoken = tiktoken_encoding.encode(context)#tokenize
    num_tokens_tiktoken = len(tokens_tiktoken)
    sum = sum + num_tokens_tiktoken
    print("Tiketoken: ", num_tokens_tiktoken)
    num_tokens_list_tiktoken.append(num_tokens_tiktoken)
    i=i+1
print("Total Tiktokens: ", sum)

[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Unzipping misc/perluniprops.zip.
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping corpora/nonbreaking_prefixes.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Context:  1
NLTK:  62
Tiketoken:  262
Context:  2
NLTK:  78
Tiketoken:  331
Context:  3
NLTK:  97
Tiketoken:  416
Context:  4
NLTK:  95
Tiketoken:  412
Context:  5
NLTK:  96
Tiketoken:  417
Context:  6
NLTK:  95
Tiketoken:  407
Context:  7
NLTK:  94
Tiketoken:  395
Context:  8
NLTK:  92
Tiketoken:  370
Context:  9
NLTK:  83
Tiketoken:  319
Context:  10
NLTK:  73
Tiketoken:  261
Context:  11
NLTK:  70
Tiketoken:  250
Context:  12
NLTK:  73
Tiketoken:  259
Context:  13
NLTK:  74
Tiketoken:  270
Context:  14
NLTK:  74
Tiketoken:  275
Context:  15
NLTK:  74
Tiketoken:  278
Context:  16
NLTK:  71
Tiketoken:  270
Context:  17
NLTK:  72
Tiketoken:  284
Context:  18
NLTK:  68
Tiketoken:  265
Context:  19
NLTK:  83
Tiketoken:  341
Context:  20
NLTK:  86
Tiketoken:  345
Context:  21
NLTK:  83
Tiketoken:  344
Context:  22
NLTK:  89
Tiketoken:  379
Context:  23
NLTK:  98
Tiketoken:  425
Context:  24
NLTK:  96
Tiketoken:  420
Context:  25
NLTK:  98
Tiketoken:  436
Context:  26
NLTK:  97
Tiketoken: 

#Load dataset and index it using FAISS

In [8]:
loader = CSVLoader("/content/unique_contexts.csv")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

faissIndex = FAISS.from_documents(docs, OpenAIEmbeddings())
faissIndex.save_local("graduate_studies_docs")#saves a folder to hold index.faiss and index.pkl

#Create the QA chatbot by injecting CGSQuAD to the model

Maximum number of tokens for any generated output = 75

In [9]:
dotenv.load_dotenv()
chatbot = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(
        openai_api_key=os.getenv("OPENAI_API_KEY"),
        temperature=0, model_name="gpt-4", max_tokens=75
    ),
    chain_type="stuff",
    retriever=FAISS.load_local("graduate_studies_docs", OpenAIEmbeddings())
        .as_retriever(search_type="similarity", search_kwargs={"k":1})
)
template = """
respond as succinctly as possible. {query}?
"""
prompt = PromptTemplate(
    input_variables=["query"],
    template=template,
)

#Test and evaluate the model on CGSQuAD

Asking the same question exactly. Same generated answers indicate a stable and strong model.

In [10]:
print(chatbot.run(
    prompt.format(query=" ما هي شروط القبول؟"))
)

شروط القبول تعتمد على نوع القبول. القبول النظامي يتطلب من الطالب استيفاء جميع الشروط والمتطلبات. بينما القبول المشروط


In [11]:
print(chatbot.run(
    prompt.format(query=" ما هي شروط القبول؟"))
)

شروط القبول تعتمد على نوع القبول. القبول النظامي يتطلب من الطالب استيفاء جميع الشروط. بينما القبول المشروط يتطلب من الط


Asking an unpopular/broad question

In [12]:
print(chatbot.run(
    prompt.format(query=" ما هي شروط القبول  إذا كان المتقدم من فئة المعاقين ؟"))
)

شروط القبول المشروط للماجستير إذا كان المتقدم من فئة المعاقين هي معدل عام 2.33.


Asking the same question differently

In [13]:
print(chatbot.run(
    prompt.format(query=" كم هو معدل القبول للطالب المقيد؟"))
)

معدل القبول للطالب المقيد هو 2.67 نقاط من أصل 4.00 نقاط.


In [14]:
print(chatbot.run(
    prompt.format(query=" ما هو معدل القبول المطلوب للطالب المقيد؟"))
)

المعدل المطلوب للطالب المقيد هو معدل عام 2.67 نقاط من أصل 4.00 نقاط.


*In here, the same question is asked, however, the model gave a different answer. The answer is not wrong, the model did not understand the question as it it not clear. The question needs to specify: is it the GPA of applying to the CGS or the required GPA to change student status from unenrolled into enrolled student. These are two different cases and the model thought this refers to the second case. The answer is correct if that is the intended question*


In [15]:
print(chatbot.run(
    prompt.format(query=" ما هو المعدل المطلوب للطالب المقيد؟"))
)

المعدل المطلوب من الطالب للتخرج من الدبلوم العالي هو 2.67 نقطة.


Asking a question that has no explicit answer within the context

In [16]:
print(chatbot.run(
    prompt.format(query=" ما الفرق بين الطالب المقيد والغير مقيد؟"))
)

الطالب المقيد هو الطالب الذي استوفى جميع الشروط، بينما الطالب الغير مقيد هو الطالب الذي لم يستوفي شرط المعدل المطلوب ل


Asking questions that might appear similar but are not

In [17]:
print(chatbot.run(
    prompt.format(query=" ما هو الطالب المقيد؟"))
)

الطالب المقيد هو الطالب الذي استوفى جميع الشروط المطلوبة، بما في ذلك الحصول على المعدل المطلوب للقبول.


In [18]:
print(chatbot.run(
    prompt.format(query=" الطالب الغير مقيد هو؟"))
)

الطالب الغير مقيد هو الطالب الذي لم يستوفي شرط المعدل المطلوب للقبول، ويتم قبوله بشكل مشروط حتى يتمكن من اجتيا


In [19]:
print(chatbot.run(
    prompt.format(query=" ما هو الطالب غير المقيد؟"))
)

الطالب الغير مقيد هو الطالب الذي لم يستوفي شرط المعدل المطلوب للقبول، ويتم قبوله بشكل مشروط حتى يتمكن من اجتيا


In [20]:
print(chatbot.run(
    prompt.format(query=" ما هو معدل القبول المطلوب من الطالب غير المقيد؟"))
)

المعدل المطلوب للطالب غير المقيد هو معدل عام 2.50 نقاط من أصل 4.00 نقاط.


In [21]:
print(chatbot.run(
    prompt.format(query="what are the offered programs? "))
)

The context does not provide specific information about the offered programs. However, it mentions that they can be found on the website of the Graduate Studies College at http://www.kuniv.edu.kw/COGS/index.htm.


In [22]:
print(chatbot.run(
    prompt.format(query="where to apply for IELTS?"))
)

You can apply for the IELTS exam at the IDP institute.


In [23]:
print(chatbot.run(
    prompt.format(query="how much is the allowance for the external examiner?"))
)

The allowance for the external examiner is 500 Kuwaiti Dinar.


In [24]:
print(chatbot.run(
    prompt.format(query="what is an enrolled student?"))
)

An enrolled student is a student who has fulfilled all the required conditions.


In [25]:
print(chatbot.run(
    prompt.format(query="what is an unenrolled student?"))
)

An unenrolled student is a student who has not fulfilled all the required conditions.


Test the model on n questions. Use manual evaluation & semantic similarity check. Sometimes the API call disconnects

In [26]:
import pandas as pd
import numpy as np
from tqdm import tqdm
from sentence_transformers import SentenceTransformer
import torch

def calculate_similarity(sentence1, sentence2):
    # Ensure sentence1 and sentence2 are treated as strings
    sentence1 = str(sentence1)
    sentence2 = str(sentence2)

    # Calculate embeddings
    model = SentenceTransformer("symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli")
    embedding1 = model.encode(sentence1, convert_to_tensor=True)
    embedding2 = model.encode(sentence2, convert_to_tensor=True)

    # Calculate cosine similarity between embeddings
    similarity_score = torch.nn.functional.cosine_similarity(embedding1.unsqueeze(0), embedding2.unsqueeze(0)).item()
    return similarity_score

# Your dataframe and other code

dfx = df  # Assuming df is defined somewhere

questions = dfx["question"]
answers = dfx["answers"]

random_questions = questions.sample(n=1500, random_state=42)

random_question = []
generated_responses = []
corresponding_responses = []
similarity_scores = []

pbar = tqdm(total=len(random_questions), desc="Calculating Similarity")

for question in random_questions:
    generated_response = chatbot.run(prompt.format(query=question))
    random_question.append(question)
    generated_responses.append(generated_response)

    # Use boolean indexing to find the corresponding response
    corresponding_response = answers[questions == question].values[0]
    corresponding_responses.append(corresponding_response)

    similarity = calculate_similarity(generated_response, corresponding_response)
    similarity_scores.append(similarity)

    pbar.update(1)
pbar.close()

mean_similarity_score = np.mean(similarity_scores)

print("Mean Similarity Score:", mean_similarity_score)

evaluation_df = pd.DataFrame({
    "random_question": random_question,
    "generated_response": generated_responses,
    "corresponding_response": corresponding_responses,
    "similarity_score": similarity_scores
})


Calculating Similarity:   0%|          | 0/1500 [00:00<?, ?it/s]

Downloading (…)d8606/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)7a9c69bd8606/LICENSE:   0%|          | 0.00/22.3k [00:00<?, ?B/s]

Downloading (…)9c69bd8606/README.md:   0%|          | 0.00/2.73k [00:00<?, ?B/s]

Downloading (…)69bd8606/config.json:   0%|          | 0.00/677 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading (…)d8606/tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/356 [00:00<?, ?B/s]

Downloading (…)9bd8606/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

Calculating Similarity: 100%|██████████| 1500/1500 [4:44:52<00:00, 11.39s/it]

Mean Similarity Score: 0.44532983281215033





In [30]:
evaluation_df.to_csv("similarity_evaluation_GPT_4.csv", index=False)

In [31]:
evaluation_df.to_excel("similarity_evaluation_GPT_4.xlsx", index=False)

In [29]:
evaluation_df

Unnamed: 0,random_question,generated_response,corresponding_response,similarity_score
0,كيف تتألف لجنة البرنامج؟,لجنة البرنامج تتألف من ثلاثة أعضاء على الأقل و...,عن طريق عميد كلية الدراسات العليا,0.493049
1,كم عدد المشاركات العلمية التي يستطيع الطالب حض...,الطالب يستطيع حضور مهمة علمية واحدة فقط خلال م...,مهمة واحدة فقط خلال مدة دراسته,0.606468
2,هل يشترط اعداد الرسالة للحصول على دبلوم دراسات...,النص لا يوفر معلومات كافية للإجابة على سؤالك.,ولا يشترط اجتياز الامتحان الشامل او اعداد أطروحة,0.103150
3,ما هي قيمة بدل السفر اليومي لتكاليف الرحلات ال...,بدل السفر اليومي لتكاليف الرحلات العلمية هو 30...,30 دينار كويتي,0.693111
4,ماذا يحصل اذا سقط الطالب في اختبار اطروحة الدك...,إذا رسب الطالب في امتحان رسالة الدكتوراة، يمنح...,يمنح فرصة أخرى,0.155863
...,...,...,...,...
1495,هل يشترط حضور مختبر اختبار بحث الدكتوراة اثناء...,النص لا يوفر معلومات حول ما إذا كان يشترط حضور...,نعم يشترط حضور ممتحن امتحان رسالة الدكتوراة,0.430042
1496,ما هي شروط القبول المشروط للماجستير إذا كان ال...,شروط القبول المشروط للماجستير إذا كان المتقدم ...,معدل عام 2.33,0.688526
1497,كم قيمة مكافأة لجنة الاختبار الشفهي لكلية الحقوق؟,قيمة مكافأة لجنة الاختبار الشفهي لكلية الحقوق ...,100 دينار كويتي لكل عضو,0.889421
1498,ما هو المعدل الادنى للتخرج من دبلوم الدراسات ا...,المعدل الأدنى المطلوب للتخرج من الدبلوم العالي...,هو 2.67,0.548208
