<a href="https://colab.research.google.com/github/telsayed/IR-in-Arabic/blob/master/Summer2021/notebooks/IR_in_Arabic_LabA_BooleanRetrieval.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# **IR in Arabic** - Summer 2021 lab notebook 1


This is one of a series of Colab notebooks created for the **IR in Arabic** course. It demonstrates how can we build a Term-Document incidence Matrix and a boolean retrieval model.

The **learning outcomes** of the this notebook are:


*   What is Colab and how can we run our code?
*   Build a Term-Document incidence Matrix and visualize it.
*   Build a boolean retrieval model that can answer a boolean query such as:



# What is colab?

**[Colaboratory](https://research.google.com/colaboratory/faq.html)**, or “Colab” for short, is a product from Google Research. Colab allows anybody to write and execute arbitrary python code through the browser, and is especially well suited to machine learning, data analysis and education. More technically, Colab is a hosted Jupyter notebook service that requires no setup to use, while providin free access to computing resources including GPUs.

# How can you have your own copy of this lab?

To open a copy of this notebook at your side please click [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/11Vch7Sy30PrZavtuJCb78CH6yS3y5IJ0#scrollTo=So4LG0fB1HKb), then go to **File->Save a copy in Drive**. This will create your version of this lab saved in your Google Drive.

### **Setup**
We will first install the required python libraries

In [None]:
!pip install Arabic-Stopwords

Collecting Arabic-Stopwords
[?25l  Downloading https://files.pythonhosted.org/packages/7c/9e/40ee9b10f98b23b32bb7ca3f229ae78ae4379ebcb03cbb7b9e7399686ad8/Arabic_Stopwords-0.3-py3-none-any.whl (353kB)
[K     |████████████████████████████████| 358kB 8.5MB/s 
[?25hCollecting pyarabic>=0.6.2
[?25l  Downloading https://files.pythonhosted.org/packages/7b/e2/46728ec2f6fe14970de5c782346609f0636262c0941228f363710903aaa1/PyArabic-0.6.10.tar.gz (108kB)
[K     |████████████████████████████████| 112kB 33.0MB/s 
[?25hBuilding wheels for collected packages: pyarabic
  Building wheel for pyarabic (setup.py) ... [?25l[?25hdone
  Created wheel for pyarabic: filename=PyArabic-0.6.10-cp37-none-any.whl size=113324 sha256=5394f7e2cbe2d59e362c8b847ea7abdb52926334a652fe194e1740971d38f1b1
  Stored in directory: /root/.cache/pip/wheels/10/b8/f5/b7c1a50e6efb83544844f165a9b134afe7292585465e29b61d
Successfully built pyarabic
Installing collected packages: pyarabic, Arabic-Stopwords
Successfully installed A

In [None]:
import arabicstopwords.arabicstopwords as stp
import re

We will then create a class that contains data and the boolean operators.

In [None]:

class BooleanModel:

    D1 = "هذا هو اليوم الأول من دورة استرجاع المعلومات"
    D2 = "الدورة باللغة العربية للطلاب العرب"
    D3 = "اليوم هو 30 مايو 2021"
    D4 = "نأمل أن تفيد هذه الدورة الطلاب العرب"
    D5 = "هل أنتم سعداء بهذه التجربة"
    Data = {"DOC1": D1,
            "DOC2": D2, 
            "DOC3": D3, 
            "DOC4": D4,
            "DOC5": D5}
 
    #Get the set of Arabic stopwords 
    StopWords = set(stp.stopwords_list())
    #Specify the boolean operators that can be used in boolean queries
    BooleanOperator = {'AND', 'OR', 'NOT','and','or','not'}
    ## list of terms from the Data file collection
    Ti=[]
    #list of Distinct Terms
    ti=[]
    #Document collection terms
    Di={}
    #TermDocumentIncidenceMatrix 
    TermDocMatrix={}


We need to implement some helper functions below

In [None]:
   #removing Stop Words function
   def RemoveStopWords(sentence):
        terms=[]
        for term in sentence.split() : 
            if term not in BooleanModel.StopWords :
                terms.append(term)
        return terms

  #  #a function to clean the text 
  #  def clean(text):
  #      text = re.sub(r"[\.\,\#_\|\:\?\?\/\=]", " ", text) # remove special characters
  #      text = re.sub(r"\s+", " ", text) # remove extra white space
  #      accents = re.compile(r'[\u064b-\u0652\u0640]') # harakaat and tatweel (kashida) to remove
  #      arabic_punc= re.compile(r'[\u0621-\u063A\u0641-\u064A\d+]+') # Keep only Arabic letters/do not remove number
  #      text=' '.join(arabic_punc.findall(accents.sub('',text)))
  #      text = text.strip()
  #      text= RemoveStopWords(text)
  #      return text
  

   #list of Terms
   def Terms(Data):
        Terms=[]
        for doc in Data:
            Terms.append(RemoveStopWords(Data[doc]))
        Terms=[item for sublist in Terms for item in sublist]
        return Terms

   #list of Distinct Terms
   def Distinctterms(Terms):
        DistinctTerms=[]
        for d in Terms :
            if d not in DistinctTerms:
                DistinctTerms.append(d)
        return DistinctTerms

   #Document collection terms
   def DocumentCollection(Data):
        DocCollect={}
        for doc in Data:
            if doc not in BooleanModel.BooleanOperator :
                DocCollect[doc]=Distinctterms(RemoveStopWords(Data[doc]))
        return DocCollect 
           
   def displayDict(D):
        print("\n")
        for i in D:
            print (i , " : " ,D[i])
        print("\n")

Let's check what we can do with the class we created

In [None]:
print("### Data files content ###")
displayDict(BooleanModel.Data)
BooleanModel.Ti= Terms(BooleanModel.Data)
print ("\n### Terms in 5 docs ###\n" , *BooleanModel.Ti ,sep= " | ")
#ti
BooleanModel.ti = Distinctterms(BooleanModel.Ti)
print ("\n### Distinct Terms in 5 DOCs###\n", *BooleanModel.ti ,sep=" | ")
#Di
BooleanModel.Di= DocumentCollection(BooleanModel.Data)
print ("\n###Document terms Collection ###" )
displayDict(BooleanModel.Di)

### Data files content ###


DOC1  :  هذا هو اليوم الأول من دورة استرجاع المعلومات
DOC2  :  الدورة باللغة العربية للطلاب العرب
DOC3  :  اليوم هو 30 مايو 2021
DOC4  :  نأمل أن تفيد هذه الدورة الطلاب العرب
DOC5  :  هل أنتم سعداء بهذه التجربة



### Terms in 5 docs ###
 | اليوم | الأول | دورة | استرجاع | المعلومات | الدورة | باللغة | العربية | للطلاب | العرب | اليوم | 30 | مايو | 2021 | نأمل | تفيد | الدورة | الطلاب | العرب | سعداء | التجربة

### Distinct Terms in 5 DOCs###
 | اليوم | الأول | دورة | استرجاع | المعلومات | الدورة | باللغة | العربية | للطلاب | العرب | 30 | مايو | 2021 | نأمل | تفيد | الطلاب | سعداء | التجربة

###Document terms Collection ###


DOC1  :  ['اليوم', 'الأول', 'دورة', 'استرجاع', 'المعلومات']
DOC2  :  ['الدورة', 'باللغة', 'العربية', 'للطلاب', 'العرب']
DOC3  :  ['اليوم', '30', 'مايو', '2021']
DOC4  :  ['نأمل', 'تفيد', 'الدورة', 'الطلاب', 'العرب']
DOC5  :  ['سعداء', 'التجربة']




Next, we will implement a fucntion to build a term-incidence matrix

In [None]:
def TermDocumentIncidenceMatrix(DocumentTermsCollection ,DistinctTerms):

        TermDocMatrix={}
        for term in DistinctTerms:
            Vector=[]
            for c in DocumentTermsCollection:

                if term in DocumentTermsCollection[c]:
                    Vector.append(1)
                else :
                    Vector.append(0)

            TermDocMatrix[term]=Vector
        return TermDocMatrix

    
def TermIncidenceVector(term):
    return BooleanModel.TermDocMatrix[term]

Let's build the term-document incidence matrix

In [None]:
#build the term-document incidence matrix
BooleanModel.TermDocMatrix=TermDocumentIncidenceMatrix(BooleanModel.Di,BooleanModel.ti)
print("Term-Document incidence Matrix\n")
#formatted Display 
displayDict(BooleanModel.TermDocMatrix)


Term-Document incidence Matrix



اليوم  :  [1, 0, 1, 0, 0]
الأول  :  [1, 0, 0, 0, 0]
دورة  :  [1, 0, 0, 0, 0]
استرجاع  :  [1, 0, 0, 0, 0]
المعلومات  :  [1, 0, 0, 0, 0]
الدورة  :  [0, 1, 0, 1, 0]
باللغة  :  [0, 1, 0, 0, 0]
العربية  :  [0, 1, 0, 0, 0]
للطلاب  :  [0, 1, 0, 0, 0]
العرب  :  [0, 1, 0, 1, 0]
30  :  [0, 0, 1, 0, 0]
مايو  :  [0, 0, 1, 0, 0]
2021  :  [0, 0, 1, 0, 0]
نأمل  :  [0, 0, 0, 1, 0]
تفيد  :  [0, 0, 0, 1, 0]
الطلاب  :  [0, 0, 0, 1, 0]
سعداء  :  [0, 0, 0, 0, 1]
التجربة  :  [0, 0, 0, 0, 1]




Let's check the term incidence vector for the word العرب

In [None]:
print("Incidence Vector of 'العرب' ",TermIncidenceVector('العرب'))

Incidence Vector of 'العرب'  [0, 1, 0, 1, 0]


### **Buidling a Boolean retrieval model**

First, we need to implement our that tokenizes the query to differentiate between the terms and the boolean operators and select only those defined in our booleanModel class previously.

In [None]:
#Query Filteration
#input : Query 
#output : List of terms of a given query which match with the terms in our datafiles
def Queryfilteration(Query):
    Qterms=[]
    Q=Query.split()
    for Qterm in Q:
        if Qterm in BooleanModel.ti or Qterm in BooleanModel.BooleanOperator :
          Qterms.append(Qterm)
    return Qterms

Let's test our Query filteration function. 

In [None]:
Query="استرجاع AND المعلومات AND دورة"
Qterms=Queryfilteration(Query)
print(Qterms)

['استرجاع', 'AND', 'المعلومات', 'AND', 'دورة']


In [None]:
# Boolean Operator Processing 
# input : Boolean Operator ,Next term Incedence Vector ,Previous term Incedence Vector 
# output : 
def BooleanOperatorProcessing(BoolOperator,PrevV,NextV):
    result=[]
    if BoolOperator == "AND":
      for a , b in zip(NextV,PrevV) :
          if a==1 and b==1 :
            result.append(1)
          else :
            result.append(0)
    elif BoolOperator=="OR" :
         for a,b in zip(NextV,PrevV) :
            if a==0 and b==0 :
               result.append(0)
            else :
                    result.append(1)
    elif BoolOperator == "NOT":
         for b in PrevV :
             if b == 1 :
                result.append(0)
             else :
                result.append(1)
    return result

Let's test our BooleanOperatorProcessing function

In [None]:
v1=[0,1,0,1]
v2=[0,0,1,1]
v3=[]
print(BooleanOperatorProcessing("AND",v1,v2))
print(BooleanOperatorProcessing("OR",v1,v2))
print(BooleanOperatorProcessing("NOT",v1,v3))

[0, 0, 0, 1]
[0, 1, 1, 1]
[1, 0, 1, 0]


In [None]:
# Boolean retrieval fuction
# input : Query 
# output : if Document is relevant > 1 else >0
def BooleanRetrieval(Query):
        Bitwiseop=""
        QTterms=Queryfilteration(Query)
        result=[]
        resultSet={}
        hasPreviousterm=False
        hasntOperation=False
        IncVicPreAnd=[]
        IncVicNexAnd=[]
        for term in QTterms :
            if term not in BooleanModel.BooleanOperator:
                if hasntOperation:
                    if hasPreviousterm:
                        IncVicNexAnd=BooleanOperatorProcessing("NOT",TermIncidenceVector(term),IncVicNexAnd)
                    else :
                        IncVicPreAnd=BooleanOperatorProcessing("NOT",TermIncidenceVector(term),IncVicNexAnd)
                        result=IncVicPreAnd
                    hasntOperation=False
                    
                elif  hasPreviousterm :
                    
                    IncVicNexAnd=TermIncidenceVector(term)
                else :
                    
                    IncVicPreAnd=TermIncidenceVector(term)
                    result=IncVicPreAnd
                    hasPreviousterm=True    
            
            elif term =="NOT":
                hasntOperation=True
            
            else :
                Bitwiseop=term
                
            if  len(IncVicNexAnd)!= 0  :
                result = BooleanOperatorProcessing(Bitwiseop,IncVicPreAnd,IncVicNexAnd)
                IncVicPreAnd=result
                hasPreviousterm=True
                IncVicNexAnd= []
    
        for i,doc in zip(result,BooleanModel.Data):
            resultSet[doc]=i
        return resultSet

Let's use our boolean retrieval model 

In [None]:
Query1 = "العرب AND NOT المعلومات"
Query2 = "استرجاع AND المعلومات AND NOT العربية"
Query3 = "استرجاع OR الدورة OR سعداء"
print("Query1 boolean retrieval result ",BooleanRetrieval(Query1))
print("Query2 boolean retrieval ",BooleanRetrieval(Query2))
print("Query3 boolean retrieval ",BooleanRetrieval(Query3))

Query1 boolean retrieval result  {'DOC1': 0, 'DOC2': 1, 'DOC3': 0, 'DOC4': 1, 'DOC5': 0}
Query2 boolean retrieval  {'DOC1': 1, 'DOC2': 0, 'DOC3': 0, 'DOC4': 0, 'DOC5': 0}
Query3 boolean retrieval  {'DOC1': 1, 'DOC2': 1, 'DOC3': 0, 'DOC4': 1, 'DOC5': 1}


### **Exercise1**

Find the documents that contains the word **سعداء** or **الدورة** but does not contain 
the word **العرب**

In [None]:
Query = "سعداء OR الدورة AND NOT العرب"
print("Query boolean retrieval ",BooleanRetrieval(Query))


Query boolean retrieval  {'DOC1': 0, 'DOC2': 0, 'DOC3': 0, 'DOC4': 0, 'DOC5': 1}


In [None]:
Query = "التجربة OR الدورة OR اليوم"
print("Query boolean retrieval",BooleanRetrieval(Query))

Query boolean retrieval {'DOC1': 1, 'DOC2': 1, 'DOC3': 1, 'DOC4': 1, 'DOC5': 1}


### **Exercise2**
Using the sentences given below create your documents, and create three different queries similar to the ones introduced during the lab. Retrieve the results of your queries.


1. قضينا في الخليل ستة أشهر ثم بدأ أهل البلد يتوزعون منهم من أراد اللحاق بأقرباء له في طولكرم أو نابلس أو جنين و منهم من تسلل عائدا الى الجليل و منهم من ذهب الى سوريا
2.   سيذهلني أن مريم و هي تسترجع ما جرى و تنقله الى أخيها تذكر تفاصيل الحوار 
بالنقطة و الفاصلة
3. نعم زرت بيروت زرتها بعد خمس سنين من الغياب
4.وعدتك يا حسن أن أتم هذا الكتاب و لكنني حين وصلت الى هذا الجزء من الحكاية   تيقنت أنني لن أستطيع
5. حكت لي ممرضة من سكان شاتيلا أنها ذهبت الى مستشفى عكا يوم السبت بعد رحيل 
القوات من المنطقة

**ملحوظة:** الجمل مقتبسة من رواية الطنطورية لرضوى عاشور


In [None]:
class BooleanModel:

    D1 = "قضينا في الخليل ستة أشهر ثم بدأ أهل البلد يتوزعون منهم من أراد اللحاق بأقرباء له في طولكرم أو نابلس أو جنين و منهم من تسلل عائدا الى الجليل، و منهم من ذهب الى سوريا"
    D2 = "سيذهلني أن مريم و هي تسترجع ما جرى و تنقله الى أخيها تذكر تفاصيل الحوار بالنقطة و الفاصلة"
    D3 = "نعم زرت بيروت زرتها بعد خمس سنين من الغياب"
    D4 = "وعدتك يا حسن أن أتم هذا الكتاب و لكنني حين وصلت الى هذا الجزء من الحكاية تيقنت أنني لن أستطيع"
    D5 = "حكت لي ممرضة من سكان شاتيلا أنها ذهبت الى مستشفى عكا يوم السبت بعد رحيل القوات من المنطقة"
    Data = {"DOC1": D1,
            "DOC2": D2, 
            "DOC3": D3, 
            "DOC4": D4,
            "DOC5": D5}
 
    #Get the set of Arabic stopwords 
    StopWords = set(stp.stopwords_list())
    #Specify the boolean operators that can be used in boolean queries
    BooleanOperator = {'AND', 'OR', 'NOT','and','or','not'}
    ## list of terms from the Data file collection
    Ti=[]
    #list of Distinct Terms
    ti=[]
    #Document collection terms
    Di={}
    #TermDocumentIncidenceMatrix 
    TermDocMatrix={}

In [None]:
print("### Data files content ###")
displayDict(BooleanModel.Data)
BooleanModel.Ti= Terms(BooleanModel.Data)
print ("\n### Terms in 5 docs ###\n" , *BooleanModel.Ti ,sep= " | ")
#ti
BooleanModel.ti = Distinctterms(BooleanModel.Ti)
print ("\n### Distinct Terms in 5 DOCs###\n", *BooleanModel.ti ,sep=" | ")
#Di
BooleanModel.Di= DocumentCollection(BooleanModel.Data)
print ("\n###Document terms Collection ###" )
displayDict(BooleanModel.Di)
#build Term-Document incidence Matrix
print("Term-Document incidence Matrix\n")
#build the term-document incidence matrix
BooleanModel.TermDocMatrix=TermDocumentIncidenceMatrix(BooleanModel.Di,BooleanModel.ti)
#formatted display of the term-document incidence matrix
displayDict(BooleanModel.TermDocMatrix)

### Data files content ###


DOC1  :  قضينا في الخليل ستة أشهر ثم بدأ أهل البلد يتوزعون منهم من أراد اللحاق بأقرباء له في طولكرم أو نابلس أو جنين و منهم من تسلل عائدا الى الجليل، و منهم من ذهب الى سوريا
DOC2  :  سيذهلني أن مريم و هي تسترجع ما جرى و تنقله الى أخيها تذكر تفاصيل الحوار بالنقطة و الفاصلة
DOC3  :  نعم زرت بيروت زرتها بعد خمس سنين من الغياب
DOC4  :  وعدتك يا حسن أن أتم هذا الكتاب و لكنني حين وصلت الى هذا الجزء من الحكاية تيقنت أنني لن أستطيع
DOC5  :  حكت لي ممرضة من سكان شاتيلا أنها ذهبت الى مستشفى عكا يوم السبت بعد رحيل القوات من المنطقة



### Terms in 5 docs ###
 | قضينا | الخليل | ستة | أشهر | بدأ | أهل | البلد | يتوزعون | أراد | اللحاق | بأقرباء | طولكرم | نابلس | جنين | تسلل | عائدا | الى | الجليل، | ذهب | الى | سوريا | سيذهلني | مريم | تسترجع | جرى | تنقله | الى | تذكر | تفاصيل | الحوار | بالنقطة | الفاصلة | زرت | بيروت | زرتها | خمس | سنين | الغياب | وعدتك | يا | حسن | أتم | الكتاب | لكنني | وصلت | الى | الجزء | الحكاية | تيقنت | أنني | أستطيع | حكت | ممرضة | سكان | 

In [None]:
Query1 = "حسن AND NOT مريم"
Query2 = "الكتاب AND الحكاية AND NOT الغياب"
Query3 = "سوريا OR بيروت"
print("Query1 boolean retrieval result ",BooleanRetrieval(Query1))
print("Query2 boolean retrieval result",BooleanRetrieval(Query2))
print("Query3 boolean retrieval result",BooleanRetrieval(Query3))

Query1 boolean retrieval result  {'DOC1': 0, 'DOC2': 0, 'DOC3': 0, 'DOC4': 1, 'DOC5': 0}
Query2 boolean retrieval result {'DOC1': 0, 'DOC2': 0, 'DOC3': 0, 'DOC4': 1, 'DOC5': 0}
Query3 boolean retrieval result {'DOC1': 1, 'DOC2': 0, 'DOC3': 1, 'DOC4': 0, 'DOC5': 0}


### **References**


*   [Information retrieval models.](https://github.com/YoucefBYu/Information-Retrieval-Models)

