In [5]:
import nltk
from nltk.stem.lancaster import LancasterStemmer
# word stemmer
stemmer = LancasterStemmer()

In [6]:
import pandas as pd
dataset = pd.read_csv("data.csv")

In [7]:
dataset

Unnamed: 0,Data,intent,Entity
0,فاتحين امتى,information,
1,عندكو اكل ايه,menu,
2,في مينيم شارج,prices,
3,في ديليفيري,information,
4,ينفع احجز قبلها,Reservation system,
5,هيبقي الساعة كام,information,
6,ممكن رقم الدليفرى بتاعكم,information,"[(5,17,رقم تليفون)]\n"
7,لو عاوزه اجي احجز قبلها بيوم ينفع,Reservation system,
8,عاوزه المنيو,menu,"[(6,13,المنيو)]"
9,نظام الحجز ايه فى المحل الجديد,Reservation system,


In [8]:
del dataset['Entity']

In [9]:
dataset

Unnamed: 0,Data,intent
0,فاتحين امتى,information
1,عندكو اكل ايه,menu
2,في مينيم شارج,prices
3,في ديليفيري,information
4,ينفع احجز قبلها,Reservation system
5,هيبقي الساعة كام,information
6,ممكن رقم الدليفرى بتاعكم,information
7,لو عاوزه اجي احجز قبلها بيوم ينفع,Reservation system
8,عاوزه المنيو,menu
9,نظام الحجز ايه فى المحل الجديد,Reservation system


In [10]:
dataset.to_csv('dataset.csv')

In [11]:
training_data = []
for intent in dataset['intent'].unique():
    for text in dataset[dataset['intent']==intent]["Data"]:
        training_data.append({"class":intent,"sentence":text})

In [12]:
training_data

[{'class': 'information', 'sentence': 'فاتحين امتى'},
 {'class': 'information', 'sentence': 'في ديليفيري'},
 {'class': 'information', 'sentence': 'هيبقي الساعة كام'},
 {'class': 'information', 'sentence': 'ممكن رقم الدليفرى بتاعكم'},
 {'class': 'information', 'sentence': 'هتكونو شغلين في العيد'},
 {'class': 'information', 'sentence': 'الرقم فين'},
 {'class': 'information',
  'sentence': 'ممكن إستفسار هوه العمل في رمضان لحد الساعة كام ؟ ؟'},
 {'class': 'information', 'sentence': 'هو فى مكان للركنة ؟'},
 {'class': 'information', 'sentence': 'عنوان اى حضرتك واقرب محِطة مترو'},
 {'class': 'information', 'sentence': 'مفيش دليفري للمنصوره'},
 {'class': 'information',
  'sentence': 'لو حبيت اجى والاولاد اجى من الساعه كام قبل الفطار'},
 {'class': 'information', 'sentence': 'هو انت قافل من اول رمضان'},
 {'class': 'information', 'sentence': 'في دليفري لمدينة نصر'},
 {'class': 'information', 'sentence': 'المكان فين لو سمحت'},
 {'class': 'information',
  'sentence': 'الدليفري هيشتغل ولو هيشتغل هتس

In [13]:
print ("%s sentences of training data" % len(training_data))

112 sentences of training data


In [14]:
# capture unique stemmed words in the training corpus
corpus_words = {}
class_words = {}
# turn a list into a set (of unique items) and then a list again (this removes duplicates)
classes = list(set([a['class'] for a in training_data]))
for c in classes:
    # prepare a list of words within each class
    class_words[c] = []

# loop through each sentence in our training data
for data in training_data:
    # tokenize each sentence into words
    for word in nltk.word_tokenize(data['sentence']):
        # ignore a some things
        if word not in ["؟"]:
            # stem and lowercase each word
            stemmed_word = stemmer.stem(word.lower())
            # have we not seen this word already?
            if stemmed_word not in corpus_words:
                corpus_words[stemmed_word] = 1
            else:
                corpus_words[stemmed_word] += 1

            # add the word to our words in class list
            class_words[data['class']].extend([stemmed_word])

# we now have each stemmed word and the number of occurances of the word in our training corpus (the word's commonality)
print ("Corpus words and counts: %s \n" % corpus_words)
# also we have all words in each class
print ("Class words: %s" % class_words)

Corpus words and counts: {'فاتحين': 1, 'امتى': 2, 'في': 22, 'ديليفيري': 1, 'هيبقي': 1, 'الساعة': 3, 'كام': 11, 'ممكن': 20, 'رقم': 6, 'الدليفرى': 3, 'بتاعكم': 1, 'هتكونو': 2, 'شغلين': 1, 'العيد': 2, 'الرقم': 2, 'فين': 5, 'إستفسار': 1, 'هوه': 1, 'العمل': 1, 'رمضان': 9, 'لحد': 2, 'هو': 12, 'فى': 8, 'مكان': 1, 'للركنة': 1, 'عنوان': 4, 'اى': 1, 'حضرتك': 2, 'واقرب': 1, 'محِطة': 1, 'مترو': 1, 'مفيش': 2, 'دليفري': 3, 'للمنصوره': 1, 'لو': 20, 'حبيت': 1, 'اجى': 4, 'والاولاد': 1, 'من': 12, 'الساعه': 6, 'قبل': 3, 'الفطار': 5, 'انت': 1, 'قافل': 1, 'اول': 1, 'لمدينة': 1, 'نصر': 3, 'المكان': 1, 'سمحت': 10, 'الدليفري': 2, 'هيشتغل': 2, 'ولو': 2, 'هتستقبل': 1, 'الطلبات': 2, 'المطعم': 3, 'بيفتح': 1, 'ده': 1, 'انهى': 1, 'فرع': 9, 'حيشتغل': 1, 'تيك': 1, 'اوي': 2, 'هيكون': 1, 'شغال': 2, 'يوم': 2, 'الخميس': 2, 'عايز': 6, 'اعمل': 2, 'اوردر': 2, 'تلفون': 1, 'الحجز': 7, 'لمدينتي': 1, 'طب': 3, 'سمحتوا': 2, 'ديلفري': 1, 'ﻻول': 1, 'السلام': 1, 'اردر': 1, 'كبير': 1, 'شويه': 1, 'لعزومه': 1, 'هل': 4, 'بيوصل': 1, 'عين

In [44]:
import numpy as np
# calculate a score for a given class taking into account word commonality
def calculate_class_score(sentence, class_name, show_details=True):
    score = 0
    # tokenize each word in our new sentence
    for word in nltk.word_tokenize(sentence):
        # check to see if the stem of the word is in any of our classes
        if stemmer.stem(word.lower()) in class_words[class_name]:
            # treat each word with relative weight
            score += (1 /corpus_words[stemmer.stem(word.lower())])*(1/class_words[class_name].count(stemmer.stem(word.lower())))

            if show_details:
                print (" match: %s (%s) * (%s)" % (stemmer.stem(word.lower()),
                                                   1 / corpus_words[stemmer.stem(word.lower())],
                                                   1/class_words[class_name].count(stemmer.stem(word.lower()))))
    return score

In [16]:
class_words['information'].count('لو')

14

In [45]:
# we can now calculate a score for a new sentence
sentence = "ممكن اعرف المنيو ؟"
def trace(sentence):
    # now we can find the class with the highest score
    for c in class_words.keys():
        print ("Class: %s  Score: %s \n" % (c, calculate_class_score(sentence, c)))

In [46]:
trace(sentence)

 match: ممكن (0.05) * (0.5)
 match: اعرف (0.14285714285714285) * (0.5)
Class: Reservation system  Score: 0.09642857142857142 

Class: prices  Score: 0 

 match: ممكن (0.05) * (1.0)
 match: اعرف (0.14285714285714285) * (1.0)
Class: offers  Score: 0.19285714285714284 

 match: ممكن (0.05) * (0.2)
 match: اعرف (0.14285714285714285) * (1.0)
 match: المنيو (0.16666666666666666) * (0.16666666666666666)
Class: menu  Score: 0.18063492063492065 

 match: ممكن (0.05) * (0.08333333333333333)
 match: اعرف (0.14285714285714285) * (0.3333333333333333)
Class: information  Score: 0.05178571428571428 



In [18]:
def classify(sentence):
    high_class = None
    high_score = 0
    # loop through our classes
    for c in class_words.keys():
        # calculate score of sentence for each class
        score = calculate_class_score(sentence, c, show_details=False)
        # keep track of highest score
        if score > high_score:
            high_class = c
            high_score = score

    return high_class, high_score

In [31]:
classify("عندكوا اكل ايه")

('menu', 1.2)

In [32]:
classify("ممكن اعرف فاتحين امتى")

('information', 3.0285714285714285)

In [33]:
classify("المكان فين بالظبط")

('information', 3.0)

In [34]:
classify("الأسعار ايه نظامها")

('prices', 1.2)

In [35]:
classify("لو عايز حجز يبقى قبلها بقد ايه")

('Reservation system', 3.7333333333333334)

In [36]:
classify("الدليفرى ايه نظامه")

('information', 1.0)

In [37]:
trace("فى توصيل للجيزة")

 match: فى (0.125) * (1)
Class: Reservation system  Score: 0.125 

Class: prices  Score: 0 

 match: فى (0.125) * (1)
Class: offers  Score: 0.125 

Class: menu  Score: 0 

 match: فى (0.125) * (6)
 match: توصيل (0.125) * (8)
Class: information  Score: 1.75 



In [38]:
classify("الاسعار شاملة الضريبة ولا لا")

('prices', 2.1)

In [39]:
classify("عندكوا اكل ايه جديد")

('menu', 2.2)

In [40]:
classify("ممكن قايمة الاسعار")

('menu', 1.25)

In [41]:
classify("ممكن منيو رمضان")

('menu', 1.4722222222222223)

In [43]:
trace("المنيو الجديدة لو سمحت")

 match: لو (0.05) * (6)
 match: سمحت (0.1) * (1)
Class: Reservation system  Score: 0.4 

 match: سمحت (0.1) * (1)
Class: prices  Score: 0.1 

Class: offers  Score: 0 

 match: المنيو (0.16666666666666666) * (6)
 match: الجديدة (0.3333333333333333) * (1)
Class: menu  Score: 1.3333333333333333 

 match: الجديدة (0.3333333333333333) * (2)
 match: لو (0.05) * (14)
 match: سمحت (0.1) * (8)
Class: information  Score: 2.166666666666667 



In [110]:
classify("اسعار رمضان ايه")

('offers', 0.1111111111111111)

In [112]:
classify("فى ايه جديد فى رمضان")

('menu', 1.1055555555555556)

In [113]:
classify("احجز ازاى")

('Reservation system', 0.2623456790123457)

In [114]:
classify("ممكن رقم التليفون")

('information', 0.3708333333333333)

In [118]:
classify("فى عروض جديدة؟")

('offers', 1.125)