In [1]:
import nltk 
import re
import numpy
from nltk.corpus import stopwords

In [2]:
def word_extraction(sentence):
    words = re.sub("[^\w]", " ",  sentence).split()
    cleaned_text = [w.lower() for w in words if w not in stopwords.words('english')]
    return cleaned_text

In [3]:
def tokenize(sentences):
    words = []
    for sentence in sentences:
        w = word_extraction(sentence)
        words.extend(w)
    words = sorted(list(set(words)))
    return words

In [4]:
## Generate Bag of Words -- Manually 
def generate_bow(allsentences):
    vocab = tokenize(allsentences)
    print("Word List for Document \n{0} \n".format(vocab))
    for sentence in allsentences:
        words = word_extraction(sentence)
        bag_vector = numpy.zeros(len(vocab))
        for w in words:
            for i,word in enumerate(vocab):
                if word == w:
                    bag_vector[i] += 1
        print("{0}\n{1}\n".format(sentence,numpy.array(bag_vector)))
        print('---------------------------------------------------')

In [5]:
text = "ذهب محمد و شريف الي المدرسة هذا اليوم"

In [6]:
word_extraction(text)

['ذهب', 'محمد', 'و', 'شريف', 'الي', 'المدرسة', 'هذا', 'اليوم']

In [7]:
tokenize(word_extraction(text))

['المدرسة', 'الي', 'اليوم', 'ذهب', 'شريف', 'محمد', 'هذا', 'و']

In [8]:
generate_bow(word_extraction(text))

Word List for Document 
['المدرسة', 'الي', 'اليوم', 'ذهب', 'شريف', 'محمد', 'هذا', 'و'] 

ذهب
[0. 0. 0. 1. 0. 0. 0. 0.]

---------------------------------------------------
محمد
[0. 0. 0. 0. 0. 1. 0. 0.]

---------------------------------------------------
و
[0. 0. 0. 0. 0. 0. 0. 1.]

---------------------------------------------------
شريف
[0. 0. 0. 0. 1. 0. 0. 0.]

---------------------------------------------------
الي
[0. 1. 0. 0. 0. 0. 0. 0.]

---------------------------------------------------
المدرسة
[1. 0. 0. 0. 0. 0. 0. 0.]

---------------------------------------------------
هذا
[0. 0. 0. 0. 0. 0. 1. 0.]

---------------------------------------------------
اليوم
[0. 0. 1. 0. 0. 0. 0. 0.]

---------------------------------------------------


In [9]:
allsentences = ["ذهب محمد الي الجامعة",
                "نجحت مني في الاختبار",
                "تمكن محمد من السفر هذا اليوم",
               "اعتقد ان جورج سيتصل بنا اليوم",
                "لا اظن ان الاختبار سيكون سهلا"]

In [10]:
generate_bow(allsentences)

Word List for Document 
['اظن', 'اعتقد', 'الاختبار', 'الجامعة', 'السفر', 'الي', 'اليوم', 'ان', 'بنا', 'تمكن', 'جورج', 'ذهب', 'سهلا', 'سيتصل', 'سيكون', 'في', 'لا', 'محمد', 'من', 'مني', 'نجحت', 'هذا'] 

ذهب محمد الي الجامعة
[0. 0. 0. 1. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]

---------------------------------------------------
نجحت مني في الاختبار
[0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 1. 1. 0.]

---------------------------------------------------
تمكن محمد من السفر هذا اليوم
[0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1.]

---------------------------------------------------
اعتقد ان جورج سيتصل بنا اليوم
[0. 1. 0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]

---------------------------------------------------
لا اظن ان الاختبار سيكون سهلا
[1. 0. 1. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 1. 0. 1. 0. 0. 0. 0. 0.]

---------------------------------------------------


In [11]:
## Using Library
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(allsentences)

for i in range(len(allsentences)) : 
    print(allsentences[i])
    print(list(X.toarray()[i]))
    print('---------------------------------------------------')

ذهب محمد الي الجامعة
[0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]
---------------------------------------------------
نجحت مني في الاختبار
[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0]
---------------------------------------------------
تمكن محمد من السفر هذا اليوم
[0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1]
---------------------------------------------------
اعتقد ان جورج سيتصل بنا اليوم
[0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0]
---------------------------------------------------
لا اظن ان الاختبار سيكون سهلا
[1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0]
---------------------------------------------------
