<a href="https://colab.research.google.com/github/OussamaRchouk/TP1_TP2/blob/main/Bow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Implementing Bag-of-Words Model

### Load Libraries

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import re

from sklearn.feature_extraction.text import CountVectorizer

### Get Data

In [None]:
english_text = """Perhaps one of the most significant advances in  made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely the beginnings of algebra. It is important to understand just how significant this new idea was. It was a revolutionary move away from the Greek concept of mathematics which was essentially geometry. Algebra was a unifying theory which allowedrational numbers,irrational numbers, geometrical magnitudes, etc., to all be treated as \"algebraic objects\". It gave mathematics a whole new development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the subject. Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itselfin a way which had not happened before."""

In [None]:
english_text

'Perhaps one of the most significant advances in  made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely the beginnings of algebra. It is important to understand just how significant this new idea was. It was a revolutionary move away from the Greek concept of mathematics which was essentially geometry. Algebra was a unifying theory which allowedrational numbers,irrational numbers, geometrical magnitudes, etc., to all be treated as "algebraic objects". It gave mathematics a whole new development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the subject. Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itselfin a way which had not happened before.'

In [None]:
arabic_text =u"""ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي وهي بدايات الجبر, ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا عن المفهوم اليوناني للرياضيات التي هي في جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, أن تتعامل على أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير من الذي كان موجودا من قبل, وقم وسيلة للتنمية في هذا الموضوع مستقبلا. وجانب آخر مهم لإدخال أفكار الجبر وهو أنه سمح بتطبيق الرياضيات على نفسها بطريقة لم تحدث من قبل"""

In [None]:
arabic_text

'ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي وهي بدايات الجبر, ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا عن المفهوم اليوناني للرياضيات التي هي في جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, أن تتعامل على أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير من الذي كان موجودا من قبل, وقم وسيلة للتنمية في هذا الموضوع مستقبلا. وجانب آخر مهم لإدخال أفكار الجبر وهو أنه سمح بتطبيق الرياضيات على نفسها بطريقة لم تحدث من قبل'

### Data Cleaning

#### Text to sentences

In [None]:
english_sentences = nltk.sent_tokenize(english_text)
arabic_sentences = nltk.sent_tokenize(arabic_text)

In [None]:
print(len(english_sentences), 'English paragraphs')
print(len(arabic_sentences), 'Arabic paragraphs')

6 English paragraphs
2 Arabic paragraphs


In [None]:
english_sentences

['Perhaps one of the most significant advances in  made by Arabic mathematics began at this time with the work of al-Khwarizmi, namely the beginnings of algebra.',
 'It is important to understand just how significant this new idea was.',
 'It was a revolutionary move away from the Greek concept of mathematics which was essentially geometry.',
 'Algebra was a unifying theory which allowedrational numbers,irrational numbers, geometrical magnitudes, etc., to all be treated as "algebraic objects".',
 'It gave mathematics a whole new development path so much broader in concept to that which had existed before, and provided a vehicle for future development of the subject.',
 'Another important aspect of the introduction of algebraic ideas was that it allowed mathematics to be applied to itselfin a way which had not happened before.']

#### Clean English Text

In [None]:
WordNet = WordNetLemmatizer()
english_curpus = []

for i in range(len(english_sentences)):
    # work with only text
    cleaning_text = re.sub('[^a-zA-Z]', ' ', english_sentences[i])
    # text to lower case
    cleaning_text = cleaning_text.lower()
    # tokenize each sentence
    cleaning_text = cleaning_text.split()
    # lematize each word
    sentence_lem = [WordNet.lemmatize(word) for word in cleaning_text if not word in set(stopwords.words("english"))]
    sentence = ' '.join(sentence_lem)
    english_curpus.append(sentence)

In [None]:
english_curpus

['perhaps one significant advance made arabic mathematics began time work al khwarizmi namely beginning algebra',
 'important understand significant new idea',
 'revolutionary move away greek concept mathematics essentially geometry',
 'algebra unifying theory allowedrational number irrational number geometrical magnitude etc treated algebraic object',
 'gave mathematics whole new development path much broader concept existed provided vehicle future development subject',
 'another important aspect introduction algebraic idea allowed mathematics applied itselfin way happened']

#### Clean Arabic Text

In [None]:
arabic_sentences

['ربما كانت أحد أهم التطورات التي قامت بها الرياضيات العربية التي بدأت في هذا الوقت بعمل الخوارزمي وهي بدايات الجبر, ومن المهم فهم كيف كانت هذه الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا عن المفهوم اليوناني للرياضيات التي هي في جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, أن تتعامل على أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير من الذي كان موجودا من قبل, وقم وسيلة للتنمية في هذا الموضوع مستقبلا.',
 'وجانب آخر مهم لإدخال أفكار الجبر وهو أنه سمح بتطبيق الرياضيات على نفسها بطريقة لم تحدث من قبل']

In [None]:
WordNet = WordNetLemmatizer()
arabic_corpus = []

for i in range(len(arabic_sentences)):
    # tokenize each sentence
    cleaning_text = arabic_sentences[i].split()

    # lematize each word
    sentence_lem = [WordNet.lemmatize(word) for word in cleaning_text if not word in set(stopwords.words("arabic"))]
    sentence = ' '.join(sentence_lem)
    arabic_corpus.append(sentence)


In [None]:
stopwords.words("arabic")

['إذ',
 'إذا',
 'إذما',
 'إذن',
 'أف',
 'أقل',
 'أكثر',
 'ألا',
 'إلا',
 'التي',
 'الذي',
 'الذين',
 'اللاتي',
 'اللائي',
 'اللتان',
 'اللتيا',
 'اللتين',
 'اللذان',
 'اللذين',
 'اللواتي',
 'إلى',
 'إليك',
 'إليكم',
 'إليكما',
 'إليكن',
 'أم',
 'أما',
 'أما',
 'إما',
 'أن',
 'إن',
 'إنا',
 'أنا',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'إنما',
 'إنه',
 'أنى',
 'أنى',
 'آه',
 'آها',
 'أو',
 'أولاء',
 'أولئك',
 'أوه',
 'آي',
 'أي',
 'أيها',
 'إي',
 'أين',
 'أين',
 'أينما',
 'إيه',
 'بخ',
 'بس',
 'بعد',
 'بعض',
 'بك',
 'بكم',
 'بكم',
 'بكما',
 'بكن',
 'بل',
 'بلى',
 'بما',
 'بماذا',
 'بمن',
 'بنا',
 'به',
 'بها',
 'بهم',
 'بهما',
 'بهن',
 'بي',
 'بين',
 'بيد',
 'تلك',
 'تلكم',
 'تلكما',
 'ته',
 'تي',
 'تين',
 'تينك',
 'ثم',
 'ثمة',
 'حاشا',
 'حبذا',
 'حتى',
 'حيث',
 'حيثما',
 'حين',
 'خلا',
 'دون',
 'ذا',
 'ذات',
 'ذاك',
 'ذان',
 'ذانك',
 'ذلك',
 'ذلكم',
 'ذلكما',
 'ذلكن',
 'ذه',
 'ذو',
 'ذوا',
 'ذواتا',
 'ذواتي',
 'ذي',
 'ذين',
 'ذينك',
 'ريث',
 'سوف',
 'سوى',
 'شتان',
 'عدا',
 'عسى',
 'عل'

In [None]:
arabic_corpus

['ربما كانت أحد أهم التطورات قامت الرياضيات العربية بدأت الوقت بعمل الخوارزمي وهي بدايات الجبر, المهم فهم كانت الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا المفهوم اليوناني للرياضيات جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, تتعامل أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير كان موجودا قبل, وقم وسيلة للتنمية الموضوع مستقبلا.',
 'وجانب آخر مهم لإدخال أفكار الجبر أنه سمح بتطبيق الرياضيات نفسها بطريقة تحدث قبل']

### Bag-Of Words

In [None]:
# English Text
cv_english = CountVectorizer()
x_english = cv_english.fit_transform(english_curpus).toarray()
x_english.shape


(6, 56)

In [None]:
cv_english.get_feature_names()

['advance',
 'al',
 'algebra',
 'algebraic',
 'allowed',
 'allowedrational',
 'another',
 'applied',
 'arabic',
 'aspect',
 'away',
 'began',
 'beginning',
 'broader',
 'concept',
 'development',
 'essentially',
 'etc',
 'existed',
 'future',
 'gave',
 'geometrical',
 'geometry',
 'greek',
 'happened',
 'idea',
 'important',
 'introduction',
 'irrational',
 'itselfin',
 'khwarizmi',
 'made',
 'magnitude',
 'mathematics',
 'move',
 'much',
 'namely',
 'new',
 'number',
 'object',
 'one',
 'path',
 'perhaps',
 'provided',
 'revolutionary',
 'significant',
 'subject',
 'theory',
 'time',
 'treated',
 'understand',
 'unifying',
 'vehicle',
 'way',
 'whole',
 'work']

In [None]:
# Arabic Text
cv_arabic = CountVectorizer(max_features=2000)
x_arabic = cv_arabic.fit_transform(arabic_corpus).toarray()
x_arabic.shape

(2, 72)

In [None]:
cv_arabic.get_feature_names()

['آخر',
 'أجسام',
 'أحد',
 'أفكار',
 'أنه',
 'أنها',
 'أهم',
 'أوسع',
 'الأعداد',
 'التطورات',
 'الجبر',
 'الجديدة',
 'الخوارزمي',
 'الرياضيات',
 'العربية',
 'الفكرة',
 'الكسرية',
 'اللا',
 'المفهوم',
 'المهم',
 'الموضوع',
 'الهندسية',
 'الوقت',
 'اليوناني',
 'بتطبيق',
 'بدأت',
 'بدايات',
 'بطريقة',
 'بعمل',
 'بعيدا',
 'بكثير',
 'بمفهوم',
 'تتعامل',
 'تتيح',
 'تحدث',
 'جبرية',
 'جديدا',
 'جوهرها',
 'خطوة',
 'ربما',
 'سمح',
 'فقد',
 'فهم',
 'قامت',
 'قبل',
 'كان',
 'كانت',
 'كسرية',
 'ككل',
 'لإدخال',
 'للتطور',
 'للتنمية',
 'للرياضيات',
 'مسارا',
 'مستقبلا',
 'مهم',
 'مهمة',
 'موجودا',
 'موحدة',
 'نظرية',
 'نفسها',
 'نورية',
 'هندسة',
 'وأعطت',
 'والأعداد',
 'والمقادير',
 'وجانب',
 'وسيلة',
 'وغيرها',
 'وقم',
 'وهي',
 'کان']

#### Pandas dataframe

In [None]:
import pandas as pd

df_english = pd.DataFrame(x_english, columns= cv_english.get_feature_names())
df_english.shape

(6, 56)

In [None]:
df_english

Unnamed: 0,advance,al,algebra,algebraic,allowed,allowedrational,another,applied,arabic,aspect,...,subject,theory,time,treated,understand,unifying,vehicle,way,whole,work
0,1,1,1,0,0,0,0,0,1,0,...,0,0,1,0,0,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,1,1,0,1,0,0,0,0,...,0,1,0,1,0,1,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,1,0,1,0
5,0,0,0,1,1,0,1,1,0,1,...,0,0,0,0,0,0,0,1,0,0


In [None]:
df_arabic = pd.DataFrame(x_arabic, columns= cv_arabic.get_feature_names())
df_arabic.shape

(2, 72)

In [None]:
df_arabic

Unnamed: 0,آخر,أجسام,أحد,أفكار,أنه,أنها,أهم,أوسع,الأعداد,التطورات,...,هندسة,وأعطت,والأعداد,والمقادير,وجانب,وسيلة,وغيرها,وقم,وهي,کان
0,0,1,1,0,0,1,1,1,1,1,...,1,1,1,1,0,1,1,1,1,1
1,1,0,0,1,1,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0


In [None]:
arabic_corpus

['ربما كانت أحد أهم التطورات قامت الرياضيات العربية بدأت الوقت بعمل الخوارزمي وهي بدايات الجبر, المهم فهم كانت الفكرة الجديدة مهمة, فقد كانت خطوة نورية بعيدا المفهوم اليوناني للرياضيات جوهرها هندسة, الجبر کان نظرية موحدة تتيح الأعداد الكسرية والأعداد اللا كسرية, والمقادير الهندسية وغيرها, تتعامل أنها أجسام جبرية, وأعطت الرياضيات ككل مسارا جديدا للتطور بمفهوم أوسع بكثير كان موجودا قبل, وقم وسيلة للتنمية الموضوع مستقبلا.',
 'وجانب آخر مهم لإدخال أفكار الجبر أنه سمح بتطبيق الرياضيات نفسها بطريقة تحدث قبل']

# Limitations of Bag-of-Words

The bag-of-words model is very simple to understand and implement and offers a lot of flexibility for customization 
on your specific text data.

Nevertheless, it suffers from some shortcomings, such as:

   
   1- ***Vocabulary***: The vocabulary requires careful design, most specifically in order to manage the size, which impacts the sparsity of the document representations.
   
   
   2- ***Sparsity***: Sparse representations are harder to model both for computational reasons (space and time complexity) and also for information reasons, where the challenge is for the models to harness so little information in such a large representational space.
   
   3- ***Meaning***: Discarding word order ignores the context, and in turn meaning of words in the document (semantics). Context and meaning can offer a lot to the model, that if modeled could tell the difference between the same words differently arranged (“this is interesting” vs “is this interesting”), synonyms (“old bike” vs “used bike”), and much more.

### Printing Dependencies

In [None]:
%load_ext watermark

In [None]:
%watermark --iversion

re    : 2.2.1
pandas: 1.1.3
nltk  : 3.5

