Feature Extraction

Bag-of-Words

In [4]:
# Bag of words model  (BOW)
# represent all the bags in a matrix of size (number of bags, number of words in the vocabulary) 
# each row is a bag and each column is a word in the vocabulary
# the value in each cell is the number of times the word appears in the bag
# the vocabulary is the set of all the words in the corpus
# the corpus is the set of all the bags
# the number of bags is the number of documents in the corpus
# the number of words in the vocabulary is the number of unique words in the corpus


# TF-IDF model
# Word2Vec model


In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from preprocess import Preprocess 
preprocess = Preprocess()

In [6]:
# read the data
t = pd.read_csv('./Dataset/train.csv')
X = t['text']

In [None]:
# do the preprocessing
X = X.apply(preprocess.do_all)

In [8]:
print(X.head(10))

0    بيل غيتس يتلقى لقاح #كوفيد19 من غير تصوير الاب...
1    وزير الصحة لحد اليوم وتحديدا هلأ بمؤتمروا الصح...
2    قولكن  رح يكونو اد المسؤولية ب لبنان لما يوصل ...
3    #تركيا.. وزير الصحة فخر الدين قوجة يتلقى أول ج...
4    وئام وهاب يشتم الدول الخليجية في كل طلة اعلامي...
5    لقاح #كورونا في أميركا.. قلق متزايد من "التوزي...
6    لبنان اشترى مليونان لقاح امريكي اذا شلنا يلي ع...
7    من عوارض لقاح كورونا<LF>هو تهكير حسابك عتويتر<...
8    هناك 1780 مليونيراً في لبنان. ماذا لو فُرضت ال...
9    دعبول حضرتك منو انت وتطلب من قائد دولة إسلامية...
Name: text, dtype: object


In [9]:
# count vectorizer function takes sentences as input 
# convert it into matrix representation 
# where each cell will be filled by the frequency of each vocab
vectorizer = CountVectorizer()
bow_model = vectorizer.fit_transform(X.head(10))

In [10]:
print(bow_model.toarray())

[[0 2 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 1 0]
 ...
 [0 0 0 ... 0 0 0]
 [1 0 1 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [11]:
# transform the matrx into pandas dataframe 
# to set the column names as actual vocab words which are our features
df_bow = pd.DataFrame(bow_model.toarray(), columns = vectorizer.get_feature_names())
df_bow

Unnamed: 0,1780,65,9kte81z1jk,co,https,lf,nnatra5bpb,qbustq1kpy,qqkffunwbn,user,...,يشتم,يطلع,يعنى,يعني,يقول,يكونو,يلا,يلي,يوصل,١٦
0,0,2,0,1,1,0,0,0,1,0,...,0,0,1,0,1,0,0,0,0,0
1,0,0,0,0,0,4,0,0,0,0,...,0,0,0,1,0,0,1,0,0,0
2,0,0,0,0,0,2,0,0,0,0,...,0,0,0,0,0,1,0,0,1,0
3,0,0,0,1,1,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,1,0,0,0,1,...,1,0,0,0,0,0,0,0,0,0
5,0,0,0,1,1,1,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,1
7,0,0,0,0,0,2,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,1,0,1,1,1,4,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
9,0,0,0,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0


In [12]:
#show all features (unique words)
print(vectorizer.get_feature_names())


['1780', '65', '9kte81z1jk', 'co', 'https', 'lf', 'nnatra5bpb', 'qbustq1kpy', 'qqkffunwbn', 'user', 'ألفي', 'أميركا', 'أنقرة', 'أوكسفام', 'أول', 'إحدى', 'إسلامية', 'إنوا', 'اتابع', 'اد', 'اذا', 'اشترى', 'اصغر', 'اعلامية', 'ال', 'الآمن', 'الأجدر', 'الإنفوغراف', 'الابرة', 'الاخبار', 'التوزيع', 'التي', 'الثلاجة', 'الخطأ', 'الخليجية', 'الدواء', 'الدول', 'الدولة', 'الدين', 'السيرنجة', 'الشتاء', 'الصحة', 'الصحفي', 'الصيني', 'الضريبة', 'العادل', 'اللقاح', 'المارقة', 'المسؤولية', 'النظافة', 'الوحيد', 'الى', 'اليوم', 'امريكي', 'ان', 'انت', 'انه', 'انوا', 'اول', 'بالعاصمة', 'بالعالم', 'باي', 'بدعم', 'بدها', 'بدهم', 'بس', 'بعتقد', 'بعض', 'بفايزر', 'بفضل', 'بكرا', 'بكل', 'بمؤتمروا', 'بنذكر', 'بها', 'بوسطن', 'بولو', 'بيل', 'تاني', 'تجبر', 'تجيب', 'تحت', 'تدعي', 'تدفع', 'تركيا', 'تستحي', 'تصوير', 'تصير', 'تهكير', 'توقيفه', 'ثرواتهم', 'جاء', 'جرعة', 'حبيبي', 'حسابك', 'حضرتك', 'حفظت', 'دبي', 'دعبول', 'دعبول_دومه_مسحول', 'دولة', 'رح', 'رضت', 'سنة', 'شئت', 'شلنا', 'شي', 'صيفي', 'طريق', 'طلة', 'عاصي_الحل