In [1]:
import glob
import os
import matplotlib.pyplot as plt
from collections import Counter
from sklearn.svm import SVC
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.linear_model import SGDClassifier, LogisticRegression
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten, LSTM, Embedding
from configs import *
from fetch_data import *
from features_extraction import *
from data_shuffling_split import *
from data_preprocess import *
from ml_modeling import *

In [2]:
strat_train_set = read_csv("train/strat_train_set.csv")
strat_train_set = strat_train_set.iloc[:5000]
strat_train_set.head()

Number of instances in the file are:  449033


Unnamed: 0,id,dialect,dialect_l_encoded,text
0,1056552188082716800,LY,8,توا دوشه الكلاسيكو شن بيتمها وشن بيسكتهم وشن ب...
1,891734969202114560,SY,15,حسابشخصي في احلي من الشحاطه 😂
2,1110565179257954432,SD,14,حسابشخصي موهبه والله 😂 اوع تحاول تطورها تقوم م...
3,1172817955270340608,LB,7,حسابشخصي حسابشخصي 😂 انا صرلي عشر سنين مش مجدده...
4,293253217821790208,QA,12,احلي شعور تكون باجازه وتقوم من الصبح وتمر ع ال...


In [3]:
x_train_text, x_val_text, y_train, y_val = prepare_data(strat_train_set)

The number of instances in the training data after StratifiedShuffleSplit are:  4900
The number of instances in the testing data after StratifiedShuffleSplit are:   100
The number of trainin instances:  4900
The number of validation instances:  100
The number of trainin labels :  4900
The number of validation labels :  100


In [4]:
x_train_text_tokenized = tokenize_using_nltk_TreebankWordTokenizer(x_train_text)

print("Before Tokenization : \n", x_train_text[:3])
print("="*50)
print("After Tokenization : \n", x_train_text_tokenized[:3])
print("="*50)

x_val_text_tokenized = tokenize_using_nltk_TreebankWordTokenizer(x_val_text)

print("Before Tokenization : \n", x_val_text[:3])
print("="*50)
print("After Tokenization : \n", x_val_text_tokenized[:3])

Before Tokenization : 
 ['حسابشخصي ملعون ابوك يا فقر يا حاوجني للاندال ذليت عزيز النفس عشان عديم المال', 'حسابشخصي يالله يالله يالله يا كريم سبحانك', 'حسابشخصي ضروري يا زول تضل موجود']
After Tokenization : 
 [['حسابشخصي', 'ملعون', 'ابوك', 'يا', 'فقر', 'يا', 'حاوجني', 'للاندال', 'ذليت', 'عزيز', 'النفس', 'عشان', 'عديم', 'المال'], ['حسابشخصي', 'يالله', 'يالله', 'يالله', 'يا', 'كريم', 'سبحانك'], ['حسابشخصي', 'ضروري', 'يا', 'زول', 'تضل', 'موجود']]
Before Tokenization : 
 ['تري حتي لو كان بياع الرقي بنظرك يبي يكسب تعاطف الناس عشان يعطونه فلوس عشان جذي حاط جم رقيه ويبع هم ابرك من قعدته بالبيت وعلي الاقل عنده كرامه ويبي يعيش ويعيش اهله . . الرحمه يا بشر في ايام الخير #بياع_الرقي_الشريف', 'حسابشخصي عن ابوه ما تبغون حتي يكرمون جماهيرهم اللي طول الوقت في النادي ويراكضون وياهم من نادي لنادي ويشجعونهم طول الوقت . . . . . اللاعب اذا حصل عرض بيروح لكن المشجع باقي بيب لكم جماهير ولاعبين يلعبون في المراحل . . . . . ومستكثر علي هذا المشجع ولد النادي اللي ما اعرفه ولا اعرف ناديه انهم يودونه', 'حسابشخصي ح

In [5]:
word_to_vec_model = load_word2vec_model("models/word2vec/rezk_unigram_CBOW_model/train_word2vec_cbow__window_3_min_count_300")

In [6]:
number_of_features = 300
max_len_str = 64
word2vec_path = "rezk/"
model_path_to_save = "models/ml_models/"
estimators = voting_models()

X_train_embed_matrix = text_to_matrix_using_word2vec(word_to_vec_model, x_train_text_tokenized, max_len_str)
X_val_embed_matrix = text_to_matrix_using_word2vec(word_to_vec_model, x_val_text_tokenized, max_len_str)

X_train_embed_matrix = X_train_embed_matrix.reshape(X_train_embed_matrix.shape[0], max_len_str, number_of_features)
X_val_embed_matrix = X_val_embed_matrix.reshape(X_val_embed_matrix.shape[0], max_len_str, number_of_features)

(4900, 19200)
[-0.1262   0.2761   0.2466  -0.3464  -0.5044   0.216    0.2651   0.05423
 -0.3276  -0.2793   0.328    0.1699  -0.05267  0.1941   0.292    0.1654
 -0.01619 -0.428    0.411    0.0927   0.271    0.6206  -0.04764  0.04465
  0.0863   0.06042  0.08374 -0.0927   0.05176 -0.1616  -0.4875   0.4932
  0.1333   0.4666   0.0387  -0.19     0.05563 -0.1526   0.549    0.2966
 -0.0969  -0.345   -0.2896  -0.0667   0.12146  0.2126   0.1146  -0.4404
 -0.1198   0.2651 ]
(100, 19200)
[-0.4592   0.2432   0.1448  -0.4316   0.6978  -0.1765  -0.1914   0.1428
  0.5747   0.5137  -0.221    0.11597  0.662    0.0326   0.1252  -0.2151
 -0.1257  -0.07007 -0.6455  -0.2339   0.306   -0.3018   0.4214  -0.404
 -0.0551   0.6265  -0.04926  0.2296  -0.3257   0.4802  -0.0753   1.139
 -0.1752   0.347    0.3054  -0.1255  -0.0935  -0.2761  -0.00686  0.388
  0.7505  -0.04257  0.333   -0.1248   0.1353   0.2834  -0.04108 -0.5044
  0.603   -0.2319 ]


In [None]:
num_nuros = 50
model = Sequential()

model.add(LSTM(num_nuros, return_sequences=True, input_shape=(max_len_str, number_of_features)))
model.add(Dropout(.2))
model.add(Flatten())
model.add(Dense(18, activation="softmax"))
model.compile(loss="sparse_categorical_crossentropy",
         optimizer="sgd",
         metrics="accuracy")
model.summary()
history = model.fit(X_train_embed_matrix, y_train, batch_size=32, epochs=10, validation_data=(X_val_embed_matrix, y_val))

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm_1 (LSTM)                (None, 64, 50)            70200     
_________________________________________________________________
dropout (Dropout)            (None, 64, 50)            0         
_________________________________________________________________
flatten (Flatten)            (None, 3200)              0         
_________________________________________________________________
dense (Dense)                (None, 18)                57618     
Total params: 127,818
Trainable params: 127,818
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10