In [1]:
import pandas as pd
import numpy as np

import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,f1_score, confusion_matrix, plot_confusion_matrix, classification_report
from keras.preprocessing.text import Tokenizer 
from keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import LabelEncoder
import seaborn as sns

from sklearn.feature_extraction.text import CountVectorizer, HashingVectorizer, TfidfVectorizer
from sklearn.pipeline import make_pipeline, Pipeline, FeatureUnion

from sklearn.svm import SVC, LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB, BernoulliNB , GaussianNB
from sklearn.ensemble import AdaBoostClassifier , ExtraTreesClassifier, RandomForestClassifier
import xgboost as xgb
import catboost as ctb 
import lightgbm as lbm

import pickle

import warnings
pd.set_option("display.max_colwidth", 200)
warnings.filterwarnings("ignore")


from utils.utils import *

  from pandas import MultiIndex, Int64Index


# Reading Data

In [2]:
data = pd.read_csv('concat4.csv')
data.head()

Unnamed: 0,dialect,txt
0,IQ,يسلملي مرورك وروحك الحلوه مبين كلامه خليجي يعني محسوب البشر حيونه وحشيه وتطلبون الغرب يحترمكم ويؤمن بدينكم ولاينعتكم بالارهاب بالنهايه ينتفض يغير
1,IQ,خلص والله لعيونكم ماعندي شيء معه بالعكس متابعيني بعتز فيهم خلص صافيه لبن مطلبي يقدم استقالته وفوگاها اعتذار ياخي الارهابي عراقي سعودي فلسطيني وين المشكله باب الفرضخليجي وماعنده رحمه وين المساس ب...
2,IQ,شاء اخوه يجمعنه العراق بكل جحيمه حلو والله الموضوع جدا حساس ويحير اتفق معك بس لاتروح زايد عادي اولا اني ردت رجل جنوبي واللي ذكر حجابها ثانيا شدعوه صايره محامي لكوهين صحيح مقوله العراق بلد الغرا...
3,IQ,يسعد مساك بنت العم يسلملي مرورك روعات تواصلك يسعد مساك سيد الحرف الحزين هه عدوله گلبه ورم عدنه گلك خل اتونس همه بكل شيء مارضين فهاي السفره اسمها اتونس وبكيفي
4,IQ,عباله يرجع صدام حسين للحكم ياكلون بخيرنه ويهينون موظفينه اتركه فتره ماسال مايستحق اهتمامك ماخذ بشر وحدي


# Preprocessing

In [3]:
data.txt.sample(3,random_state=42)

61164                                  والله يطلع يطلع في الاخير ماسو شي قدمو شي انشاء يطلع فيصل العيافي بو كاتم محبتي منو الغاء كلام اليوم نهائيا تستهلون انتو وقفين صفو غلط قاعد يصير والله حرام
108590                                                              تقبل طاعتكم  و عام انتوا بخير  عام بخير يالخوي  بنلعبللخير بدينا البث شباب  رتويت ميزان حسناتكم يقولون هاذي مو اول مره  شسالفه
52819     الحمدلله شعور  صباحالخير اندم صراحتي فالعيش بوجهين امر يقرفني جدا متطوعات تطوع عملتطوعي فرصهتطوع تطوعبلاحدود غردبصوره غرد الرياض ريتويت ريتويتفضلا صباح الاماني صباحالخير ياوطني الغالي 
Name: txt, dtype: object

In [4]:
data.txt = data.txt.apply(preprocessing)

In [5]:
data.txt.sample(3,random_state=5)

62701                                                                                                  افندم حضرتك شفتك  اكدب عنيا يعني اه بحرف النون برضو عندنا نقص حلو ده معناه ايه ربنا يسعدك ويفرح قلبك يارب
99074    اهداء الي  عشان تعرف وتفهم ويصحي ضميرك ضمير الاصل اقراء التعليقات دي كويس سامحنا استاذ حقك رقبتنا عربيه بيت فيلا رحله دبي فرنسا حاجات زي دي الكلام دا حرفيا بعيد علي شديد ياخي اكتر حاجه بتزعل انو ب...
72173    طول عمرك محترم كابتن احمد وياريتهم يفهموا  عارف ليه بتفرج الحلقه بتاعتك وتيجي تخلص بحس اني زعلان انها خلصت  مبدع كالعاده وبالتوفيق دايما ابو الاجناش الزملكاويه بيحاربوا الزمالك عشان عارفين انه لمس...
Name: txt, dtype: object

# splitting to train_valid_test sets

In [6]:
le = LabelEncoder()

data['dialect'] = le.fit_transform(data['dialect'])
data['dialect']

0         4
1         4
2         4
3         4
4         4
         ..
114545    1
114546    1
114547    1
114548    1
114549    1
Name: dialect, Length: 114550, dtype: int32

In [7]:
len(data), 25000/len(data)

(114550, 0.21824530772588388)

In [8]:
data['dialect'].value_counts()

3     14409
11    10936
6     10528
8      9124
12     7767
5      6981
7      6903
13     6708
0      6575
1      6573
10     4779
15     4061
2      4047
4      3875
14     3608
9      2885
17     2481
16     2310
Name: dialect, dtype: int64

In [9]:
# get train and test sets
xtrain,xtest,ytrain,ytest=train_test_split(data['txt'],data['dialect'],test_size=0.05,random_state=45,shuffle=True, stratify = data['dialect'])

In [10]:
len(xtrain),25000/len(xtrain)

(108822, 0.2297329584091452)

In [11]:
xtrain,xvalid,ytrain,yvalid=train_test_split(xtrain,ytrain,test_size=0.05,random_state=45,shuffle=True,stratify = ytrain)

# Creating Pipeline

In [15]:
## Vectorzers
cvec = CountVectorizer()
hvec = HashingVectorizer(ngram_range=(2,5), n_features=50000)
tvec = TfidfVectorizer(max_features=30000,ngram_range=(1,6))

## classifiers
rf = RandomForestClassifier()
adac = AdaBoostClassifier()
xgbc = xgb.XGBClassifier()
catc = ctb.CatBoostClassifier()
lbmc = lbm.LGBMClassifier()

lrc =LogisticRegression()
svc = SVC()
lsvc = LinearSVC()
mnbc = MultinomialNB()
bnbc = BernoulliNB()
gnbc = GaussianNB()

## label encoder 


In [16]:
pipe = Pipeline(steps=[
    ('tfidf', tvec),
    ('clf', lsvc ),
    ])

In [17]:
pipe.fit(xtrain,ytrain)
preds = pipe.predict(xtest)

In [18]:
accuracy_score(ytest, preds)

0.7493016759776536

In [19]:
f1_score(ytest, preds, average='macro')

0.7327302470439183

# Saving Model

In [20]:
with open('assets/mlmodel.pkl', 'wb') as model:
    pickle.dump(pipe,model)

In [21]:
with open('assets/le.pkl', 'wb') as lencoder:
    pickle.dump(le,lencoder)

# Loading and prediction

In [22]:
with open('assets/mlmodel.pkl', 'rb') as f:
    model = pickle.load(f)

In [23]:
preds = model.predict(xvalid)
accuracy_score(yvalid,preds), f1_score(yvalid,preds, average='macro')

(0.7473355384049981, 0.7302360160726473)