# Text Classification

This is our `hello world` example 

In [None]:
# a helper functions and imports
from IPython.display import display
def highlight_col(x, df):
    #set by condition
    mask =  df['label'] == 'pos'
    mask2 = df['label'] == 'neg'
    x = pd.DataFrame('', index=df.index, columns=df.columns)
    x.loc[mask] = 'background-color: #e6ffe6'
    x.loc[mask2] = 'background-color: #ffe6e6'
    return x

## Load the data

In [4]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

train_pos = pd.read_csv("train_Arabic_tweets_positive_20190413.tsv", sep='\t', header=None)
train_neg = pd.read_csv("train_Arabic_tweets_negative_20190413.tsv", sep='\t', header=None)
train_data = pd.concat([train_pos, train_neg], ignore_index=True)
train_data.columns = ['label', 'tweet']
del train_pos, train_neg

pd.set_option('display.max_colwidth', 100000)
df_tmp = train_data.sample(5)
df_tmp.style.apply(lambda x: highlight_col(x, df_tmp), axis=None)

Unnamed: 0,label,tweet
33192,neg,رحم الله امرء عرف مقدار نفسه 🤣🤣 تعجبني 👍🏻
27768,neg,ليتك تفرحنا وتحكيلنا قصة ليمان وكيف كان يأمر الأتراك بأن يضعوا أهلك على الخوازيق وكان الترك ينفذون أوامره وليتك تحك…
43112,neg,افا هذي اخرتها نردد نشيد #الاتحاد ؟ طول عمرنا نهايط ونقول #الهلال مايهمه أحد وفوق الجميع والحين ندور الفزعة من فريق…
26694,neg,صراحه ماكنت ناويه احط لايك يوم شفتك تهددين خفت وحطيت يعني اللايك اجباري 💔
17026,pos,طفله سألت جدها ؟ هل لديك اسنان ياجدي 😎 قال لا فقالت الطفله الحمد الله 😂 هاك الزم التفاحه هسه اجي 😂😯 يمه البنات 😍


In [5]:
test_pos = pd.read_csv("test_Arabic_tweets_positive_20190413.tsv", sep='\t', header=None)
test_neg = pd.read_csv("test_Arabic_tweets_negative_20190413.tsv", sep='\t', header=None)
test_data = pd.concat([test_pos, test_neg], ignore_index=True)
test_data.columns = ['label', 'tweet']
del test_pos, test_neg

df_tmp = test_data.sample(5)
df_tmp.style.apply(lambda x: highlight_col(x, df_tmp), axis=None)

Unnamed: 0,label,tweet
8956,neg,"جمهورنا : المتبعثر المكسور ! ياما : عطا .. ولا أخذ : حاجة ! ' ياما : وفا .. ولا عليه "" قصور "" ياما انجرح .. ولا لق…"
6983,neg,مين انتم 😐
1749,pos,الي راح حمادة والي جاي حمادة تاني خالص. الناس الي طلعت واحتفلت دي عارفة أن الشغل الجد يادوب حيبدأ؟! اسقاط النظام ه…
3995,pos,حسابات ملگية♛ 🌟🌟 مغردون مميزون.. لهم حضور أنيق وحروف رآقية 🌸 #حسابات_ملكية_تستحق_المتابعة 👇🏻👇🏻👇🏻👇🏻…
6659,neg,عن نفسي انا ما شفت تويتات تشكيك في تجمع المهنيين او تخوينهم شفت تويتات ناس بتتكلم بس عن الناس الخونو 😕


## Baseline model (using pipeline)

In [6]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.pipeline import make_pipeline

vec = CountVectorizer()
clf = LogisticRegression()
pipe = make_pipeline(vec, clf)
pipe.fit(train_data.tweet, train_data.label);

Let's test this basic model

In [7]:
from sklearn import metrics

def print_report(pipe, x_test, y_test):
    y_pred = pipe.predict(x_test)
    report = metrics.classification_report(y_test, y_pred)
    print(report)
    print("accuracy: {:0.3f}".format(metrics.accuracy_score(y_test, y_pred)))

print_report(pipe, test_data.tweet, test_data.label)

              precision    recall  f1-score   support

         neg       0.77      0.82      0.80      5768
         pos       0.81      0.76      0.78      5752

    accuracy                           0.79     11520
   macro avg       0.79      0.79      0.79     11520
weighted avg       0.79      0.79      0.79     11520

accuracy: 0.792


## let's take a look inside the model

In [8]:
import eli5
eli5.show_weights(clf, vec=vec, top=20)

Weight?,Feature
+2.783,الإخونج
+2.393,وصباحك
+2.214,هالسنه
+2.160,السحب
+2.091,برونو
+2.082,ابريل
+2.077,الزرقاء
+2.025,اللوك
+1.893,الطيب
+1.876,مبروك


## Try our model on some tweets

In [9]:
for _, row in test_data.sample(5).iterrows():
    print(f"true label: {row['label']}")
    display(eli5.show_prediction(clf, row['tweet'], vec=vec,))
    print("--"*50)

true label: neg


Contribution?,Feature
1.144,Highlighted in text (sum)
0.333,<BIAS>


----------------------------------------------------------------------------------------------------
true label: neg


Contribution?,Feature
1.391,Highlighted in text (sum)
0.333,<BIAS>


----------------------------------------------------------------------------------------------------
true label: neg


Contribution?,Feature
0.999,Highlighted in text (sum)
0.333,<BIAS>


----------------------------------------------------------------------------------------------------
true label: pos


Contribution?,Feature
1.474,Highlighted in text (sum)
-0.333,<BIAS>


----------------------------------------------------------------------------------------------------
true label: pos


Contribution?,Feature
4.027,Highlighted in text (sum)
-0.333,<BIAS>


----------------------------------------------------------------------------------------------------


## Try Tfidf with some processing

In [17]:
vec = TfidfVectorizer(analyzer='char_wb', ngram_range=(3, 5), min_df=.01, max_df=.3)
clf = LinearSVC()
pipe_tfidf = make_pipeline(vec, clf)
pipe_tfidf.fit(train_data.tweet, train_data.label)

0,1,2
,steps,"[('tfidfvectorizer', ...), ('linearsvc', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,analyzer,'char_wb'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'

0,1,2
,penalty,'l2'
,loss,'squared_hinge'
,dual,'auto'
,tol,0.0001
,C,1.0
,multi_class,'ovr'
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,verbose,0


In [18]:
print_report(pipe_tfidf, test_data.tweet, test_data.label)

              precision    recall  f1-score   support

         neg       0.85      0.82      0.84      5768
         pos       0.83      0.86      0.84      5752

    accuracy                           0.84     11520
   macro avg       0.84      0.84      0.84     11520
weighted avg       0.84      0.84      0.84     11520

accuracy: 0.838


In [12]:
eli5.show_weights(clf, vec=vec, top=20)

Weight?,Feature
+5.905,😂
+5.245,💙
+5.222,💛
+4.580,🌹
+3.866,🤣
+3.857,❤
+3.727,😍
+2.864,تويت
+2.555,💪
… 772 more positive …,… 772 more positive …


In [13]:
for _, row in test_data.sample(5).iterrows():
    print(f"true label: {row['label']}")
    display(eli5.show_prediction(clf, row['tweet'], vec=vec,))
    print("--"*50)

true label: pos


Contribution?,Feature
1.804,Highlighted in text (sum)
0.084,<BIAS>


----------------------------------------------------------------------------------------------------
true label: neg


Contribution?,Feature
0.69,Highlighted in text (sum)
0.084,<BIAS>


----------------------------------------------------------------------------------------------------
true label: neg


Contribution?,Feature
0.151,Highlighted in text (sum)
-0.084,<BIAS>


----------------------------------------------------------------------------------------------------
true label: pos


Contribution?,Feature
1.888,Highlighted in text (sum)
0.084,<BIAS>


----------------------------------------------------------------------------------------------------
true label: pos


Contribution?,Feature
2.003,Highlighted in text (sum)
0.084,<BIAS>


----------------------------------------------------------------------------------------------------
