In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.preprocessing import StandardScaler

from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer


In [91]:
df=pd.read_csv("ar_reviews_100k.tsv",delimiter="\t")
df

Unnamed: 0,label,text
0,Positive,ممتاز نوعا ما . النظافة والموقع والتجهيز والشا...
1,Positive,أحد أسباب نجاح الإمارات أن كل شخص في هذه الدول...
2,Positive,هادفة .. وقوية. تنقلك من صخب شوارع القاهرة الى...
3,Positive,خلصنا .. مبدئيا اللي مستني ابهار زي الفيل الاز...
4,Positive,ياسات جلوريا جزء لا يتجزأ من دبي . فندق متكامل...
...,...,...
99994,Negative,معرفش ليه كنت عاوزة أكملها وهي مش عاجباني من ا...
99995,Negative,لا يستحق ان يكون في بوكنق لانه سيئ . لا شي. لا...
99996,Negative,كتاب ضعيف جدا ولم استمتع به. فى كل قصه سرد لحا...
99997,Negative,مملة جدا. محمد حسن علوان فنان بالكلمات، والوصف...


In [92]:
df["label"].value_counts()

Positive    33333
Negative    33333
Mixed       33333
Name: label, dtype: int64

In [93]:
df["label"]=df["label"].apply(lambda x:-1 if x=="Negative" else(0 if x=="Mixed" else 1))

In [94]:
df["label"].value_counts()

-1    33333
 1    33333
 0    33333
Name: label, dtype: int64

In [95]:
df

Unnamed: 0,label,text
0,1,ممتاز نوعا ما . النظافة والموقع والتجهيز والشا...
1,1,أحد أسباب نجاح الإمارات أن كل شخص في هذه الدول...
2,1,هادفة .. وقوية. تنقلك من صخب شوارع القاهرة الى...
3,1,خلصنا .. مبدئيا اللي مستني ابهار زي الفيل الاز...
4,1,ياسات جلوريا جزء لا يتجزأ من دبي . فندق متكامل...
...,...,...
99994,-1,معرفش ليه كنت عاوزة أكملها وهي مش عاجباني من ا...
99995,-1,لا يستحق ان يكون في بوكنق لانه سيئ . لا شي. لا...
99996,-1,كتاب ضعيف جدا ولم استمتع به. فى كل قصه سرد لحا...
99997,-1,مملة جدا. محمد حسن علوان فنان بالكلمات، والوصف...


In [96]:
from nltk.stem import ISRIStemmer
from nltk.stem import PorterStemmer
import re
sm = PorterStemmer()

In [97]:
stopwords = open("stopwords_ar.txt",'r',encoding="utf-8").read().split('\n')
def cleaning(text):
    text  =  re.sub('[^ء-ي]',' ',text).replace("  ",' ')
    filtered_words = []
    words = text.split()
    for word in words:
        if word.lower() in stopwords:
            pass
        else:
            filtered_words.append(sm.stem(word))
    return ' '.join(filtered_words)

In [98]:
stopwords

['،',
 'ء',
 'ءَ',
 'آ',
 'آب',
 'آذار',
 'آض',
 'آل',
 'آمينَ',
 'آناء',
 'آنفا',
 'آه',
 'آهاً',
 'آهٍ',
 'آهِ',
 'أ',
 'أبدا',
 'أبريل',
 'أبو',
 'أبٌ',
 'أجل',
 'أجمع',
 'أحد',
 'أخبر',
 'أخذ',
 'أخو',
 'أخٌ',
 'أربع',
 'أربعاء',
 'أربعة',
 'أربعمئة',
 'أربعمائة',
 'أرى',
 'أسكن',
 'أصبح',
 'أصلا',
 'أضحى',
 'أطعم',
 'أعطى',
 'أعلم',
 'أغسطس',
 'أفريل',
 'أفعل به',
 'أفٍّ',
 'أقبل',
 'أكتوبر',
 'أل',
 'ألا',
 'ألف',
 'ألفى',
 'أم',
 'أما',
 'أمام',
 'أمامك',
 'أمامكَ',
 'أمد',
 'أمس',
 'أمسى',
 'أمّا',
 'أن',
 'أنا',
 'أنبأ',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'أنتِ',
 'أنشأ',
 'أنه',
 'أنًّ',
 'أنّى',
 'أهلا',
 'أو',
 'أوت',
 'أوشك',
 'أول',
 'أولئك',
 'أولاء',
 'أولالك',
 'أوّهْ',
 'أى',
 'أي',
 'أيا',
 'أيار',
 'أيضا',
 'أيلول',
 'أين',
 'أيّ',
 'أيّان',
 'أُفٍّ',
 'ؤ',
 'إحدى',
 'إذ',
 'إذا',
 'إذاً',
 'إذما',
 'إذن',
 'إزاء',
 'إلى',
 'إلي',
 'إليكم',
 'إليكما',
 'إليكنّ',
 'إليكَ',
 'إلَيْكَ',
 'إلّا',
 'إمّا',
 'إن',
 'إنَّ',
 'إى',
 'إياك',
 'إياكم',
 'إياكما',
 'إياكن',


In [99]:
df["clean text"]=df["text"].apply(cleaning)

In [100]:
df["clean text"]

0        ممتاز نوعا النظافة والموقع والتجهيز والشاطيء ا...
1        أسباب نجاح الإمارات شخص الدولة يعشق ترابها نحب...
2        هادفة وقوية تنقلك صخب شوارع القاهرة هدوء جبال ...
3        خلصنا مبدئيا اللي مستني ابهار زي الفيل الازرق ...
4        ياسات جلوريا جزء يتجزأ دبي فندق متكامل الخدمات...
                               ...                        
99994    معرفش ليه كنت عاوزة أكملها مش عاجباني البداية ...
99995    يستحق بوكنق لانه سيئ شي يوجد خدمة افطار صباحي ...
99996    كتاب ضعيف استمتع قصه سرد لحاله مشهد بدون فكره ...
99997    مملة محمد حسن علوان فنان بالكلمات والوصف عندة ...
99998    ارجع إليه مرة قربه البحر المكان قديم توجد خدما...
Name: clean text, Length: 99999, dtype: object

In [101]:
df[df["clean text"]==""]


Unnamed: 0,label,text,clean text
3539,1,. ...... .. . . . .... . . . .. ؟ .....,
4483,1,ل ل .. ، . . ، ، ، . ، ، ، ، ،. ، . ، . ، .. ....,
8419,1,م ا ل ل,
21558,1,من هنا :. :// . . / / ...,
25193,1,أ,
25768,1,ة ل ..,
27432,1,، ، ؛ ، ، ، .. ، ، ، ، : ؟ . ، : ، ، ة.,
29249,1,، ، ، ، ، ، ، ، ، .. :// . . / / ...,
41954,0,فقط لا غير,
42573,0,. .. أ أن أ أ .. . .. . ... أو .. .,


In [102]:
df.drop(df[df["clean text"]==""].index,inplace=True)

In [103]:
df[df["clean text"]==""]


Unnamed: 0,label,text,clean text


In [69]:

tfidf = TfidfVectorizer()
x = tfidf.fit_transform(df["clean text"])
x.shape

(99979, 309626)

In [45]:
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,df.label,random_state=55,test_size = 0.2)

In [46]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(x,df.label)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


LogisticRegression()

In [47]:
clf.score(x_train,y_train)


0.8388532563169674

In [48]:
y_pred = clf.predict(x_test)

In [49]:
accuracy_score(y_test, y_pred)

0.8373174634926985

In [77]:
test = "بحس انه عادى "
test = cleaning(test)
print(test)
test = tfidf.transform([test])


بحس عادى


In [78]:
clf.predict(test)

array([0], dtype=int64)

In [104]:
tfidf = TfidfTransformer()

from sklearn.pipeline import Pipeline

pipelin= Pipeline([('tfidf',TfidfVectorizer()),
                     ('lr_classifier',LogisticRegression())])

In [110]:
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,df.label,random_state=55,test_size = 0.2)
# call fit as you would on any classifier


In [111]:
pipelin.fit(x_train,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Pipeline(steps=[('tfidf', TfidfVectorizer()),
                ('lr_classifier', LogisticRegression())])

In [None]:
model(test)

In [None]:
model=[tfidf,clf]
import pickle
pickle.dump(pipeline,open('iri.pkl', 'wb'))



In [None]:
model = pickle.load(open('iri.pkl', 'rb'))

In [None]:
test = "بحس انه عادى "
model.predict(test)

In [109]:
x=df["clean text"]