In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from random import randint
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import confusion_matrix
from arabicstemmer import ArabicStemmer
from textblob import TextBlob
import re

In [2]:
path = r"C:\Users\yazan\Documents\NAJAH\NLP\HWS\HW1\tweet_sentiment.csv"
df = pd.read_csv(path)
df.head()

Unnamed: 0,Tweet,Sentiment,Sentiment_Expression
0,"""أنا أؤمن بأن الانسان ينطفئ جماله عند ابتعاد م...",negative,implicit
1,من الذاكره... @3FInQe . عندما اعتقد كريستيانو ...,positive,explicit
2,لا نخلو من ضغوطات الحياة. فنحن نعيش على أرض أع...,neutral,none
3,#مصطلحات_لبنانيه_حيرت_البشريه بتوصل عالبيت ، ب...,negative,explicit
4,نصمت !! لتسير حياتنا على مً يرام فالناّس لم تع...,negative,explicit


In [3]:
print(df['Sentiment'].unique())
df['Sentiment'] = df['Sentiment'].replace('very_positive','positive')
df['Sentiment'] = df['Sentiment'].replace('very_negative','negative')
print(df['Sentiment'].unique())
df = df.drop('Sentiment_Expression', axis=1)
df.head()

['negative' 'positive' 'neutral' 'very_positive' 'very_negative']
['negative' 'positive' 'neutral']


Unnamed: 0,Tweet,Sentiment
0,"""أنا أؤمن بأن الانسان ينطفئ جماله عند ابتعاد م...",negative
1,من الذاكره... @3FInQe . عندما اعتقد كريستيانو ...,positive
2,لا نخلو من ضغوطات الحياة. فنحن نعيش على أرض أع...,neutral
3,#مصطلحات_لبنانيه_حيرت_البشريه بتوصل عالبيت ، ب...,negative
4,نصمت !! لتسير حياتنا على مً يرام فالناّس لم تع...,negative


In [155]:
df['Sentiment'].value_counts()

negative    1883
positive    1232
neutral      885
Name: Sentiment, dtype: int64

In [114]:
stemmer = ArabicStemmer()
stop_words=stopwords.words('arabic')
stemmed_stop_words = stemmer.stemWords(stop_words)
def textblob_tokenizer(str_input):
    str_no_number = re.sub(r'[^ء-ي\s]+', '', str_input)
    stemmed_word = stemmer.stemWord(str_no_number)
    tokens = stemmed_word.split()
    #words = [token for token in tokens]
    words = [token for token in tokens if token not in stop_words and token not in stemmed_stop_words]
    return words

In [115]:
x = df['Tweet']
y = df['Sentiment']
x, x_test, y, y_test = train_test_split(x,y, stratify=y, test_size=0.25, random_state=42)
vec = CountVectorizer(tokenizer=textblob_tokenizer)
x = vec.fit_transform(x)
x_test = vec.transform(x_test)
results = pd.DataFrame(x.toarray(), columns=vec.get_feature_names_out())
print(results)

      ااعلم  اام  ابا  ابادة  ابارك  اباعبدالله  اباه  اببض  ابتاع  ابتخزي  \
0         0    0    1      0      0           0     0     0      0       0   
1         0    0    0      0      0           0     0     0      0       0   
2         0    0    0      0      0           0     0     0      0       0   
3         0    0    0      0      0           0     0     0      0       0   
4         0    0    0      0      0           0     0     0      0       0   
...     ...  ...  ...    ...    ...         ...   ...   ...    ...     ...   
2995      0    0    0      0      0           0     0     0      0       0   
2996      0    0    0      0      0           0     0     0      0       0   
2997      0    0    0      0      0           0     0     0      0       0   
2998      0    0    0      0      0           0     0     0      0       0   
2999      0    0    0      0      0           0     0     0      0       0   

      ...  يومي  يوميا  يومين  يونان  يونس  يوووه  يي  ييجي  يي

In [153]:
%%time
from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB(alpha=3)
model.fit(x, y)

Wall time: 11 ms


MultinomialNB(alpha=3)

In [154]:
%%time
print(model.score(x_test, y_test))
y_pred = model.predict(x_test)
cf_matrix = confusion_matrix(y_test, y_pred)

print("matrix: ",cf_matrix)
print("precision: ",cf_matrix[0][0]/(cf_matrix[0][0]+cf_matrix[1][0]))
print("recall: ",cf_matrix[0][0]/(cf_matrix[0][0]+cf_matrix[0][1]))
print("F1: ",2*cf_matrix[0][0]/(2*cf_matrix[0][0]+cf_matrix[0][1]+cf_matrix[1][0]))
pair1=(cf_matrix[0][0]/(cf_matrix[0][0]+cf_matrix[0][1]),cf_matrix[1][0]/(cf_matrix[1][0]+cf_matrix[1][1]))

0.682
matrix:  [[409  20  42]
 [ 88  85  48]
 [ 85  35 188]]
precision:  0.8229376257545271
recall:  0.9533799533799534
F1:  0.8833693304535637
Wall time: 6 ms


In [8]:
model.predict(vec.transform(["موقف مصري لافت .. السيسي رداً على سؤال بشأن ما إذا كانت القاهرة ستدرس اتخاذ إجراءات ضد حزب الله، قال لقناة CNBC: "]))

array(['negative'], dtype='<U8')

In [116]:
print(textblob_tokenizer("148 أ۞  لأسيسي رداً على سؤال بشأن ما إذ كانت القاهرة ستدرس اتخاذ إجراءات ضد حزب الله، قال لقن اة"))

['لاسيسي', 'ردا', 'سوال', 'بشان', 'كانت', 'القاهرة', 'ستدرس', 'اتخاذ', 'اجراءات', 'ضد', 'حزب', 'الله', 'قال', 'لقن']
