# Python Process

## Preparing necessary modules

In [1]:
!nvidia-smi
!pip install tensorflowjs

Mon Jan 24 21:52:49 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 495.46       Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   49C    P8    10W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

In [3]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from tensorflow.keras.preprocessing.text import one_hot, Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional, Flatten, GRU ## Neural networks layers 
from tensorflow.keras.models import Sequential
from tensorflow.keras import utils
from tensorflow.keras.optimizers import SGD, RMSprop
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
import tensorflowjs as tfjs
import tensorflow as tf
import pandas as pd
import numpy as np
import re, json

## Exploring dataset used

In [4]:
dataset = pd.read_csv('https://raw.githubusercontent.com/Boubker-1/hate-speech-detection/main/misogyny.csv', sep ='\t')
data = dataset.drop(['tweet_id', 'misogyny'], axis=1)

In [5]:
dataset

Unnamed: 0,tweet_id,text,misogyny,category
0,0,مستخدم@ وجعجع رئيسك رجل شو؟ ؟؟,none,none
1,1,مستخدم@ انتي مصدقه انك لكي اي لازمه انتي بنسبه...,misogyny,discredit
2,2,مستخدم@ متل كعب صباطك شعب رتش,none,none
3,3,مستخدم@ مستخدم@ مستخدم@ ليش الهجوم عليها؟ هي ع...,none,none
4,4,مستخدم@ اهلا وسهلا فيكي بطرابلس,none,none
...,...,...,...,...
7861,7861,RT مستخدم@: مستخدم@ اسمعي يا فطيرة الكشك ما حد...,misogyny,discredit
7862,7862,مستخدم@ مستخدم@ معلومات عامة: لا يوجد ممثل للح...,none,none
7863,7863,مستخدم@ أسأل الله ان يجعل يدك مشلوله وارجلك مع...,misogyny,damning
7864,7864,مستخدم@ الثورة عطتك عمرها يا معترة هههه,misogyny,discredit


In [6]:
data['category'].value_counts()

none                              3061
discredit                         2868
damning                            669
stereotyping & objectification     653
threat of violence                 230
dominance                          219
derailing                          105
sexual harassment                   61
Name: category, dtype: int64

In [7]:
df = data.rename(columns = {'text' : 'Text', 'category' : 'Category'}, inplace = False)
df.Category.replace({'none':0, 'discredit':1, 'damning':2, 'stereotyping & objectification':3, 'threat of violence':4, 'dominance': 5, 'derailing': 6, 'sexual harassment':7}, inplace = True)
df.count()

Text        7866
Category    7866
dtype: int64

In [8]:
data[103:130].values

array([['مستخدم@ كتير حلو لإنسان يكون مثير للجدل هيدا إلو علاقة بطبيعة الشخصية القيادية يعني شي ايجابي هيدا بس كتير بشع… https://t.co/CDtJgdKsHt',
        'none'],
       ['مستخدم@ تنمر ايه انتي محتاجه سمكري ياخد وشك ع البارد يمكن يقدر يعمل منك ست 👇🏻 https://t.co/d5jqlZDizT',
        'stereotyping & objectification'],
       ['مستخدم@ انه عملو تسوية سوا وبيفللوا سوا. مش هيك؟', 'none'],
       ['مستخدم@ ايش الريحة المقرفة إللي فاحت مع تغريدتك اف اف اف 😷 يالمخيسة كم مرة أقولك فرشي أسنانك',
        'stereotyping & objectification'],
       ['مستخدم@ اه طلعتو انتو جماعة الحمامات النقالة��������', 'none'],
       ['مستخدم@ اخرسي و اسمو السيد حسن', 'discredit'],
       ['مستخدم@ انشالله بيقبرك ومنرتاح من سمك يا خنزيرة ����',
        'damning'],
       ['مستخدم@ الله يحميكي ديما هذا عميل إيراني لا علاقة له بلبنان الا المتعة و الحشيشة',
        'none'],
       ['مستخدم@ شو قصتك مع المقاومة لو عنجد بتحبي لبنان روحي شوفي عملاء اسرائيل واكشفي المستور من جماعة جميل وجعجع ومن لف لفيفهم ....',
     

## Preprocessing our dataset

In [9]:
def clean_text(text):
    no_mentions = re.sub('([\u0600-\u06FF]+)@', '', text)
    no_underscore = re.sub(r'_', ' ', no_mentions)
    lines = no_underscore.split("\n")
    filtered_lines = [re.sub(r'[^\u0600-\u06FF ]', '', line) for line in lines if line is not ""]
    filtered =  '\n'.join(filtered_lines);
    no_diacritics = re.sub(r'[^\u0621-\u063A\u0641-\u064A\u0660-\u0669a-zA-Z 0-9]', '', filtered)
    no_punctuations = re.sub(r'،؛؟«»!', '', no_diacritics)
    clean = re.sub(r'(.)\1+', r'\1', no_punctuations)
    return clean.lstrip().rstrip()

In [17]:
df['Text'][4100:4120].values

array(['له درك يا بنت الحالمة وحمامة السلام السيدة توكل كرمان الف تحية وإجلال وتقدير لك أختي',
       'لعنت اله عليك توكل كرمان دمرتي بلادي من أجل مصالحك ومصالح الغرب يا كذابين',
       'نشاله يارب وما تلاقي مين يلمك يا ديما الواطيه',
       'وجهي كلامك لحسن نصراله ولنبيه بري مش هني المسؤلين عن العصابة الي نزلوا لأسف عصابة بري ونصراله أقوى من الدولة',
       'يكهربوكي بريز',
       'واله ما في اضل منك يا بهيمة ويا بنت البهائم اتفوه علي وجهك المقز يا مشعودة',
       'اله يعين المجتمع ع قلة فهمك و استيعابك',
       'لعمى بش بس وقحه كذابه كمان', 'انت الواطيه تفو عليك',
       'ولعيونك كلنا ديما صادق',
       'حمالة الحطب اول من كسرها بتأمرها مع اذناب الفرس بالانقلاب على الشرعية',
       'يا هبلة لو مناصرين الحزب ترك من تحت ما بضل حدا',
       'وخري ريحتك ماعز الي مثلك لازم يعرف انه بالنسبه لغرب مجرد عرائس يقومو بتحريكم مثلما اشائو وانتي وامثالك ستظل دماء الشعوب تطاردكم وارواح الاطفال لابد',
       'أنت الأقوى كلنا ديما صادق',
       'ادعوا كل الثوار لتوجه الى ساحة الشهداء',
       'وإنت أ

In [10]:
df.Text = df.Text.apply(clean_text)
df['Text'][4100:4120].values

array(['له درك يا بنت الحالمة وحمامة السلام السيدة توكل كرمان الف تحية وإجلال وتقدير لك أختي',
       'لعنت اله عليك توكل كرمان دمرتي بلادي من أجل مصالحك ومصالح الغرب يا كذابين',
       'نشاله يارب وما تلاقي مين يلمك يا ديما الواطيه',
       'وجهي كلامك لحسن نصراله ولنبيه بري مش هني المسؤلين عن العصابة الي نزلوا لأسف عصابة بري ونصراله أقوى من الدولة',
       'يكهربوكي بريز',
       'واله ما في اضل منك يا بهيمة ويا بنت البهائم اتفوه علي وجهك المقز يا مشعودة',
       'اله يعين المجتمع ع قلة فهمك و استيعابك',
       'لعمى بش بس وقحه كذابه كمان', 'انت الواطيه تفو عليك',
       'ولعيونك كلنا ديما صادق',
       'حمالة الحطب اول من كسرها بتأمرها مع اذناب الفرس بالانقلاب على الشرعية',
       'يا هبلة لو مناصرين الحزب ترك من تحت ما بضل حدا',
       'وخري ريحتك ماعز الي مثلك لازم يعرف انه بالنسبه لغرب مجرد عرائس يقومو بتحريكم مثلما اشائو وانتي وامثالك ستظل دماء الشعوب تطاردكم وارواح الاطفال لابد',
       'أنت الأقوى كلنا ديما صادق',
       'ادعوا كل الثوار لتوجه الى ساحة الشهداء',
       'وإنت أ

In [11]:
X = df['Text'].astype(str).values
labels = df['Category'].values

y = utils.to_categorical(labels)

X_tr_temp, X_val, y_train_temp, y_val = train_test_split(X, y, test_size=0.2, random_state=0)

In [12]:
tuples, classes = [], []
for i in range(len(y)):
  if labels[i] not in classes:
    classes.append(labels[i])
    tuples.append((labels[i], [int(j) for j in y[i]]))

tuples.sort()
tuples

[(0, [1, 0, 0, 0, 0, 0, 0, 0]),
 (1, [0, 1, 0, 0, 0, 0, 0, 0]),
 (2, [0, 0, 1, 0, 0, 0, 0, 0]),
 (3, [0, 0, 0, 1, 0, 0, 0, 0]),
 (4, [0, 0, 0, 0, 1, 0, 0, 0]),
 (5, [0, 0, 0, 0, 0, 1, 0, 0]),
 (6, [0, 0, 0, 0, 0, 0, 1, 0]),
 (7, [0, 0, 0, 0, 0, 0, 0, 1])]

In [18]:
max_length = 250
EMBEDDING_DIM = 100

tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_tr_temp)
vocab_size = len(tokenizer.word_index) + 1

tokenized_train = tokenizer.texts_to_sequences(X_tr_temp)
tokenized_test = tokenizer.texts_to_sequences(X_val)

X_tr = pad_sequences(tokenized_train, maxlen=max_length)
X_test = pad_sequences(tokenized_test, maxlen=max_length)

smote = SMOTE(sampling_strategy="minority")
X_train, y_train = smote.fit_resample(X_tr, y_train_temp)

## Machine Learning process

In [19]:
model=Sequential()
model.add(Embedding(vocab_size, EMBEDDING_DIM, input_length=max_length)) 

model.add(Bidirectional(LSTM(units=max_length,return_sequences=True)))

model.add(Flatten())

model.add(Dense(400, activation='relu'))

# The final ( output ) Layer

model.add(Dense(8, activation='softmax'))

# softmax : to handle the output ( categorical case )

model.compile(optimizer="adam", loss='categorical_crossentropy', metrics=['accuracy'])
# categorical_crossentropy : because we have a categorical classes classification task 
# Adam : Stochastic gradient decenet optimizatiion 
#print(model.summary())

model.fit(X_train, y_train, validation_data=(X_test, y_val), epochs=5, batch_size=128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f5e440b5e50>

In [39]:
count = 0
value = len(X_val)
correct = []
for sent_index in range(value):
  instance = pad_sequences(tokenizer.texts_to_sequences([X_val[sent_index]]), maxlen=max_length)
  prediction = model.predict(instance)[0]
  real = y_val[sent_index]
  pred_index = np.argmax(prediction)
#  print((prediction[pred_index].round(), real[pred_index]))
  if (prediction[pred_index].round() == real[pred_index]):
    correct.append([[X_val[sent_index]], pred_index, ])
#    print("%dth example: Correct Classification" % (sent_index))
    count += 1
#  else:
#    print("%dth example: Wrong Classification" % (sent_index))

print("Number of correct classes out of all: %d/%d: " % (count, value))
#  comparison = [(prediction[i], real[i]) for i in range(len(prediction))]
#  print(X_val[sent_index])
#  print(comparison)

Number of correct classes out of all: 1033/1574: 


In [20]:
y_test= model.predict(X_test)
y_test= np.round(y_test, 0).astype(int)

print('\t\t\tPERFORMANCE\n')
print('Accuracy:', round(accuracy_score(y_val, y_test), 4), '\n')
print(classification_report(y_val, y_test))
cmatrix = confusion_matrix(y_val.argmax(axis=1), y_test.argmax(axis=1))
print(cmatrix)

			PERFORMANCE

Accuracy: 0.6315 

              precision    recall  f1-score   support

           0       0.82      0.71      0.76       624
           1       0.69      0.67      0.68       550
           2       0.82      0.71      0.76       132
           3       0.72      0.51      0.60       129
           4       0.27      0.15      0.19        53
           5       0.33      0.21      0.26        53
           6       0.00      0.00      0.00        19
           7       0.03      0.36      0.06        14

   micro avg       0.66      0.63      0.65      1574
   macro avg       0.46      0.41      0.41      1574
weighted avg       0.72      0.63      0.67      1574
 samples avg       0.63      0.63      0.63      1574

[[459  77   5   6   2   4   3  68]
 [ 86 369   9  10   9   7   0  60]
 [  6  21  94   2   2   2   1   4]
 [ 20  28   2  66   1   4   0   8]
 [ 12  12   5   0   8   5   1  10]
 [  9  16   0   8   2  11   0   7]
 [  6   7   0   0   3   0   0   3]
 [  3   3   0  

  _warn_prf(average, modifier, msg_start, len(result))


# Pushing model architectures and weights to Git repository

In [None]:
#model.save("model.h5")
#new_model = tf.keras.models.load_model('model.h5')
#!tensorflowjs_converter --input_format keras model.h5 model
#!zip -r model.zip model

In [21]:
tfjs.converters.save_keras_model(model, 'model')

In [22]:
import json
with open('vocabulary.json', 'w') as json_file:
  json.dump(tokenizer.word_index, json_file, ensure_ascii = False)

In [23]:
!cat vocabulary.json

{"يا": 1, "من": 2, "ما": 3, "اله": 4, "و": 5, "في": 6, "على": 7, "ديما": 8, "انتي": 9, "انت": 10, "بس": 11, "شو": 12, "مش": 13, "الي": 14, "عم": 15, "كل": 16, "لا": 17, "عن": 18, "وجهك": 19, "ان": 20, "ولا": 21, "لبنان": 22, "واله": 23, "عليك": 24, "مع": 25, "شي": 26, "انا": 27, "يعني": 28, "انك": 29, "منك": 30, "عليكي": 31, "السيد": 32, "يلي": 33, "نانسي": 34, "اذا": 35, "روحي": 36, "لو": 37, "السبع": 38, "صادق": 39, "بلا": 40, "الستات": 41, "مين": 42, "هو": 43, "انو": 44, "لك": 45, "كان": 46, "هيك": 47, "ع": 48, "المطبخ": 49, "بنت": 50, "الثورة": 51, "واطية": 52, "اليمن": 53, "او": 54, "بعد": 55, "كتير": 56, "معك": 57, "قال": 58, "يمنى": 59, "كلن": 60, "الشعب": 61, "بدك": 62, "هي": 63, "رح": 64, "هذا": 65, "وين": 66, "النسوان": 67, "بلدك": 68, "حدا": 69, "كلنا": 70, "غير": 71, "العالم": 72, "الناس": 73, "حتى": 74, "علي": 75, "ريحتك": 76, "عندك": 77, "تفو": 78, "يوم": 79, "وحدة": 80, "فيكي": 81, "ه": 82, "هيدا": 83, "الى": 84, "وانتي": 85, "واحد": 86, "كيف": 87, "حالك": 88, "كمان": 89

In [24]:
!git init

Initialized empty Git repository in /content/.git/


In [25]:
!git clone https://github.com/Boubker-1/hate-speech-detection

Cloning into 'hate-speech-detection'...
remote: Enumerating objects: 401, done.[K
remote: Counting objects: 100% (2/2), done.[K
remote: Compressing objects: 100% (2/2), done.[K
remote: Total 401 (delta 0), reused 0 (delta 0), pack-reused 399[K
Receiving objects: 100% (401/401), 1.08 GiB | 31.94 MiB/s, done.
Resolving deltas: 100% (18/18), done.


In [26]:
!git status

On branch master

No commits yet

Untracked files:
  (use "git add <file>..." to include in what will be committed)

	[31m.config/[m
	[31mhate-speech-detection/[m
	[31mmodel/[m
	[31msample_data/[m
	[31mvocabulary.json[m

nothing added to commit but untracked files present (use "git add" to track)


In [27]:
%cp -R model hate-speech-detection/

In [28]:
%cd hate-speech-detection/

/content/hate-speech-detection


In [29]:
!git add .

In [30]:
!git status

On branch main
Your branch is up to date with 'origin/main'.

Changes to be committed:
  (use "git reset HEAD <file>..." to unstage)

	[32mnew file:   model/group1-shard10of51.bin[m
	[32mnew file:   model/group1-shard11of51.bin[m
	[32mnew file:   model/group1-shard12of51.bin[m
	[32mnew file:   model/group1-shard13of51.bin[m
	[32mnew file:   model/group1-shard14of51.bin[m
	[32mnew file:   model/group1-shard15of51.bin[m
	[32mnew file:   model/group1-shard16of51.bin[m
	[32mnew file:   model/group1-shard17of51.bin[m
	[32mnew file:   model/group1-shard18of51.bin[m
	[32mnew file:   model/group1-shard19of51.bin[m
	[32mnew file:   model/group1-shard1of51.bin[m
	[32mnew file:   model/group1-shard20of51.bin[m
	[32mnew file:   model/group1-shard21of51.bin[m
	[32mnew file:   model/group1-shard22of51.bin[m
	[32mnew file:   model/group1-shard23of51.bin[m
	[32mnew file:   model/group1-shard24of51.bin[m
	[32mnew file:   model/group1-shard25of51.bin[m
	[32mnew file:  

In [31]:
!git config --global user.email "zouinboubker1@gmail.com"
!git config --global user.name "Boubker-1"

In [32]:
!git commit -m "Adding prediction model and weights"

[main d79a476] Adding prediction model and weights
 52 files changed, 1 insertion(+)
 create mode 100644 model/group1-shard10of51.bin
 create mode 100644 model/group1-shard11of51.bin
 create mode 100644 model/group1-shard12of51.bin
 create mode 100644 model/group1-shard13of51.bin
 create mode 100644 model/group1-shard14of51.bin
 create mode 100644 model/group1-shard15of51.bin
 create mode 100644 model/group1-shard16of51.bin
 create mode 100644 model/group1-shard17of51.bin
 create mode 100644 model/group1-shard18of51.bin
 create mode 100644 model/group1-shard19of51.bin
 create mode 100644 model/group1-shard1of51.bin
 create mode 100644 model/group1-shard20of51.bin
 create mode 100644 model/group1-shard21of51.bin
 create mode 100644 model/group1-shard22of51.bin
 create mode 100644 model/group1-shard23of51.bin
 create mode 100644 model/group1-shard24of51.bin
 create mode 100644 model/group1-shard25of51.bin
 create mode 100644 model/group1-shard26of51.bin
 create mode 100644 model/group1-s

In [33]:
!git status

On branch main
Your branch is ahead of 'origin/main' by 1 commit.
  (use "git push" to publish your local commits)

nothing to commit, working tree clean


In [34]:
user = "Boubker-1"
password = ""

In [35]:
!git remote rm origin

In [36]:
!git remote add origin https://$user:$password@github.com/Boubker-1/hate-speech-detection

In [37]:
!git push origin main

Counting objects: 55, done.
Delta compression using up to 2 threads.
Compressing objects: 100% (55/55), done.
Writing objects: 100% (55/55), 187.10 MiB | 14.97 MiB/s, done.
Total 55 (delta 1), reused 0 (delta 0)
remote: Resolving deltas: 100% (1/1), completed with 1 local object.[K
To https://github.com/Boubker-1/hate-speech-detection
   a256961..d79a476  main -> main
