In [None]:
import pandas as pd
from keras.preprocessing.text import Tokenizer
import nltk
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem import ARLSTem
import re

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
df_train = pd.read_csv('ar_train.csv')
df_test = pd.read_csv('ar_test.csv')

In [None]:
def remove_emoji(text):
  emoji_pattern = re.compile("["
  u"\U0001F600-\U0001F64F" # emoticons
  u"\U0001F300-\U0001F5FF" # symbols & pictographs
  u"\U0001F680-\U0001F6FF" # transport & map symbols
  u"\U0001F1E0-\U0001F1FF" # flags (iOS)
  u"\U00002702-\U000027B0"
  u"\U000024C2-\U0001F251"
  "]+", flags=re.UNICODE)
  text = emoji_pattern.sub(r'', text)
  return text

In [None]:
def clean_text(tweet):
  text = re.sub(":","", tweet)
  text = re.sub("\d+", "", text)
  text = re.sub("\.+", "", text)
  text = remove_emoji(text)
  return text

In [None]:
df_train['claim_s'] = df_train['claim_s'].apply(clean_text)
df_test['claim_s'] = df_test['claim_s'].apply(clean_text)

In [None]:
train = df_train['claim_s'].to_list()
test = df_test['claim_s'].to_list()

In [None]:
tok = Tokenizer(oov_token='[oov]')
tok.fit_on_texts(train)
train_seq = tok.texts_to_sequences(train)
test_seq = tok.texts_to_sequences(test)

In [None]:
tok.word_index

{'[oov]': 1,
 'في': 2,
 'من': 3,
 'على': 4,
 'فى': 5,
 'عن': 6,
 'النفط': 7,
 'السعودية': 8,
 'مصر': 9,
 'بعد': 10,
 'مع': 11,
 'و': 12,
 'سوريا': 13,
 'إيران': 14,
 'ترامب': 15,
 'إلى': 16,
 'أسعار': 17,
 'تركيا': 18,
 'بسبب': 19,
 'الليرة': 20,
 'التركية': 21,
 'الذهب': 22,
 'بين': 23,
 'دولار': 24,
 'الدولار': 25,
 'ارتفاع': 26,
 'المتحدة': 27,
 'جديدة': 28,
 'العراق': 29,
 'بشأن': 30,
 'أردوغان': 31,
 'إسرائيل': 32,
 'مستوى': 33,
 'الغوطة': 34,
 'اليمن': 35,
 'الشرقية': 36,
 'الصين': 37,
 'مقتل': 38,
 'الإيراني': 39,
 'لا': 40,
 'تراجع': 41,
 'واشنطن': 42,
 'قبل': 43,
 'روسيا': 44,
 'خاشقجي': 45,
 'غزة': 46,
 'المصرية': 47,
 'رئيس': 48,
 'السورية': 49,
 'جديد': 50,
 'الحكومة': 51,
 'منذ': 52,
 'تعلن': 53,
 'جمال': 54,
 'الحرب': 55,
 'الأميركية': 56,
 'وزير': 57,
 'المصري': 58,
 'رغم': 59,
 'العالم': 60,
 'هبوط': 61,
 'الإمارات': 62,
 'اتفاق': 63,
 'الجيش': 64,
 'انخفاض': 65,
 'حرب': 66,
 'الولايات': 67,
 'الرئيس': 68,
 'مليار': 69,
 'أول': 70,
 'التركي': 71,
 'ما': 72,
 'الانتخابات

In [None]:
stp = stopwords.words('arabic')
stp

['إذ',
 'إذا',
 'إذما',
 'إذن',
 'أف',
 'أقل',
 'أكثر',
 'ألا',
 'إلا',
 'التي',
 'الذي',
 'الذين',
 'اللاتي',
 'اللائي',
 'اللتان',
 'اللتيا',
 'اللتين',
 'اللذان',
 'اللذين',
 'اللواتي',
 'إلى',
 'إليك',
 'إليكم',
 'إليكما',
 'إليكن',
 'أم',
 'أما',
 'أما',
 'إما',
 'أن',
 'إن',
 'إنا',
 'أنا',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'إنما',
 'إنه',
 'أنى',
 'أنى',
 'آه',
 'آها',
 'أو',
 'أولاء',
 'أولئك',
 'أوه',
 'آي',
 'أي',
 'أيها',
 'إي',
 'أين',
 'أين',
 'أينما',
 'إيه',
 'بخ',
 'بس',
 'بعد',
 'بعض',
 'بك',
 'بكم',
 'بكم',
 'بكما',
 'بكن',
 'بل',
 'بلى',
 'بما',
 'بماذا',
 'بمن',
 'بنا',
 'به',
 'بها',
 'بهم',
 'بهما',
 'بهن',
 'بي',
 'بين',
 'بيد',
 'تلك',
 'تلكم',
 'تلكما',
 'ته',
 'تي',
 'تين',
 'تينك',
 'ثم',
 'ثمة',
 'حاشا',
 'حبذا',
 'حتى',
 'حيث',
 'حيثما',
 'حين',
 'خلا',
 'دون',
 'ذا',
 'ذات',
 'ذاك',
 'ذان',
 'ذانك',
 'ذلك',
 'ذلكم',
 'ذلكما',
 'ذلكن',
 'ذه',
 'ذو',
 'ذوا',
 'ذواتا',
 'ذواتي',
 'ذي',
 'ذين',
 'ذينك',
 'ريث',
 'سوف',
 'سوى',
 'شتان',
 'عدا',
 'عسى',
 'عل'

In [None]:
my_own_stops = []
for k,v in tok.word_index.items():
  if k in stp:
    my_own_stops.append(v)

In [None]:
my_own_stops

[2,
 3,
 4,
 6,
 10,
 11,
 12,
 16,
 23,
 24,
 40,
 43,
 52,
 70,
 72,
 85,
 92,
 95,
 96,
 100,
 101,
 132,
 141,
 142,
 195,
 196,
 200,
 257,
 265,
 278,
 279,
 285,
 297,
 299,
 312,
 325,
 348,
 403,
 428,
 446,
 505,
 521,
 527,
 540,
 564,
 594,
 625,
 676,
 683,
 698,
 804,
 842,
 916,
 957,
 963,
 1081,
 1102,
 1103,
 1107,
 1120,
 1155,
 1173,
 1252,
 1291,
 1300,
 1453,
 1522,
 1527,
 1572,
 1580,
 1592,
 1626,
 1676,
 1726,
 1800,
 1902,
 1922,
 1928,
 1940,
 1992,
 2007,
 2037,
 2050,
 2066,
 2093,
 2104,
 2234,
 2372,
 2521,
 2552,
 2635,
 2795,
 2915,
 2975,
 3009,
 3182,
 3183,
 3209,
 3217,
 3277,
 3350,
 3372,
 3374,
 3447,
 3456,
 3468,
 3568,
 3603,
 3625,
 3661,
 3684,
 3699,
 3738,
 3825,
 4027,
 4057,
 4230,
 4259,
 4274,
 4335,
 4377,
 4768,
 4798,
 4855,
 4931,
 4961,
 5045,
 5283,
 5337,
 5436,
 5559,
 5626,
 6003,
 6012,
 6266,
 6357,
 6431,
 6439,
 6506]

In [None]:
final_train=[]
final_test=[]

for sent in train_seq:
  temp=[]
  for id in sent:
    if id not in my_own_stops:
      temp.append(id)
  final_train.append(temp)

In [None]:
final_train

[[41, 131, 2169, 3753, 167],
 [2170, 145, 2171],
 [55, 13, 542, 1064, 2172, 2173, 817, 34, 36],
 [1388, 1389, 1390, 3754, 9, 2174, 343, 1391, 152, 1392, 1065],
 [9, 91, 818, 819, 1393, 1066, 2175, 1067, 820, 2176, 1068],
 [344, 1394, 1395],
 [20, 21, 3755, 1395],
 [3756, 821, 2177, 543, 14, 2178],
 [259, 14, 146, 3757],
 [822, 345, 183, 168, 394, 207, 49],
 [286, 823, 3758, 346, 651, 544, 3759, 47],
 [3760, 652, 3761, 1069, 452, 824, 153, 1396],
 [260, 3762, 102, 28, 2179, 124, 825],
 [259, 7, 3763, 826],
 [2180, 3764, 827, 3765, 3766, 2181, 233, 3767, 3768],
 [287, 169, 347, 152, 3769, 828],
 [234, 313, 288, 3770, 3771, 3772],
 [1070, 125, 1397, 545, 51, 49],
 [79, 3773, 395, 1071, 453],
 [2182, 651, 1072, 2183, 3774, 3775, 86, 546, 2184, 1073, 547],
 [2185, 261, 3776, 1398, 454, 396, 2186],
 [3777, 2187, 21, 1399, 2188],
 [113, 184, 1074, 2189],
 [262, 263, 1400, 154, 397, 829, 1401, 2190, 17, 548],
 [14, 1075, 2191, 3778, 3779, 1402],
 [2192, 1076, 32, 5, 3780, 2193, 1403, 114, 2194

In [None]:
for sent in test_seq:
  temp=[]
  for id in sent:
    if id not in my_own_stops:
      temp.append(id)
  final_test.append(temp)

In [None]:
final_test

[[2133, 274, 860, 700, 1489, 1, 1, 1, 1, 5, 66, 2262],
 [1, 764, 4105, 1, 3040],
 [1, 6028, 1, 641, 18, 5989, 1806, 1204, 38, 45, 573, 1, 8],
 [2894, 241, 1224, 275, 447, 6479, 1],
 [1, 1, 1, 4504, 1, 1, 1],
 [1, 1, 1, 3980, 1486, 322, 49, 3633, 1749, 1, 163],
 [106, 1, 1, 3052, 1, 1, 656],
 [246, 32, 597, 46],
 [38, 1268, 1, 1, 1, 2282, 2283, 303],
 [60, 5524, 1198],
 [1866, 37, 30, 55, 77, 123],
 [37, 1, 1, 77, 56, 1, 1],
 [15, 271, 44, 2282, 1550, 1, 13],
 [1132, 385, 154, 1367, 1964, 6151, 1562],
 [1, 1, 1, 1, 2225, 5848],
 [1598, 1, 1, 483, 1, 1195],
 [31, 1, 1549, 6066, 226, 71],
 [167, 1, 2780, 1, 1, 3691, 1, 1, 1, 1],
 [226, 39, 5680, 1, 372, 97, 56],
 [60, 854, 1198],
 [4658, 873, 136, 33, 1, 942, 884],
 [7, 1321, 83, 350, 1012],
 [203, 771, 333, 1, 1692, 5, 75, 2570, 1, 2571, 5, 9],
 [65, 621, 7, 1278, 350, 1012],
 [1, 118, 27, 6123, 948, 5260, 3463],
 [617, 1205, 1, 4457],
 [323, 1, 1, 232, 498, 593, 8],
 [80, 342, 2045, 1, 764],
 [549, 205, 726, 63, 6087, 730, 529],
 [1, 1,