In [1]:
import warnings
warnings.filterwarnings("ignore")

import os
import random
import numpy as np
from scipy.sparse import csr_matrix
import pandas as pd
import json

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import seaborn as sns 
import matplotlib.cm as cm
from matplotlib import rcParams
from prettytable import PrettyTable

import nltk 
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.tokenize import RegexpTokenizer
from nltk.stem.isri import ISRIStemmer
from collections import Counter 
import itertools
import re
import string

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

from sklearn.calibration import CalibratedClassifierCV
from sklearn.feature_selection import SelectKBest
from sklearn.model_selection import GridSearchCV

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

from joblib import dump, load

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
import re
from nltk.stem.snowball import SnowballStemmer
from nltk.corpus import stopwords
import pandas as pd

In [3]:
df = pd.read_csv("/kaggle/input/arabic-classification/arabic_dataset_classifiction.csv/arabic_dataset_classifiction.csv")



Unnamed: 0,text,targe
0,بين أستوديوهات ورزازات وصحراء مرزوكة وآثار ولي...,0
1,قررت النجمة الأمريكية أوبرا وينفري ألا يقتصر ع...,0
2,أخبارنا المغربية الوزاني تصوير الشملالي ألهب ا...,0
3,اخبارنا المغربية قال ابراهيم الراشدي محامي سعد...,0
4,تزال صناعة الجلود في المغرب تتبع الطريقة التقل...,0
...,...,...
111723,اللاعب تأخر في العودة إلى التداريب والمدرب غاض...,4
111724,المشرف العام لحسنية أكادير قال إنه سيغادر الفر...,4
111725,نسب إليه نتائج الوداد وصحوة الرجاء وآخر صيحاته...,4
111726,ستحتضن الرباط في الفترة مابين يوليوز المقبل دو...,4


In [4]:
df = df.drop('targe', axis=1)

In [10]:
print(np.sum(df.isnull().any(axis=1)))

clean_df = df.dropna()
print(np.sum(clean_df.isnull().any(axis=1)))

2939
0


In [11]:
print (df.notnull().any(axis = 0))

text    True
dtype: bool


In [12]:
def remove_hashtag(df, col = 'text'):
    for letter in r'#.][!XR':
        df[col] = df[col].astype(str).str.replace(letter,'', regex=True)
    

        
remove_hashtag(clean_df)
clean_df

Unnamed: 0,text
0,بين أستوديوهات ورزازات وصحراء مرزوكة وآثار ولي...
1,قررت النجمة الأمريكية أوبرا وينفري ألا يقتصر ع...
2,أخبارنا المغربية الوزاني تصوير الشملالي ألهب ا...
3,اخبارنا المغربية قال ابراهيم الراشدي محامي سعد...
4,تزال صناعة الجلود في المغرب تتبع الطريقة التقل...
...,...
111723,اللاعب تأخر في العودة إلى التداريب والمدرب غاض...
111724,المشرف العام لحسنية أكادير قال إنه سيغادر الفر...
111725,نسب إليه نتائج الوداد وصحوة الرجاء وآخر صيحاته...
111726,ستحتضن الرباط في الفترة مابين يوليوز المقبل دو...


# Punctuation tretment

In [13]:
arabic_punctuations = '''`÷×؛<>_()*&^%][ـ،/:"؟.,'{}~¦+|!”…“–ـ'''
english_punctuations = string.punctuation
punctuations_list = arabic_punctuations + english_punctuations

def remove_punctuations(text):
    translator = str.maketrans('', '', punctuations_list)
    return text.translate(translator)

# Normalize

In [14]:
def normalize_arabic(text):
    text = re.sub("[إأآا]", "ا", text)
    text = re.sub("ى", "ي", text)
    text = re.sub("ة", "ه", text)
    text = re.sub("گ", "ك", text)
    return text

# Remove repetitions

In [15]:
def remove_repeating_char(text):
    return re.sub(r'(.)\1+', r'\1', text)

In [16]:
def processDocument(doc, stemmer): 

    #Replace @username with empty string
    doc = re.sub(r'@[^\s]+', ' ', doc)
    doc = re.sub(r'_', ' ', doc)
    doc = re.sub(r'\n', ' ', doc)
    doc = re.sub(r'[a-z,A-Z]', '', doc)
    doc = re.sub(r'\d', '', doc)
    #Convert www.* or https?://* to " "
    doc = re.sub('((www\.[^\s]+)|(https?://[^\s]+))',' ',doc)
    #Replace #word with word
    doc = re.sub(r'#([^\s]+)', r'\1', doc)
    # remove punctuations
    doc= remove_punctuations(doc)
    # normalize the tweet
    doc= normalize_arabic(doc)
    # remove repeated letters
    doc=remove_repeating_char(doc)
    #stemming
    doc = stemmer.stem(doc)
    
    return doc

stemmer = ISRIStemmer()
clean_df["text"] = clean_df['text'].apply(lambda x: processDocument(x, stemmer))
clean_df

Unnamed: 0,text
0,بين استوديوهات ورزازات وصحراء مرزوكه واثار ولي...
1,قرت النجمه الامريكيه اوبرا وينفري الا يقتصر عم...
2,اخبارنا المغربيه الوزاني تصوير الشملالي الهب ا...
3,اخبارنا المغربيه قال ابراهيم الراشدي محامي سعد...
4,تزال صناعه الجلود في المغرب تبع الطريقه التقلي...
...,...
111723,اعب تاخر في العوده الي التداريب والمدرب غاضب و...
111724,مشرف العام لحسنيه اكادير قال انه سيغادر الفريق...
111725,نسب اليه نتائج الوداد وصحوه الرجاء واخر صيحاته...
111726,ستحتضن الرباط في الفتره مابين يوليوز المقبل دو...


In [17]:
tokenizer = RegexpTokenizer(r'\w+')
clean_df["text"] = clean_df["text"].apply(tokenizer.tokenize)
# print(clean_df['text'].values[0])
clean_df

Unnamed: 0,text
0,"[بين, استوديوهات, ورزازات, وصحراء, مرزوكه, واث..."
1,"[قرت, النجمه, الامريكيه, اوبرا, وينفري, الا, ي..."
2,"[اخبارنا, المغربيه, الوزاني, تصوير, الشملالي, ..."
3,"[اخبارنا, المغربيه, قال, ابراهيم, الراشدي, محا..."
4,"[تزال, صناعه, الجلود, في, المغرب, تبع, الطريقه..."
...,...
111723,"[اعب, تاخر, في, العوده, الي, التداريب, والمدرب..."
111724,"[مشرف, العام, لحسنيه, اكادير, قال, انه, سيغادر..."
111725,"[نسب, اليه, نتائج, الوداد, وصحوه, الرجاء, واخر..."
111726,"[ستحتضن, الرباط, في, الفتره, مابين, يوليوز, ال..."


In [18]:
stopwords_list = stopwords.words('arabic')
listToStr = ' '.join([str(elem) for elem in stopwords_list]) 
print(listToStr)

إذ إذا إذما إذن أف أقل أكثر ألا إلا التي الذي الذين اللاتي اللائي اللتان اللتيا اللتين اللذان اللذين اللواتي إلى إليك إليكم إليكما إليكن أم أما أما إما أن إن إنا أنا أنت أنتم أنتما أنتن إنما إنه أنى أنى آه آها أو أولاء أولئك أوه آي أي أيها إي أين أين أينما إيه بخ بس بعد بعض بك بكم بكم بكما بكن بل بلى بما بماذا بمن بنا به بها بهم بهما بهن بي بين بيد تلك تلكم تلكما ته تي تين تينك ثم ثمة حاشا حبذا حتى حيث حيثما حين خلا دون ذا ذات ذاك ذان ذانك ذلك ذلكم ذلكما ذلكن ذه ذو ذوا ذواتا ذواتي ذي ذين ذينك ريث سوف سوى شتان عدا عسى عل على عليك عليه عما عن عند غير فإذا فإن فلا فمن في فيم فيما فيه فيها قد كأن كأنما كأي كأين كذا كذلك كل كلا كلاهما كلتا كلما كليكما كليهما كم كم كما كي كيت كيف كيفما لا لاسيما لدى لست لستم لستما لستن لسن لسنا لعل لك لكم لكما لكن لكنما لكي لكيلا لم لما لن لنا له لها لهم لهما لهن لو لولا لوما لي لئن ليت ليس ليسا ليست ليستا ليسوا ما ماذا متى مذ مع مما ممن من منه منها منذ مه مهما نحن نحو نعم ها هاتان هاته هاتي هاتين هاك هاهنا هذا هذان هذه هذي هذين هكذا هل هلا هم هما هن هنا هنا

In [20]:
clean_df["text"] = clean_df["text"].apply(lambda x: [item for item in x if item not in stopwords_list])
clean_df

Unnamed: 0,text
0,"[استوديوهات, ورزازات, وصحراء, مرزوكه, واثار, و..."
1,"[قرت, النجمه, الامريكيه, اوبرا, وينفري, الا, ي..."
2,"[اخبارنا, المغربيه, الوزاني, تصوير, الشملالي, ..."
3,"[اخبارنا, المغربيه, قال, ابراهيم, الراشدي, محا..."
4,"[تزال, صناعه, الجلود, المغرب, تبع, الطريقه, ال..."
...,...
111723,"[اعب, تاخر, العوده, الي, التداريب, والمدرب, غا..."
111724,"[مشرف, العام, لحسنيه, اكادير, قال, انه, سيغادر..."
111725,"[نسب, اليه, نتائج, الوداد, وصحوه, الرجاء, واخر..."
111726,"[ستحتضن, الرباط, الفتره, مابين, يوليوز, المقبل..."


In [21]:
clean_df.head()

Unnamed: 0,text
0,"[استوديوهات, ورزازات, وصحراء, مرزوكه, واثار, و..."
1,"[قرت, النجمه, الامريكيه, اوبرا, وينفري, الا, ي..."
2,"[اخبارنا, المغربيه, الوزاني, تصوير, الشملالي, ..."
3,"[اخبارنا, المغربيه, قال, ابراهيم, الراشدي, محا..."
4,"[تزال, صناعه, الجلود, المغرب, تبع, الطريقه, ال..."


In [22]:
# Create inverted index
index = {}
for i, tokens in enumerate(clean_df['text']):
    for j, token in enumerate(tokens):
        if token not in index:
            index[token] = []
        index[token].append(i)
        


In [23]:
def search(query):
    query = query.lower()
    query_tokens = [stemmer.stem(token) for token in query.split() if token not in stopwords_lis]
    results = set(range(len(clean_df)))
    for token in query_tokens:
        if token in index:
            results.intersection_update(index[token])
    return [clean_df.iloc[i]['text'] for i in results]


In [33]:
results = search("الأهلي")
num_results = min(len(results), 5)  # Limit the number of results to 5 or the total number of results, whichever is smaller

for i in range(num_results):
    result = ' '.join(results[i])
    print(result ,"\n")

يات تويجها بلقب ملكه جمال ميس الكون دورته ال بمحض الصدفه فقد تمكنت زمن قياسي انتزاع حب اهل عروسه الشمال والمغاربه خلال بوابه ملكه جمال المغرب شغفت بعالم الموضه والازياء فساهمت موهبتها بشكل كبير اقتحام عالم الاناقه والجمال سن ال دردشه هسبريس تحدث جيهان سلامه ملكه جمال الكون لسنه تويجها بالقب ومشاريعها المستقبليه نفت جيهان سلامه ان تكون اجرت عمليه تجميليه لكنها ترفض الفكره ان تطلب الامر مستقبلا وقالت الصد ضد عمليات التجميل اذا تطلب الامر مستقبلا خلال تقويم الاسنان او شد الوجه اتراجع علي القيام بذلك واكدت الملكه انها تقبل بارتداء البيكيني اي مسابقه متعلقه بالجمال وقالت عائلتي تسمح بذلك وتربيتي واخلاقي ايضا واحرص دائما علي تقديم صوره مشرفه لمراه المغربيه حياتي تغيراعتبرت ملكه جمال الكون ان حياتها تغير الفوز بالقب لذلك تقول يمكن ان يتغير شيء حياتي انا اجتماعيه بطبعي وهذا الميزات جعلتني افوز بالقب واضافت الجمال وحده معيارا لظفر بالقب المستوي التعليمي يلعب دورا المسابقه وزادت المسابقه كانت تضم مشاركات بقاع العالم يميزني التواصل الراي العام سواء بالغه العربيه او الانجليزيه او الفرنسيه او الاسب