In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
import re
from camel_tools.tokenizers.word import simple_word_tokenize
from nltk.stem.isri import ISRIStemmer

# Load the data
data = pd.read_csv('df_no_stopw.csv')

# Shuffle the data
shuffled_data = data.sample(frac=1, random_state=42).reset_index(drop=True)


In [4]:

# Initialize Tokenizer and Stemmer
tokenizer = simple_word_tokenize
stemmer = ISRIStemmer()

# Function to clean and preprocess text
def preprocess_text(text):
    # Remove non-Arabic characters (optional)
    text = re.sub(r'[^ء-ي\s]', '', text)
    # Tokenize and stem the text
    tokens = tokenizer(text)
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return ' '.join(stemmed_tokens)

# Apply preprocessing on the 'quote' column
shuffled_data['processed_quotes'] = shuffled_data['quote'].apply(preprocess_text)

# Print a sample of the preprocessed text
print(shuffled_data['processed_quotes'].head(10))


0            نبغ تؤم بأن فرد قبل علم صبر
1                    وقد شمع خير تلع ظلم
2                 حية بدن حب فؤل عبر حية
3             خير خل يخن خلل يلق ودة جفا
4                    لقد هان ناس حاج ناس
5                 دئح دغدغ عقل يطر عليها
6                علم نفذ صبر وقل حيل عنى
7                        قلب خدع صحب لفن
8    كنت ترد امر جمع فهي سمح حرة نطق حور
9                        خذا حكم فوه سطء
Name: processed_quotes, dtype: object


In [5]:

# Initialize the vectorizer
vectorizer = TfidfVectorizer(max_features=5000, token_pattern=r'(?u)\b\w+\b')

# Fit and transform the processed quotes
X = vectorizer.fit_transform(shuffled_data['processed_quotes'])

# Convert the sparse matrix to a dense format
X_dense = X.toarray()

# Print the shape of the matrix
print(X.shape)

# Print the vocabulary learned by the vectorizer
print(vectorizer.vocabulary_)

# Print the first 10 rows of the dense matrix
print(X_dense[0:10])

(9453, 5000)
{'نبغ': 3967, 'تؤم': 722, 'بأن': 426, 'فرد': 3066, 'قبل': 3242, 'علم': 2763, 'صبر': 2298, 'وقد': 4560, 'شمع': 2257, 'خير': 1620, 'تلع': 964, 'ظلم': 2564, 'حية': 1461, 'بدن': 520, 'حب': 1270, 'فؤل': 2966, 'عبر': 2603, 'خل': 1582, 'يخن': 4775, 'خلل': 1597, 'يلق': 4946, 'ودة': 4418, 'جفا': 1181, 'لقد': 3742, 'هان': 4172, 'ناس': 3955, 'حاج': 1258, 'دئح': 1628, 'عقل': 2747, 'يطر': 4862, 'عليها': 2771, 'نفذ': 4069, 'وقل': 4567, 'حيل': 1469, 'عنى': 2796, 'قلب': 3326, 'خدع': 1508, 'صحب': 2304, 'لفن': 3735, 'كنت': 3557, 'ترد': 807, 'امر': 352, 'جمع': 1201, 'فهي': 3197, 'سمح': 2123, 'حرة': 1326, 'نطق': 4050, 'حور': 1452, 'خذا': 1515, 'حكم': 1407, 'فوه': 3208, 'سطء': 2072, 'ذكر': 1747, 'دائ': 1633, 'ضيف': 2464, 'يرى': 4809, 'سعة': 2078, 'يره': 4808, 'عام': 2591, 'فكر': 3148, 'صفح': 2346, 'نقم': 4089, 'لنس': 3774, 'وحد': 4391, 'حضر': 1369, 'جبا': 1099, 'غضب': 2874, 'قال': 3234, 'لقم': 3746, 'لبن': 3640, 'بني': 682, 'جدل': 1124, 'علماء': 2764, 'فكن': 3153, 'شور': 2270, 'فسد': 3083, 'رأ

In [None]:
print(data['quote'].head(10))


0            نبغ تؤم بأن فرد قبل علم صبر
1                    وقد شمع خير تلع ظلم
2                 حية بدن حب فؤل عبر حية
3             خير خل يخن خلل يلق ودة جفا
4                    لقد هان ناس حاج ناس
5                 دئح دغدغ عقل يطر عليها
6                علم نفذ صبر وقل حيل عنى
7                        قلب خدع صحب لفن
8    كنت ترد امر جمع فهي سمح حرة نطق حور
9                        خذا حكم فوه سطء
Name: quote, dtype: object


***4. Text Representation***<br>TF-IDF (Term Frequency-Inverse Document Frequency): Measures the importance of a word in a document relative to the entire corpus.

In [6]:
# Initialize the vectorizer
vectorizer = TfidfVectorizer(max_features=5000, token_pattern=r'(?u)\b\w+\b')

# Fit and transform the processed quotes
X = vectorizer.fit_transform(shuffled_data['processed_quotes'])

# Convert the sparse matrix to a dense format
X_dense = X.toarray()

# Print the shape of the matrix
print(X.shape)

# Print the vocabulary learned by the vectorizer
print(vectorizer.vocabulary_)

# Print the first 10 rows of the dense matrix
print(X_dense[0:10])

(9453, 5000)
{'نبغ': 3967, 'تؤم': 722, 'بأن': 426, 'فرد': 3066, 'قبل': 3242, 'علم': 2763, 'صبر': 2298, 'وقد': 4560, 'شمع': 2257, 'خير': 1620, 'تلع': 964, 'ظلم': 2564, 'حية': 1461, 'بدن': 520, 'حب': 1270, 'فؤل': 2966, 'عبر': 2603, 'خل': 1582, 'يخن': 4775, 'خلل': 1597, 'يلق': 4946, 'ودة': 4418, 'جفا': 1181, 'لقد': 3742, 'هان': 4172, 'ناس': 3955, 'حاج': 1258, 'دئح': 1628, 'عقل': 2747, 'يطر': 4862, 'عليها': 2771, 'نفذ': 4069, 'وقل': 4567, 'حيل': 1469, 'عنى': 2796, 'قلب': 3326, 'خدع': 1508, 'صحب': 2304, 'لفن': 3735, 'كنت': 3557, 'ترد': 807, 'امر': 352, 'جمع': 1201, 'فهي': 3197, 'سمح': 2123, 'حرة': 1326, 'نطق': 4050, 'حور': 1452, 'خذا': 1515, 'حكم': 1407, 'فوه': 3208, 'سطء': 2072, 'ذكر': 1747, 'دائ': 1633, 'ضيف': 2464, 'يرى': 4809, 'سعة': 2078, 'يره': 4808, 'عام': 2591, 'فكر': 3148, 'صفح': 2346, 'نقم': 4089, 'لنس': 3774, 'وحد': 4391, 'حضر': 1369, 'جبا': 1099, 'غضب': 2874, 'قال': 3234, 'لقم': 3746, 'لبن': 3640, 'بني': 682, 'جدل': 1124, 'علماء': 2764, 'فكن': 3153, 'شور': 2270, 'فسد': 3083, 'رأ

In [7]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
y = label_encoder.fit_transform(data['good_or_bad'])


In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
