# تصنيف القصائد حسب فئة الشاعر

Context
Arabic poetry is the oldest and the most prominent form of Arabic literature today. Ancient Arabic poetry is probably the primary source for describing the social, political and intellectual life in the Arab world. Modern poetry has gone through major changes and shifts both in the form and in the topics.



Content
The dataset contains over 58K poems that extend from the 6th century to the present day. Along with each poem, poem metadata have also been scrapped such as poet name, the poem, and its category. The data were scraped from adab.com

In [1]:
# قراءة البيانات
# https://www.kaggle.com/fahd09/arabic-poetry-dataset-478-2017
import pandas as pd
data = pd.read_csv('../all_poems.csv', encoding='utf-8')
data.head()

Unnamed: 0,poem_id,poem_link,poem_style,poem_text,poem_title,poet_cat,poet_id,poet_link,poet_name
0,21,http://www.adab.com/modules.php?name=Sh3er&doW...,فصحى,عيناك غابتا نخيل ساعة السحر او شرفتان راح يناي...,أنشودة المطر,العراق,2,http://www.adab.com/modules.php?name=Sh3er&doW...,بدر شاكر السياب
1,65546,http://www.adab.com/modules.php?name=Sh3er&doW...,فصحى,انا لا ازال و في يدي قدحي ياليل اين تفرق الشر...,أقداح و أحلام,العراق,2,http://www.adab.com/modules.php?name=Sh3er&doW...,بدر شاكر السياب
2,65561,http://www.adab.com/modules.php?name=Sh3er&doW...,فصحى,علي مقلتيك ارتشفت النجوم وعانقت امالي الايبة ...,هوى واحد !,العراق,2,http://www.adab.com/modules.php?name=Sh3er&doW...,بدر شاكر السياب
3,65554,http://www.adab.com/modules.php?name=Sh3er&doW...,فصحى,اساطير من حشرجات الزمان نسيج اليد البالية رواه...,أساطير,العراق,2,http://www.adab.com/modules.php?name=Sh3er&doW...,بدر شاكر السياب
4,65550,http://www.adab.com/modules.php?name=Sh3er&doW...,فصحى,والتف حولك ساعداي ومال جيدك في اشتهاء كالزهرة ...,اللقاء الأخير,العراق,2,http://www.adab.com/modules.php?name=Sh3er&doW...,بدر شاكر السياب


In [2]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58021 entries, 0 to 58020
Data columns (total 9 columns):
poem_id       58021 non-null int64
poem_link     58021 non-null object
poem_style    58021 non-null object
poem_text     58020 non-null object
poem_title    58021 non-null object
poet_cat      58021 non-null object
poet_id       58021 non-null int64
poet_link     58021 non-null object
poet_name     58021 non-null object
dtypes: int64(2), object(7)
memory usage: 4.0+ MB


In [3]:
# سنتخلص من جميع الأعمدة ما عدا عمودي القصيدة و الفئة
data.drop(columns=['poem_id', 'poem_link', 'poem_style', 'poem_title', 'poet_id', 'poet_link', 'poet_name'], inplace=True)

In [4]:
data.head()

Unnamed: 0,poem_text,poet_cat
0,عيناك غابتا نخيل ساعة السحر او شرفتان راح يناي...,العراق
1,انا لا ازال و في يدي قدحي ياليل اين تفرق الشر...,العراق
2,علي مقلتيك ارتشفت النجوم وعانقت امالي الايبة ...,العراق
3,اساطير من حشرجات الزمان نسيج اليد البالية رواه...,العراق
4,والتف حولك ساعداي ومال جيدك في اشتهاء كالزهرة ...,العراق


In [5]:
# التحقيق من البيانات المفقودة
data.isna().sum()

poem_text    1
poet_cat     0
dtype: int64

In [6]:
# مسح الصفوف المفقودة
data.dropna(inplace=True)

In [7]:
data.isna().sum()

poem_text    0
poet_cat     0
dtype: int64

In [8]:
# حذف الصفوف المكررة
data.drop_duplicates(inplace=True)

In [9]:
# إنشاء دالة تنظيف النص
import re
def clean_arabic_text(text):
    text = re.sub('[أآإ]', 'ا', text)
    #text = re.sub('ه', 'ة', text)
    text = re.sub('[^ةجحخهعغفقثصضشسيىبلاتنمكوؤرزدذئطظ]', ' ', text)
    text = re.sub('  +', ' ', text)
    return text.strip()

In [10]:
data['poem_text'][0]

'عيناك غابتا نخيل ساعة السحر او شرفتان راح يناي عنهما القمر عيناك حين تبسمان تورق الكروم وترقص الاضواء كالاقمار في نهر يرجه المجذاف وهنا ساعة السحر كانما تنبض في غوريهما النجوم وتغرقان في ضباب من اسي شفيف كالبحر سرح اليدين فوقه المساء دفء الشتاء فيه وارتعاشة الخريف والموت والميلاد والظلام والضياء فتستفيق ملء روحي رعشة البكاء ونشوة وحشية تعانق السماء كنشوة الطفل اذا خاف من القمر كان اقواس السحاب تشرب الغيوم وقطرة فقطرة تذوب في المطر وكركر الاطفال في عراءش الكروم ودغدغت صمت العصافير علي الشجر انشودة المطر مطر مطر مطر تثاءب المساء والغيوم ما تزال تسح ما تسح من دموعها الثقال كان طفلا بات يهذي قبل ان ينام بان امه – التي افاق منذ عام فلم يجدها ثم حين لج في السءال قالوا له "بعد غد تعود " لا بد ان تعود وان تهامس الرفاق انها هناك في جانب التل تنام نومة الحود تسف من ترابها وتشرب المطر كان صيادا حزينا يجمع الشباك ويلعن المياه والقدر وينثر الغناء حيث يافل القمر مطر مطر اتعلمين اي حزن يبعث المطر وكيف تنشج المزاريب اذا انهمر وكيف يشعر الوحيد فيه بالضياع بلا انتهاء – كالدم المراق كالجياع كالحب كالاطف

In [11]:
# تنظيف عمود القصيدة
texts = []
for i, text in enumerate(data['poem_text']):
    cleaned = clean_arabic_text(text)
    texts.append(cleaned)
data['poem_text'] = texts
data['poem_text'][0]

'عيناك غابتا نخيل ساعة السحر او شرفتان راح يناي عنهما القمر عيناك حين تبسمان تورق الكروم وترقص الاضوا كالاقمار في نهر يرجه المجذاف وهنا ساعة السحر كانما تنبض في غوريهما النجوم وتغرقان في ضباب من اسي شفيف كالبحر سرح اليدين فوقه المسا دف الشتا فيه وارتعاشة الخريف والموت والميلاد والظلام والضيا فتستفيق مل روحي رعشة البكا ونشوة وحشية تعانق السما كنشوة الطفل اذا خاف من القمر كان اقواس السحاب تشرب الغيوم وقطرة فقطرة تذوب في المطر وكركر الاطفال في عرا ش الكروم ودغدغت صمت العصافير علي الشجر انشودة المطر مطر مطر مطر تثا ب المسا والغيوم ما تزال تسح ما تسح من دموعها الثقال كان طفلا بات يهذي قبل ان ينام بان امه التي افاق منذ عام فلم يجدها ثم حين لج في الس ال قالوا له بعد غد تعود لا بد ان تعود وان تهامس الرفاق انها هناك في جانب التل تنام نومة الحود تسف من ترابها وتشرب المطر كان صيادا حزينا يجمع الشباك ويلعن المياه والقدر وينثر الغنا حيث يافل القمر مطر مطر اتعلمين اي حزن يبعث المطر وكيف تنشج المزاريب اذا انهمر وكيف يشعر الوحيد فيه بالضياع بلا انتها كالدم المراق كالجياع كالحب كالاطفال كالموتي هو المط

In [12]:
# التحقق من الفئات
data['poet_cat'].value_counts()

العصر العباسي          19400
العصر الأندلسي          6292
سوريا                   5031
مصر                     4770
لبنان                   4585
العراق                  4229
العصر الإسلامي          3698
السعودية                1928
فلسطين                  1710
العصر الجاهلي           1457
اليمن                    698
عمان                     608
الإمارات                 563
البحرين                  551
الجزائر                  405
السودان                  403
تونس                     351
الأردن                   263
ليبيا                    238
المغرب                   201
إيران                     90
أفغانستان                 70
شعراء العراق والشام       68
الكويت                    54
قطر                       22
موريتانيا                 15
Name: poet_cat, dtype: int64

In [13]:
# تقسيم الفئات
# سنقسم الفئات للعصر العباسي، العصر الأندلسي، العصر الجاهلي، و العصر الحديث
# سنقوم أولا بجمع الفئات الأخرى
modern_poets = [x for x in data['poet_cat'].value_counts().keys() if x not in ['العصر الأندلسي', 'العصر العباسي', 'العصر الجاهلي', 'العصر الإسلامي']]
modern_poets.append('شعراء العصر الحديث والشام')
modern_poets

['سوريا',
 'مصر',
 'لبنان',
 'العراق',
 'السعودية',
 'فلسطين',
 'اليمن',
 'عمان',
 'الإمارات',
 'البحرين',
 'الجزائر',
 'السودان',
 'تونس',
 'الأردن',
 'ليبيا',
 'المغرب',
 'إيران',
 'أفغانستان',
 'شعراء العراق والشام',
 'الكويت',
 'قطر',
 'موريتانيا',
 'شعراء العصر الحديث والشام']

In [14]:
# الآن سنغير مسمياتهم للعصر الحديث
for i in range(len(modern_poets)):
    data['poet_cat'] = data['poet_cat'].str.replace(modern_poets[i], 'العصر الحديث')
data['poet_cat'].value_counts()

العصر الحديث      26853
العصر العباسي     19400
العصر الأندلسي     6292
العصر الإسلامي     3698
العصر الجاهلي      1457
Name: poet_cat, dtype: int64

In [15]:
# فصل بيانات التدريب و الاختبار
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data['poem_text'], data['poet_cat'], shuffle=True)

In [16]:
len(X_train)

43275

In [17]:
len(X_test)

14425

In [18]:
# إنشاء سلة الكلمات باستخدام TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
vectorizer = TfidfVectorizer(analyzer='word', stop_words=stopwords.words('arabic'), ngram_range=(1, 2), max_df=1.0, min_df=2, max_features=10000)
# تمثيل بيانات التدريب باستخدام سلة الكلمات
X_train = vectorizer.fit_transform(X_train)

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/ameera/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [19]:
# بناء النموذج
from sklearn.naive_bayes import MultinomialNB
model = MultinomialNB()
model.fit(X_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [20]:
# اختبار النموذج
from sklearn.metrics import accuracy_score
X_test = vectorizer.transform(X_test)
preds = model.predict(X_test)
accuracy_score(y_test, preds)

0.6754246100519931