In [9]:
# الخلية 1: استيراد المكتبات
import pandas as pd
import re
import numpy as np


In [10]:
# الخلية 2: تحميل البيانات
data = pd.read_csv('../data/Language Detection.csv')
print("📊 البيانات الأصلية:", data.shape)

📊 البيانات الأصلية: (10337, 2)


In [11]:
# الخلية 3: تنظيف النصوص
def clean_text(text):
    if pd.isna(text):
        return ""
    
    text = str(text)
    # إزالة الأحرف الخاصة
    text = re.sub(r'[^\w\s]', '', text)
    # إزالة الأرقام
    text = re.sub(r'\d+', '', text)
    # تحويل إلى حروف صغيرة
    text = text.lower()
    # إزالة المسافات الزائدة
    text = re.sub(r'\s+', ' ', text).strip()
    return text

data['cleaned_text'] = data['Text'].apply(clean_text)
print("✅ تم تنظيف النصوص")

✅ تم تنظيف النصوص


In [12]:
# الخلية 4: التعامل مع القيم المفقودة
print("\n🔍 القيم المفقودة قبل المعالجة:")
print(data.isnull().sum())

# حذف الصفوف التي تحتوي على قيم مفقودة
data = data.dropna()
print("📊 البيانات بعد حذف القيم المفقودة:", data.shape)


🔍 القيم المفقودة قبل المعالجة:
Text            0
Language        0
cleaned_text    0
dtype: int64
📊 البيانات بعد حذف القيم المفقودة: (10337, 3)


In [13]:
# الخلية 5: التعامل مع البيانات المكررة
duplicates_count = data.duplicated().sum()
print(f"\n🔍 عدد البيانات المكررة: {duplicates_count}")

if duplicates_count > 0:
    data = data.drop_duplicates()
    print("✅ تم حذف البيانات المكررة")


🔍 عدد البيانات المكررة: 66
✅ تم حذف البيانات المكررة


In [14]:
# الخلية 6: التحقق من التوزيع بعد التنظيف
print("\n🌍 توزيع اللغات بعد التنظيف:")
print(data['Language'].value_counts())


🌍 توزيع اللغات بعد التنظيف:
Language
English       1382
French        1007
Spanish        816
Portugeese     736
Italian        694
Russian        688
Sweedish       673
Malayalam      591
Dutch          542
Arabic         532
Turkish        471
German         465
Tamil          464
Danish         424
Kannada        366
Greek          358
Hindi           62
Name: count, dtype: int64


In [15]:
# الخلية 7: حفظ البيانات النظيفة
data.to_csv('../data/cleaned_language_data.csv', index=False)
print("💾 تم حفظ البيانات النظيفة في cleaned_language_data.csv")

💾 تم حفظ البيانات النظيفة في cleaned_language_data.csv


In [16]:
# الخلية 8: تقرير التنظيف
cleaning_report = {
    "original_samples": data.shape[0],
    "after_cleaning_samples": data.shape[0],
    "removed_duplicates": duplicates_count,
    "final_languages": data['Language'].nunique()
}

print("\n📋 تقرير التنظيف:")
for key, value in cleaning_report.items():
    print(f"{key}: {value}")

print("\n✅ تم الانتهاء من تنظيف البيانات!")


📋 تقرير التنظيف:
original_samples: 10271
after_cleaning_samples: 10271
removed_duplicates: 66
final_languages: 17

✅ تم الانتهاء من تنظيف البيانات!
