# إعداد البيانات

[المصدر الأصلي للمفكرة من *علم البيانات: مقدمة في تعلم الآلة لعلم البيانات باستخدام Python وMachine Learning Studio بواسطة Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## استكشاف معلومات `DataFrame`

> **هدف التعلم:** بنهاية هذا القسم الفرعي، يجب أن تكون مرتاحًا في العثور على معلومات عامة حول البيانات المخزنة في DataFrames الخاصة بـ pandas.

بمجرد تحميل بياناتك في pandas، من المرجح أن تكون في شكل `DataFrame`. ومع ذلك، إذا كان مجموعة البيانات في `DataFrame` تحتوي على 60,000 صف و400 عمود، كيف يمكنك حتى البدء في فهم ما تعمل معه؟ لحسن الحظ، توفر pandas أدوات مريحة لعرض معلومات عامة عن `DataFrame` بسرعة بالإضافة إلى الصفوف الأولى والأخيرة.

لاستكشاف هذه الوظيفة، سنقوم باستيراد مكتبة scikit-learn الخاصة بـ Python واستخدام مجموعة بيانات شهيرة يعرفها كل عالم بيانات مئات المرات: مجموعة بيانات *Iris* لعالم الأحياء البريطاني رونالد فيشر، التي استخدمها في ورقته البحثية عام 1936 بعنوان "استخدام القياسات المتعددة في المشاكل التصنيفية":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
لقد قمنا بتحميل مجموعة بيانات Iris في المتغير `iris_df`. قبل التعمق في البيانات، سيكون من المفيد معرفة عدد نقاط البيانات التي لدينا وحجم مجموعة البيانات بشكل عام. من المفيد النظر إلى حجم البيانات التي نتعامل معها.


In [2]:
iris_df.shape

(150, 4)

إذن، نحن نتعامل مع 150 صفًا و4 أعمدة من البيانات. كل صف يمثل نقطة بيانات واحدة وكل عمود يمثل ميزة واحدة مرتبطة بإطار البيانات. لذا، بشكل أساسي، هناك 150 نقطة بيانات تحتوي كل منها على 4 ميزات.

`shape` هنا هو خاصية لإطار البيانات وليس وظيفة، ولهذا السبب لا ينتهي بقوسين.


### `DataFrame.columns`
دعونا الآن ننتقل إلى الأعمدة الأربعة للبيانات. ماذا يمثل كل منها بالضبط؟ ستوفر لنا خاصية `columns` أسماء الأعمدة في إطار البيانات.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

كما نرى، هناك أربعة (4) أعمدة. تخبرنا خاصية `columns` بأسماء الأعمدة ولا شيء آخر بشكل أساسي. تكتسب هذه الخاصية أهمية عندما نريد تحديد الميزات التي يحتوي عليها مجموعة البيانات.


### `DataFrame.info`
كمية البيانات (المعطاة بواسطة الخاصية `shape`) وأسماء الميزات أو الأعمدة (المعطاة بواسطة الخاصية `columns`) تخبرنا شيئًا عن مجموعة البيانات. الآن، قد نرغب في التعمق أكثر في مجموعة البيانات. وظيفة `DataFrame.info()` مفيدة جدًا لهذا الغرض.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


من هنا، يمكننا ملاحظة بعض النقاط:
1. نوع البيانات لكل عمود: في هذه المجموعة من البيانات، يتم تخزين جميع البيانات كأرقام ذات فاصلة عائمة 64-بت.
2. عدد القيم غير الفارغة: التعامل مع القيم الفارغة هو خطوة مهمة في إعداد البيانات. سيتم التعامل معها لاحقًا في الدفتر.


### DataFrame.describe()
لنفترض أن لدينا الكثير من البيانات الرقمية في مجموعة البيانات الخاصة بنا. يمكن إجراء حسابات إحصائية أحادية المتغير مثل المتوسط، الوسيط، الأرباع وغيرها على كل عمود بشكل فردي. توفر لنا وظيفة `DataFrame.describe()` ملخصًا إحصائيًا للأعمدة الرقمية في مجموعة البيانات.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


يعرض الإخراج أعلاه العدد الإجمالي لنقاط البيانات، المتوسط، الانحراف المعياري، الحد الأدنى، الربع الأدنى (25%)، الوسيط (50%)، الربع الأعلى (75%) والقيمة القصوى لكل عمود.


### `DataFrame.head`
مع كل الوظائف والخصائص المذكورة أعلاه، حصلنا على نظرة عامة على مستوى عالٍ للمجموعة البيانات. نعرف الآن عدد النقاط البيانات الموجودة، وعدد الميزات، ونوع البيانات لكل ميزة، وعدد القيم غير الفارغة لكل ميزة.

حان الوقت الآن لإلقاء نظرة على البيانات نفسها. دعونا نرى كيف تبدو الصفوف القليلة الأولى (النقاط البيانات الأولى) من الـ `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


كما نرى في الناتج هنا، توجد خمس (5) إدخالات من مجموعة البيانات. إذا نظرنا إلى الفهرس على اليسار، نجد أن هذه هي أول خمس صفوف.


### التمرين:

من المثال المذكور أعلاه، يتضح أن `DataFrame.head` يعرض افتراضيًا أول خمس صفوف من `DataFrame`. في خلية الكود أدناه، هل يمكنك اكتشاف طريقة لعرض أكثر من خمس صفوف؟


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
طريقة أخرى لعرض البيانات يمكن أن تكون من النهاية (بدلاً من البداية). الجانب الآخر لـ `DataFrame.head` هو `DataFrame.tail`، والذي يعرض آخر خمس صفوف من الـ `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


في الممارسة العملية، من المفيد أن تتمكن بسهولة من فحص الصفوف الأولى أو الصفوف الأخيرة من `DataFrame`، خاصةً عندما تبحث عن القيم الشاذة في مجموعات البيانات المرتبة.

جميع الوظائف والخصائص التي تم عرضها أعلاه بمساعدة أمثلة الكود تساعدنا في الحصول على نظرة عامة وشعور بالبيانات.

> **الخلاصة:** حتى بمجرد النظر إلى البيانات الوصفية حول المعلومات في `DataFrame` أو القيم الأولى والأخيرة فيها، يمكنك الحصول على فكرة فورية عن حجم وشكل ومحتوى البيانات التي تتعامل معها.


### البيانات المفقودة
دعونا نتعمق في موضوع البيانات المفقودة. تحدث البيانات المفقودة عندما لا يتم تخزين أي قيمة في بعض الأعمدة.

لنأخذ مثالاً: لنفترض أن شخصًا ما يهتم بوزنه ولا يملأ خانة الوزن في استبيان. في هذه الحالة، ستكون قيمة الوزن لهذا الشخص مفقودة.

في معظم الأحيان، تظهر القيم المفقودة في مجموعات البيانات الواقعية.

**كيف يتعامل Pandas مع البيانات المفقودة**

يتعامل Pandas مع القيم المفقودة بطريقتين. الأولى التي رأيتها سابقًا في الأقسام السابقة هي: `NaN`، أو "ليس رقمًا". هذه في الواقع قيمة خاصة وهي جزء من مواصفات النقطة العائمة IEEE وتُستخدم فقط للإشارة إلى القيم المفقودة من النوع العائم.

بالنسبة للقيم المفقودة التي ليست من النوع العائم، يستخدم Pandas كائن Python `None`. قد يبدو الأمر مربكًا أنك ستواجه نوعين مختلفين من القيم يشيران إلى نفس المعنى تقريبًا، ولكن هناك أسباب برمجية منطقية لهذا الاختيار التصميمي، وفي الواقع، هذا النهج يمكّن Pandas من تقديم حل وسط جيد في الغالبية العظمى من الحالات. ومع ذلك، فإن كلا من `None` و `NaN` يحملان قيودًا يجب أن تكون على دراية بها فيما يتعلق بكيفية استخدامهما.


### `None`: البيانات المفقودة غير العائمة
نظرًا لأن `None` تأتي من Python، فلا يمكن استخدامها في مصفوفات NumPy وpandas التي ليست من نوع البيانات `'object'`. تذكر أن مصفوفات NumPy (والهياكل البيانية في pandas) يمكن أن تحتوي فقط على نوع واحد من البيانات. هذه الخاصية تمنحها قوة هائلة للعمل مع البيانات واسعة النطاق والعمليات الحسابية، لكنها أيضًا تحد من مرونتها. مثل هذه المصفوفات يجب أن تُرفع إلى "القاسم المشترك الأدنى"، وهو نوع البيانات الذي يشمل كل شيء في المصفوفة. عندما تكون `None` موجودة في المصفوفة، فهذا يعني أنك تعمل مع كائنات Python.

لرؤية ذلك عمليًا، انظر إلى المثال التالي للمصفوفة (لاحظ نوع البيانات `dtype` الخاص بها):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

واقع تحويل أنواع البيانات إلى أنواع أعلى يحمل معه تأثيرين جانبيين. أولاً، يتم تنفيذ العمليات على مستوى كود Python المفسر بدلاً من كود NumPy المُجمع. بمعنى آخر، هذا يعني أن أي عمليات تتضمن `Series` أو `DataFrames` تحتوي على `None` ستكون أبطأ. وعلى الرغم من أنك قد لا تلاحظ هذا التأثير على الأداء، إلا أنه قد يصبح مشكلة مع مجموعات البيانات الكبيرة.

التأثير الجانبي الثاني ينبع من الأول. نظرًا لأن `None` يعيد `Series` أو `DataFrame`s إلى عالم Python العادي، فإن استخدام التجميعات مثل `sum()` أو `min()` في NumPy/pandas على المصفوفات التي تحتوي على قيمة ``None`` سيؤدي عادةً إلى ظهور خطأ:


In [10]:
example1.sum()

TypeError: ignored

**المعلومة الرئيسية**: الجمع (وغيره من العمليات) بين الأعداد الصحيحة وقيم `None` غير معرف، مما قد يحد من ما يمكنك القيام به مع مجموعات البيانات التي تحتوي عليها.


### `NaN`: القيم العائمة المفقودة

على عكس `None`, يدعم NumPy (وبالتالي pandas) استخدام `NaN` لعملياته السريعة والمتجهة ووظائف ufuncs. الخبر السيئ هو أن أي عملية حسابية تُجرى على `NaN` دائمًا ما تؤدي إلى `NaN`. على سبيل المثال:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

الخبر الجيد: التجميعات التي تعمل على المصفوفات التي تحتوي على `NaN` لا تظهر أخطاء. الخبر السيئ: النتائج ليست مفيدة بشكل موحد:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### التمرين:


In [11]:
# What happens if you add np.nan and None together?


تذكر: `NaN` مخصص فقط للقيم العائمة المفقودة؛ لا يوجد مكافئ لـ `NaN` للأعداد الصحيحة أو النصوص أو القيم المنطقية.


### `NaN` و `None`: القيم الفارغة في pandas

على الرغم من أن `NaN` و `None` يمكن أن يتصرفا بشكل مختلف إلى حد ما، إلا أن pandas مصمم للتعامل معهما بشكل متبادل. لفهم ما نعنيه، انظر إلى سلسلة (`Series`) من الأعداد الصحيحة:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### التمرين:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


أثناء عملية تحويل أنواع البيانات إلى أنواع أعلى لتحقيق تجانس البيانات في `Series` و `DataFrame`s، يقوم pandas بتبديل القيم المفقودة بين `None` و `NaN` بسهولة. بسبب هذه الخاصية التصميمية، يمكن أن يكون من المفيد التفكير في `None` و `NaN` كنوعين مختلفين من "القيم الفارغة" في pandas. في الواقع، بعض الطرق الأساسية التي ستستخدمها للتعامل مع القيم المفقودة في pandas تعكس هذه الفكرة في أسمائها:

- `isnull()`: تُنتج قناعًا منطقيًا يشير إلى القيم المفقودة
- `notnull()`: عكس `isnull()`
- `dropna()`: تُرجع نسخة مفلترة من البيانات
- `fillna()`: تُرجع نسخة من البيانات مع القيم المفقودة مملوءة أو مُقدّرة

هذه طرق مهمة يجب إتقانها والشعور بالراحة في استخدامها، لذا دعونا نستعرض كل واحدة منها بعمق.


### الكشف عن القيم الفارغة

الآن بعد أن فهمنا أهمية القيم المفقودة، نحتاج إلى الكشف عنها في مجموعة البيانات الخاصة بنا قبل التعامل معها.  
تُعتبر كل من `isnull()` و `notnull()` الطرق الأساسية للكشف عن البيانات الفارغة. كلاهما يُرجع أقنعة بوليانية على بياناتك.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

انظر عن كثب إلى النتيجة. هل هناك شيء يفاجئك؟ على الرغم من أن `0` يُعتبر قيمة فارغة حسابيًا، إلا أنه لا يزال عددًا صحيحًا جيدًا تمامًا، و pandas يتعامل معه على هذا الأساس. أما `''` فهو أكثر دقة قليلاً. على الرغم من أننا استخدمناه في القسم الأول لتمثيل قيمة سلسلة فارغة، إلا أنه لا يزال كائن سلسلة وليس تمثيلًا للقيمة الفارغة بالنسبة لـ pandas.

الآن، دعونا نعكس هذا ونستخدم هذه الطرق بطريقة أكثر قربًا لما ستستخدمه في الممارسة العملية. يمكنك استخدام الأقنعة المنطقية مباشرة كمؤشر لـ ``Series`` أو ``DataFrame``، وهذا يمكن أن يكون مفيدًا عند محاولة العمل مع القيم المفقودة (أو الموجودة) المعزولة.

إذا أردنا العدد الإجمالي للقيم المفقودة، يمكننا ببساطة إجراء عملية جمع على القناع الناتج عن طريقة `isnull()`.


In [19]:
example3.isnull().sum()

2

### التمرين:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**الخلاصة الرئيسية**: كل من الطريقتين `isnull()` و `notnull()` تنتجان نتائج مشابهة عند استخدامهما في إطارات البيانات: تظهر النتائج وفهرس تلك النتائج، مما سيساعدك بشكل كبير أثناء التعامل مع بياناتك.


### التعامل مع البيانات المفقودة

> **هدف التعلم:** بنهاية هذا القسم، يجب أن تكون قادرًا على معرفة كيفية ومتى يتم استبدال أو إزالة القيم الفارغة من DataFrames.

نماذج التعلم الآلي لا تستطيع التعامل مع البيانات المفقودة بنفسها. لذا، قبل تمرير البيانات إلى النموذج، يجب أن نتعامل مع هذه القيم المفقودة.

كيفية التعامل مع البيانات المفقودة تحمل معها توازنات دقيقة، ويمكن أن تؤثر على تحليلك النهائي ونتائجك في العالم الحقيقي.

هناك طريقتان رئيسيتان للتعامل مع البيانات المفقودة:

1. حذف الصف الذي يحتوي على القيمة المفقودة  
2. استبدال القيمة المفقودة بقيمة أخرى  

سنناقش كلا الطريقتين ومزاياهما وعيوبهما بالتفصيل.


### إسقاط القيم الفارغة

كمية البيانات التي نقدمها لنموذجنا تؤثر بشكل مباشر على أدائه. إسقاط القيم الفارغة يعني أننا نقلل عدد نقاط البيانات، وبالتالي نقلل حجم مجموعة البيانات. لذلك، يُنصح بإسقاط الصفوف التي تحتوي على قيم فارغة عندما تكون مجموعة البيانات كبيرة جدًا.

قد يكون هناك حالة أخرى حيث يحتوي صف معين أو عمود معين على الكثير من القيم المفقودة. في هذه الحالة، يمكن إسقاطها لأنها لن تضيف قيمة كبيرة لتحليلنا حيث أن معظم البيانات مفقودة لهذا الصف/العمود.

إلى جانب تحديد القيم المفقودة، توفر مكتبة pandas وسيلة مريحة لإزالة القيم الفارغة من `Series` و `DataFrame`s. لرؤية ذلك عمليًا، دعونا نعود إلى `example3`. وظيفة `DataFrame.dropna()` تساعد في إسقاط الصفوف التي تحتوي على قيم فارغة.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

لاحظ أن هذا يجب أن يبدو مثل الناتج من `example3[example3.notnull()]`. الفرق هنا هو أنه بدلاً من الفهرسة فقط على القيم المموهة، فإن `dropna` قد أزال تلك القيم المفقودة من الـ `Series` `example3`.

نظرًا لأن الـ DataFrames لها بعدان، فإنها توفر خيارات أكثر لإزالة البيانات.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(هل لاحظت أن pandas قام بتحويل نوعين من الأعمدة إلى أرقام عشرية لتناسب القيم `NaN`؟)

لا يمكنك حذف قيمة واحدة فقط من `DataFrame`، لذا عليك حذف صفوف أو أعمدة كاملة. بناءً على ما تقوم به، قد ترغب في اختيار أحد الخيارين، ولهذا يوفر pandas خيارات لكلاهما. نظرًا لأن الأعمدة في علم البيانات تمثل عادةً المتغيرات والصفوف تمثل الملاحظات، فمن المرجح أن تقوم بحذف صفوف البيانات؛ الإعداد الافتراضي لـ `dropna()` هو حذف جميع الصفوف التي تحتوي على أي قيم فارغة:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


إذا لزم الأمر، يمكنك حذف القيم NA من الأعمدة. استخدم `axis=1` للقيام بذلك:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


لاحظ أن هذا يمكن أن يؤدي إلى فقدان الكثير من البيانات التي قد ترغب في الاحتفاظ بها، خاصة في مجموعات البيانات الصغيرة. ماذا لو كنت تريد فقط حذف الصفوف أو الأعمدة التي تحتوي على عدد كبير أو حتى جميع القيم الفارغة؟ يمكنك تحديد هذه الإعدادات في `dropna` باستخدام المعاملين `how` و `thresh`.

بشكل افتراضي، `how='any'` (إذا كنت ترغب في التحقق بنفسك أو رؤية المعاملات الأخرى التي تحتوي عليها الطريقة، قم بتشغيل `example4.dropna?` في خلية كود). يمكنك بدلاً من ذلك تحديد `how='all'` لحذف الصفوف أو الأعمدة التي تحتوي فقط على جميع القيم الفارغة. دعنا نوسع مثالنا `DataFrame` لنرى ذلك عمليًا في التمرين التالي.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> النقاط الرئيسية:
1. حذف القيم الفارغة فكرة جيدة فقط إذا كان حجم مجموعة البيانات كبيرًا بما يكفي.
2. يمكن حذف الصفوف أو الأعمدة بالكامل إذا كانت معظم بياناتها مفقودة.
3. تساعد طريقة `DataFrame.dropna(axis=)` في حذف القيم الفارغة. يشير الوسيط `axis` إلى ما إذا كان سيتم حذف الصفوف أو الأعمدة.
4. يمكن أيضًا استخدام الوسيط `how`. يتم تعيينه افتراضيًا إلى `any`. وبالتالي، يتم حذف الصفوف/الأعمدة التي تحتوي على أي قيم فارغة فقط. يمكن تعيينه إلى `all` لتحديد أننا سنحذف فقط الصفوف/الأعمدة التي تكون جميع قيمها فارغة.


### التمرين:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


يمنحك معامل `thresh` تحكمًا أكثر دقة: تحدد عدد القيم *غير الفارغة* التي يحتاجها الصف أو العمود ليتم الاحتفاظ به:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


هنا، تم حذف الصف الأول والأخير، لأنهما يحتويان فقط على قيمتين غير فارغتين.


### ملء القيم الفارغة

في بعض الأحيان يكون من المنطقي ملء القيم المفقودة بأخرى قد تكون صالحة. هناك بعض التقنيات لملء القيم الفارغة. الأولى هي استخدام المعرفة بالمجال (المعرفة بالموضوع الذي يعتمد عليه مجموعة البيانات) لتقدير القيم المفقودة بطريقة ما.

يمكنك استخدام `isnull` للقيام بذلك مباشرة، ولكن قد يكون ذلك مرهقًا، خاصة إذا كان لديك الكثير من القيم التي تحتاج إلى ملء. نظرًا لأن هذه مهمة شائعة جدًا في علم البيانات، يوفر pandas الدالة `fillna`، التي تُرجع نسخة من `Series` أو `DataFrame` مع استبدال القيم المفقودة بالقيمة التي تختارها. دعونا ننشئ مثالًا آخر لـ `Series` لنرى كيف يعمل هذا عمليًا.


### البيانات الفئوية (غير الرقمية)
أولاً، دعونا نأخذ بعين الاعتبار البيانات غير الرقمية. في مجموعات البيانات، لدينا أعمدة تحتوي على بيانات فئوية. على سبيل المثال: الجنس، صحيح أو خطأ، إلخ.

في معظم هذه الحالات، نستبدل القيم المفقودة بـ `الوضع` (mode) الخاص بالعمود. على سبيل المثال، إذا كان لدينا 100 نقطة بيانات، و90 منها قالت صحيح، و8 قالت خطأ، و2 لم تُملأ. في هذه الحالة، يمكننا ملء القيمتين المفقودتين بـ "صحيح"، مع الأخذ في الاعتبار العمود بأكمله.

مرة أخرى، يمكننا استخدام المعرفة بالمجال هنا. دعونا نأخذ مثالاً على ملء القيم باستخدام الوضع.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


الآن، دعونا أولاً نجد المنوال قبل ملء القيمة `None` بالمنوال.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

لذلك، سنستبدل None بـ True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


كما نرى، تم استبدال القيمة الفارغة. لا حاجة للقول، كان بإمكاننا كتابة أي شيء بدلاً من `'True'` وكان سيتم استبداله.


### البيانات الرقمية
الآن، ننتقل إلى البيانات الرقمية. هنا لدينا طريقتان شائعتان لاستبدال القيم المفقودة:

1. الاستبدال بالوسيط الخاص بالصف
2. الاستبدال بالمتوسط الخاص بالصف

نقوم بالاستبدال بالوسيط في حالة البيانات المنحرفة التي تحتوي على قيم شاذة. وذلك لأن الوسيط مقاوم للقيم الشاذة.

أما عندما تكون البيانات مُطَبَّعة (normalized)، يمكننا استخدام المتوسط، حيث في هذه الحالة يكون المتوسط والوسيط قريبين جدًا من بعضهما البعض.

أولاً، دعونا نأخذ عمودًا موزعًا بشكل طبيعي ونملأ القيم المفقودة بمتوسط العمود.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


متوسط العمود هو


In [33]:
np.mean(fill_with_mean[0])

0.0

التعبئة بالمتوسط


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


كما نرى، تم استبدال القيمة المفقودة بمتوسطها.


الآن دعونا نجرب إطار بيانات آخر، وهذه المرة سنستبدل القيم None بمتوسط العمود.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


متوسط العمود الثاني هو


In [36]:
fill_with_median[1].median()

4.0

التعبئة بالوسيط


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


كما نرى، تم استبدال قيمة NaN بالوسيط الخاص بالعمود.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

يمكنك ملء جميع الإدخالات الفارغة بقيمة واحدة، مثل `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> النقاط الرئيسية:
1. يجب ملء القيم المفقودة عندما يكون هناك بيانات قليلة أو عندما تكون هناك استراتيجية لملء البيانات المفقودة.
2. يمكن استخدام المعرفة بالمجال لتقدير القيم المفقودة وملئها.
3. بالنسبة للبيانات الفئوية، غالبًا ما يتم استبدال القيم المفقودة بالنمط الخاص بالعمود.
4. بالنسبة للبيانات الرقمية، عادةً ما يتم ملء القيم المفقودة بمتوسط العمود (للمجموعات المعيارية) أو الوسيط.


### التمرين:


In [40]:
# What happens if you try to fill null values with a string, like ''?


يمكنك **ملء القيم الفارغة بالتقدم**، وهو استخدام آخر قيمة صالحة لملء القيمة الفارغة:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

يمكنك أيضًا **الملء الخلفي** لنشر القيمة الصالحة التالية إلى الخلف لملء قيمة فارغة:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

كما قد تخمن، يعمل هذا بنفس الطريقة مع إطارات البيانات، ولكن يمكنك أيضًا تحديد `axis` الذي يتم على أساسه ملء القيم الفارغة:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


لاحظ أنه عندما لا تكون هناك قيمة سابقة متاحة للتعبئة الأمامية، تبقى القيمة الفارغة.


### التمرين:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


يمكنك أن تكون مبدعًا في كيفية استخدام `fillna`. على سبيل المثال، دعنا ننظر إلى `example4` مرة أخرى، ولكن هذه المرة دعنا نملأ القيم المفقودة بمتوسط جميع القيم في `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


لاحظ أن العمود الثالث لا يزال بدون قيمة: الاتجاه الافتراضي هو ملء القيم صفًا بصف.

> **الخلاصة:** هناك طرق متعددة للتعامل مع القيم المفقودة في مجموعات البيانات الخاصة بك. يجب أن تكون الاستراتيجية المحددة التي تستخدمها (إزالتها، استبدالها، أو حتى كيفية استبدالها) مستندة إلى خصائص تلك البيانات. ستكتسب فهمًا أفضل لكيفية التعامل مع القيم المفقودة كلما تعاملت وتفاعلت أكثر مع مجموعات البيانات.


### ترميز البيانات الفئوية

نماذج التعلم الآلي تتعامل فقط مع الأرقام وأي شكل من أشكال البيانات الرقمية. فهي لن تكون قادرة على التمييز بين "نعم" و "لا"، لكنها ستتمكن من التمييز بين 0 و 1. لذلك، بعد ملء القيم المفقودة، نحتاج إلى ترميز البيانات الفئوية إلى شكل رقمي لكي يتمكن النموذج من فهمها.

يمكن إجراء الترميز بطريقتين. سنناقشهما لاحقًا.


**ترميز التصنيفات**

ترميز التصنيفات يعني بشكل أساسي تحويل كل فئة إلى رقم. على سبيل المثال، لنفترض أن لدينا مجموعة بيانات لركاب الطيران وهناك عمود يحتوي على فئاتهم من بين ['درجة رجال الأعمال', 'الدرجة الاقتصادية', 'الدرجة الأولى']. إذا تم تطبيق ترميز التصنيفات على هذا، فسيتم تحويله إلى [0,1,2]. دعونا نرى مثالاً عبر الكود. بما أننا سنتعلم استخدام `scikit-learn` في الدفاتر القادمة، فلن نستخدمه هنا.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


لإجراء ترميز التصنيفات على العمود الأول، يجب أولاً وصف عملية الربط بين كل فئة ورقم، قبل الاستبدال.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


كما نرى، النتيجة تتطابق مع ما توقعنا حدوثه. إذن، متى نستخدم ترميز التصنيفات؟ يُستخدم ترميز التصنيفات في إحدى الحالتين أو كلتيهما:  
1. عندما يكون عدد الفئات كبيرًا  
2. عندما تكون الفئات مرتبة.  


**الترميز الواحد (One Hot Encoding)**

نوع آخر من الترميز هو الترميز الواحد. في هذا النوع من الترميز، يتم إضافة كل فئة من العمود كعمود منفصل، ويحصل كل نقطة بيانات على 0 أو 1 بناءً على ما إذا كانت تحتوي على تلك الفئة أم لا. لذلك، إذا كانت هناك n فئات مختلفة، سيتم إضافة n أعمدة إلى إطار البيانات.

على سبيل المثال، دعونا نأخذ نفس مثال فئات الطائرة. كانت الفئات: ['درجة رجال الأعمال', 'الدرجة الاقتصادية', 'الدرجة الأولى']. لذا، إذا قمنا بتطبيق الترميز الواحد، سيتم إضافة الأعمدة الثلاثة التالية إلى مجموعة البيانات: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


دعنا نقوم بترميز العمود الأول باستخدام الترميز الأحادي


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


كل عمود مشفر بطريقة "واحد ساخن" يحتوي على 0 أو 1، مما يحدد ما إذا كانت تلك الفئة موجودة لذلك النقطة البيانية.


متى نستخدم الترميز الواحد؟ يُستخدم الترميز الواحد في إحدى الحالتين أو كلتيهما:

1. عندما يكون عدد الفئات وحجم مجموعة البيانات صغيرًا.
2. عندما لا تتبع الفئات أي ترتيب معين.


> النقاط الرئيسية:
1. يتم استخدام الترميز لتحويل البيانات غير الرقمية إلى بيانات رقمية.
2. هناك نوعان من الترميز: الترميز بالملصقات والترميز بالواحد الساخن، وكلاهما يمكن تنفيذه بناءً على متطلبات مجموعة البيانات.


## إزالة البيانات المكررة

> **هدف التعلم:** بنهاية هذا القسم الفرعي، يجب أن تكون قادرًا على التعرف على القيم المكررة وإزالتها من DataFrames بسهولة.

بالإضافة إلى البيانات المفقودة، ستواجه غالبًا بيانات مكررة في مجموعات البيانات الواقعية. لحسن الحظ، توفر pandas وسيلة سهلة لاكتشاف وإزالة الإدخالات المكررة.


### التعرف على القيم المكررة: `duplicated`

يمكنك بسهولة تحديد القيم المكررة باستخدام طريقة `duplicated` في pandas، والتي تُرجع قناعًا منطقيًا يشير إلى ما إذا كانت إحدى الإدخالات في `DataFrame` مكررة لإدخال سابق. لنقم بإنشاء مثال آخر لـ `DataFrame` لنرى ذلك عمليًا.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### إزالة التكرارات: `drop_duplicates`
`drop_duplicates` ببساطة يعيد نسخة من البيانات حيث تكون جميع القيم التي تم تحديدها كـ `duplicated` هي `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


يعتبر كل من `duplicated` و `drop_duplicates` جميع الأعمدة بشكل افتراضي، ولكن يمكنك تحديد أن يقوموا بفحص مجموعة فرعية فقط من الأعمدة في `DataFrame` الخاص بك:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **الخلاصة:** إزالة البيانات المكررة جزء أساسي من كل مشروع علم بيانات تقريبًا. يمكن أن تؤثر البيانات المكررة على نتائج تحليلاتك وتمنحك نتائج غير دقيقة!


## فحوصات جودة البيانات في العالم الحقيقي

> **هدف التعلم:** بنهاية هذا القسم، يجب أن تكون قادرًا على اكتشاف وتصحيح مشكلات جودة البيانات الشائعة في العالم الحقيقي، بما في ذلك القيم الفئوية غير المتسقة، القيم الرقمية غير الطبيعية (الشواذ)، والكيانات المكررة مع اختلافات.

بينما تُعتبر القيم المفقودة والنسخ المكررة الدقيقة مشكلات شائعة، تحتوي مجموعات البيانات في العالم الحقيقي غالبًا على مشكلات أكثر دقة:

1. **القيم الفئوية غير المتسقة**: نفس الفئة مكتوبة بطرق مختلفة (مثل "USA"، "U.S.A"، "United States").
2. **القيم الرقمية غير الطبيعية**: شواذ متطرفة تشير إلى أخطاء في إدخال البيانات (مثل العمر = 999).
3. **الصفوف شبه المكررة**: سجلات تمثل نفس الكيان مع اختلافات طفيفة.

دعونا نستكشف تقنيات لاكتشاف هذه المشكلات ومعالجتها.


### إنشاء مجموعة بيانات "غير نظيفة" كمثال

أولاً، دعونا ننشئ مجموعة بيانات تحتوي على أنواع المشكلات التي نواجهها عادةً في البيانات الواقعية:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. اكتشاف القيم الفئوية غير المتسقة

لاحظ أن عمود `country` يحتوي على تمثيلات متعددة لنفس البلدان. دعونا نحدد هذه التناقضات:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### توحيد القيم الفئوية

يمكننا إنشاء خريطة لتوحيد هذه القيم. نهج بسيط هو تحويل النصوص إلى أحرف صغيرة وإنشاء قاموس خريطة:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**بديل: استخدام المطابقة الغامضة**

في الحالات الأكثر تعقيدًا، يمكننا استخدام مطابقة النصوص الغامضة مع مكتبة `rapidfuzz` لاكتشاف النصوص المتشابهة تلقائيًا:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. الكشف عن القيم الرقمية غير الطبيعية (الشواذ)

بالنظر إلى عمود `age`، لدينا بعض القيم المشبوهة مثل 199 و -5. دعونا نستخدم الطرق الإحصائية للكشف عن هذه القيم الشاذة.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### استخدام طريقة IQR (النطاق الربعي)

طريقة IQR هي تقنية إحصائية قوية للكشف عن القيم الشاذة، وهي أقل حساسية للقيم المتطرفة:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### استخدام طريقة Z-Score

تحدد طريقة Z-Score القيم الشاذة بناءً على الانحرافات المعيارية عن المتوسط:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### التعامل مع القيم الشاذة

بمجرد اكتشافها، يمكن التعامل مع القيم الشاذة بعدة طرق:
1. **الإزالة**: حذف الصفوف التي تحتوي على قيم شاذة (إذا كانت أخطاء)
2. **التحديد**: استبدالها بالقيم الحدودية
3. **الاستبدال بـ NaN**: اعتبارها بيانات مفقودة واستخدام تقنيات التعويض
4. **الإبقاء عليها**: إذا كانت قيم متطرفة مشروعة


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. اكتشاف الصفوف المتشابهة جدًا

لاحظ أن مجموعة البيانات لدينا تحتوي على عدة إدخالات لـ "John Smith" مع قيم مختلفة قليلاً. دعونا نحدد التكرارات المحتملة بناءً على تشابه الأسماء.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### العثور على النسخ المتشابهة باستخدام المطابقة الغامضة

للكشف عن النسخ المتشابهة بشكل أكثر تطورًا، يمكننا استخدام المطابقة الغامضة للعثور على أسماء متشابهة:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### التعامل مع التكرارات

بمجرد تحديدها، تحتاج إلى اتخاذ قرار بشأن كيفية التعامل مع التكرارات:
1. **الاحتفاظ بالظهور الأول**: استخدم `drop_duplicates(keep='first')`
2. **الاحتفاظ بالظهور الأخير**: استخدم `drop_duplicates(keep='last')`
3. **تجميع المعلومات**: دمج المعلومات من الصفوف المكررة
4. **المراجعة اليدوية**: وضع علامة للمراجعة البشرية


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### الملخص: إنشاء خط أنابيب شامل لتنظيف البيانات

لنقم بتجميع كل شيء في خط أنابيب شامل لتنظيف البيانات:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 تمرين التحدي

الآن دورك! أدناه يوجد صف جديد من البيانات يحتوي على عدة مشاكل في الجودة. هل يمكنك:

1. تحديد جميع المشاكل في هذا الصف
2. كتابة الكود لتنظيف كل مشكلة
3. إضافة الصف المنظف إلى مجموعة البيانات

إليك البيانات التي تحتوي على المشاكل:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### النقاط الرئيسية

1. **الفئات غير المتسقة** شائعة في البيانات الواقعية. تحقق دائمًا من القيم الفريدة وقم بتوحيدها باستخدام الخرائط أو المطابقة الغامضة.

2. **القيم الشاذة** يمكن أن تؤثر بشكل كبير على تحليلك. استخدم المعرفة بالمجال مع الطرق الإحصائية (IQR، Z-score) لاكتشافها.

3. **القيم شبه المكررة** أصعب في الكشف من القيم المكررة تمامًا. فكر في استخدام المطابقة الغامضة وتطبيع البيانات (تحويلها إلى أحرف صغيرة، إزالة المسافات الزائدة) لتحديدها.

4. **تنظيف البيانات عملية تكرارية**. قد تحتاج إلى تطبيق تقنيات متعددة ومراجعة النتائج قبل الانتهاء من مجموعة البيانات النظيفة.

5. **وثّق قراراتك**. احتفظ بسجل للخطوات التي طبقتها أثناء التنظيف وأسبابها، حيث إن ذلك مهم لإعادة الإنتاج والشفافية.

> **أفضل ممارسة:** احتفظ دائمًا بنسخة من بياناتك "الخام" الأصلية. لا تقم أبدًا بالكتابة فوق ملفات بيانات المصدر - أنشئ نسخًا نظيفة بأسماء واضحة مثل `data_cleaned.csv`.



---

**إخلاء المسؤولية**:  
تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الرسمي. للحصول على معلومات حاسمة، يُوصى بالترجمة البشرية الاحترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة.
