# آماده‌سازی داده‌ها

[منبع دفترچه اصلی از *علم داده: مقدمه‌ای بر یادگیری ماشین برای علم داده، پایتون و ماشین لرنینگ استودیو نوشته لی استات*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## بررسی اطلاعات `DataFrame`

> **هدف یادگیری:** تا پایان این بخش، باید بتوانید اطلاعات کلی درباره داده‌های ذخیره‌شده در DataFrameهای pandas را پیدا کنید.

وقتی داده‌های خود را در pandas بارگذاری کردید، احتمالاً در قالب یک `DataFrame` خواهند بود. اما اگر مجموعه داده در `DataFrame` شما شامل ۶۰,۰۰۰ سطر و ۴۰۰ ستون باشد، چگونه می‌توانید حتی شروع به درک آنچه با آن کار می‌کنید کنید؟ خوشبختانه، pandas ابزارهای مناسبی برای مشاهده سریع اطلاعات کلی درباره یک `DataFrame` و همچنین چند سطر اول و آخر آن ارائه می‌دهد.

برای بررسی این قابلیت‌ها، ما کتابخانه scikit-learn پایتون را وارد می‌کنیم و از یک مجموعه داده نمادین استفاده می‌کنیم که هر دانشمند داده‌ای صدها بار آن را دیده است: مجموعه داده *Iris* زیست‌شناس بریتانیایی رونالد فیشر که در مقاله سال ۱۹۳۶ او با عنوان "استفاده از اندازه‌گیری‌های متعدد در مسائل طبقه‌بندی" استفاده شده است:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
ما مجموعه داده Iris را در متغیر `iris_df` بارگذاری کرده‌ایم. پیش از بررسی داده‌ها، دانستن تعداد نقاط داده‌ای که داریم و اندازه کلی مجموعه داده ارزشمند خواهد بود. نگاه کردن به حجم داده‌هایی که با آن‌ها سروکار داریم مفید است.


In [2]:
iris_df.shape

(150, 4)

بنابراین، ما با ۱۵۰ ردیف و ۴ ستون داده سروکار داریم. هر ردیف نشان‌دهنده یک نقطه داده است و هر ستون یک ویژگی مرتبط با داده‌ها را نشان می‌دهد. به‌طور کلی، ۱۵۰ نقطه داده وجود دارد که هر کدام شامل ۴ ویژگی هستند.

`shape` در اینجا یک ویژگی از دیتافریم است و نه یک تابع، به همین دلیل با یک جفت پرانتز پایان نمی‌یابد.


### `DataFrame.columns`
حالا بیایید به ۴ ستون داده بپردازیم. هر کدام از این ستون‌ها دقیقاً چه چیزی را نشان می‌دهند؟ ویژگی `columns` نام ستون‌ها در دیتافریم را به ما می‌دهد.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

همانطور که می‌بینیم، چهار (۴) ستون وجود دارد. ویژگی `columns` نام ستون‌ها را به ما می‌گوید و اساساً چیز دیگری را نشان نمی‌دهد. این ویژگی زمانی اهمیت پیدا می‌کند که بخواهیم ویژگی‌های موجود در یک مجموعه داده را شناسایی کنیم.


### `DataFrame.info`
مقدار داده‌ها (که توسط ویژگی `shape` ارائه می‌شود) و نام ویژگی‌ها یا ستون‌ها (که توسط ویژگی `columns` ارائه می‌شود) اطلاعاتی درباره مجموعه داده به ما می‌دهند. حالا، می‌خواهیم عمیق‌تر به مجموعه داده نگاه کنیم. تابع `DataFrame.info()` برای این کار بسیار مفید است.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


از اینجا می‌توان چند مشاهده انجام داد:
1. نوع داده هر ستون: در این مجموعه داده، تمام داده‌ها به صورت اعداد اعشاری 64 بیتی ذخیره شده‌اند.
2. تعداد مقادیر غیر تهی: رسیدگی به مقادیر تهی یک مرحله مهم در آماده‌سازی داده‌ها است. این موضوع در ادامه در نوت‌بوک بررسی خواهد شد.


### DataFrame.describe()
فرض کنید داده‌های عددی زیادی در مجموعه داده خود داریم. محاسبات آماری تک‌متغیره مانند میانگین، میانه، چارک‌ها و غیره را می‌توان به‌صورت جداگانه روی هر یک از ستون‌ها انجام داد. تابع `DataFrame.describe()` خلاصه‌ای آماری از ستون‌های عددی مجموعه داده را در اختیار ما قرار می‌دهد.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


خروجی بالا تعداد کل نقاط داده، میانگین، انحراف معیار، حداقل، چارک پایین (۲۵٪)، میانه (۵۰٪)، چارک بالا (۷۵٪) و مقدار حداکثر هر ستون را نشان می‌دهد.


### `DataFrame.head`
با تمام توابع و ویژگی‌های بالا، ما یک دید کلی از مجموعه داده‌ها به دست آورده‌ایم. می‌دانیم که چند نقطه داده وجود دارد، چند ویژگی وجود دارد، نوع داده هر ویژگی چیست و تعداد مقادیر غیر تهی برای هر ویژگی چقدر است.

حالا وقت آن است که خود داده‌ها را بررسی کنیم. بیایید ببینیم چند سطر اول (چند نقطه داده اول) از `DataFrame` ما چگونه به نظر می‌رسند:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


همانطور که در خروجی اینجا مشاهده می‌کنیم، پنج (۵) ورودی از مجموعه داده‌ها وجود دارد. اگر به شاخص در سمت چپ نگاه کنیم، متوجه می‌شویم که این‌ها پنج ردیف اول هستند.


### تمرین:

از مثال داده شده در بالا مشخص است که به طور پیش‌فرض، `DataFrame.head` پنج ردیف اول یک `DataFrame` را برمی‌گرداند. آیا می‌توانید در سلول کد زیر راهی پیدا کنید که بیش از پنج ردیف را نمایش دهد؟


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
راه دیگری برای مشاهده داده‌ها می‌تواند از انتها (به جای ابتدا) باشد. نقطه مقابل `DataFrame.head`، `DataFrame.tail` است که پنج ردیف آخر یک `DataFrame` را برمی‌گرداند:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


در عمل، مفید است که بتوانید به راحتی چند سطر اول یا چند سطر آخر یک `DataFrame` را بررسی کنید، به‌ویژه زمانی که به دنبال نقاط دورافتاده در مجموعه داده‌های مرتب شده هستید.

تمام توابع و ویژگی‌هایی که در بالا با کمک مثال‌های کد نشان داده شدند، به ما کمک می‌کنند تا نگاهی کلی به داده‌ها داشته باشیم.

> **نکته مهم:** حتی فقط با نگاه کردن به فراداده‌های مربوط به اطلاعات در یک DataFrame یا چند مقدار اول و آخر آن، می‌توانید فوراً ایده‌ای درباره اندازه، شکل و محتوای داده‌هایی که با آن‌ها سروکار دارید، به دست آورید.


### داده‌های گمشده
بیایید به موضوع داده‌های گمشده بپردازیم. داده‌های گمشده زمانی رخ می‌دهند که هیچ مقداری در برخی از ستون‌ها ذخیره نشده باشد.

بیایید یک مثال بزنیم: فرض کنید کسی نسبت به وزن خود حساس است و فیلد وزن را در یک نظرسنجی پر نمی‌کند. در این صورت، مقدار وزن برای آن فرد خاص گم خواهد بود.

در اکثر مواقع، در مجموعه داده‌های دنیای واقعی، مقادیر گمشده رخ می‌دهند.

**نحوه مدیریت داده‌های گمشده توسط Pandas**

Pandas داده‌های گمشده را به دو روش مدیریت می‌کند. اولین روش که قبلاً در بخش‌های قبلی دیده‌اید: `NaN` یا Not a Number. این در واقع یک مقدار خاص است که بخشی از مشخصات IEEE برای اعداد اعشاری است و فقط برای نشان دادن مقادیر گمشده اعشاری استفاده می‌شود.

برای مقادیر گمشده غیر از اعداد اعشاری، pandas از شیء `None` در پایتون استفاده می‌کند. ممکن است گیج‌کننده به نظر برسد که با دو نوع مقدار مواجه شوید که اساساً یک چیز را بیان می‌کنند، اما دلایل برنامه‌نویسی منطقی برای این انتخاب طراحی وجود دارد و در عمل، این رویکرد به pandas امکان می‌دهد تا برای اکثر موارد یک سازش خوب ارائه دهد. با این حال، هر دو `None` و `NaN` محدودیت‌هایی دارند که باید در مورد نحوه استفاده از آن‌ها به آن‌ها توجه کنید.


### `None`: داده‌های گمشده غیر شناور
از آنجا که `None` از زبان پایتون می‌آید، نمی‌توان از آن در آرایه‌های NumPy و pandas که نوع داده آن‌ها `'object'` نیست استفاده کرد. به یاد داشته باشید که آرایه‌های NumPy (و ساختارهای داده‌ای در pandas) فقط می‌توانند یک نوع داده را در خود جای دهند. این ویژگی قدرت فوق‌العاده‌ای به آن‌ها برای کار با داده‌های بزرگ و محاسبات می‌دهد، اما انعطاف‌پذیری آن‌ها را نیز محدود می‌کند. چنین آرایه‌هایی باید به "پایین‌ترین مخرج مشترک" ارتقا یابند، یعنی نوع داده‌ای که همه چیز در آرایه را در بر می‌گیرد. وقتی `None` در آرایه باشد، به این معناست که شما با اشیاء پایتون کار می‌کنید.

برای مشاهده این موضوع در عمل، به آرایه نمونه زیر توجه کنید (به `dtype` آن دقت کنید):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

واقعیت نوع‌های داده‌ای که به بالا تبدیل می‌شوند، دو اثر جانبی به همراه دارد. اول، عملیات‌ها در سطح کد تفسیر شده‌ی پایتون انجام می‌شوند، نه کد کامپایل شده‌ی NumPy. به طور کلی، این به این معناست که هر عملیاتی که شامل `Series` یا `DataFrames` با مقدار `None` باشد، کندتر خواهد بود. اگرچه احتمالاً این کاهش عملکرد را متوجه نخواهید شد، اما برای مجموعه داده‌های بزرگ ممکن است به یک مشکل تبدیل شود.

اثر جانبی دوم از اثر اول ناشی می‌شود. از آنجا که `None` اساساً `Series` یا `DataFrame`ها را به دنیای پایتون معمولی بازمی‌گرداند، استفاده از تجمیع‌های NumPy/pandas مانند `sum()` یا `min()` بر روی آرایه‌هایی که شامل مقدار ``None`` هستند، معمولاً منجر به خطا خواهد شد:


In [10]:
example1.sum()

TypeError: ignored

**نکته کلیدی**: جمع (و سایر عملیات) بین اعداد صحیح و مقادیر `None` تعریف نشده است، که می‌تواند محدودیت‌هایی در کار با مجموعه داده‌هایی که شامل آنها هستند ایجاد کند.


### `NaN`: مقادیر شناور گم‌شده

برخلاف `None`، NumPy (و به تبع آن pandas) از `NaN` برای عملیات سریع، برداری و ufunc‌ها پشتیبانی می‌کند. خبر بد این است که هر عملیات ریاضی که روی `NaN` انجام شود، همیشه نتیجه‌اش `NaN` خواهد بود. برای مثال:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

خبر خوب: تجمیع‌ها که بر روی آرایه‌هایی با `NaN` اجرا می‌شوند، خطا ایجاد نمی‌کنند. خبر بد: نتایج به طور یکنواخت مفید نیستند:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### تمرین:


In [11]:
# What happens if you add np.nan and None together?


به یاد داشته باشید: `NaN` فقط برای مقادیر اعشاری گم‌شده است؛ هیچ معادل `NaN` برای اعداد صحیح، رشته‌ها یا مقادیر بولی وجود ندارد.


### `NaN` و `None`: مقادیر null در pandas

با اینکه `NaN` و `None` ممکن است رفتار کمی متفاوتی داشته باشند، pandas به گونه‌ای طراحی شده است که بتواند با آن‌ها به صورت جایگزین کار کند. برای درک بهتر این موضوع، یک `Series` از اعداد صحیح را در نظر بگیرید:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### تمرین:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


در فرآیند ارتقای نوع داده‌ها برای ایجاد یکنواختی داده‌ها در `Series` و `DataFrame`ها، pandas به راحتی مقادیر گمشده را بین `None` و `NaN` تغییر می‌دهد. به دلیل این ویژگی طراحی، مفید است که به `None` و `NaN` به عنوان دو نوع مختلف از "null" در pandas فکر کنید. در واقع، برخی از روش‌های اصلی که برای مدیریت مقادیر گمشده در pandas استفاده می‌کنید، این ایده را در نام‌های خود منعکس می‌کنند:

- `isnull()`: یک ماسک بولی ایجاد می‌کند که مقادیر گمشده را نشان می‌دهد
- `notnull()`: مخالف `isnull()`
- `dropna()`: نسخه‌ای فیلتر شده از داده‌ها را برمی‌گرداند
- `fillna()`: نسخه‌ای از داده‌ها را با مقادیر گمشده پر شده یا تخمین زده شده برمی‌گرداند

این روش‌ها بسیار مهم هستند و باید در استفاده از آنها مهارت پیدا کنید، بنابراین بیایید هر کدام را به طور عمیق بررسی کنیم.


### شناسایی مقادیر null

حالا که اهمیت مقادیر گمشده را درک کردیم، باید قبل از رسیدگی به آن‌ها، آن‌ها را در مجموعه داده خود شناسایی کنیم.  
هم `isnull()` و هم `notnull()` روش‌های اصلی شما برای شناسایی داده‌های null هستند. هر دو ماسک‌های بولی را بر روی داده‌های شما برمی‌گردانند.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

به خروجی با دقت نگاه کنید. آیا چیزی شما را شگفت‌زده می‌کند؟ در حالی که `0` یک مقدار عددی null است، با این حال یک عدد صحیح کاملاً معتبر است و pandas آن را به همین شکل در نظر می‌گیرد. `''` کمی پیچیده‌تر است. در بخش ۱ از آن برای نشان دادن یک مقدار رشته‌ای خالی استفاده کردیم، اما با این حال یک شیء رشته‌ای است و از نظر pandas به عنوان null در نظر گرفته نمی‌شود.

حالا بیایید این موضوع را برعکس کنیم و این روش‌ها را به شکلی که در عمل بیشتر استفاده می‌کنید، به کار ببریم. شما می‌توانید ماسک‌های بولی را مستقیماً به عنوان یک ``Series`` یا ``DataFrame`` ایندکس استفاده کنید، که می‌تواند زمانی که می‌خواهید با مقادیر گم‌شده (یا موجود) جداگانه کار کنید، مفید باشد.

اگر بخواهیم تعداد کل مقادیر گم‌شده را بدانیم، می‌توانیم فقط یک جمع روی ماسکی که توسط متد `isnull()` تولید شده است، انجام دهیم.


In [19]:
example3.isnull().sum()

2

### تمرین:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**نکته کلیدی**: هر دو روش `isnull()` و `notnull()` نتایج مشابهی را هنگام استفاده در DataFrames تولید می‌کنند: آنها نتایج و شاخص آن نتایج را نشان می‌دهند، که به شما کمک زیادی خواهد کرد وقتی با داده‌های خود کار می‌کنید.


### برخورد با داده‌های گمشده

> **هدف یادگیری:** تا پایان این بخش، باید بدانید چگونه و چه زمانی مقادیر خالی را در DataFrame‌ها جایگزین یا حذف کنید.

مدل‌های یادگیری ماشین نمی‌توانند به‌طور مستقیم با داده‌های گمشده کار کنند. بنابراین، قبل از اینکه داده‌ها را به مدل وارد کنیم، باید این مقادیر گمشده را مدیریت کنیم.

نحوه مدیریت داده‌های گمشده دارای ملاحظات ظریفی است که می‌تواند بر تحلیل نهایی و نتایج واقعی شما تأثیر بگذارد.

به طور کلی دو روش اصلی برای برخورد با داده‌های گمشده وجود دارد:

1.   حذف ردیفی که مقدار گمشده دارد
2.   جایگزینی مقدار گمشده با یک مقدار دیگر

ما هر دو روش را به همراه مزایا و معایب آن‌ها به‌طور مفصل بررسی خواهیم کرد.


### حذف مقادیر تهی

مقدار داده‌ای که به مدل خود منتقل می‌کنیم تأثیر مستقیمی بر عملکرد آن دارد. حذف مقادیر تهی به این معناست که تعداد نقاط داده را کاهش می‌دهیم و در نتیجه اندازه مجموعه داده کاهش می‌یابد. بنابراین، توصیه می‌شود زمانی که مجموعه داده بسیار بزرگ است، سطرهایی با مقادیر تهی حذف شوند.

یک مورد دیگر ممکن است این باشد که یک سطر یا ستون خاص دارای تعداد زیادی مقادیر گم‌شده باشد. در این صورت، ممکن است حذف شوند زیرا به تحلیل ما ارزش زیادی اضافه نمی‌کنند، چون بیشتر داده‌های آن سطر/ستون گم‌شده هستند.

علاوه بر شناسایی مقادیر گم‌شده، pandas یک روش مناسب برای حذف مقادیر تهی از `Series` و `DataFrame`ها ارائه می‌دهد. برای مشاهده این موضوع در عمل، بیایید به `example3` برگردیم. تابع `DataFrame.dropna()` در حذف سطرهایی با مقادیر تهی کمک می‌کند.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

توجه داشته باشید که این باید شبیه خروجی شما از `example3[example3.notnull()]` باشد. تفاوت اینجا این است که، به جای فقط ایندکس کردن روی مقادیر ماسک شده، `dropna` آن مقادیر گمشده را از `Series` `example3` حذف کرده است.

از آنجا که DataFrame‌ها دو بعدی هستند، گزینه‌های بیشتری برای حذف داده‌ها فراهم می‌کنند.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(آیا متوجه شدید که pandas دو ستون را به نوع float تبدیل کرد تا بتواند مقادیر `NaN` را مدیریت کند؟)

شما نمی‌توانید یک مقدار واحد را از یک `DataFrame` حذف کنید، بنابراین باید کل سطرها یا ستون‌ها را حذف کنید. بسته به کاری که انجام می‌دهید، ممکن است بخواهید یکی از این دو را انجام دهید، و به همین دلیل pandas گزینه‌هایی برای هر دو حالت به شما می‌دهد. از آنجا که در علم داده، ستون‌ها معمولاً متغیرها و سطرها مشاهدات را نشان می‌دهند، احتمال بیشتری وجود دارد که سطرهای داده را حذف کنید؛ تنظیم پیش‌فرض برای `dropna()` این است که تمام سطرهایی که شامل هر مقدار null هستند را حذف کند:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


اگر لازم باشد، می‌توانید مقادیر NA را از ستون‌ها حذف کنید. از `axis=1` برای این کار استفاده کنید:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


توجه داشته باشید که این روش می‌تواند مقدار زیادی از داده‌هایی را که ممکن است بخواهید نگه دارید، به‌ویژه در مجموعه داده‌های کوچک، حذف کند. اگر فقط بخواهید سطرها یا ستون‌هایی را حذف کنید که چند مقدار null یا حتی تمام مقادیرشان null هستند، چه باید کرد؟ شما می‌توانید این تنظیمات را با استفاده از پارامترهای `how` و `thresh` در `dropna` مشخص کنید.

به‌طور پیش‌فرض، `how='any'` است (اگر می‌خواهید خودتان بررسی کنید یا ببینید این متد چه پارامترهای دیگری دارد، دستور `example4.dropna?` را در یک سلول کد اجرا کنید). به‌طور جایگزین، می‌توانید `how='all'` را مشخص کنید تا فقط سطرها یا ستون‌هایی که تمام مقادیرشان null هستند حذف شوند. بیایید مثال `DataFrame` خود را گسترش دهیم تا این موضوع را در تمرین بعدی مشاهده کنیم.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> نکات کلیدی:  
1. حذف مقادیر null تنها زمانی ایده خوبی است که مجموعه داده به اندازه کافی بزرگ باشد.  
2. ردیف‌ها یا ستون‌های کامل را می‌توان حذف کرد اگر بیشتر داده‌های آن‌ها از دست رفته باشد.  
3. متد `DataFrame.dropna(axis=)` برای حذف مقادیر null کمک می‌کند. آرگومان `axis` مشخص می‌کند که آیا ردیف‌ها باید حذف شوند یا ستون‌ها.  
4. آرگومان `how` نیز قابل استفاده است. به طور پیش‌فرض مقدار آن `any` است. بنابراین، فقط ردیف‌ها/ستون‌هایی که شامل هر مقدار null باشند حذف می‌شوند. می‌توان آن را به `all` تنظیم کرد تا مشخص شود که فقط ردیف‌ها/ستون‌هایی که تمام مقادیرشان null هستند حذف شوند.  


### تمرین:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


پارامتر `thresh` کنترل دقیق‌تری به شما می‌دهد: شما تعداد مقادیر *غیر تهی* را تعیین می‌کنید که یک سطر یا ستون باید داشته باشد تا حفظ شود:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


اینجا، اولین و آخرین سطر حذف شده‌اند، زیرا فقط دو مقدار غیر تهی دارند.


### پر کردن مقادیر خالی

گاهی منطقی است که مقادیر خالی را با مقادیری که ممکن است معتبر باشند پر کنیم. چندین تکنیک برای پر کردن مقادیر خالی وجود دارد. اولین روش استفاده از دانش حوزه (دانش مربوط به موضوعی که مجموعه داده بر اساس آن است) برای تقریب زدن مقادیر خالی است.

شما می‌توانید از `isnull` برای انجام این کار به صورت مستقیم استفاده کنید، اما این کار ممکن است زمان‌بر باشد، به‌ویژه اگر تعداد زیادی مقدار برای پر کردن داشته باشید. از آنجا که این کار در علم داده بسیار رایج است، pandas تابع `fillna` را ارائه می‌دهد که یک نسخه کپی از `Series` یا `DataFrame` را با مقادیر خالی جایگزین شده با مقدار انتخابی شما برمی‌گرداند. بیایید یک مثال دیگر از `Series` ایجاد کنیم تا ببینیم این روش در عمل چگونه کار می‌کند.


### داده‌های دسته‌بندی‌شده (غیر عددی)
ابتدا به داده‌های غیر عددی می‌پردازیم. در مجموعه داده‌ها، ستون‌هایی با داده‌های دسته‌بندی‌شده داریم. به عنوان مثال، جنسیت، درست یا غلط و غیره.

در بیشتر این موارد، مقادیر گمشده را با `مد` ستون جایگزین می‌کنیم. فرض کنید ۱۰۰ نقطه داده داریم که ۹۰ نفر گفته‌اند درست، ۸ نفر گفته‌اند غلط و ۲ نفر چیزی وارد نکرده‌اند. در این صورت، می‌توانیم آن ۲ مقدار گمشده را با درست پر کنیم، با توجه به کل ستون.

باز هم، در اینجا می‌توانیم از دانش حوزه استفاده کنیم. بیایید یک مثال از پر کردن با مد را بررسی کنیم.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


حالا، بیایید ابتدا مد را پیدا کنیم قبل از اینکه مقدار `None` را با مد پر کنیم.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

بنابراین، ما None را با True جایگزین خواهیم کرد


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


همانطور که می‌بینیم، مقدار null جایگزین شده است. نیازی به گفتن نیست، ما می‌توانستیم هر چیزی را به جای `'True'` بنویسیم و آن جایگزین می‌شد.


### داده‌های عددی
حالا به داده‌های عددی می‌رسیم. در اینجا دو روش رایج برای جایگزینی مقادیر گمشده وجود دارد:

1. جایگزینی با میانه‌ی سطر
2. جایگزینی با میانگین سطر

در صورتی که داده‌ها دارای انحراف و نقاط پرت باشند، از میانه استفاده می‌کنیم. دلیل این امر این است که میانه نسبت به نقاط پرت مقاوم است.

وقتی داده‌ها نرمال‌سازی شده باشند، می‌توانیم از میانگین استفاده کنیم، زیرا در این حالت میانگین و میانه به یکدیگر بسیار نزدیک خواهند بود.

ابتدا، یک ستون که به طور نرمال توزیع شده است را انتخاب می‌کنیم و مقدار گمشده را با میانگین ستون پر می‌کنیم.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


میانگین ستون برابر است با


In [33]:
np.mean(fill_with_mean[0])

0.0

پر کردن با میانگین


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


همانطور که می‌بینیم، مقدار گمشده با میانگین آن جایگزین شده است.


حالا بیایید یک دیتافریم دیگر را امتحان کنیم و این بار مقادیر None را با میانه ستون جایگزین کنیم.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


میانه ستون دوم است


In [36]:
fill_with_median[1].median()

4.0

پر کردن با میانه


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


همانطور که می‌بینیم، مقدار NaN با میانه ستون جایگزین شده است.


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

شما می‌توانید تمام مقادیر خالی را با یک مقدار واحد، مانند `0`، پر کنید:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> نکات کلیدی:
1. پر کردن مقادیر گمشده باید زمانی انجام شود که داده‌ها کم باشند یا استراتژی مشخصی برای پر کردن داده‌های گمشده وجود داشته باشد.
2. می‌توان از دانش حوزه برای تخمین و پر کردن مقادیر گمشده استفاده کرد.
3. برای داده‌های دسته‌بندی‌شده، معمولاً مقادیر گمشده با مد ستون جایگزین می‌شوند.
4. برای داده‌های عددی، مقادیر گمشده معمولاً با میانگین (برای مجموعه داده‌های نرمال‌شده) یا میانه ستون‌ها پر می‌شوند.


### تمرین:


In [40]:
# What happens if you try to fill null values with a string, like ''?


شما می‌توانید مقادیر null را **با مقدار قبلی پر کنید**، به این صورت که از آخرین مقدار معتبر برای پر کردن null استفاده کنید:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

شما همچنین می‌توانید **پر کردن معکوس** را انجام دهید تا مقدار معتبر بعدی را به عقب منتقل کرده و یک مقدار تهی را پر کنید:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

همان‌طور که ممکن است حدس بزنید، این با DataFrames نیز به همین صورت کار می‌کند، اما شما همچنین می‌توانید یک `axis` مشخص کنید که در امتداد آن مقادیر null را پر کنید:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


توجه کنید که وقتی مقدار قبلی برای پر کردن به جلو در دسترس نیست، مقدار تهی باقی می‌ماند.


### تمرین:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


شما می‌توانید در مورد نحوه استفاده از `fillna` خلاق باشید. برای مثال، بیایید دوباره به `example4` نگاه کنیم، اما این بار مقادیر گمشده را با میانگین تمام مقادیر موجود در `DataFrame` پر کنیم:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


توجه کنید که ستون ۳ هنوز بدون مقدار است: جهت پیش‌فرض برای پر کردن مقادیر به صورت سطری است.

> **نکته مهم:** روش‌های مختلفی برای مدیریت مقادیر گمشده در مجموعه داده‌های شما وجود دارد. استراتژی خاصی که استفاده می‌کنید (حذف کردن، جایگزین کردن، یا حتی نحوه جایگزینی) باید بر اساس ویژگی‌های خاص آن داده‌ها تعیین شود. هرچه بیشتر با مجموعه داده‌ها کار کنید و تعامل داشته باشید، حس بهتری نسبت به نحوه مدیریت مقادیر گمشده پیدا خواهید کرد.


### کدگذاری داده‌های دسته‌بندی‌شده

مدل‌های یادگیری ماشین فقط با اعداد و هر نوع داده عددی کار می‌کنند. این مدل‌ها نمی‌توانند تفاوت بین "بله" و "خیر" را تشخیص دهند، اما می‌توانند بین ۰ و ۱ تمایز قائل شوند. بنابراین، پس از پر کردن مقادیر گمشده، باید داده‌های دسته‌بندی‌شده را به شکلی عددی تبدیل کنیم تا مدل بتواند آن‌ها را درک کند.

کدگذاری داده‌ها به دو روش قابل انجام است. در ادامه این دو روش را بررسی خواهیم کرد.


**رمزگذاری برچسب**

رمزگذاری برچسب اساساً تبدیل هر دسته به یک عدد است. برای مثال، فرض کنید یک مجموعه داده از مسافران خطوط هوایی داریم و ستونی وجود دارد که کلاس آن‌ها را در میان موارد زیر نشان می‌دهد ['کلاس تجاری', 'کلاس اقتصادی', 'کلاس اول']. اگر رمزگذاری برچسب روی این انجام شود، به [0,1,2] تبدیل می‌شود. بیایید یک مثال را از طریق کد ببینیم. از آنجا که در دفاتر آینده `scikit-learn` را یاد خواهیم گرفت، در اینجا از آن استفاده نمی‌کنیم.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


برای انجام کدگذاری برچسب روی ستون اول، ابتدا باید یک نگاشت از هر کلاس به یک عدد تعریف کنیم، قبل از جایگزینی.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


همان‌طور که می‌بینیم، خروجی با چیزی که انتظار داشتیم اتفاق بیفتد مطابقت دارد. پس، چه زمانی از کدگذاری برچسب استفاده می‌کنیم؟ کدگذاری برچسب در یکی یا هر دو مورد زیر استفاده می‌شود:
1. زمانی که تعداد دسته‌ها زیاد باشد
2. زمانی که دسته‌ها دارای ترتیب باشند.


**رمزگذاری یک‌بار (One Hot Encoding)**

یکی دیگر از انواع رمزگذاری، رمزگذاری یک‌بار است. در این نوع رمزگذاری، هر دسته از ستون به‌عنوان یک ستون جداگانه اضافه می‌شود و هر نقطه داده بر اساس اینکه شامل آن دسته باشد یا نه، مقدار 0 یا 1 دریافت می‌کند. بنابراین، اگر n دسته مختلف وجود داشته باشد، n ستون به دیتافریم اضافه خواهد شد.

برای مثال، بیایید همان مثال کلاس هواپیما را در نظر بگیریم. دسته‌ها عبارت بودند از: ['کلاس تجاری', 'کلاس اقتصادی', 'کلاس درجه یک']. بنابراین، اگر رمزگذاری یک‌بار انجام دهیم، سه ستون زیر به مجموعه داده اضافه خواهند شد: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


بیایید رمزگذاری یک‌داغ را بر روی ستون اول انجام دهیم


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


هر ستون کدگذاری شده به صورت یک‌داغ شامل ۰ یا ۱ است که مشخص می‌کند آیا آن دسته‌بندی برای آن نقطه داده وجود دارد یا خیر.


چه زمانی از کدگذاری یک‌داغ استفاده می‌کنیم؟ کدگذاری یک‌داغ در یکی یا هر دو مورد زیر استفاده می‌شود:

1. زمانی که تعداد دسته‌ها و اندازه مجموعه داده کوچک باشد.
2. زمانی که دسته‌ها ترتیب خاصی را دنبال نمی‌کنند.


> نکات کلیدی:
1. کدگذاری برای تبدیل داده‌های غیر عددی به داده‌های عددی انجام می‌شود.
2. دو نوع کدگذاری وجود دارد: کدگذاری برچسبی و کدگذاری یک‌داغ، که هر دو می‌توانند بر اساس نیازهای مجموعه داده انجام شوند.


## حذف داده‌های تکراری

> **هدف یادگیری:** تا پایان این زیر بخش، باید بتوانید داده‌های تکراری را در DataFrame‌ها شناسایی و حذف کنید.

علاوه بر داده‌های گمشده، اغلب در مجموعه داده‌های دنیای واقعی با داده‌های تکراری مواجه خواهید شد. خوشبختانه، pandas روشی آسان برای شناسایی و حذف ورودی‌های تکراری ارائه می‌دهد.


### شناسایی مقادیر تکراری: `duplicated`

شما می‌توانید به راحتی مقادیر تکراری را با استفاده از متد `duplicated` در pandas شناسایی کنید. این متد یک ماسک بولی برمی‌گرداند که نشان می‌دهد آیا یک ورودی در `DataFrame` تکراری از ورودی قبلی است یا خیر. بیایید یک مثال دیگر از `DataFrame` ایجاد کنیم تا این موضوع را در عمل ببینیم.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### حذف مقادیر تکراری: `drop_duplicates`
`drop_duplicates` به سادگی نسخه‌ای از داده‌ها را برمی‌گرداند که در آن تمام مقادیر `duplicated` برابر با `False` هستند:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


هم `duplicated` و هم `drop_duplicates` به طور پیش‌فرض تمام ستون‌ها را در نظر می‌گیرند، اما می‌توانید مشخص کنید که فقط یک زیرمجموعه از ستون‌ها را در `DataFrame` خود بررسی کنند:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **نکته کلیدی:** حذف داده‌های تکراری بخش ضروری تقریباً هر پروژه علم داده است. داده‌های تکراری می‌توانند نتایج تحلیل‌های شما را تغییر دهند و نتایج نادرستی به شما ارائه دهند!


## بررسی کیفیت داده‌های دنیای واقعی

> **هدف یادگیری:** در پایان این بخش، باید بتوانید مشکلات رایج کیفیت داده‌های دنیای واقعی مانند مقادیر دسته‌بندی ناسازگار، مقادیر عددی غیرعادی (مقادیر پرت)، و موجودیت‌های تکراری با تغییرات را شناسایی و اصلاح کنید.

در حالی که مقادیر گمشده و تکراری‌های دقیق مشکلات رایجی هستند، مجموعه داده‌های دنیای واقعی اغلب شامل مشکلات ظریف‌تری هستند:

1. **مقادیر دسته‌بندی ناسازگار**: یک دسته‌بندی مشابه با املای متفاوت (مثلاً "USA"، "U.S.A"، "United States")
2. **مقادیر عددی غیرعادی**: مقادیر پرت شدید که نشان‌دهنده خطاهای ورود داده هستند (مثلاً سن = 999)
3. **ردیف‌های تقریباً تکراری**: رکوردهایی که یک موجودیت مشابه را با تغییرات جزئی نشان می‌دهند

بیایید تکنیک‌هایی برای شناسایی و مدیریت این مشکلات بررسی کنیم.


### ایجاد یک مجموعه داده نمونه "ناقص"

ابتدا، بیایید یک مجموعه داده نمونه ایجاد کنیم که شامل انواع مشکلاتی باشد که معمولاً در داده‌های دنیای واقعی با آن‌ها مواجه می‌شویم:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### ۱. شناسایی مقادیر دسته‌بندی ناسازگار

توجه کنید که ستون `country` دارای نمایش‌های مختلفی برای یک کشور است. بیایید این ناسازگاری‌ها را شناسایی کنیم:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### استانداردسازی مقادیر دسته‌بندی‌شده

می‌توانیم یک نگاشت ایجاد کنیم تا این مقادیر را استاندارد کنیم. یک روش ساده این است که مقادیر را به حروف کوچک تبدیل کنیم و یک دیکشنری نگاشت ایجاد کنیم:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**جایگزین: استفاده از تطبیق مبهم**

برای موارد پیچیده‌تر، می‌توانیم از تطبیق رشته‌ای مبهم با کتابخانه `rapidfuzz` استفاده کنیم تا به‌طور خودکار رشته‌های مشابه را شناسایی کنیم:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. شناسایی مقادیر عددی غیرعادی (Outliers)

با بررسی ستون `age`، متوجه مقادیر مشکوکی مانند 199 و -5 می‌شویم. بیایید از روش‌های آماری برای شناسایی این مقادیر غیرعادی استفاده کنیم.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### استفاده از روش IQR (دامنه بین چارکی)

روش IQR یک تکنیک آماری مقاوم برای شناسایی داده‌های پرت است که حساسیت کمتری به مقادیر بسیار زیاد یا بسیار کم دارد:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### استفاده از روش Z-Score

روش Z-Score بر اساس انحراف معیار از میانگین، داده‌های پرت را شناسایی می‌کند:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### مدیریت داده‌های پرت

پس از شناسایی، داده‌های پرت را می‌توان به روش‌های مختلفی مدیریت کرد:
1. **حذف**: حذف سطرهایی که داده‌های پرت دارند (اگر خطا باشند)
2. **محدود کردن**: جایگزینی با مقادیر مرزی
3. **جایگزینی با NaN**: به عنوان داده‌های گمشده در نظر گرفته شده و از تکنیک‌های جایگزینی استفاده شود
4. **نگه داشتن**: اگر مقادیر افراطی معتبر باشند


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. شناسایی سطرهای تقریباً مشابه

توجه کنید که مجموعه داده ما چندین ورودی برای "John Smith" دارد با مقادیر کمی متفاوت. بیایید بر اساس شباهت نام، موارد مشابه احتمالی را شناسایی کنیم.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### یافتن موارد تقریباً مشابه با تطبیق مبهم

برای تشخیص پیشرفته‌تر موارد مشابه، می‌توانیم از تطبیق مبهم برای یافتن نام‌های مشابه استفاده کنیم:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### مدیریت موارد تکراری

پس از شناسایی، باید تصمیم بگیرید که چگونه موارد تکراری را مدیریت کنید:
1. **نگه داشتن اولین مورد**: از `drop_duplicates(keep='first')` استفاده کنید
2. **نگه داشتن آخرین مورد**: از `drop_duplicates(keep='last')` استفاده کنید
3. **تجمیع اطلاعات**: اطلاعات موجود در سطرهای تکراری را ترکیب کنید
4. **بررسی دستی**: برای بررسی انسانی علامت‌گذاری کنید


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### خلاصه: ایجاد یک خط لوله کامل برای پاکسازی داده‌ها

بیایید همه چیز را در قالب یک خط لوله جامع برای پاکسازی داده‌ها جمع‌آوری کنیم:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 تمرین چالشی

حالا نوبت شماست! در زیر یک ردیف جدید از داده‌ها با مشکلات کیفی متعدد آورده شده است. آیا می‌توانید:

1. تمام مشکلات موجود در این ردیف را شناسایی کنید
2. کدی بنویسید که هر مشکل را پاکسازی کند
3. ردیف پاکسازی‌شده را به مجموعه داده اضافه کنید

اینجا داده‌های مشکل‌دار آورده شده است:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### نکات کلیدی

1. **دسته‌بندی‌های ناسازگار** در داده‌های واقعی رایج هستند. همیشه مقادیر یکتا را بررسی کنید و آن‌ها را با استفاده از نگاشت‌ها یا تطبیق مبهم استاندارد کنید.

2. **مقادیر پرت** می‌توانند تحلیل شما را به شدت تحت تأثیر قرار دهند. از دانش حوزه همراه با روش‌های آماری (IQR، Z-score) برای شناسایی آن‌ها استفاده کنید.

3. **نزدیک به تکراری‌ها** سخت‌تر از تکراری‌های دقیق قابل شناسایی هستند. از تطبیق مبهم و نرمال‌سازی داده‌ها (تبدیل به حروف کوچک، حذف فاصله‌های اضافی) برای شناسایی آن‌ها استفاده کنید.

4. **پاک‌سازی داده‌ها فرآیندی تکراری است**. ممکن است نیاز باشد چندین تکنیک را اعمال کنید و نتایج را بررسی کنید تا مجموعه داده پاک‌سازی شده خود را نهایی کنید.

5. **تصمیمات خود را مستند کنید**. مراحل پاک‌سازی که اعمال کرده‌اید و دلایل آن‌ها را ثبت کنید، زیرا این کار برای قابلیت بازتولید و شفافیت مهم است.

> **بهترین روش:** همیشه یک نسخه از داده‌های اصلی "کثیف" خود را نگه دارید. هرگز فایل‌های داده منبع خود را بازنویسی نکنید - نسخه‌های پاک‌سازی شده با نام‌گذاری واضح مانند `data_cleaned.csv` ایجاد کنید.



---

**سلب مسئولیت**:  
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم ترجمه‌ها دقیق باشند، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه انسانی حرفه‌ای استفاده کنید. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
