# הכנת נתונים

[מקור המחברת המקורית מתוך *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio מאת Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## חקר מידע ב-`DataFrame`

> **מטרת הלמידה:** בסיום תת-הסעיף הזה, תרגישו בנוח למצוא מידע כללי על הנתונים המאוחסנים ב-DataFrames של pandas.

לאחר שטענתם את הנתונים שלכם ל-pandas, סביר להניח שהם יהיו בתוך `DataFrame`. אבל אם מערך הנתונים ב-`DataFrame` שלכם מכיל 60,000 שורות ו-400 עמודות, איך בכלל מתחילים להבין עם מה אתם עובדים? למרבה המזל, pandas מספקת כלים נוחים כדי להסתכל במהירות על מידע כללי על `DataFrame` בנוסף לשורות הראשונות והאחרונות.

כדי לחקור את הפונקציונליות הזו, נייבא את ספריית scikit-learn של Python ונשתמש במערך נתונים איקוני שכל מדען נתונים ראה מאות פעמים: מערך הנתונים *Iris* של הביולוג הבריטי רונלד פישר, ששימש במאמרו משנת 1936 "השימוש במדידות מרובות בבעיות טקסונומיות":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
טענו את מאגר הנתונים של איריס למשתנה `iris_df`. לפני שנצלול לתוך הנתונים, יהיה מועיל לדעת את מספר נקודות הנתונים שיש לנו ואת הגודל הכולל של מאגר הנתונים. זה שימושי להסתכל על נפח הנתונים שאנו מתמודדים איתו.


In [2]:
iris_df.shape

(150, 4)

אז, אנחנו מתמודדים עם 150 שורות ו-4 עמודות של נתונים. כל שורה מייצגת נקודת נתונים אחת וכל עמודה מייצגת תכונה אחת הקשורה למסגרת הנתונים. כלומר, ישנם 150 נקודות נתונים שכל אחת מהן מכילה 4 תכונות.

`shape` כאן הוא מאפיין של מסגרת הנתונים ולא פונקציה, ולכן הוא לא מסתיים בזוג סוגריים.


### `DataFrame.columns`
בואו נעבור עכשיו ל-4 העמודות של הנתונים. מה בדיוק כל אחת מהן מייצגת? התכונה `columns` תספק לנו את שמות העמודות בתוך ה-DataFrame.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

כפי שאנו יכולים לראות, ישנם ארבעה (4) עמודות. תכונת `columns` אומרת לנו את שמות העמודות ובסיסית לא יותר מזה. תכונה זו מקבלת חשיבות כאשר אנו רוצים לזהות את המאפיינים שהמערך נתונים מכיל.


### `DataFrame.info`
כמות הנתונים (ניתנת על ידי המאפיין `shape`) ושמות התכונות או העמודות (ניתנים על ידי המאפיין `columns`) מספקים לנו מידע מסוים על מערך הנתונים. כעת, נרצה להעמיק יותר במערך הנתונים. הפונקציה `DataFrame.info()` שימושית מאוד לצורך זה.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


מכאן, ניתן להסיק כמה תצפיות:
1. סוג הנתונים של כל עמודה: במאגר הנתונים הזה, כל הנתונים נשמרים כמספרים בנקודה צפה בגודל 64 ביט.
2. מספר הערכים שאינם Null: טיפול בערכים חסרים הוא שלב חשוב בהכנת הנתונים. הנושא יטופל בהמשך במחברת.


### DataFrame.describe()
נניח שיש לנו הרבה נתונים מספריים במערך הנתונים שלנו. חישובים סטטיסטיים חד-משתניים כמו ממוצע, חציון, רבעונים וכו' יכולים להתבצע על כל אחד מהעמודות בנפרד. הפונקציה `DataFrame.describe()` מספקת לנו סיכום סטטיסטי של העמודות המספריות במערך הנתונים.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


הפלט לעיל מציג את המספר הכולל של נקודות הנתונים, ממוצע, סטיית תקן, מינימום, רבעון תחתון (25%), חציון (50%), רבעון עליון (75%) והערך המקסימלי של כל עמודה.


### `DataFrame.head`
עם כל הפונקציות והתכונות שהוזכרו לעיל, קיבלנו מבט כולל על מערך הנתונים. אנחנו יודעים כמה נקודות נתונים יש, כמה מאפיינים קיימים, סוג הנתונים של כל מאפיין ומספר הערכים שאינם null עבור כל מאפיין.

עכשיו הגיע הזמן להסתכל על הנתונים עצמם. בואו נראה איך נראות השורות הראשונות (נקודות הנתונים הראשונות) של ה-`DataFrame` שלנו:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


כפי שניתן לראות כאן, ישנם חמישה (5) רשומות של מערך הנתונים. אם נסתכל על האינדקס בצד שמאל, נגלה שאלו הם חמשת השורות הראשונות.


### תרגיל:

מהדוגמה שניתנה לעיל, ברור שברירת המחדל של `DataFrame.head` היא להחזיר את חמש השורות הראשונות של `DataFrame`. בתא הקוד למטה, האם תוכל למצוא דרך להציג יותר מחמש שורות?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
דרך נוספת להסתכל על הנתונים יכולה להיות מהסוף (במקום מההתחלה). ההיפך מ-`DataFrame.head` הוא `DataFrame.tail`, שמחזיר את חמש השורות האחרונות של ה-`DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


בפועל, זה שימושי להיות מסוגל לבדוק בקלות את השורות הראשונות או האחרונות של `DataFrame`, במיוחד כאשר מחפשים ערכים חריגים במערכי נתונים מסודרים.

כל הפונקציות והתכונות שהוצגו לעיל בעזרת דוגמאות קוד, עוזרות לנו לקבל תחושה כללית של הנתונים.

> **תובנה:** אפילו רק על ידי הסתכלות על המטא-נתונים של המידע ב-DataFrame או על הערכים הראשונים והאחרונים שבו, ניתן לקבל מיד מושג על הגודל, הצורה והתוכן של הנתונים שאיתם אתם מתמודדים.


### נתונים חסרים
בואו נצלול לנושא הנתונים החסרים. נתונים חסרים מתרחשים כאשר אין ערך שמאוחסן בחלק מהעמודות.

בואו ניקח דוגמה: נניח שמישהו מודע למשקל שלו/שלה ולא ממלא את שדה המשקל בסקר. במקרה כזה, ערך המשקל עבור אותו אדם יהיה חסר.

ברוב המקרים, במאגרי נתונים בעולם האמיתי, ערכים חסרים הם דבר שכיח.

**איך Pandas מתמודד עם נתונים חסרים**

Pandas מתמודד עם ערכים חסרים בשתי דרכים. הראשונה, שראיתם קודם לכן בסעיפים קודמים: `NaN`, או Not a Number. זהו למעשה ערך מיוחד שהוא חלק מהמפרט של IEEE עבור נקודה צפה, והוא משמש רק לציון ערכים חסרים מסוג נקודה צפה.

עבור ערכים חסרים שאינם מסוג נקודה צפה, pandas משתמש באובייקט `None` של Python. למרות שזה עשוי להיראות מבלבל שתיתקלו בשני סוגים שונים של ערכים שמביעים למעשה את אותו הדבר, יש סיבות תכנותיות טובות לבחירה הזו, ובפועל, הגישה הזו מאפשרת ל-pandas לספק פשרה טובה עבור רוב המקרים. עם זאת, גם `None` וגם `NaN` נושאים מגבלות שחשוב להיות מודעים אליהן בכל הנוגע לאופן שבו ניתן להשתמש בהם.


### `None`: נתוני חסר שאינם מסוג float
מכיוון ש-`None` מגיע מ-Python, לא ניתן להשתמש בו במערכים של NumPy ו-pandas שאינם מסוג הנתונים `'object'`. זכרו, מערכים של NumPy (והמבנים ב-pandas) יכולים להכיל רק סוג אחד של נתונים. זה מה שמעניק להם את הכוח העצום לעבודה עם נתונים בקנה מידה גדול וביצוע חישובים, אך גם מגביל את הגמישות שלהם. מערכים כאלה חייבים להתאים את עצמם ל"מחנה המשותף הנמוך ביותר", סוג הנתונים שיכלול את כל מה שנמצא במערך. כאשר `None` נמצא במערך, זה אומר שאתם עובדים עם אובייקטים של Python.

כדי לראות זאת בפעולה, שימו לב לדוגמה הבאה של מערך (שימו לב ל-`dtype` שלו):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

המציאות של העלאת סוגי נתונים מביאה עמה שני תופעות לוואי. ראשית, פעולות יתבצעו ברמת הקוד המפורש של Python במקום ברמת הקוד המהודר של NumPy. למעשה, המשמעות היא שכל פעולה שכוללת `Series` או `DataFrames` עם `None` בתוכם תהיה איטית יותר. למרות שסביר להניח שלא תבחין בפגיעה בביצועים, עבור מערכי נתונים גדולים זה עשוי להפוך לבעיה.

תופעת הלוואי השנייה נובעת מהראשונה. מכיוון ש-`None` למעשה מחזיר את ה-`Series` או ה-`DataFrame`s לעולם של Python רגיל, שימוש באגרגציות של NumPy/pandas כמו `sum()` או `min()` על מערכים שמכילים ערך ``None`` בדרך כלל יגרום לשגיאה:


In [10]:
example1.sum()

TypeError: ignored

**מסקנה עיקרית**: חיבור (ושאר פעולות) בין מספרים שלמים לערכי `None` אינו מוגדר, מה שיכול להגביל את האפשרויות לעבודה עם מערכי נתונים המכילים אותם.


### `NaN`: ערכי float חסרים

בניגוד ל-`None`, NumPy (ולכן גם pandas) תומך ב-`NaN` עבור פעולות ווקטוריות מהירות ו-ufuncs. החדשות הרעות הן שכל פעולה אריתמטית שמתבצעת על `NaN` תמיד תוביל ל-`NaN`. לדוגמה:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

החדשות הטובות: אגרגציות שרצות על מערכים עם `NaN` בתוכם לא מציגות שגיאות. החדשות הרעות: התוצאות אינן מועילות באופן אחיד:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### תרגיל:


In [11]:
# What happens if you add np.nan and None together?


זכור: `NaN` מיועד רק לערכים חסרים בנקודה צפה; אין מקבילה של `NaN` עבור מספרים שלמים, מחרוזות או ערכי בוליאן.


### `NaN` ו-`None`: ערכים ריקים ב-pandas

למרות ש-`NaN` ו-`None` יכולים להתנהג בצורה מעט שונה, pandas נבנתה כך שתוכל להתמודד איתם באופן חלופי. כדי להבין למה הכוונה, בואו נבחן `Series` של מספרים שלמים:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### תרגיל:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


בתהליך של המרת סוגי נתונים לצורך יצירת אחידות נתונים ב-`Series` וב-`DataFrame`s, pandas תחליף באופן חופשי ערכים חסרים בין `None` ל-`NaN`. בשל מאפיין עיצוב זה, יכול להיות מועיל לחשוב על `None` ו-`NaN` כשני סוגים שונים של "null" ב-pandas. למעשה, חלק מהשיטות המרכזיות שבהן תשתמשו לטיפול בערכים חסרים ב-pandas משקפות את הרעיון הזה בשמותיהן:

- `isnull()`: יוצרת מסכה בוליאנית שמצביעה על ערכים חסרים
- `notnull()`: ההפך מ-`isnull()`
- `dropna()`: מחזירה גרסה מסוננת של הנתונים
- `fillna()`: מחזירה עותק של הנתונים עם ערכים חסרים שמולאו או הושלמו

אלו שיטות חשובות שכדאי לשלוט בהן ולהרגיש בנוח להשתמש בהן, אז בואו נעבור עליהן לעומק.


### זיהוי ערכים חסרים

עכשיו, כשאנחנו מבינים את החשיבות של ערכים חסרים, עלינו לזהות אותם במערך הנתונים שלנו לפני שנתמודד איתם.  
הפונקציות `isnull()` ו-`notnull()` הן השיטות העיקריות שלך לזיהוי נתונים חסרים. שתיהן מחזירות מסכות בוליאניות על הנתונים שלך.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

התבוננו היטב בתוצאה. האם משהו בה מפתיע אתכם? בעוד ש-`0` הוא ערך אפס אריתמטי, הוא עדיין מספר שלם תקין לחלוטין, ו-pandas מתייחסת אליו ככזה. `''` הוא מעט יותר מעודן. למרות שהשתמשנו בו בסעיף 1 כדי לייצג ערך מחרוזת ריקה, הוא עדיין אובייקט מחרוזת ולא ייצוג של ערך null מבחינת pandas.

כעת, בואו נהפוך את זה ונשתמש בשיטות הללו בצורה שיותר דומה לאופן שבו תשתמשו בהן בפועל. ניתן להשתמש במסכות בוליאניות ישירות כ-``Series`` או כ-``DataFrame`` אינדקס, מה שיכול להיות שימושי כאשר מנסים לעבוד עם ערכים חסרים (או קיימים) מבודדים.

אם נרצה את המספר הכולל של הערכים החסרים, נוכל פשוט לבצע סכימה על המסכה שמיוצרת על ידי השיטה `isnull()`.


In [19]:
example3.isnull().sum()

2

### תרגיל:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**מסקנה עיקרית**: הן השיטות `isnull()` והן `notnull()` מפיקות תוצאות דומות כאשר משתמשים בהן ב-DataFrames: הן מציגות את התוצאות ואת האינדקס של אותן תוצאות, מה שיעזור לכם מאוד כאשר אתם מתמודדים עם הנתונים שלכם.


### התמודדות עם נתונים חסרים

> **מטרת הלמידה:** בסיום תת-הסעיף הזה, תדעו כיצד ומתי להחליף או להסיר ערכים חסרים מ-DataFrames.

מודלים של למידת מכונה אינם יכולים להתמודד עם נתונים חסרים בעצמם. לכן, לפני שמעבירים את הנתונים למודל, יש לטפל בערכים החסרים הללו.

האופן שבו מטפלים בנתונים חסרים נושא עמו פשרות עדינות, ויכול להשפיע על הניתוח הסופי ועל התוצאות בעולם האמיתי.

ישנן בעיקר שתי דרכים להתמודד עם נתונים חסרים:

1.   להסיר את השורה שמכילה את הערך החסר
2.   להחליף את הערך החסר בערך אחר

נדון בשתי השיטות הללו וביתרונותיהן וחסרונותיהן בפירוט.


### הסרת ערכים חסרים

כמות הנתונים שאנו מעבירים למודל שלנו משפיעה ישירות על ביצועיו. הסרת ערכים חסרים משמעותה הפחתת מספר נקודות הנתונים, ולכן הקטנת גודל מערך הנתונים. לכן, מומלץ להסיר שורות עם ערכים חסרים כאשר מערך הנתונים גדול למדי.

מקרה נוסף יכול להיות ששורה או עמודה מסוימת מכילה הרבה ערכים חסרים. אז ניתן להסיר אותם מכיוון שהם לא יוסיפו ערך רב לניתוח שלנו, שכן רוב הנתונים חסרים עבור אותה שורה/עמודה.

מעבר לזיהוי ערכים חסרים, pandas מספקת דרך נוחה להסיר ערכים חסרים מ-`Series` ו-`DataFrame`s. כדי לראות זאת בפעולה, נחזור ל-`example3`. הפונקציה `DataFrame.dropna()` מסייעת בהסרת שורות עם ערכים חסרים.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

שימו לב שזה אמור להיראות כמו הפלט שלכם מ- `example3[example3.notnull()]`. ההבדל כאן הוא שבמקום רק לבצע אינדוקס על הערכים המוסתרים, `dropna` הסיר את הערכים החסרים מה- `Series` `example3`.

מכיוון של- DataFrames יש שתי ממדים, הם מציעים יותר אפשרויות להסרת נתונים.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(האם שמתם לב שפנדס שדרג שניים מהעמודות לסוג נתונים float כדי להתאים את הערכים `NaN`?)

לא ניתן להסיר ערך יחיד מתוך `DataFrame`, ולכן יש להסיר שורות או עמודות שלמות. תלוי במה שאתם עושים, ייתכן שתרצו לבצע אחד מהשניים, ולכן פנדס נותן לכם אפשרויות לשניהם. מכיוון שבמדעי הנתונים עמודות בדרך כלל מייצגות משתנים ושורות מייצגות תצפיות, סביר יותר שתסירו שורות של נתונים; ההגדרה המחדלית של `dropna()` היא להסיר את כל השורות שמכילות ערכים ריקים כלשהם:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


אם יש צורך, ניתן להסיר ערכי NA מעמודות. השתמש ב-`axis=1` כדי לעשות זאת:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


שימו לב שזה יכול לגרום לאיבוד של הרבה נתונים שייתכן שתרצו לשמור, במיוחד במערכי נתונים קטנים. מה אם אתם רוצים פשוט להסיר שורות או עמודות שמכילות מספר רב של ערכים ריקים או אפילו את כולם? אתם יכולים להגדיר את ההגדרות הללו ב-`dropna` באמצעות הפרמטרים `how` ו-`thresh`.

כברירת מחדל, `how='any'` (אם תרצו לבדוק בעצמכם או לראות אילו פרמטרים נוספים יש לשיטה, הריצו `example4.dropna?` בתא קוד). לחלופין, תוכלו להגדיר `how='all'` כדי להסיר רק שורות או עמודות שמכילות את כל הערכים כריקים. בואו נרחיב את דוגמת ה-`DataFrame` שלנו כדי לראות זאת בפעולה בתרגיל הבא.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> נקודות חשובות:
1. כדאי להסיר ערכים חסרים רק אם מערך הנתונים גדול מספיק.
2. ניתן להסיר שורות או עמודות שלמות אם רוב הנתונים בהן חסרים.
3. השיטה `DataFrame.dropna(axis=)` מסייעת בהסרת ערכים חסרים. הפרמטר `axis` מציין האם להסיר שורות או עמודות.
4. ניתן להשתמש גם בפרמטר `how`. כברירת מחדל הוא מוגדר כ-`any`, כך שהוא מסיר רק שורות/עמודות שמכילות ערכים חסרים כלשהם. ניתן להגדיר אותו כ-`all` כדי לציין שנסיר רק שורות/עמודות שבהן כל הערכים חסרים.


### תרגיל:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


פרמטר `thresh` נותן לך שליטה מדויקת יותר: אתה מגדיר את מספר הערכים *שאינם null* ששורה או עמודה צריכים להכיל כדי להישמר:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


כאן, השורה הראשונה והאחרונה הוסרו, מכיוון שהן מכילות רק שני ערכים שאינם null.


### מילוי ערכים חסרים

לפעמים יש היגיון למלא ערכים חסרים באלה שיכולים להיות תקפים. יש כמה טכניקות למילוי ערכים חסרים. הראשונה היא שימוש בידע תחום (ידע על הנושא שעליו מבוסס מערך הנתונים) כדי להעריך בצורה כלשהי את הערכים החסרים.

ניתן להשתמש ב-`isnull` כדי לעשות זאת במקום, אבל זה יכול להיות מייגע, במיוחד אם יש הרבה ערכים למלא. מכיוון שזו משימה נפוצה כל כך במדעי הנתונים, pandas מספקת את `fillna`, שמחזירה עותק של ה-`Series` או ה-`DataFrame` עם הערכים החסרים מוחלפים באלה שתבחר. בואו ניצור דוגמה נוספת של `Series` כדי לראות איך זה עובד בפועל.


### נתונים קטגוריים (לא מספריים)
ראשית, נבחן נתונים שאינם מספריים. במערכי נתונים, יש לנו עמודות עם נתונים קטגוריים. לדוגמה, מגדר, נכון או לא נכון וכו'.

ברוב המקרים הללו, אנו מחליפים ערכים חסרים ב-`mode` של העמודה. נניח שיש לנו 100 נקודות נתונים, 90 מהן ציינו נכון, 8 ציינו לא נכון ו-2 לא מילאו. במקרה כזה, נוכל למלא את ה-2 עם נכון, בהתחשב בעמודה כולה.

שוב, כאן ניתן להשתמש בידע תחום. בואו נבחן דוגמה של מילוי באמצעות ה-mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


עכשיו, בואו קודם נמצא את השכיח לפני שממלאים את הערך `None` בשכיח.


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

אז, נחליף None ב-True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


כפי שאנחנו יכולים לראות, הערך הריק הוחלף. מיותר לציין, שיכולנו לכתוב כל דבר במקום או `'True'` וזה היה מוחלף.


### נתונים מספריים
עכשיו, נעבור לנתונים מספריים. כאן, יש לנו שתי דרכים נפוצות להחלפת ערכים חסרים:

1. החלפה עם החציון של השורה  
2. החלפה עם הממוצע של השורה  

אנו מחליפים עם החציון במקרה של נתונים מוטים עם ערכים חריגים. הסיבה לכך היא שחציון עמיד בפני ערכים חריגים.

כאשר הנתונים מנורמלים, ניתן להשתמש בממוצע, שכן במקרה כזה, הממוצע והחציון יהיו די קרובים.

ראשית, ניקח עמודה שמחולקת נורמלית ונמלא את הערך החסר עם הממוצע של העמודה.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


הממוצע של העמודה הוא


In [33]:
np.mean(fill_with_mean[0])

0.0

מילוי עם ממוצע


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


כפי שאנו יכולים לראות, הערך החסר הוחלף בממוצע שלו.


עכשיו בואו ננסה מסגרת נתונים אחרת, והפעם נחליף את הערכים None במדד של העמודה.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


החציון של העמודה השנייה הוא


In [36]:
fill_with_median[1].median()

4.0

מילוי עם חציון


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


כפי שאנו יכולים לראות, ערך ה-NaN הוחלף במדיאן של העמודה


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

:אתה יכול למלא את כל הערכים החסרים עם ערך יחיד, כמו `0`


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> נקודות חשובות:
1. יש למלא ערכים חסרים כאשר יש מעט נתונים או כאשר קיימת אסטרטגיה למילוי הנתונים החסרים.
2. ניתן להשתמש בידע תחום כדי למלא ערכים חסרים על ידי הערכתם.
3. עבור נתונים קטגוריים, בדרך כלל מחליפים ערכים חסרים במצב (mode) של העמודה.
4. עבור נתונים מספריים, ערכים חסרים ממולאים בדרך כלל בממוצע (עבור מערכי נתונים מנורמלים) או במדיאן של העמודות.


### תרגיל:


In [40]:
# What happens if you try to fill null values with a string, like ''?


אתה יכול **למלא קדימה** ערכים ריקים, כלומר להשתמש בערך התקף האחרון כדי למלא ערך ריק:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

אתה יכול גם **למלא אחורה** כדי להפיץ את הערך התקף הבא אחורה למילוי ערך ריק:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

כפי שאתה יכול לנחש, זה עובד באותו אופן עם DataFrames, אבל אתה יכול גם לציין `axis` לאורך אשר למלא ערכים ריקים:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


שים לב שכאשר ערך קודם אינו זמין למילוי קדימה, הערך הריק נשאר.


### תרגיל:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


אתה יכול להיות יצירתי לגבי איך להשתמש ב-`fillna`. לדוגמה, בוא נסתכל שוב על `example4`, אבל הפעם נמלא את הערכים החסרים עם הממוצע של כל הערכים ב-`DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


שימו לב שעמודה 3 עדיין חסרת ערך: הכיוון ברירת המחדל הוא למלא ערכים לפי שורות.

> **מסקנה:** ישנן דרכים רבות להתמודד עם ערכים חסרים במערכי הנתונים שלכם. האסטרטגיה הספציפית שבה תשתמשו (הסרתם, החלפתם, או אפילו איך להחליף אותם) צריכה להיות מותאמת למאפיינים של הנתונים הללו. ככל שתתעסקו ותתקשרו יותר עם מערכי נתונים, תפתחו תחושה טובה יותר כיצד להתמודד עם ערכים חסרים.


### קידוד נתונים קטגוריים

מודלים של למידת מכונה מתמודדים רק עם מספרים וכל סוג של נתונים מספריים. הם לא יוכלו להבחין בין "כן" ל-"לא", אבל כן יוכלו להבדיל בין 0 ל-1. לכן, לאחר מילוי הערכים החסרים, עלינו לקודד את הנתונים הקטגוריים לצורה מספרית כלשהי כדי שהמודל יוכל להבין אותם.

ניתן לבצע קידוד בשתי דרכים. נדון בהן בהמשך.


**קידוד תוויות**

קידוד תוויות הוא בעצם המרה של כל קטגוריה למספר. לדוגמה, נניח שיש לנו מערך נתונים של נוסעי טיסות ויש עמודה שמכילה את סוג המחלקה שלהם מבין ['מחלקת עסקים', 'מחלקת תיירים', 'מחלקה ראשונה']. אם נעשה קידוד תוויות על זה, זה יומר ל-[0,1,2]. בואו נראה דוגמה באמצעות קוד. מכיוון שנלמד את `scikit-learn` במחברות הבאות, לא נשתמש בו כאן.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


כדי לבצע קידוד תוויות על העמודה הראשונה, עלינו תחילה לתאר מיפוי מכל מחלקה למספר, לפני ההחלפה.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


כפי שאנחנו רואים, התוצאה תואמת למה שחשבנו שיקרה. אז, מתי משתמשים בקידוד תוויות? קידוד תוויות משמש באחד או בשני המקרים הבאים:
1. כאשר מספר הקטגוריות גדול
2. כאשר הקטגוריות מסודרות לפי סדר.


**קידוד ONE HOT**

סוג נוסף של קידוד הוא קידוד One Hot. בקידוד זה, כל קטגוריה בעמודה מתווספת כעמודה נפרדת, וכל נקודת נתונים תקבל 0 או 1 בהתאם לשאלה האם היא מכילה את אותה קטגוריה. כלומר, אם יש n קטגוריות שונות, יתווספו n עמודות ל-DataFrame.

לדוגמה, ניקח שוב את הדוגמה של מחלקות המטוס. הקטגוריות היו: ['business class', 'economy class', 'first class']. אם נבצע קידוד One Hot, שלוש העמודות הבאות יתווספו למאגר הנתונים: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


בואו נבצע קידוד חד-ערכי על העמודה הראשונה


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


כל עמודה מקודדת חם מכילה 0 או 1, אשר מציינים האם הקטגוריה קיימת עבור נקודת הנתונים הזו.


מתי משתמשים בקידוד One Hot? קידוד One Hot משמש באחד או בשני המקרים הבאים:

1. כאשר מספר הקטגוריות וגודל מערך הנתונים קטן.
2. כאשר הקטגוריות אינן עוקבות אחר סדר מסוים.


> נקודות חשובות:
1. קידוד מתבצע כדי להמיר נתונים שאינם מספריים לנתונים מספריים.
2. ישנם שני סוגי קידוד: קידוד תוויות וקידוד One Hot, שניתן לבצע בהתאם לדרישות של מערך הנתונים.


## הסרת נתונים כפולים

> **מטרת הלמידה:** בסיום תת-הסעיף הזה, אתם אמורים להרגיש בנוח לזהות ולהסיר ערכים כפולים מ-DataFrames.

בנוסף לנתונים חסרים, לעיתים קרובות תיתקלו בנתונים כפולים במערכי נתונים בעולם האמיתי. למרבה המזל, pandas מספקת דרך פשוטה לזיהוי והסרת רשומות כפולות.


### זיהוי כפילויות: `duplicated`

ניתן לזהות בקלות ערכים כפולים באמצעות השיטה `duplicated` ב-pandas, שמחזירה מסכה בוליאנית שמציינת האם ערך ב-`DataFrame` הוא כפול של ערך קודם. בואו ניצור דוגמה נוספת של `DataFrame` כדי לראות זאת בפעולה.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### הסרת כפילויות: `drop_duplicates`
`drop_duplicates` פשוט מחזיר עותק של הנתונים שבו כל הערכים של `duplicated` הם `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


גם `duplicated` וגם `drop_duplicates` מוגדרים כברירת מחדל להתחשב בכל העמודות, אך ניתן לציין שהם יבדקו רק תת-קבוצה של עמודות ב-`DataFrame` שלך:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **עיקרי הדברים:** הסרת נתונים כפולים היא חלק חיוני כמעט בכל פרויקט מדעי נתונים. נתונים כפולים יכולים לשנות את תוצאות הניתוחים שלך ולספק לך תוצאות לא מדויקות!


## בדיקות איכות נתונים בעולם האמיתי

> **מטרת הלמידה:** בסיום החלק הזה, תרגישו בנוח לזהות ולתקן בעיות איכות נתונים נפוצות בעולם האמיתי, כולל ערכים קטגוריים לא עקביים, ערכים מספריים חריגים (נקודות קיצון) וישויות כפולות עם וריאציות.

בעוד שערכים חסרים וכפילויות מדויקות הם בעיות נפוצות, מערכי נתונים בעולם האמיתי מכילים לעיתים בעיות עדינות יותר:

1. **ערכים קטגוריים לא עקביים**: אותה קטגוריה נכתבת בצורה שונה (לדוגמה, "USA", "U.S.A", "United States")
2. **ערכים מספריים חריגים**: נקודות קיצון קיצוניות שמצביעות על שגיאות הזנה (לדוגמה, גיל = 999)
3. **שורות כמעט כפולות**: רשומות שמייצגות את אותה ישות עם וריאציות קלות

בואו נחקור טכניקות לזיהוי וטיפול בבעיות אלו.


### יצירת מערך נתונים "מלוכלך" לדוגמה

ראשית, בואו ניצור מערך נתונים לדוגמה שמכיל את סוגי הבעיות שאנו נתקלים בהן לעיתים קרובות בנתונים מהעולם האמיתי:


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. זיהוי ערכים קטגוריים לא עקביים

שימו לב שעמודת `country` מכילה ייצוגים שונים לאותן מדינות. בואו נזהה את חוסר העקביות הזה:


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### סטנדרטיזציה של ערכים קטגוריים

ניתן ליצור מיפוי כדי לסטנדרטיזציה של הערכים הללו. גישה פשוטה היא להמיר לאותיות קטנות וליצור מילון מיפוי:


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**חלופה: שימוש בהתאמה מטושטשת**

במקרים מורכבים יותר, ניתן להשתמש בהתאמת מחרוזות מטושטשת עם ספריית `rapidfuzz` כדי לזהות באופן אוטומטי מחרוזות דומות:


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. זיהוי ערכים מספריים חריגים (חריגות)

בהתבוננות בעמודת `age`, יש לנו כמה ערכים חשודים כמו 199 ו-5-. בואו נשתמש בשיטות סטטיסטיות כדי לזהות את החריגות הללו.


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### שימוש בשיטת IQR (טווח בין-רבעוני)

שיטת IQR היא טכניקה סטטיסטית חזקה לזיהוי ערכים חריגים, שפחות רגישה לערכים קיצוניים:


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### שימוש בשיטת Z-Score

שיטת Z-Score מזהה חריגות בהתבסס על סטיות תקן מהממוצע:


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### טיפול בערכים חריגים

לאחר זיהוי, ניתן לטפל בערכים חריגים בכמה דרכים:
1. **הסרה**: מחיקת שורות עם ערכים חריגים (אם מדובר בשגיאות)
2. **הגבלה**: החלפה בערכי גבול
3. **החלפה ב-NaN**: התייחסות כנתונים חסרים ושימוש בטכניקות השלמה
4. **שמירה**: אם מדובר בערכים קיצוניים לגיטימיים


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. זיהוי שורות כמעט-כפולות

שימו לב שבמערכת הנתונים שלנו יש מספר רשומות עבור "John Smith" עם ערכים מעט שונים. בואו נזהה כפילויות פוטנציאליות בהתבסס על דמיון בשמות.


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### מציאת כפילויות קרובות באמצעות התאמה מטושטשת

לזיהוי כפילויות מתוחכם יותר, ניתן להשתמש בהתאמה מטושטשת כדי למצוא שמות דומים:


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### טיפול בכפילויות

לאחר זיהוי, יש להחליט כיצד לטפל בכפילויות:
1. **שמירה על ההופעה הראשונה**: השתמשו ב-`drop_duplicates(keep='first')`
2. **שמירה על ההופעה האחרונה**: השתמשו ב-`drop_duplicates(keep='last')`
3. **איגוד מידע**: שילוב מידע משורות כפולות
4. **סקירה ידנית**: סימון לבדיקה אנושית


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### סיכום: צינור ניקוי נתונים מלא

בואו נשלב הכל לצינור ניקוי נתונים מקיף:


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 תרגיל אתגר

עכשיו תורך! להלן שורה חדשה של נתונים עם מספר בעיות איכות. האם תוכל:

1. לזהות את כל הבעיות בשורה זו
2. לכתוב קוד לניקוי כל בעיה
3. להוסיף את השורה הנקייה למאגר הנתונים

הנה הנתונים הבעייתיים:


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### נקודות מרכזיות

1. **קטגוריות לא עקביות** נפוצות בנתונים מהעולם האמיתי. תמיד בדקו ערכים ייחודיים וסטנדרטיזציה שלהם באמצעות מיפויים או התאמה מטושטשת.

2. **ערכים חריגים** יכולים להשפיע באופן משמעותי על הניתוח שלכם. השתמשו בידע מקצועי בשילוב עם שיטות סטטיסטיות (IQR, Z-score) כדי לזהות אותם.

3. **כמעט כפילויות** קשה יותר לזהות מאשר כפילויות מדויקות. שקלו להשתמש בהתאמה מטושטשת ובנירמול נתונים (הפיכת אותיות לקטנות, הסרת רווחים) כדי לזהות אותן.

4. **ניקוי נתונים הוא תהליך איטרטיבי**. ייתכן שתצטרכו ליישם מספר טכניקות ולסקור את התוצאות לפני שתסיימו את ערכת הנתונים הנקייה.

5. **תעדו את ההחלטות שלכם**. עקבו אחר שלבי הניקוי שביצעתם והסיבות לכך, שכן זה חשוב לשחזור ולשקיפות.

> **שיטה מומלצת:** תמיד שמרו עותק של הנתונים המקוריים "המלוכלכים". לעולם אל תדרסו את קבצי הנתונים המקוריים שלכם - צרו גרסאות נקיות עם שמות ברורים כמו `data_cleaned.csv`.



---

**כתב ויתור**:  
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור סמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי אדם. איננו נושאים באחריות לאי הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.
