**שימו לב**: על מנת להריץ את התאים ב-Live Code, יש לייבא תחילה את ספרית `pandas` ע"י הרצת השורת הראשונה בתא למטה.   
בנוסף, נגביל את מספר השורות והעמודות שתופענה בהדפסת הטבלאות ע"י שורות הקוד השניה והשלישית:

In [1]:
import pandas as pd
pd.options.display.max_rows=5
pd.options.display.max_columns=5
import utils.load_auxilary_files # This will load the files used for this notebook

['dog_noised.png', 'sunday.txt', 'orders_3_2024.csv', 'dialation_2.png', 'woman_noised.png', 'erosion_2.png', 'infile1.txt', 'notebook_resources.zip', 'countries-of-the-world.csv', 'ex1.csv', 'StudentsGrades.csv', 'out.txt', 'dog.png', 'foods.txt', 'dialation.png', '__MACOSX', 'evil_morty_segmentation.png', 'products2.csv', 'orders_2_2024.csv', 'evil_morty_1.png', 'monday.txt', 'ship.png', 'koala.png', 'baby.png', 'erosion.png', 'evil_morty_change_noised.png', 'orders_4_2024.csv', 'ex2.csv', 'evil_morty_change.png', 'evil_morty_change_3.png', 'infile2.txt', 'witcher_1.csv', 'witcher_2.csv']


# עריכת טבלאות מתקדמת

בפרק זה נעמיק עוד את היכרותנו עם פעולות העריכה ב`pandas` ונלמד שתי טכניקות מתקדמות יותר לעבודה עם טבלאות.
הראשונה היא שימוש במיסוך (Masking), המאפשר לסנן ולעדכן נתונים בטבלה לפי תנאים מסוימים.   

לאחר מכן נכיר את המתודה החזקה `apply`, המאפשרת לבצע חישובים מורכבים או ליצור עמודות חדשות מבלי להשתמש בלולאות מפורשות, על-ידי הפעלת פונקציה על שורות או עמודות שלמות.

הפעולות להלן יודגמו טבלת הציונים `"files/StudentsGrades.csv"`:

In [2]:
inputFileName = "files/StudentsGrades.csv"
df = pd.read_csv(inputFileName)
display(df)

Unnamed: 0,Name,Programming,...,Planet Survival,Art
0,Yael,50,...,65,91
1,Nadav,61,...,52,88
...,...,...,...,...,...
11,Tom,98,...,92,80
12,Adi,76,...,84,70


## מיסוך (Masking) ב`pandas`

```{admonition} **העמקה:**  מה זה Masking?
:class: dropdown, note

Mask (מסכה) היא מערך בוליאני (של ערכי `True`/`False`) שמשמש כדי לבחור אילו איברים ממערך אחר (בעל אותם ממדים) ייכללו בפעולה מסוימת, ואילו יישארו מוסתרים או יתעלמו מהם.
אפשר לחשוב על המסכה כעל שכבת פילטר שמכסה חלקים מהנתונים וחושפת רק את מה שצריך, כמו מסננת או שכבת שקף עם חורים. 

לדוגמא, עבור הטבלה שלנו `df` ניתן לייצר מסיכה מאחת העמודות  (לדוגמא, `m=df["Art"]>90`)' ולבצע מיסוך `df[m]` או `df.loc[m]`.
במיסוך זה, שורות בהן `m` מכיל את הערך `True` ייכללו בחישוב, ונתעלם משורות בהן `m` מכיל את הערך `False`.

ביצוע Masking יכול לשמש אותנו כדי להחזיר תת-טבלה, או כדי לבצע פעולה על תת-טבלה.

```


כעת נבחן כמה דוגמאות לשימוש ב-Masking על `DataFrame`:

נניח כי נרצה להסיר את כל הסטודנטיות ששמן יעל.

תחילה ניצור מסיכה:

In [3]:
msk=df['Name'] != 'Yael'
display(msk)

0     False
1      True
      ...  
11     True
12     True
Name: Name, Length: 13, dtype: bool

ולאחר מכן נסנן את הטבלה:

In [4]:
display(df[msk])

Unnamed: 0,Name,Programming,...,Planet Survival,Art
1,Nadav,61,...,52,88
2,Michal,81,...,81,78
...,...,...,...,...,...
11,Tom,98,...,92,80
12,Adi,76,...,84,70


ניתן גם **להשאיר** רק סטודנטיות ששמן יעל באמצעות יצירת מסיכה של התנאי ההפוך. 

נראה כיצד לעשות זאת בשורה אחת בלבד:

In [5]:
df[df['Name'] == 'Yael']

Unnamed: 0,Name,Programming,...,Planet Survival,Art
0,Yael,50,...,65,91


בדומה לאופרטורים אריתמטיים, ניתן להפעיל פעולות `and`, `or` ו-`not` עבור סדרות וטבלאות בוליאניות (או במילים אחרות, עבור מסיכות).  
אך בשונה מערכים בוליאניים רגילים, כאן **לאופרטורים אלו יש סימון אחר**:
- `and` --> `&`
- `or` --> `|`
- `not` --> `~`

נדגים זאת באמצעות החזרת כל הסטודנטים שקיבלו מעל 70 מתמטיקה ומעל 90 באומנות:

In [6]:
display(df[(df['Math'] > 70) & (df['Art'] > 90)])

Unnamed: 0,Name,Programming,...,Planet Survival,Art
6,Yarden,63,...,98,94
7,Avi,78,...,76,100


```{admonition} **שימו לב**
:class: error
ב`pandas` האופרטורים הלוגיים `&` `|` `~` קודמים להשוואתיים (כמו `<` `>` `==`). לכן חשוב לעטוף כל מסיכה בסוגריים על מנת למנוע מהאופרטור הלוגי לפעול לפני האופרטור ההשוואתי.
```

באמצעות Masking ניתן גם לבצע **השמה מותנית**, כלומר, לבצע השמה רק במקומות בהם יש במסיכה `True`.

לדוגמא, בשורה הבאה "נעביר" את כל הסטודנטים שנכשלו בתכנות, וניתן להם את הציון 60 (אתם יכולים לראות שהציון של יעל התחלף מ50 ל60).

In [7]:
df.loc[df["Programming"] < 60, "Programming"] = 60
display(df)

Unnamed: 0,Name,Programming,...,Planet Survival,Art
0,Yael,60,...,65,91
1,Nadav,61,...,52,88
...,...,...,...,...,...
11,Tom,98,...,92,80
12,Adi,76,...,84,70


## מתודת `apply`

המתודה `apply` מאפשרת להפעיל פונקציה על עמודה או על כל שורה ב-DataFrame. במקום להשתמש בלולאות, `apply` מאפשרת לנו לבצע חישוב או שינוי על כל השורות או העמודות של הטבלה בבת אחת.   
באופן דומה, עבור סדרה, `apply` תבצע את הפעולה על כל ערכים בסדרה **בבת אחת**.   

לדוגמא, אם נרצה להעלות את כל הציונים בעמודה `Art` ב10, אבל לוודא שלא יהיו ציונים גבוהים מ100, נוכל לעשות זאת באופן הבא:


In [8]:
df["Art"]=df["Art"].apply(lambda a: min(100, a+10))

display(df)

Unnamed: 0,Name,Programming,...,Planet Survival,Art
0,Yael,60,...,65,100
1,Nadav,61,...,52,98
...,...,...,...,...,...
11,Tom,98,...,92,90
12,Adi,76,...,84,80


בדומה לחישוב ממוצע המקצועות שראינו קודם, גם ל`apply`, יש פרמטר בשם `axis`:  
בברירת מחדל, `apply` מופעל עם הקלט `axis=0`. כלומר, מתבצעת פעולה **בין השורות השונות**, או במילים אחרות - **על כל עמודה בנפרד**.
ולהיפך, הפעלת `apply` עם `axis=1` תבצע פעולה **בין העמודות השונות**, או במילים אחרות - **על כל שורה בנפרד**.  



נדגים זאת באמצעות ממוצע באמצעות `apply`:   

In [9]:
display(df.iloc[:,1:].apply(lambda a: a.mean(), axis=1))

0     71.142857
1     71.571429
        ...    
11    93.142857
12    77.000000
Length: 13, dtype: float64

שימו לב ש`apply` מחלץ ממוצע עבור **כל סטודנט בנפרד** (כלומר, עבור כל שורה), והתוצאה היא **סדרה במבנה על עמודה בטבלה**, בה קיים ממוצע כל סטודנט.

מה היה קורה אם היינו מפעילים את אותה השורה עם `axis=0`?

היינו מחלצים ממוצע עבור כל **מקצוע** בנפרד (כלומר, עבור כל טור), מה שהיה מסתכם לכדי שורה חדשה (ללא עמודת שם הסטודנט, אותה חתכנו באמצעות `iloc`). 

נחזור למשימת הוספת פקטור של 10 נקודות. מה אם במקום להוסיף זאת רק עבור אומנות, היינו מוסיפים זאת **לכלל המקצועות**?   
היינו חושבים אולי לבצע משהו כזה:

``` python
(df.iloc[:,1:]=df.iloc[:,1:].apply(lambda a: min(100, a+10)
```

אבל מכיוון שאנו פועלים כעת על טבלה (ולא על סדרה כמו בדוגמא הראשונה), `a` בפונקציית ה`lambda` ייצג שורה שלמה. כלומר פעולת המינימום לא תתבצע עבור כל תא בנפרד, כפי שהיינו רוצים.

לכן, נעזר במתודה `clip` של `pandas` המאפשרת לקטום ערכים בכל תא בנפרד. במקרה שלנו, היינו צריכים להגביל את הערכים רק מלמעלה, ולכן נשתמש בפרמטר `upper=100`. 

כעת המימוש יראה כך:


In [10]:
df.iloc[:,1:].apply(lambda a: a+10).clip(upper=100)

Unnamed: 0,Programming,Marine Biology,...,Planet Survival,Art
0,70,66,...,75,100
1,71,87,...,62,100
...,...,...,...,...,...
11,100,86,...,100,100
12,86,97,...,94,90



```{admonition} **הערה**
:class: info


במקרה הזה, אין חשיבות לפרמטר `axis` ב`apply` מכיוון שהפעולה נעשית בסופו של דבר על כל ערך בנפרד, והם אינם "נסכמים" ביחד.

```


#### תרגיל

בשורה אחת בלבד, שנו באמצעות המתודה `apply` את שמות הסטודנטים כך שכולם יהיו באותיות גדולות.

In [11]:
# Write your code here
display(df)

Unnamed: 0,Name,Programming,...,Planet Survival,Art
0,Yael,60,...,65,100
1,Nadav,61,...,52,98
...,...,...,...,...,...
11,Tom,98,...,92,90
12,Adi,76,...,84,80
