# בנה מודל רגרסיה: התחל עם R ו-Tidymodels עבור מודלים של רגרסיה


## מבוא לרגרסיה - שיעור 1

#### לשים את זה בפרספקטיבה

✅ ישנם סוגים רבים של שיטות רגרסיה, והבחירה בשיטה תלויה בשאלה שאתה מחפש תשובה עליה. אם אתה רוצה לחזות את הגובה הסביר של אדם בגיל מסוים, תשתמש ב-`רגרסיה לינארית`, מכיוון שאתה מחפש **ערך מספרי**. אם אתה מעוניין לגלות האם סוג מסוים של מטבח נחשב טבעוני או לא, אתה מחפש **שיוך לקטגוריה**, ולכן תשתמש ב-`רגרסיה לוגיסטית`. תלמד יותר על רגרסיה לוגיסטית בהמשך. חשוב קצת על שאלות שאתה יכול לשאול מתוך הנתונים, ואיזו משיטות אלו תהיה המתאימה ביותר.

בקטע זה, תעבוד עם [מאגר נתונים קטן על סוכרת](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). דמיין שברצונך לבדוק טיפול עבור חולי סוכרת. מודלים של למידת מכונה עשויים לעזור לך לקבוע אילו מטופלים יגיבו טוב יותר לטיפול, בהתבסס על שילובים של משתנים. אפילו מודל רגרסיה בסיסי מאוד, כאשר הוא מוצג בצורה ויזואלית, עשוי להראות מידע על משתנים שיסייעו לך בארגון הניסויים הקליניים התיאורטיים שלך.

ועם זה, בואו נתחיל במשימה הזו!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>יצירה מאת @allison_horst</figcaption>

<!--![יצירה מאת \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>יצירה מאת @allison_horst-->


## 1. טעינת ערכת הכלים שלנו

למשימה זו, נזדקק לחבילות הבאות:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) הוא [אוסף של חבילות R](https://www.tidyverse.org/packages) שנועד להפוך את מדע הנתונים למהיר, קל ומהנה יותר!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) הוא מסגרת עבודה שהיא [אוסף של חבילות](https://www.tidymodels.org/packages/) למידול ולמידת מכונה.

ניתן להתקין אותן כך:

`install.packages(c("tidyverse", "tidymodels"))`

הסקריפט הבא בודק אם יש לכם את החבילות הנדרשות להשלמת מודול זה ומתקין אותן עבורכם במקרה שחלקן חסרות.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



עכשיו, בואו נטען את החבילות המדהימות האלה ונעשה אותן זמינות בסשן ה-R הנוכחי שלנו. (זה רק להמחשה, `pacman::p_load()` כבר עשה את זה בשבילכם)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. מערך הנתונים של סוכרת

בתרגיל הזה, נשתמש בכישורי הרגרסיה שלנו כדי לבצע תחזיות על מערך נתונים של סוכרת. [מערך הנתונים של סוכרת](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) כולל `442 דגימות` של נתונים הקשורים לסוכרת, עם 10 משתנים מנבאים: `גיל`, `מין`, `מדד מסת גוף`, `לחץ דם ממוצע`, ו-`שישה מדידות של סרום דם`, וכן משתנה תוצאה `y`: מדד כמותי להתקדמות המחלה שנה לאחר נקודת הבסיס.

|מספר תצפיות|442|
|----------------------|:---|
|מספר משתנים מנבאים|10 העמודות הראשונות הן משתנים מנבאים מספריים|
|תוצאה/יעד|עמודה 11 היא מדד כמותי להתקדמות המחלה שנה לאחר נקודת הבסיס|
|מידע על משתנים מנבאים|- גיל בשנים
||- מין
||- bmi מדד מסת גוף
||- bp לחץ דם ממוצע
||- s1 tc, כולסטרול סרום כולל
||- s2 ldl, ליפופרוטאינים בצפיפות נמוכה
||- s3 hdl, ליפופרוטאינים בצפיפות גבוהה
||- s4 tch, כולסטרול כולל / HDL
||- s5 ltg, ייתכן לוגריתם של רמת טריגליצרידים בסרום
||- s6 glu, רמת סוכר בדם|

> 🎓 זכרו, זהו למידת מכונה מונחית, ואנו זקוקים ליעד בשם 'y'.

לפני שתוכלו לבצע מניפולציות על נתונים עם R, עליכם לייבא את הנתונים לזיכרון של R או ליצור חיבור לנתונים ש-R יכול להשתמש בו כדי לגשת לנתונים מרחוק.

> חבילת [readr](https://readr.tidyverse.org/), שהיא חלק מ-Tidyverse, מספקת דרך מהירה ונוחה לקרוא נתונים מלבניים לתוך R.

עכשיו, בואו נטען את מערך הנתונים של סוכרת מה-URL המקור הזה: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

בנוסף, נבצע בדיקת תקינות על הנתונים שלנו באמצעות `glimpse()` ונציג את חמש השורות הראשונות באמצעות `slice()`.

לפני שנמשיך הלאה, בואו גם נכיר משהו שתיתקלו בו לעיתים קרובות בקוד R 🥁🥁: אופרטור הצינור `%>%`

אופרטור הצינור (`%>%`) מבצע פעולות ברצף לוגי על ידי העברת אובייקט קדימה לתוך פונקציה או ביטוי קריאה. אתם יכולים לחשוב על אופרטור הצינור כאומר "ואז" בקוד שלכם.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` מראה לנו שלנתונים אלו יש 442 שורות ו-11 עמודות, כאשר כל העמודות הן מסוג הנתונים `double`.

<br>

> `glimpse()` ו-`slice()` הן פונקציות מתוך [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, שהיא חלק מ-Tidyverse, היא תחביר לעיבוד נתונים המספק סט עקבי של פעלים שעוזרים לפתור את האתגרים הנפוצים ביותר בעיבוד נתונים.

<br>

עכשיו, כשיש לנו את הנתונים, בואו נתמקד בתכונה אחת (`bmi`) כיעד לתרגיל הזה. זה ידרוש מאיתנו לבחור את העמודות הרצויות. אז איך עושים את זה?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) מאפשרת לנו *לבחור* (ואם רוצים, גם לשנות שם) עמודות במסגרת נתונים.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. נתוני אימון ובדיקה

בלמידה מונחית נהוג *לחלק* את הנתונים לשני תתי-קבוצות; קבוצה (בדרך כלל גדולה יותר) המשמשת לאימון המודל, וקבוצה קטנה יותר "להחזקה" המשמשת לבדוק כיצד המודל ביצע.

עכשיו, כשיש לנו נתונים מוכנים, נוכל לבדוק אם מכונה יכולה לעזור לקבוע חלוקה הגיונית בין המספרים במאגר הנתונים הזה. נוכל להשתמש בחבילת [rsample](https://tidymodels.github.io/rsample/), שהיא חלק ממסגרת העבודה של Tidymodels, כדי ליצור אובייקט שמכיל את המידע על *איך* לחלק את הנתונים, ואז להשתמש בשתי פונקציות נוספות של rsample כדי לחלץ את קבוצות האימון והבדיקה שנוצרו:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. אימון מודל רגרסיה לינארית עם Tidymodels

עכשיו אנחנו מוכנים לאמן את המודל שלנו!

ב-Tidymodels, מגדירים מודלים באמצעות `parsnip()` על ידי ציון שלושה מושגים:

-   **סוג המודל** מבדיל בין מודלים כמו רגרסיה לינארית, רגרסיה לוגיסטית, מודלים של עצי החלטה, ועוד.

-   **מצב המודל** כולל אפשרויות נפוצות כמו רגרסיה ומיון; חלק מסוגי המודלים תומכים באחת מהאפשרויות הללו בלבד, בעוד אחרים תומכים בשתיהן.

-   **מנוע המודל** הוא הכלי החישובי שישמש להתאמת המודל. לעיתים קרובות מדובר בחבילות R, כמו **`"lm"`** או **`"ranger"`**.

מידע זה על המודל נשמר במפרט המודל, אז בואו נבנה אחד!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

לאחר שמגדירים את המודל, ניתן `לאמוד` או `לאמן` אותו באמצעות הפונקציה [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), בדרך כלל באמצעות נוסחה וכמה נתונים.

`y ~ .` פירושו שנבצע התאמה ל-`y` ככמות/מטרה חזויה, שמוסברת על ידי כל המשתנים המסבירים/התכונות, כלומר `.` (במקרה הזה, יש לנו רק משתנה מסביר אחד: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

מתוך הפלט של המודל, אנו יכולים לראות את המקדמים שנלמדו במהלך האימון. הם מייצגים את המקדמים של קו ההתאמה הטוב ביותר שמספק את השגיאה הכוללת הנמוכה ביותר בין המשתנה האמיתי למשתנה החזוי.  
<br>

## 5. חיזוי על קבוצת הבדיקה

כעת, לאחר שאימנו מודל, נוכל להשתמש בו כדי לחזות את התקדמות המחלה y עבור קבוצת הנתונים של הבדיקה באמצעות [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). זה ישמש לציור הקו בין קבוצות הנתונים.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

יש! 💃🕺 הרגע אימנו מודל והשתמשנו בו כדי לבצע תחזיות!

כאשר מבצעים תחזיות, הנוהג של tidymodels הוא תמיד להפיק tibble/מסגרת נתונים של תוצאות עם שמות עמודות סטנדרטיים. זה הופך את השילוב בין הנתונים המקוריים לתחזיות לפשוט ונוח לשימוש בפעולות נוספות כמו יצירת גרפים.

`dplyr::bind_cols()` מחבר בצורה יעילה מספר מסגרות נתונים לפי עמודות.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. הצגת תוצאות המודל

עכשיו הגיע הזמן לראות את זה באופן חזותי 📈. ניצור תרשים פיזור של כל ערכי `y` ו-`bmi` מתוך קבוצת הבדיקה, ואז נשתמש בתחזיות כדי לצייר קו במקום המתאים ביותר, בין קבוצות הנתונים של המודל.

ל-R יש כמה מערכות ליצירת גרפים, אבל `ggplot2` היא אחת מהמערכות האלגנטיות והגמישות ביותר. היא מאפשרת לך להרכיב גרפים על ידי **שילוב רכיבים עצמאיים**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

✅ תחשבו קצת על מה שקורה כאן. קו ישר עובר דרך הרבה נקודות קטנות של נתונים, אבל מה בדיוק הוא עושה? האם אתם יכולים לראות איך אפשר להשתמש בקו הזה כדי לחזות איפה נקודת נתונים חדשה ולא מוכרת צריכה להתאים ביחס לציר ה-y של הגרף? נסו לנסח במילים את השימוש המעשי של המודל הזה.

מזל טוב, יצרתם את מודל הרגרסיה הליניארי הראשון שלכם, ביצעתם תחזית באמצעותו, והצגתם אותה בגרף!



---

**כתב ויתור**:  
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי מתרגם אנושי. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.
