# Koosta regressioonimudel: Alusta R-i ja Tidymodelsiga regressioonimudelite jaoks


## Sissejuhatus regressiooni - √ïppetund 1

#### Paneme selle perspektiivi

‚úÖ Regressioonimeetodeid on mitut t√º√ºpi ja millise valite, s√µltub vastusest, mida otsite. Kui soovite ennustada t√µen√§olist pikkust teatud vanuses inimese jaoks, kasutaksite `lineaarset regressiooni`, kuna otsite **arvv√§√§rtust**. Kui olete huvitatud avastamast, kas teatud k√∂√∂git√º√ºp peaks olema vegan v√µi mitte, otsite **kategooria m√§√§ramist**, seega kasutaksite `logistilist regressiooni`. Logistilisest regressioonist √µpite hiljem rohkem. M√µelge veidi k√ºsimustele, mida saate andmetelt k√ºsida, ja milline neist meetoditest oleks sobivam.

Selles osas t√∂√∂tate [v√§ikese diabeedi andmestikuga](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Kujutage ette, et soovite testida ravi diabeediga patsientide jaoks. Masin√µppe mudelid v√µivad aidata teil kindlaks teha, millised patsiendid reageeriksid ravile paremini, tuginedes muutujate kombinatsioonidele. Isegi v√§ga lihtne regressioonimudel, kui seda visualiseerida, v√µib n√§idata teavet muutujate kohta, mis aitaksid teil korraldada teoreetilisi kliinilisi katseid.

Sellega √∂eldes, alustame selle √ºlesandega!

<p >
   <img src="../../../../../../translated_images/et/encouRage.e75d5fe0367fb913.jpg"
   width="630"/>
   <figcaption>Kunstiteos: @allison_horst</figcaption>


## 1. T√∂√∂riistakomplekti laadimine

Selle √ºlesande jaoks vajame j√§rgmisi pakette:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) on [R-pakettide kogum](https://www.tidyverse.org/packages), mis on loodud andmeteaduse kiiremaks, lihtsamaks ja l√µbusamaks muutmiseks!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) raamistik on [pakettide kogum](https://www.tidymodels.org/packages/), mis on m√µeldud modelleerimiseks ja masin√µppeks.

Saate need paigaldada j√§rgmiselt:

`install.packages(c("tidyverse", "tidymodels"))`

Allolev skript kontrollib, kas teil on selle mooduli t√§itmiseks vajalikud paketid olemas, ja paigaldab need, kui m√µni neist puudub.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



N√º√ºd laadime need suurep√§rased paketid ja teeme need meie praeguses R-i sessioonis k√§ttesaadavaks. (See on lihtsalt illustratsiooniks, `pacman::p_load()` tegi seda juba teie eest)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diabeedi andmestik

Selles harjutuses rakendame oma regressioonioskusi, tehes ennustusi diabeedi andmestiku p√µhjal. [Diabeedi andmestik](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) sisaldab `442 n√§idist` diabeediga seotud andmeid, kus on 10 ennustavat tunnust, nagu `vanus`, `sugu`, `kehamassiindeks`, `keskmine verer√µhk` ja `kuus vere seerumi m√µ√µtmist`, ning tulemuse muutuja `y`: kvantitatiivne n√§itaja haiguse progresseerumisest √ºks aasta p√§rast algtaset.

|Vaatluste arv|442|
|----------------------|:---|
|Ennustavate tunnuste arv|Esimesed 10 veergu on numbrilised ennustavad tunnused|
|Tulemus/Sihtm√§rk|11. veerg on kvantitatiivne n√§itaja haiguse progresseerumisest √ºks aasta p√§rast algtaset|
|Ennustavate tunnuste info|- vanus aastates
||- sugu
||- bmi kehamassiindeks
||- bp keskmine verer√µhk
||- s1 tc, kogu seerumi kolesterool
||- s2 ldl, madala tihedusega lipoproteiinid
||- s3 hdl, k√µrge tihedusega lipoproteiinid
||- s4 tch, kogu kolesterool / HDL
||- s5 ltg, t√µen√§oliselt seerumi trigl√ºtseriidide taseme logaritm
||- s6 glu, veresuhkru tase|



> üéì Pea meeles, et see on juhendatud √µpe ja meil on vaja nimetatud sihtm√§rki 'y'.

Enne kui saad R-is andmeid manipuleerida, pead andmed importima R-i m√§llu v√µi looma √ºhenduse andmetega, mida R saab kasutada andmete kaugjuurdep√§√§suks.

> [readr](https://readr.tidyverse.org/) pakett, mis on osa Tidyverse'ist, pakub kiiret ja kasutajas√µbralikku viisi ristk√ºlikukujuliste andmete lugemiseks R-i.

N√º√ºd laadime diabeedi andmestiku, mis on saadaval sellel URL-il: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Samuti teeme andmetele kontrolli `glimpse()` abil ja kuvame esimesed 5 rida `slice()` abil.

Enne kui edasi liigume, tutvustame midagi, mida kohtad R-i koodis sageli ü•Åü•Å: toruoperaatorit `%>%`

Toruoperaator (`%>%`) teostab toiminguid loogilises j√§rjestuses, edastades objekti edasi funktsiooni v√µi v√§ljendisse. Toruoperaatorit v√µib m√µelda kui "ja siis" sinu koodis.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` n√§itab meile, et andmetes on 442 rida ja 11 veergu, kus k√µik veerud on andmet√º√ºpi `double`.

<br>

> glimpse() ja slice() on funktsioonid [`dplyr`](https://dplyr.tidyverse.org/) paketis. Dplyr, mis on osa Tidyverse'ist, on andmete manipuleerimise grammatika, mis pakub √ºhtset komplekti tegus√µnu, mis aitavad lahendada k√µige tavalisemaid andmete manipuleerimise v√§ljakutseid.

<br>

N√º√ºd, kui meil on andmed olemas, keskendume √ºhele tunnusele (`bmi`), mida sihtida selles harjutuses. Selleks peame valima soovitud veerud. Kuidas seda teha?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) v√µimaldab meil *valida* (ja soovi korral √ºmber nimetada) veerge andmeraamis.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Treening- ja testimisandmed

Juhendatud √µppimises on tavaks *jagada* andmed kaheks alamhulgaks: (tavaliselt suurem) komplekt, millega mudelit treenitakse, ja v√§iksem "tagasihoitud" komplekt, millega hinnatakse, kuidas mudel toimis.

N√º√ºd, kui andmed on valmis, saame vaadata, kas masin suudab aidata m√§√§rata loogilise jaotuse selle andmestiku numbrite vahel. Selleks saame kasutada [rsample](https://tidymodels.github.io/rsample/) paketti, mis on osa Tidymodels raamistikust, et luua objekt, mis sisaldab teavet selle kohta, *kuidas* andmed jagada, ning seej√§rel kasutada kahte rsample funktsiooni, et eraldada loodud treening- ja testimiskomplektid:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Treeni lineaarse regressiooni mudel Tidymodelsiga

N√º√ºd oleme valmis oma mudelit treenima!

Tidymodelsis m√§√§ratakse mudelid `parsnip()` abil, m√§√§ratledes kolm kontseptsiooni:

-   Mudeli **t√º√ºp** eristab mudeleid, nagu lineaarne regressioon, logistiline regressioon, otsustuspuu mudelid ja nii edasi.

-   Mudeli **re≈æiim** sisaldab tavalisi valikuid, nagu regressioon ja klassifikatsioon; m√µned mudelit√º√ºbid toetavad m√µlemat, samas kui m√µned ainult √ºhte re≈æiimi.

-   Mudeli **mootor** on arvutuslik t√∂√∂riist, mida kasutatakse mudeli sobitamiseks. Sageli on need R-i paketid, nagu **`"lm"`** v√µi **`"ranger"`**

See modelleerimisteave salvestatakse mudeli spetsifikatsioonis, nii et loome selle!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

P√§rast seda, kui mudel on *m√§√§ratletud*, saab mudelit `hinnata` v√µi `treenida` funktsiooni [`fit()`](https://parsnip.tidymodels.org/reference/fit.html) abil, tavaliselt kasutades valemit ja m√µningaid andmeid.

`y ~ .` t√§hendab, et me sobitame `y` ennustatava suuruse/eesm√§rgina, mida selgitavad k√µik ennustajad/tunnused ehk `.` (antud juhul on meil ainult √ºks ennustaja: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Mudeli v√§ljundist n√§eme treeningu k√§igus √µpitud koefitsiente. Need esindavad parima sobivusega joone koefitsiente, mis annavad meile tegeliku ja prognoositud muutuja vahelise v√§ikseima √ºldise vea.
<br>

## 5. Ennustuste tegemine testandmestikul

N√º√ºd, kui oleme mudeli treeninud, saame seda kasutada haiguse progresseerumise y ennustamiseks testandmestiku p√µhjal, kasutades [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Seda kasutatakse andmegruppide vahelise joone joonistamiseks.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Jee! üíÉüï∫ Me just treenisime mudelit ja kasutasime seda ennustuste tegemiseks!

Ennustuste tegemisel on tidymodels'i tava alati luua tulemuste tibble/andmeraamistik standardiseeritud veerunimedega. See muudab algandmete ja ennustuste kombineerimise lihtsaks kasutatavasse formaati edasisteks toiminguteks, nagu n√§iteks graafikute loomine.

`dplyr::bind_cols()` √ºhendab t√µhusalt mitu andmeraamistikku veergude kaupa.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Modelleerimistulemuste visualiseerimine

N√º√ºd on aeg seda visuaalselt n√§ha üìà. Loome hajuvusdiagrammi k√µigist testkomplekti `y` ja `bmi` v√§√§rtustest ning kasutame ennustusi, et joonistada joon k√µige sobivamasse kohta mudeli andmegruppide vahel.

R-il on mitu s√ºsteemi graafikute loomiseks, kuid `ggplot2` on √ºks elegantsemaid ja mitmek√ºlgsemaid. See v√µimaldab graafikuid koostada, **√ºhendades s√µltumatuid komponente**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

> ‚úÖ M√µtle veidi, mis siin toimub. Sirgjoon l√§bib paljusid v√§ikeseid andmepunkte, aga mida see t√§pselt teeb? Kas sa n√§ed, kuidas saaksid seda joont kasutada, et ennustada, kuhu uus, seni n√§gemata andmepunkt peaks graafiku y-telje suhtes sobituma? Proovi s√µnastada selle mudeli praktiline kasutus.

Palju √µnne, sa ehitasid oma esimese lineaarse regressioonimudeli, tegid sellega ennustuse ja kuvad selle graafikul!



---

**Lahti√ºtlus**:  
See dokument on t√µlgitud AI t√µlketeenuse [Co-op Translator](https://github.com/Azure/co-op-translator) abil. Kuigi p√º√ºame tagada t√§psust, palume arvestada, et automaatsed t√µlked v√µivad sisaldada vigu v√µi ebat√§psusi. Algne dokument selle algses keeles tuleks pidada autoriteetseks allikaks. Olulise teabe puhul soovitame kasutada professionaalset inimt√µlget. Me ei vastuta selle t√µlke kasutamisest tulenevate arusaamatuste v√µi valesti t√µlgenduste eest.
