## Introduksjon til regresjon - Leksjon 1

#### Sett det i perspektiv

✅ Det finnes mange typer regresjonsmetoder, og hvilken du velger avhenger av svaret du leter etter. Hvis du vil forutsi sannsynlig høyde for en person med en gitt alder, vil du bruke `lineær regresjon`, siden du søker en **numerisk verdi**. Hvis du er interessert i å finne ut om en type mat bør anses som vegansk eller ikke, ser du etter en **kategoriinndeling**, og da vil du bruke `logistisk regresjon`. Du vil lære mer om logistisk regresjon senere. Tenk litt på noen spørsmål du kan stille til data, og hvilken av disse metodene som ville være mest passende.

I denne delen skal du jobbe med et [lite datasett om diabetes](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html). Tenk deg at du ønsket å teste en behandling for diabetikere. Maskinlæringsmodeller kan hjelpe deg med å avgjøre hvilke pasienter som vil respondere bedre på behandlingen, basert på kombinasjoner av variabler. Selv en veldig enkel regresjonsmodell, når den visualiseres, kan vise informasjon om variabler som kan hjelpe deg med å organisere dine teoretiske kliniske studier.

Med det sagt, la oss komme i gang med denne oppgaven!

<p >
   <img src="../../images/encouRage.jpg"
   width="630"/>
   <figcaption>Kunstverk av @allison_horst</figcaption>

<!--![Kunstverk av \@allison_horst](../../../../../../2-Regression/1-Tools/images/encouRage.jpg)<br>Kunstverk av @allison_horst-->


## 1. Laste inn verktøysettet vårt

For denne oppgaven trenger vi følgende pakker:

-   `tidyverse`: [tidyverse](https://www.tidyverse.org/) er en [samling av R-pakker](https://www.tidyverse.org/packages) som er laget for å gjøre datavitenskap raskere, enklere og morsommere!

-   `tidymodels`: [tidymodels](https://www.tidymodels.org/) er et [rammeverk med pakker](https://www.tidymodels.org/packages/) for modellering og maskinlæring.

Du kan installere dem slik:

`install.packages(c("tidyverse", "tidymodels"))`

Skriptet nedenfor sjekker om du har de nødvendige pakkene for å fullføre denne modulen og installerer dem for deg dersom noen mangler.


In [2]:
suppressWarnings(if(!require("pacman")) install.packages("pacman"))
pacman::p_load(tidyverse, tidymodels)

Loading required package: pacman



La oss nå laste inn disse fantastiske pakkene og gjøre dem tilgjengelige i vår nåværende R-økt. (Dette er kun for illustrasjon, `pacman::p_load()` har allerede gjort det for deg)


In [None]:
# load the core Tidyverse packages
library(tidyverse)

# load the core Tidymodels packages
library(tidymodels)


## 2. Diabetes-datasettet

I denne øvelsen skal vi vise våre regresjonsferdigheter ved å lage prediksjoner på et diabetes-datasett. [Diabetes-datasettet](https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt) inkluderer `442 prøver` med data om diabetes, med 10 prediktorvariabler: `alder`, `kjønn`, `kroppsmasseindeks`, `gjennomsnittlig blodtrykk` og `seks blodserummålinger`, samt en utfallsvariabel `y`: et kvantitativt mål på sykdomsutvikling ett år etter baseline.

|Antall observasjoner|442|
|--------------------|:---|
|Antall prediktorer|De første 10 kolonnene er numeriske prediktorer|
|Utfall/Mål|Kolonne 11 er et kvantitativt mål på sykdomsutvikling ett år etter baseline|
|Informasjon om prediktorer|- alder i år
||- kjønn
||- bmi kroppsmasseindeks
||- bp gjennomsnittlig blodtrykk
||- s1 tc, total serumkolesterol
||- s2 ldl, lavdensitetslipoproteiner
||- s3 hdl, høydensitetslipoproteiner
||- s4 tch, total kolesterol / HDL
||- s5 ltg, muligens logaritmen av serumtriglyseridnivå
||- s6 glu, blodsukkernivå|

> 🎓 Husk, dette er veiledet læring, og vi trenger et navngitt mål 'y'.

Før du kan manipulere data med R, må du importere dataene til R's minne, eller opprette en forbindelse til dataene som R kan bruke for å få tilgang til dem eksternt.

> [readr](https://readr.tidyverse.org/)-pakken, som er en del av Tidyverse, gir en rask og brukervennlig måte å lese rektangulære data inn i R.

La oss nå laste inn diabetes-datasettet fra denne kilde-URL-en: <https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html>

Vi skal også utføre en enkel sjekk av dataene våre ved å bruke `glimpse()` og vise de første 5 radene med `slice()`.

Før vi går videre, la oss også introdusere noe du ofte vil støte på i R-kode 🥁🥁: pipe-operatøren `%>%`

Pipe-operatøren (`%>%`) utfører operasjoner i logisk rekkefølge ved å sende et objekt videre inn i en funksjon eller kalluttrykk. Du kan tenke på pipe-operatøren som å si "og deretter" i koden din.


In [None]:
# Import the data set
diabetes <- read_table2(file = "https://www4.stat.ncsu.edu/~boos/var.select/diabetes.rwrite1.txt")


# Get a glimpse and dimensions of the data
glimpse(diabetes)


# Select the first 5 rows of the data
diabetes %>% 
  slice(1:5)

`glimpse()` viser oss at disse dataene har 442 rader og 11 kolonner, hvor alle kolonnene er av datatypen `double`.

<br>

> glimpse() og slice() er funksjoner i [`dplyr`](https://dplyr.tidyverse.org/). Dplyr, som er en del av Tidyverse, er et rammeverk for datamanipulering som gir et konsistent sett med verktøy for å løse de vanligste utfordringene innen datamanipulering.

<br>

Nå som vi har dataene, la oss fokusere på én variabel (`bmi`) som mål for denne øvelsen. Dette krever at vi velger de ønskede kolonnene. Så, hvordan gjør vi dette?

[`dplyr::select()`](https://dplyr.tidyverse.org/reference/select.html) lar oss *velge* (og eventuelt gi nytt navn til) kolonner i en dataramme.


In [None]:
# Select predictor feature `bmi` and outcome `y`
diabetes_select <- diabetes %>% 
  select(c(bmi, y))

# Print the first 5 rows
diabetes_select %>% 
  slice(1:10)

## 3. Trenings- og testdata

Det er vanlig praksis i overvåket læring å *dele* dataene i to undergrupper; et (typisk større) sett for å trene modellen, og et mindre "tilbakeholdt" sett for å se hvordan modellen presterte.

Nå som vi har dataene klare, kan vi se om en maskin kan hjelpe med å bestemme en logisk deling mellom tallene i dette datasettet. Vi kan bruke [rsample](https://tidymodels.github.io/rsample/)-pakken, som er en del av Tidymodels-rammeverket, for å opprette et objekt som inneholder informasjon om *hvordan* dataene skal deles, og deretter to flere rsample-funksjoner for å hente ut de opprettede trenings- og testsettene:


In [None]:
set.seed(2056)
# Split 67% of the data for training and the rest for tesing
diabetes_split <- diabetes_select %>% 
  initial_split(prop = 0.67)

# Extract the resulting train and test sets
diabetes_train <- training(diabetes_split)
diabetes_test <- testing(diabetes_split)

# Print the first 3 rows of the training set
diabetes_train %>% 
  slice(1:10)

## 4. Tren en lineær regresjonsmodell med Tidymodels

Nå er vi klare til å trene modellen vår!

I Tidymodels spesifiserer du modeller ved hjelp av `parsnip()` ved å definere tre konsepter:

-   Modell **type** skiller mellom modeller som lineær regresjon, logistisk regresjon, beslutningstrær og lignende.

-   Modell **modus** inkluderer vanlige alternativer som regresjon og klassifisering; noen modelltyper støtter begge disse, mens andre kun har én modus.

-   Modell **motor** er det beregningsverktøyet som vil bli brukt til å tilpasse modellen. Ofte er disse R-pakker, som **`"lm"`** eller **`"ranger"`**

Denne modellinformasjonen fanges opp i en modellspecifikasjon, så la oss lage en!


In [None]:
# Build a linear model specification
lm_spec <- 
  # Type
  linear_reg() %>% 
  # Engine
  set_engine("lm") %>% 
  # Mode
  set_mode("regression")


# Print the model specification
lm_spec

Etter at en modell har blitt *spesifisert*, kan modellen `estimeres` eller `trenes` ved hjelp av funksjonen [`fit()`](https://parsnip.tidymodels.org/reference/fit.html), vanligvis ved bruk av en formel og noen data.

`y ~ .` betyr at vi skal tilpasse `y` som den predikerte verdien/målet, forklart av alle prediktorene/egenskapene, altså `.` (i dette tilfellet har vi kun én prediktor: `bmi`).


In [None]:
# Build a linear model specification
lm_spec <- linear_reg() %>% 
  set_engine("lm") %>%
  set_mode("regression")


# Train a linear regression model
lm_mod <- lm_spec %>% 
  fit(y ~ ., data = diabetes_train)

# Print the model
lm_mod

Fra modellens output kan vi se koeffisientene som ble lært under treningen. Disse representerer koeffisientene for den beste tilpasningslinjen som gir oss den laveste totale feilen mellom den faktiske og den predikerte variabelen.
<br>

## 5. Gjør prediksjoner på testsettet

Nå som vi har trent en modell, kan vi bruke den til å forutsi sykdomsutviklingen y for testdatasettet ved hjelp av [parsnip::predict()](https://parsnip.tidymodels.org/reference/predict.model_fit.html). Dette vil bli brukt til å tegne linjen mellom datagruppene.


In [None]:
# Make predictions for the test set
predictions <- lm_mod %>% 
  predict(new_data = diabetes_test)

# Print out some of the predictions
predictions %>% 
  slice(1:5)

Woohoo! 💃🕺 Vi har nettopp trent en modell og brukt den til å lage prediksjoner!

Når vi lager prediksjoner, er det en konvensjon i tidymodels å alltid produsere en tibble/data frame med resultater og standardiserte kolonnenavn. Dette gjør det enkelt å kombinere de originale dataene med prediksjonene i et brukervennlig format for videre operasjoner som visualisering.

`dplyr::bind_cols()` binder effektivt flere data frames sammen kolonnevis.


In [None]:
# Combine the predictions and the original test set
results <- diabetes_test %>% 
  bind_cols(predictions)


results %>% 
  slice(1:5)

## 6. Visualisering av modellresultater

Nå er det på tide å se dette visuelt 📈. Vi skal lage et spredningsdiagram av alle `y`- og `bmi`-verdiene fra testsettet, og deretter bruke prediksjonene til å tegne en linje på det mest passende stedet, mellom modellens datagrupperinger.

R har flere systemer for å lage grafer, men `ggplot2` er en av de mest elegante og allsidige. Dette lar deg komponere grafer ved **å kombinere uavhengige komponenter**.


In [None]:
# Set a theme for the plot
theme_set(theme_light())
# Create a scatter plot
results %>% 
  ggplot(aes(x = bmi)) +
  # Add a scatter plot
  geom_point(aes(y = y), size = 1.6) +
  # Add a line plot
  geom_line(aes(y = .pred), color = "blue", size = 1.5)

✅ Tenk litt over hva som skjer her. En rett linje går gjennom mange små datapunkter, men hva gjør den egentlig? Kan du se hvordan du burde kunne bruke denne linjen til å forutsi hvor et nytt, ukjent datapunkt burde passe i forhold til plottets y-akse? Prøv å sette ord på den praktiske bruken av denne modellen.

Gratulerer, du har laget din første lineære regresjonsmodell, laget en prediksjon med den, og vist den i et plott!



---

**Ansvarsfraskrivelse**:  
Dette dokumentet er oversatt ved hjelp av AI-oversettelsestjenesten [Co-op Translator](https://github.com/Azure/co-op-translator). Selv om vi tilstreber nøyaktighet, vennligst vær oppmerksom på at automatiske oversettelser kan inneholde feil eller unøyaktigheter. Det originale dokumentet på sitt opprinnelige språk bør anses som den autoritative kilden. For kritisk informasjon anbefales profesjonell menneskelig oversettelse. Vi er ikke ansvarlige for eventuelle misforståelser eller feiltolkninger som oppstår ved bruk av denne oversettelsen.
