# Introduktion til R (del 1)

*4. semester sociologi, 2022*

## Hvad er R?

R er et gratis analyseprogram med sit eget kommandosprog.

Programmet egner sig især til kvantiative analyser og visualiseringer af kvantitative data.

R kan arbejde med mange forskellige dataformater. Da programmet er "open source", findes ufattelig mange udvidelser til programmet, der tilføjer funktioner.

## Dagens program

- RStudio miljøet
- At arbejde med R
- Objekter i R 
- Funktioner i R
- Indlæsning af funktioner fra andre pakker
- Introduktion til tabeldata (dataframes)
- Udforskning af tabeldata i R
- Simpel datahåndtering i R: Subsetting, nye variable og rekodning

## Undervisningsformat

I disse introduktioner vil vi variere mellem præsentation, demonstration og øvelser. I opfordres til at skrive med, som vi arbejder med R i lektionerne.

- Hjælp hinanden
- Sig til hvis I sidder fast
- Vi kommer rundt og hjælper undervejs

## RStudio

R i sig selv er meget begrænset. RStudio tilføjer en brugerflade ovenpå R, der gør det rarere at arbejde med. 

Man arbejder typisk i RStudio, når man bruger R.

## At arbejde med R

R har sit eget kodesprog. R fungerer ved at man skriver kommandoer i R sproget, som R derefter "fortolker". 

R (og RStudio) har en meget begrænset brugerflade. Det betyder, at næsten alt vi vil i R (statistik, visualisering osv.), skal ske ved at skrive koder i R sproget.

### R som lommeregner
Hvad menes med at R "fortolker" kode?

"Fortolkning" i R er blot et spørgsmål om R forstår, hvad du forsøger at gøre. Man får R til at gøre ting ved at skrive kommandoer. Hvis R forstår det, gør R den ting. Hvis R ikke forstår det, får man en fejl.

R kan fx forstå matematiske operationer:

In [1]:
7 * 6

In [2]:
912 - 132

R kan dog ikke forstå tilfældige kommandoer:

In [3]:
lav min eksamensopgave

ERROR: Error in parse(text = x, srcfile = src): <text>:1:5: uventet symbol
1: lav min
        ^


## Brug af R scripts

Script filer er tekst filer med kode, som R kan forstå/fortolke.

En script-fil kan forstås som en "analyseopskrift", der indeholder alle kommandoer nødvendige for at foretage en analyse. Det tillader også, at man nemt kan køre kommandoer igen.

Man bør altid skrive de kommandoer, som man bruger, ind i et script. Brug derfor kun konsolvinduet til at finde frem til den rigtige kommando.

- `#` kan bruges til kommentarer (ignoreres når man kører koden)
- `Ctrl` + `Enter` (Windows), `Command` + `Enter` (Mac): Kører aktuel linje eller selektion

***BEMÆRK!*** Der er ingen fortryd-knap i R! Når koden er kørt, er ændringen sket. Den eneste måde at "fortryde" er ved at genskabe det, som man har lavet, ved at køre tidligere kode igen. Netop derfor er scripts vigtige.

## R Sproget: Objekter og funktioner

R fungerer ved at lagre værdier og information i "objekter". Disse objekter kan derefter bruges i forskellige funktioner. Funktioner kan være alt fra at udregne et gennemsnit, lave en figur, gemme et datasæt osv. 

Forsimplet sagt: Et objekt er en eller anden lagret information, mens en funktion er noget, som kan bearbejde eller gøre noget ved informationen i et objekt.

### Objekter

At arbejde med R involverer kontinuerligt at definere objekter. Objekter er blot et navn til at kalde lagret information frem igen.

Objekter kan være mange ting: 
- et ord
- et tal
- en talrække
- et datasæt
- en matematisk formel
- et resultat
- en filsti
- en graf
- og så videre...

Når et objekt er defineret, er det tilgængeligt i det aktuelle arbejdsmiljø (dvs.: tilgængeligt indtil vi starter en ny R session eller fjerner det igen).

Der er ingen grænser for mængden af objekter, som vi kan danne. Dette tillader at vi kan arbejde med meget forskellig information samtidig.

### Definér objekter

Objekter dannes ved brug af `<-` (`Alt` + `-`):

In [4]:
year <- 1964

In [5]:
year

Hvis objektet indeholder et tal, kan R arbejde med det som ethvert andet tal.

In [6]:
year + 10

Bemærk at R behandler store og små bogstaver som forskellige:

In [7]:
Year # Findes ikke

ERROR: Error in eval(expr, envir, enclos): objekt 'Year' blev ikke fundet


Når man bruger `' '` eller`" "` fortæller man R, at inputtet skal behandles som tekst. *Dette gælder også tal!*

In [8]:
name <-  "keenan"

In [9]:
name

In [10]:
year_now  <- '2021'

In [11]:
year_now

Bemærk at tal lagret som tekst også har citationstegn om sig. Tal lagret som tekst kan ikke bruges som tal:

In [12]:
year_now - 5

ERROR: Error in year_now - 5: non-numeric argument to binary operator


Ovenstående fejl sker fordi R adskiller mellem forskellige objekter ved at tildele dem en *class*. Objektets *class* bestemmer kort sagt, hvad der er muligt med objektet.

### Navngivning af objekter
Objekter kan hedde næsten hvad som helst. En god tommelfingerregel er at bruge navne, der indikerer, hvad objektet indeholder.

#### Restriktioner ved navngivning
- De fleste specialtegn kan ikke bruges: `/`, `?`, `*`, `+` (mange af disse betyder noget i R)
- Allerede eksisterende navne i R (overskriver den/det eksisterende funktion/objektet)

#### Tips til navngivning 
- Brug '`_`': `my_object`, `room_number`

Eller:

- Lad hvert ord starte med stort bortset fra det første: `myObject`, `roomNumber`

## Funktioner

Funktioner er kommandoer brugt til at transformere objektet på en måde og give et output.

Det, som man sætter i funktionen, kaldes et "argument" eller "input". Antallet af argumenter varierer mellem funktioner.

Funktioner har alle den samme opbygning: `funktionsnavn(arg1, arg2, arg3)`. (funktionsnavn med argumenterne i parentes adskilt med kommaer).

Nogle argumenter er krævet, mens andre er valgfrie.

### Eksempler på funktioner

Gør tekst til blokbogstaver:

In [13]:
name <- 'kilmister'
toupper(name) 

Erstat bogstaver i tekst:

In [14]:
gsub("e", "a", name)

### Funktioner og output

Bemærk at funktioner *aldrig* ændrer et objekt. Når man bruger en funktion, beder man R om at *se* et output, men ikke om at ændre noget.

Hvis man vil ændre et objekt, skal man derfor lagre outputtet i et objekt (et nyt eller eksisterende).

In [14]:
name # uændret selvom det er brugt i flere funktioner

In [15]:
name <- gsub("e", "a", name) # overskriv objekt med ændringen

In [16]:
name

## ØVELSE 1: OBJEKTER OG FUNKTIONER

1. Dan følgende objekter:

    - `name1`: `"araya"`
    - `name2`: `"townsend"`
    - `year1`: `1961` (uden citationstegn)
    - `year2`: `"1972"` (med citationstegn)

2. Forsøg at udregn alderen for `year1` og `year2` (nuværende år - year-objekt). 

3. Brug funktionen `toupper()` til at ændre `name1` til blokbogstaver.

## ØVELSE 1: DEFINING OBJECTS
*Hvad sker der?*

In [17]:
name1 <- "araya"
name2 <- "townsend"
year1 <- 1961
year2 <- "1972"

In [19]:
age1 <- 2021 - year1 # Virker fint

age1

In [20]:
age2 <- 2021 - year2 # Giver fejl - year2 er tekst

ERROR: Error in 2021 - year2: non-numeric argument to binary operator


In [21]:
name1 <- toupper(name1)

name1

## R Libraries (pakker) 

Fordi R er "open source", bliver der konstant tilføjet nye funktioner til R. Funktioner, som andre har lavet, kan læses ind via "R pakker", som kan gøres til del af ens "R bibliotek".

Alle kommandoer indtil videre har været del af `base` pakken (del af R fra starten). 

Pakker kan installeres enten gennem konsolen eller gennem peg-og-klik.


R adskiller mellem installation og indlæsning. Dette for at undgå konflikter mellem pakker.

Funktioner fra en pakke læses ind i arbejdsmiljøet på følgende måde (pakkenavn *uden* citationstegn!):

`library(packagename)` 

### Installation gennem konsol

Pakker kan installere på følgende måde (pakkenavn *med* citationstegn!): 

`install.packages('packagename')` 

### Installation med peg og klik

Gå i "Packages"-fanen i vinduet med "Files, Plots, Packages, Help, Viewer":

![pckwin](./img/pckwin.png)

Tryk "Install". Skriv navnet på pakkerne i andet felt adskilt med mellemrum og tryk "Install":

![pckinst](./img/pckinst.png)

## Indlæsning af data med `readr` (tidyverse)

`readr` er en pakke til at indlæse forskellige datafiler i R.

R har også basisfunktioner til dette, men `readr` er mere effektiv.

`readr` er del af pakkesamlingen `tidyverse`: https://www.tidyverse.org/

I koden herunder indlæser vi data ind fra en csv-fil og gemmer i objektet `ess18`:

In [1]:
library(readr)

ess18 <- read_csv("https://github.com/RolfLund/4semesterR/raw/master/teaching-materials/r-intro/datasets/ESS2018DK_subset.csv")

"pakke 'readr' blev bygget under R version 4.1.2"
[1mRows: [22m[34m1285[39m [1mColumns: [22m[34m17[39m

[36m--[39m [1mColumn specification[22m [36m------------------------------------------------------------------------------------------------[39m
[1mDelimiter:[22m ","
[31mchr[39m  (7): vote, prtvtddk, health, lvpntyr, tygrtr, gndr, edlvddk
[32mdbl[39m (10): idno, netustm, ppltrst, yrbrn, eduyrs, wkhct, wkhtot, grspnum, frl...


[36mi[39m Use [30m[47m[30m[47m`spec()`[47m[30m[49m[39m to retrieve the full column specification for this data.
[36mi[39m Specify the column types or set [30m[47m[30m[47m`show_col_types = FALSE`[47m[30m[49m[39m to quiet this message.



### Indlæsning med peg og klik

Data kan også indlæses med peg-og-klik under "File"->"Import dataset". Her hjælper RStudio med importen af data:

![impdat](./img/impdat.png)

## Tabeldata i R: Data Frames

`ess18` er nu et objekt, der indeholder et datasæt. Bemærk at måden vi danner objektet ikke er anderledes end andre måder, som vi har dannet objekter: `objectname <- somefunction(something)`.

`ess18` er en "data frame". En "data frame" er måden R lagrer tabeldata (data struktureret i rækker og kolonner).

### Data brugt i undervisningen: European Social Survey 2018

Til R introduktionerne bruger vi et udsnit af European Social Survey fra 2018 (https://www.europeansocialsurvey.org/). Data indeholder kun den danske del af data, nogle udvalgte variable samt nogle få filtreringer.

- Kodebog kan findes her: https://www.europeansocialsurvey.org/docs/round9/survey/ESS9_appendix_a7_e03_1.pdf
- Spørgeskeamet brugt i undersøgelsen kan findes her: https://www.europeansocialsurvey.org/docs/round9/fieldwork/source/ESS9_source_questionnaires.pdf

Datasættet indeholder følgende variable:

|variabel | beskrivelse |
|----|---|
|idno|Respondent's identification number|
|netustm |Internet use, how much time on typical day, in minutes|
|ppltrst|Most people can be trusted or you can't be too careful|
|vote|Voted last national election|
|prtvtddk|Party voted for in last national election, Denmark|
|health|Subjective general health|
|lvpntyr|Year first left parents for living separately for 2 months or more|
|tygrtr|Retire permanently, age too young. SPLIT BALLOT|
|gndr|Gender|
|yrbrn|Year of birth|
|edlvddk|Highest level of education, Denmark|
|eduyrs|Years of full-time education completed|
|wkhct|Total contracted hours per week in main job overtime excluded|
|wkhtot|Total hours normally worked per week in main job overtime included|
|grspnum|What is your usual [weekly/monthly/annual] gross pay|
|frlgrsp|Fair level of [weekly/monthly/annual] gross pay for you|
|inwtm|Interview length in minutes, main questionnaire|


## Udforskning af data frames
For at få et overblik over data, kan man bruge funktionen `head()`:

In [25]:
head(ess18)

idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90.0,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",35,37,37,37000.0,35000.0,61
7251,300.0,5,Yes,Dansk Folkeparti - Danish People's Party,Fair,1993,40,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",13,32,34,22000.0,30000.0,68
7887,360.0,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks",25,39,39,36000.0,42000.0,89
9607,540.0,9,Yes,Alternativet - The Alternative,Good,1982,64,Female,1964,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",13,32,34,32000.0,,50
11688,,5,Yes,Socialdemokratiet - The Social democrats,Very bad,1968,50,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",2,37,37,,,77
12355,120.0,5,Yes,Socialdemokratiet - The Social democrats,Fair,1987,60,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",14,38,37,36000.0,38000.0,48


`head()` viser de første seks rækker af data, og er god til at tjekke, om data ser ud, som det skal.

Vi kan tjekke kolonnenavnene (variabelnavnene) med `colnames`. `dim` returnerer antallet af rækker og kolonner/variable.

In [26]:
colnames(ess18)

In [27]:
dim(ess18)

`summary()` bruges til at se deskriptive mål for variable i data (antal, middelværdi, standardafvigelse, minimum, maksimum, kvartiler).

In [29]:
summary(ess18)

      idno           netustm          ppltrst          vote          
 Min.   :  5816   Min.   :   0.0   Min.   : 0.00   Length:1285       
 1st Qu.: 93707   1st Qu.:  90.0   1st Qu.: 6.00   Class :character  
 Median :112877   Median : 150.0   Median : 7.00   Mode  :character  
 Mean   :110980   Mean   : 227.4   Mean   : 7.08                     
 3rd Qu.:131072   3rd Qu.: 300.0   3rd Qu.: 8.00                     
 Max.   :150446   Max.   :1020.0   Max.   :10.00                     
                  NA's   :151      NA's   :3                         
   prtvtddk            health            lvpntyr             tygrtr         
 Length:1285        Length:1285        Length:1285        Length:1285       
 Class :character   Class :character   Class :character   Class :character  
 Mode  :character   Mode  :character   Mode  :character   Mode  :character  
                                                                            
                                                       

## Data frames og "vectors"

Data frames består af rækker og kolonner. R forventer typisk at rækkerne indeholder "observationer" (fx personer), mens kolonner indeholder variable (information omkring observationerne).

R behandler en enkelt kolonne/variabel som en "vector". En "vector" er en samling af værdier af den samme *class* (fx tal eller tekster).

Man udpeger en enkelt kolonne i en data frame med `$` (en "vector").

In [30]:
head(ess18$yrbrn) # første seks værdier i yrbrn

Hver værdi i en variabel har et indeks, som afspejler rækkenummeret i data.

Man udpeger et specifikt rækkenummer med `[]`:

In [31]:
ess18$yrbrn[10] # Giver 10. værdi (række 10) af yrbrn variabel

In [32]:
ess18$yrbrn[2:10] # Giver række 2 til 10 af yrbrn (begge inkluderet)

R indeholder en række funktioner til at regne specifikke deskriptive mål, fx `min()` (minimum), `max()` (maksimum), `mean()` (middelværdi), `sd()` (standardafvigelse) og `length()` (antal værdier/rækker).

In [34]:
min(ess18$yrbrn) # Mindste værdi
max(ess18$yrbrn) # Største værdi
mean(ess18$yrbrn) # Middelværdi
sd(ess18$yrbrn) # Standardafvigelse
length(ess18$yrbrn) # Antal værdier i variabel (svarer til antal rækker)

Husk at vi med R kan lagre hvad som helst som et objekt. Hvis vi fx løbende får brug for at kalde et mål frem, kan vi lagre det som et objekt for sig:

In [35]:
mean_yrbrn <- mean(ess18$yrbrn)

In [36]:
mean_yrbrn

`unique()` giver de unikke værdier i en variabel:

In [37]:
unique(ess18$health)

## Missing-værdier

Data vil ofte indeholde missing-værdier. Missing-værdier angiver ikke-gyldige værdier; fx et manglende svar, ugyldigt svar, information der ikke kunne skaffes eller lignende.

Missing-værdier bruges til at give en værdi uden at give en værdi (cellerne skal indeholde *noget*). Missing-værdier angives som `NA` i R.

BEMÆRK: Det er ikke givet at missing-værdier er kodet som missing på forhånd i et datasæt. Hvordan missing-værdier kodes varierer mellem programmer. Derfor bruger man ofte specifikke talværdier (fx 777777 eller 888888) til at indikere missing-værdier. Man kan også stå i situationer, hvor visse kategorier er irrelevante for analysen, hvor man så koder disse til missing.

`summary()`-funktionen inkluderer antallet af missing-værdier i variablen:

In [38]:
summary(ess18$inwtm)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  18.00   51.00   59.00   63.32   70.00  613.00       5 

Missing-værdier er hverken høje eller lave i R. Dette betyder at det ikke er muligt at lave beregninger med missing-værdier.

In [39]:
min(ess18$inwtm) # NA is neither high or low - returns NA
max(ess18$inwtm) # NA is neither high or low - returns NA
mean(ess18$inwtm) # NA is neither high or low - returns NA

Ofte er man nødt til at håndtere missing-værdier i sit analysearbejde; enten ved at erstatte dem eller ved at fjerne rækker, som har missing-værdier.

Nogle funktioner har indbyggede argumenter til at håndtere missing-værdier.

## Brug af hjælpe-funktionen

Alle R funktioner og kommandoer er dokumenteret, så du behøver ikke at huske hvordan hver enkelt funktion fungerer.

Alle funktioner har sin egen "hjælpefil". Hjælpefilen beskriver hvordan funktionen bruges, og hvad de forskellige argumenter gør.

Man åbner hjælpefilen for en funktion ved at skrive `?` foran.

### Kan vi fjerne missing i vores beregning?

Ved at kigge på hjælpefilen for `max()`, kan vi finde argumentet `na.rm`. Dette argument bruges til at fjerne missing, når R laver beregningen.

Bemærk at argumentet i hjælpefilen er skrevet `na.rm = FALSE`. Dette angiver standardindstillingen for funktionen. Det vil sige, at hvis ikke man specificerer andet, så er det den måde, som funktionen køres. I dette tilfælde er argumentet som standard sat til `FALSE` (missing-værdier fjernes ikke).

Ved at ændre argumentet, når vi bruger funktionen, fjernes missing-værdierne inden beregning:

In [40]:
max(ess18$inwtm, na.rm = TRUE)

## ØVELSE 2: DESKRIPTIVE MÅL

Brug forskellige funktioner til at udregne følgende:

- Middelværdien (`mean()`) for tid brugt på internettet om dagen (`netustm`)
- Den højeste værdi (`max()`) for tid brugt på internettet om dagen (`netustm`)
- Medianen (`median()`) for brutto månedsløn (`grspnum`)

BEMÆRK! Variablene indeholder muligvis missing-værdier. Tjek hjælpefilerne for at se, hvordan man tager højde for dette.

## ØVELSE 2: DESKRIPTIVE MÅL

In [41]:
mean(ess18$netustm, na.rm = TRUE)
max(ess18$netustm, na.rm = TRUE)
median(ess18$grspnum, na.rm = TRUE)

## Datahåndtering i R

Når man arbejder med data, er man næste altid nødt til at foretage visse ændringer i data, før at de er egnet til analyse. Dette kaldes "datahåndtering".

Datahåndtering inkluderer blandt andet:
- Udvælge specifikke observationer og variable (kaldes også subsetting)
- Danne nye variables
- Rekode værdier

R understøtter datahåndtering med "basis"-kommandoer, men funktionerne tilgængelige gennem tidyverse (https://www.tidyverse.org/) er langt mere intuitive.

### Subset data med `dplyr` 

`dplyr` indeholder blandt andet funktionerne `filter` og `select`, som kan bruges til at subsette data.

`filter()` tager et datasæt og kriterier i form af "logiske udtryk" (mere om dette senere) med brug af variable. Funktionen returnerer de rækker, som opfylder kriterierne.

`select()` tager et datasæt efterfulgt af de variable, som skal bevares. Funktionen returnerer de valgte variable.

BEMÆRK: Basis R har også en `filter()` funktion. Denne funktion overskrives, når man importerer `dplyr`.

### Udvælg rækker med `filter`

`filter` funktionen tager mindst to input: et datasæt (en dataframe) og et kriterie.

In [3]:
library(dplyr)

ess18_male <- filter(ess18, gndr == 'Male') # Subset kun med mænd

head(ess18_male)


Vedhæfter pakke: 'dplyr'


De følgende objekter er maskerede fra 'package:stats':

    filter, lag


De følgende objekter er maskerede fra 'package:base':

    intersect, setdiff, setequal, union




idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",35,37.0,37,37000,35000.0,61
7887,360,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks",25,39.0,39,36000,42000.0,89
12355,120,5,Yes,Socialdemokratiet - The Social democrats,Fair,1987,60,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",14,38.0,37,36000,38000.0,48
16357,488,5,Yes,Dansk Folkeparti - Danish People's Party,Very good,2013,50,Male,1991,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",4,37.0,37,40000,,50
20724,60,5,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Good,1981,Never too young,Male,1958,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",14,37.0,40,28000,34000.0,65
24928,120,8,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Very good,1984,Should never retire permanently,Male,1965,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",19,,80,50000,,77


In [43]:
ess18_edusub <- filter(ess18, eduyrs > 15) # Subset med folk med mere end 15 års uddannelse

head(ess18_edusub)

idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",35,37.0,37,37000.0,35000.0,61
7887,360,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks",25,39.0,39,36000.0,42000.0,89
19970,240,9,Yes,Liberal Alliance - Liberal Alliance,Very good,1984,60,Female,1966,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks",21,36.0,36,85000.0,,42
22248,121,9,Yes,Socialdemokratiet - The Social democrats,Good,1970,Never too young,Female,1950,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",19,37.0,37,,,62
24928,120,8,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Very good,1984,Should never retire permanently,Male,1965,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",19,,80,50000.0,,77
27211,120,7,Yes,Kristendemokraterne - Christian Democrats,Fair,1983,60,Male,1969,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",16,15.0,17,26000.0,,99


{{% notice note %}}
Bemærk! Ved brug af `filter` behøves kun at skrive navnet på variablen (`eduyrs`), og ikke både navn på variabel og datasæt, som man ellers typisk gør for at referere til enkeltkolonner i R (`ess18$eduyrs`). 

Dette behøves ikke, da `filter` antager, at variabelnavnet kommer fra det datasæt, som er angivet. Dette er gennemgående for de fleste `tidyverse` pakker og kommandoer (`filter`, `select`, `mutate` osv.)

{{% /notice %}}

### Logiske udtryk og logiske værdier

I R skrives kriterier som "logiske udtryk". Logiske udtryk er kommandoer, som altid returnere logiske værdier. Disse er altid enten `TRUE` eller `FALSE` (eller `NA`).

En række operationer i R returnerer altid logiske værdier:

- `>`
- `>=`
- `<`
- `<=`
- `==`
- `!=`

In [46]:
42 > 10

In [47]:
10 != 10

`filter()` forventer et logisk udtryk som kriterie, og bevarer så alle de observationer, som opfylder kriteriet.

### Vælg kolonner/variable med `select`

`select` tager mindst to input: et datasæt (en dataframe) og en eller flere variable fra det datasæt, som kan beholdes/gemmes i et nyt datasæt. 

Datasættet er altid første input, hvorefter variable listes i den rækkefølge, som man gerne vil have dem, adskilt med mellemrum.

In [48]:
ess18_male_subset <- select(ess18_male, idno, gndr, yrbrn, edlvddk) # Udvælg specifikke variable

head(ess18_male_subset)

idno,gndr,yrbrn,edlvddk
<dbl>,<chr>,<dbl>,<chr>
5816,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
7887,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks"
12355,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
16357,Male,1991,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
20724,Male,1958,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
24928,Male,1965,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"


`select` kan også bruges til at fravælge bestemte variable ved at sætte et `-` foran variabel-navnet:

In [5]:
ess18_male_subset <- select(ess18_male, -edlvddk) # Alle variable undtagen edlvddk

head(ess18_male_subset)

idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,35,37.0,37,37000,35000.0,61
7887,360,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,25,39.0,39,36000,42000.0,89
12355,120,5,Yes,Socialdemokratiet - The Social democrats,Fair,1987,60,Male,1963,14,38.0,37,36000,38000.0,48
16357,488,5,Yes,Dansk Folkeparti - Danish People's Party,Very good,2013,50,Male,1991,4,37.0,37,40000,,50
20724,60,5,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Good,1981,Never too young,Male,1958,14,37.0,40,28000,34000.0,65
24928,120,8,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Very good,1984,Should never retire permanently,Male,1965,19,,80,50000,,77


`select` indeholder en række funktioner til at vælge variable forskellige kriterier, herunder:
- `starts_with()`: Vælger alle variable, hvis navne starter med tekststrengen angivet i funktionen
- `contains()`: Vælger alle variable, hvis navn indeholder tekststrengen angivet i funktionen.

Se mere her: https://dplyr.tidyverse.org/reference/select.html

## Håndtering af missingværdier

Missingværdier er som bekendt angivet med `NA` i R. 

Som vist ved beregning af deskriptive mål (middelværdi, standardafvigelse osv.), så kan R ikke lave beregninger på missingværdier. Ved nogle beregninger frasorterer R missingværdierne automatisk inden beregning, men andre gange skal man selv specificerer, hvad der skal ske med missingværdierne.

Man har derfor typisk brug for at kunne identificere hvilke værdier i datasættet, der er missing. `NA` er dog en speciel værdi, så den kan ikke bruges i et filter lig andre værdier.

I nedenstående forsøges at udvælge de respondenter fra `ess18_male` subsettet, som *ikke* er missing i `grspnum` (selvangivet månedlig indkomst):

In [8]:
ess18_male_filter <- filter(ess18_male, grspnum != NA)

head(ess18_male_filter)

idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>


Ovenstående returnerer ingen rækker, da man ikke kan arbejde med missingværdier på den måde i R. 

For at identificere missingværdier bruges funktionen `is.na()`. Funktionen spørger "er værdien missing?" og returner `TRUE`/`FALSE` (`TRUE` hvis missing; ellers `FALSE`):

In [11]:
head(is.na(ess18_male$grspnum)) # Er de første seks værdier i grspnum missing?

Funktionen kan bruges til at finde de observationer, som *er* missing, så hvordan vælges de, som *ikke* er missing?

En simpel måde at vælge de observationer, som *ikke* er missing, er ved at "vende" kommandoen om, sådan at der gives `TRUE`, hvis de *ikke* er missing. 

I R kan logiske udtryk vendes om ved at bruge `!` foran udtrykket (ved at "vende om" menes, at `TRUE` bliver til `FALSE`, og `FALSE` bliver til `TRUE`:

In [13]:
!(2 < 4) # 2 er mindre end fire, men giver FALSE, da det vendes om med !

`!` kan også bruges i kombination med `is.na()`:

In [14]:
head(!(is.na(ess18_male$grspnum))) # Er de første seks værdier i grspnum ikke missing?

Med ovenstående kan man udelukkende vælge de respondenter, som ikke er missing:

In [16]:
ess18_male_filter <- filter(ess18_male, !(is.na(grspnum)))

head(ess18_male_filter)

idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",35,37.0,37,37000,35000.0,61
7887,360,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks",25,39.0,39,36000,42000.0,89
12355,120,5,Yes,Socialdemokratiet - The Social democrats,Fair,1987,60,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",14,38.0,37,36000,38000.0,48
16357,488,5,Yes,Dansk Folkeparti - Danish People's Party,Very good,2013,50,Male,1991,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",4,37.0,37,40000,,50
20724,60,5,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Good,1981,Never too young,Male,1958,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-",14,37.0,40,28000,34000.0,65
24928,120,8,Yes,"Venstre, Danmarks Liberale Parti - The Liberal Party",Very good,1984,Should never retire permanently,Male,1965,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,",19,,80,50000,,77


## Kombinér datahåndteringsfunktioner med pipe (%>%)

Det bliver hurtigt omstændeligt at foretage flere datahåndteringsoperationer, hvis man skal specificere navnet på datasættet hver gang. Dette kan forsimples ved brug af "pipe"-operatoren (`%>%`).

"pipe"-operatoren er en del af `tidyverse` og er derfor kompatibel med næsten alle funktioner fra de `tidyverse` pakkerne. 

Et "pipe" fungerer kort sagt ved at tage outputtet på en kodelinje videre til kodelinjen under, og bruge dette output som input i funktionen på den nye linje. Man bruger for det meste "pipe" i forbindelse med datahåndtering, da ideen her er, at outputtet af en kodelinje/kommando er en dataframe, som så kan bruges som input på kodelinjen/kommandoen på næste linje.

Herunder dannes et subet af ESS18, der indeholder alle mænd og variablene `idno`, `gndr`, `yrbrn`, `edlvddk`:

In [5]:
ess18_male_subset <- filter(ess18, gndr == 'Male')
ess18_male_subset <- select(ess18, idno, gndr, yrbrn, edlvddk)

head(ess18_male_subset)

idno,gndr,yrbrn,edlvddk
<dbl>,<chr>,<dbl>,<chr>
5816,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
7251,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
7887,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks"
9607,Female,1964,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
11688,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
12355,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"


Ovenstående kode er omstændelig af flere grunde: For det første skal navnet på det endelige subset `ess18_male_subset` gentages for hver datahåndteringskommando. For det andet skal inputdatasættet (`ess18`) også gentages hver gang.

Med et pipe kan dette undgås:

In [6]:
ess18_male_subset <- ess18 %>% # subset skal tage udgangspunkt i ess18
    filter(gndr == 'Male') %>% # filter for mænd - datainput er output af ovenstående (en kopi af ess18)
    select(idno, gndr, yrbrn, edlvddk) # udvælg variable - datainput er output af ovenstående (ess18 filtreret for mænd)

head(ess18_male_subset)

idno,gndr,yrbrn,edlvddk
<dbl>,<chr>,<dbl>,<chr>
5816,Male,1974,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
7887,Male,1958,"Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks"
12355,Male,1963,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
16357,Male,1991,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"
20724,Male,1958,"Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-"
24928,Male,1965,"Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,"


## ØVELSE 3: SUBSETTING

1. Dan et subset af data, der *kun* indeholder kvinder født efter 1980 og med følgende variable: `idno`, `gndr`, `yrbrn`, `netustm`

2. Brug `head()` til at tjekke om subsettet ser rigtigt ud.

3. Beregn middelværdien for tid brugt på internettet om dagen (`netustm`) for subsettet.

### Ekstra øvelse

1. Dan et subset for mænd født efter 1980
2. Beregn middelværdien for tid brugt på internettet om dagen (`netustm`) for subsettet. Er middelværdien højere eller lavere end det for kvinderne?

## ØVELSE 3: SUBSETTING

In [66]:
ess18_female_subset <- filter(ess18, gndr == 'Female', yrbrn > 1980)
ess18_female_subset <- select(ess18_female_subset, idno, gndr, yrbrn, netustm)


ess18_male_subset <- filter(ess18, gndr == 'Male', yrbrn > 1980)
ess18_male_subset <- select(ess18_male_subset, idno, gndr, yrbrn, netustm)

In [50]:
mean(ess18_female_subset$netustm, na.rm = TRUE)

In [51]:
mean(ess18_male_subset$netustm, na.rm = TRUE) # Bonus

In [52]:
mean(ess18_male_subset$netustm, na.rm = TRUE) > mean(ess18_female_subset$netustm, na.rm = TRUE)

## Rekodning og nye variable

At lave nye variable og (simple) rekodninger er typisk gjort på samme måde. Den eneste forskel er blot, om ændringerne skrives til ny variabel, eller om ændringerne overskriver en eksisterende variabel (rekodning).

I denne sektion ser vi kun på rekodning som "omregninger" af eksisterende variable. For at se rekodning af kategorier, så se under materialet til "Intro til R II".


### Rekodning samt at danne nye variable med `dplyr`

Funktionen `mutate()` i `dplyr` bruges til at rekode samt til at danne nye variable.

Funktionen mindst to input: 
1. Et datasæt, hvor der skal dannes/ændres en variabel
2. Et udtryk for, hvad den ændrede/nye variabel skal indeholde. Dette skrives som `nyvar` = `[variabelindhold]`.

I nedenstående dannes en variabel for interviewtid i timer. Denne dannes ved at tage `inwtm` (interviewtid i minutter) og dividere med 60:

In [53]:
ess18 <- mutate(ess18, inwth = inwtm / 60)

head(ess18$inwth)

Ovenstående danner en ny variabel for interviewtid i timer: `inwth`. 

Det er typisk bedst at danne nye variable, hvis indholdet i variablen er ændret. Hvis man dog blot ville ændre den oprindelige variabel, skulle man blot specificere det oprindelige variabelnavn i stedet for et nyt:

```R
ess18 <- mutate(ess18, inwtm = inwtm / 60) # Overskriver variabel
```

## ØVELSE 4: DAN NYE VARIABLE

1. Dan en aldersvariabel (datasættet er fra 2018)

2. Dan en overtids-variabel, der indeholder forskellen mellem faktiske arbejdstimer om ugen (`wkhtot`) og arbejdstimer ansat til om ugen (`wkhct`).

3. Hvad er den højeste overtidsværdi? (brug enten `summary()` eller `max()`

## ØVELSE 4: DAN NYE VARIABLE

In [54]:
ess18 <- mutate(ess18, age = 2018 - yrbrn,
           overthrs = wkhtot - wkhct)

max(ess18$overthrs, na.rm = TRUE)

## "Classes" i R (ændring af variabeltype)

Som nævnt tidligere, adskiller R mellem objekter via deres "class".

Funktionen `class()` bruges til at tjekke hvilken "class" objektet har:

In [67]:
name = "keenan"
year = 1964

In [68]:
class(name)

In [69]:
class(year)

Enkelte variable(/"vectors") kan *kun* indeholde værdier med samme class. Funktionen `class()` virker derfor også på variable.

Variablen `tygrtr` (i hvilken alder er man for ung til at gå på pension) ligner en variabel, der bør indeholde numeriske værdier (en alder). Ser vi nærmere på variablen, kan vi dog se, at den også indeholder tekst-værdier:

In [58]:
head(ess18$tygrtr)

Undersøger vi variablens "class", kan vi se, at variablen er lagret som tekst (også kaldt "string" i programmeringssprog):

In [59]:
class(ess18$tygrtr)

Dette betyder at vi ikke kan lave beregninger med variablen:

In [62]:
max(ess18$tygrtr, na.rm = TRUE) # Viser højeste værdi alfabetisk

### "Class coercion" - tving en variabel til en anden type

I de fleste tilfælde kan R tvinge værdier fra en type/class til en anden. Ved at gøre dette, bliver inkompatible værdier til missing (`NA`). 

Værdier kan tvinges til tekst værdier med `as.character()`

Værdier kan tvinges til numeriske værdier med `as.numeric()`

Herunder dannes en numerisk version af `tygrtr` (bemærk advarslen):

In [63]:
ess18 <- mutate(ess18, tygrtr_num = as.numeric(tygrtr))

"NAs introduced by coercion"


Nu kan variablen bruges i beregninger:

In [64]:
max(ess18$tygrtr_num, na.rm = TRUE)

## ØVELSE 5: CLASS COERCION

Dan en variabel, der indeholder antal år respondenten boede hjemme, inden de flyttede hjemmefra (`lvpntyr`: first time living separately for 2 months). 

Bemærk at variablen `lvpntyr` muligvis ikke er klar til beregninger med det samme.

Husk at `as.numeric()` tvinger værdier om til tal.

## ØVELSE 5: CLASS COERCION

In [65]:
ess18 <- mutate(ess18, lvpntyr_num = as.numeric(lvpntyr),
                yrhome = lvpntyr_num - yrbrn)

head(ess18)

"NAs introduced by coercion"


idno,netustm,ppltrst,vote,prtvtddk,health,lvpntyr,tygrtr,gndr,yrbrn,⋯,wkhtot,grspnum,frlgrsp,inwtm,inwth,age,overthrs,tygrtr_num,lvpntyr_num,yrhome
<dbl>,<dbl>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
5816,90.0,7,Yes,SF Socialistisk Folkeparti - Socialist People's Party,Good,1994,60,Male,1974,⋯,37,37000.0,35000.0,61,1.0166667,44,0,60,1994,20
7251,300.0,5,Yes,Dansk Folkeparti - Danish People's Party,Fair,1993,40,Female,1975,⋯,34,22000.0,30000.0,68,1.1333333,43,2,40,1993,18
7887,360.0,8,Yes,Socialdemokratiet - The Social democrats,Fair,1983,55,Male,1958,⋯,39,36000.0,42000.0,89,1.4833333,60,0,55,1983,25
9607,540.0,9,Yes,Alternativet - The Alternative,Good,1982,64,Female,1964,⋯,34,32000.0,,50,0.8333333,54,2,64,1982,18
11688,,5,Yes,Socialdemokratiet - The Social democrats,Very bad,1968,50,Female,1952,⋯,37,,,77,1.2833333,66,0,50,1968,16
12355,120.0,5,Yes,Socialdemokratiet - The Social democrats,Fair,1987,60,Male,1963,⋯,37,36000.0,38000.0,48,0.8,55,-1,60,1987,24


## Gem dit arbejde 

Det vigtigste at gemme, er at gemme sit R script.

Brug gem-ikonet til at gemme dit script.

![save](./img/save-script.png)