# R introduksjonskurs - dag 2
## DEL 1
Første leser vi in datasett som vi brukte i dag en og lagre det som en vanlig R dataframe. 


### Lage nye variabler
Her bruker vi tilleggspakke tidyverse for å lage nye variabler. Først må vi kalle inn tidyverse pakken. Here kommer det mange varsling siden flere funksjoner har samme navn som de på SparkR pakke. 

In [None]:
library(tidyverse)

Vi lager nye variabler ved bruk av `mutate()` funksjonen. 

In [None]:
df %>% 
    mutate(log_salary = log(salary))

Dataset blir kun lagret i minne om det allokeres

In [None]:
glimpse(df)

In [None]:
df <- df %>%
        mutate(log_salary = log(salary))
glimpse(df)

Vi kan også lagre en variable med en ifelse setning

In [None]:
df <- df %>%
  mutate(salary_kat = ifelse(salary > 25000, "high", "low"))
df

Vi kan bruke `lubridate` for å ta ut år fra en dato.

In [None]:
library(lubridate)
df <- df %>%
    mutate(aar = year(startdate))
df

Vi kan bruke `as.character()` eller `as.numeric` for å endre variabeltype

In [None]:
df <- df %>%
    mutate(aar = as.character(aar))
df

## Velge noen rad
For å velge noen rad bruker vi `filter()` funksjonen. Innenfor parentes skriver vi en logisk setning. Flere setninger kan kombinere med komma.

In [None]:
df %>%
  filter(employee == "John Doe")

Vi kan filtrere data etter en dato interval ved å setteopp et interval første og bruker `%within%`.

In [None]:
int <- interval(ymd("2008-01-01"), ymd("2020-01-01"))
df %>%
 filter(startdate %within% int)

## Velge noen variabler
For å kun ser på noen variabler bruker vi `select()` funksjonen

In [None]:
df %>%
    select(employee, aar)

Flere funksjoner kan kombineres ved pipelines (`%>%`).

In [None]:
df %>%
    filter(employee == "John Doe") %>%
    select(employee, salary, aar)

## Oppsummering/aggregering
Vi bruker `summarise()` funksjonen til å aggregere tall og lage statistikk

In [None]:
df %>%
    summarise(average_salary = mean(salary))

Det er mulig å kombinere `summarise` med andre funksjoner også.

In [None]:
df %>%
    filter(salary_kat == "low") %>%
    summarise(average_salary_low = mean(salary),
             antall = n())

## Gruppering
Ofte ønsker vi oppsummering innenfor grupper. Dette kan vi gjøre med `group_by()`


In [None]:
df %>%
    group_by(salary_kat) %>%
    summarise(average_salary = mean(salary),
             antall = n())

## Rename variable

In [None]:
df %>%
    rename(dato = aar)

## DEL 2
## Kobling av datasett

In [None]:
kommunedata <- spark.read.path("/felles/veiledning/r/eksempler/kommunedata")
kommunedata <- as.data.frame(kommunedata)
head(kommunedata)

Neste lese jeg inn tryd dataset og lage det til et data frame.


In [None]:
trygd <- spark.read.path("/felles/veiledning/r/eksempler/trygd")
trygd <- as.data.frame(trygd)
head(trygd)

Noen navn er forsekjllige i de to datsaettene. Dette kan føre til problemer med kobling. For å løse dette kan vi endre navn på de før kobling. Noen varaibler er også forsekjlige formatter. vi kan endre format ved `as.numeric()` funksjonen.

In [None]:
trygd <- trygd %>%
    rename(region = Region,
         kjonn = Kjonn,
         tid = Tid)

kommunedata <- kommunedata %>%
    mutate(tid = as.character(tid),
          kjonn = as.character(kjonn))

Og så koble vi datasettene sammen med en `left_join()`.

In [None]:
kommunedata <- left_join(kommunedata, trygd, by = c("region", "tid", "kjonn")) 
head(kommunedata)

## Søylediagram

In [None]:
kommunedata %>% ggplot(aes(kjonn)) + 
  geom_bar()

Her trenger vi å spesifisere `stat="identify"` så at det brukes verdiene istedenfor å telle

In [None]:
kommunedata %>%
  ggplot(aes(x = kjonn, y = UforetygdPers)) +
  geom_bar(stat = "identity")

Vi kan endre format på akser ved `scale_y_continuous()`

In [None]:
kommunedata %>%
  ggplot(aes(x = kjonn, y = UforetygdPers)) +
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = scales::comma)

Også viser forskjellige år med forskjellige farge ved bruk av `fill=` i `aes()`.

In [None]:
kommunedata %>%
  ggplot(aes(x = kjonn, y = UforetygdPers, fill = tid)) +
  geom_bar(stat = "identity") +
  scale_y_continuous(labels = scales::comma) 

For å viser dem ved siden av hverandre bruker vi `position = "dodge"`.

In [None]:
kommunedata %>%
  filter(region == "0402") %>% 
  ggplot(aes(x = kjonn, y = UforetygdPers, fill = tid)) +
  geom_bar(stat = "identity", position = "dodge") + 
  scale_y_continuous(labels = scales::comma) 

## Punktdiagram
For å lage en punkdiagram bruker vi `geom_point()`

In [None]:
kommunedata %>%
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point() + 
  scale_y_continuous(labels = scales::comma) +
  scale_x_continuous(labels = scales::comma) 

Filter for kun kommune-nivå data

In [None]:
kommunedata %>%
  filter(nchar(region) == 4) %>%
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point()

Legg til regresjonslinje med geom_smooth

In [None]:
kommunedata %>%
  filter(nchar(region) == 4) %>%
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point() + 
  scale_y_continuous(labels = scales::comma) +
  scale_x_continuous(labels = scales::comma) +
  geom_smooth(method = "lm")

Farge etter kjønn

In [None]:
kommunedata %>%
  filter(nchar(region) == 4) %>% 
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point(aes(color = kjonn))

Gir akser et nytt navn

In [None]:
kommunedata %>%
  filter(nchar(region) == 4) %>% 
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point(aes(color = kjonn)) +
  ylab("Brutto inntekt") +
  xlab("Antall personer")

## Lagre figur
For å lagre figurer som seperat fil spesifiserer vi filtype og navn første, deretter figuren lages og slå vi av dev (device) for å stoppe lagring. 

In [None]:
png(file = "folkemengde_inntekt.png")

kommunedata %>%
  filter(nchar(region) == 4) %>% 
  ggplot(aes(x = folkemengde, y = bruttoinnt)) + 
  geom_point(aes(color = kjonn)) +
  scale_y_continuous(labels = scales::comma) +
  scale_x_continuous(labels = scales::comma)

dev.off()