## Praktiske ting

### Nyttige funksjoner

Nyttige ting for å få hjelp:
```R
search() # liste av packages i namespace
library(help="package") # få dokument med informasjon om package og liste av funksjoner
package:: # + auto_complete, hjelper dersom vi vet omtrent hvilken funksjon men ikke eksakt hva den heter

typeof() # gir litt overordnet objekttype
class() # gir mer spesifikk
str() # gir intern struktur, gjerne bygget opp av enklere ting
```

## Base R

Vil i hovedsak jobbe med databehandling, modellering og visualisering. Trenger ikke så mye programmering siden workflow er begrenset til å laste inn datasett og bruke funksjoner på dette. Kan likevel være greit med noen grunnleggende funksjoner og konsepter. Det er for eksempel et *vektorisert* språk i likhet med matlab... tall er vektor? Har dessuten mye greier med funksjonell programmering.


Poeng at dataframe er built-in.. må tenke på datatyper og litt sånt i lys av dette. Det er litt forvirrende at mye funksjonaliteter er duplisert i tidyverse. Tror jeg holder meg til de.

### Datatyper

1. character
2. numeric (real or decimal)
3. integer
4. logical
5. complex

Litt usikker på hvordan jeg oversetter til python... der har jo alt objekt fra en gitt class. Tror det samme gjelder i R... men tror class er egenskap vi angir for å spesifisere atferd til generiske funksjoner når objektet blir brukt som argument..

Skiller mellom `data` og `value` i RStudio avhengig av om atomær eller datastruktur ...

```R
class(2) # numeric, defaulter ikke til integer. Også noe som heter 'double' som jeg får med typeof..
class(c(2,3)) # numeric, skiller ikke mellom atom og vector..

# få det til integer:
class(2L)
as.integer(2)

a = 1:2 == as.integer(c(1,2)) # TRUE TRUE, parvis evaluering
class(a) # logical
```

### Datastrukturer

1. atomic vector
2. list
3. matrix
4. data frame
5. factors

#### Atomic vector

```R
as.vector(c(1,2)) # vet ikke om forskjell ..
```

#### List

Mapping fra key til value... Poeng at de kan holde data med ulik type, mens vektor konverterer slik at alt er homogent. 

Kan også inneholde andre lister, så ganske fleksibel datastruktur.

```R
my_list <- list(1,2) # Initialiserer names (vector(?) med samme lengde), defaulter til numerisk

# Spesifisere eksplisitt index.. kan tenke på som keys i dict. Tror
my_named_list <- list("a"=1, "b"=2)
names(my_list) <- c('a', 'b') # kan eventuelt endre egenskapen ex-post ...

my_list$a # få ut data som korresponderer med navn
my_list['a'] # tror vi kan bruke klammeparentes ..
my_list[['a']] # eller trenger vi dobbel ??
my_list[1] # tror også vi kan indekse på posisjon ...
```

### Nyttige funksjoner

```R
c(arg1, arg2,..) # concat argumenter, homogen datatype så konverterer
seq(1,2,.5) # start, end, step. Inkluderer slutt. Kan eventuelt bruke start:slutt for integer sequence
sort(x, decreasing=F)
```

### Programmering

#### Control flow

Bruker {} til å indikere body. Whitespace/identasjon er vilkårlig

```R
if (condition){
    do_smth
} else {
    do_smth_else
}
```

#### Løkker

```R
for (val in sequence){
    statement
}

while (condition){
    statement
}
```

#### Funksjoner

Tror ikke like mye fleksibilitet i hvordan jeg spesifisere argumenter som i python. Det er noe med `...` som går igjen i docstrings. 

```R
my_func <- function(arg1, arg2){
    do_something
    return(value)
}
```

Synes generelt det er litt slitsomt å lese docstrings i R. Og vet ikke hvordan jeg skriver de. Hadde vært greit å få mer orden på dette.

### Objektorientert

Objekter i R har datatype. I stedet for egendefinerte metoder, så er det en del generiske funksjoner som har ulike implementasjoner avhengig av datatypen til argumentet
```R
str() # for struktur
summary() #for sammendrag
names() # gir navn på element. Tror objekt ofte er named list, som er litt analog til dict og ganske fleksibel

# har funksjoner som er definert på objekter som blir returnert av modelleringsfunksjoner ..
plot() 
coef()
predict()
fitted() 
```

## Tidyverse

Et eller annet med tidy (lazy?) evaluation. Kan bruke navn fra dataframe uten å bruke strings (så lenge de ikke har whitespace). Har hjelpefunksjoner
```R
aes()
vars()
```
som jeg ikke skjønner

bruker tibbles som er videreutvikling av native dataframe

### dplyr

#### Pipes

Pipes gjør det enkelt å skrive/lese en sekvens av funksjoner, der output av éne blir input i neste. Kan leses sekvensielt fra venstre til høyre
```R
g(f(x)) == f(x) %>% g() # tolker at første argument er f(x) som er dataframe
```
Kan vi bruke funksjoner som ikke har dataframe som første input når vi piper? Ja, bare si data=.



#### De fem verbene

Har en gramatikk som er inspirert av SQL og utnytter at de langt fleste operasjoner vi ønsker å utføre på datasett kan blir gjort med fem verb i kombinasjon med aggregering (group by)
```R
mutate() # legge til ny kolonne som funksjon av eksisterende ..
select() # velge ut fra navn
filter() # velge rader ut fra kriterie
summarise() # aggregeringfunksjon
arrange() # endre rekkefølge på rader
```

##### Mutate

Kan bruke mutate_at/mutate_if hvis jeg har lyst til å gjøre samme sjiten på mange kolonner. Bruker vars() som funksjon til å velge kolonner. Merk at jeg kan sette - foran for å droppe de nevnte kolonnene fra det jeg vil selektere. Dertetter er det bare å spesifisere hvilken funksjon som skal påføres mine utvalgte kolonner

```R
mutate
mutate_at # ..
mutate_if # ..
```

```R
df <- mutate_at(df, vars(-aar, -alder, -postint2, -preint, -km), as.factor) #
 
mutate(ifelse(condition(x), y, z)) # kan f.eks. bruke til å konvertere til boolean
```

##### Select

```R
select
select_at # ..
```

```R
- rename(newname=oldname)
- select(a:b) # alle kolonner mellom a og b, der a og b kan være tall eller kolonnenavn
- select(-c(col1, col2)) # hvis vi vil droppe noen kolonner
```

##### Filter

##### Arrange

##### Summarise

#### Group_by

Vil dele opp data i flere mindre dataframes ut i fra verdi på én eller flere kolonner. Etterpå kunne jeg sett på hele fordelingen til variabler innad i hver dataframe, som da vil være betingede fordelinger. I praksis så vil vi oppsummere fordelingen med noen sammendragsmål og presentere disse. Denne workflowen kalles gjerne split-apply-combine og gjøres operativt med group_by() og summarise()

```R
df %>% 
  groupby(col) %>%  
  summarise(col1 = func1(col),
            col2 = func2(col))
```

#### Joins

### tidyr

Vil ha data i tidy format før jeg gjøre analyse med dplyr. Vil at hver rekke skal inneholde én observasjon og at kolonne er dimensjon og innhold er verdi..

expand(df,col1,col2) returnerer en tibble med alle kombinasjoner av verdier fra de to kolonnene. For hver verdi av col1 får jeg full range av verdier fra col2 selv om ikke alle kombinasjonene eksisterer i datasettet. Litt usikker på om det finnes analog i python.. tror jeg ville bruke combinations() til å konstruere

#### nest

nesting lager liste av dataframes... merk at group_by lager dataframer som består av alle observasjonene med unike verdier langs en kolonne. dette skjer under the hood. nesting gir oss tilgang til disse dataframene..Eksempel:
```R
group_by(continent) %>%
  nest()
```

#### pivot

```R
pivot_longer(data,
             cols,
             names_to
            )
```

### broom

Bruker broom til å få tidy output fra lm og andre modeller slik at jeg kan bruke det videre (bruke i ggplot mm). Har tre generiske funksjoner
1. tidy
2. augment
3. glance

## Økonometri

workhorse er lm og glm fra base..

Når jeg utvider til funksjon E[y|x] != h(x)'b så kan jeg ikke lenger fitte med ols. Bruker i praksis mle. Finnes stor mengde av modeller som kan beskrives som E[y|x] = h(x'b) der feilledd er medlem av eksponentialfamilien. Disse har litt felles egenskaper.. eller kan ihvertfall beskrives innenfor samme rammeverk. Link-funksjonen er invers av h. Det sikrer at E[y|x] har verdier som er meningsfulle for gitte modell (eks. i (0,1)  eller >0).

Utforming: bruker glm() med ekstra argument for family
```R
glm(formula, data, family=binomial(link="probit"))
glm(formula, data, family=binomial(link="logit"))
glm(formula, data, family=poisson(link="log))
```

### Stargazer

Lager tabell med summary statistics fra dataframe eller output fra reg modeller.
```R
stargazer(df, type=c("html","text", "latex"), out=) # tabell fra data
stargazer(reg1,reg2,...) # tabell fra output av regresjonsmodeller
```
spesifiserer fil den skriver ut til, kan deretter få det inn i mitt latex script på en eller annen måte. Tror det går ann å inkludere i markdown workflow; lage alt inne i r, men dette må jeg se på annen gang.. tror jeg. integrere inn i knitr workflow...

Det er også poeng å bare bruke "text" for å se kosn tabellen ser ut inne i r. Det er masse options slik at jeg kan påvirke output. Alternativ er å spikke på det inne i latex.

```R
rob_se <- list(sqrt(diag(vcovHC(mod1, type = "HC1"))),
               sqrt(diag(vcovHC(mod2, type = "HC1"))),
               sqrt(diag(vcovHC(mod3, type = "HC1"))))

# alternativ
hc1 <- function(mod) vcovHC(mod,type="HC1") 
rob_se <- list(sqrt(diag(hc1(mod1))),
               sqrt(diag(hc1(mod2))),
               sqrt(diag(hc1(mod3))))

stargazer(mod1,mod2,mod3, se = rob_se, 
          omit.stat = c('f','rsq','ser'),
          covariate.labels =  c('lab1','lab2',...),
          intercept.bottom=FALSE)
```

### lmtest

Tror ikke jeg kan få robuste standardfeil inn i modell-objektet mitt som kommer fra lm, men kan jeg ta modellobjektet som argument i nye funksjoner fra f.eks. lmtest og kalkuere ny covariansmatrise fra vcovHC i sandwich. Kan dermed bruke dette til å gjøre ymse statistiske tester o lign og bare drite i det opprinnelgie modell-objektet.

eks: coeftest(mod,vcov = vcovHC(mod, type="HC1"))

- coefci()
- coeftest()
- bptest(), breuch pagan bruker r2 av reg av kvadrert residual på covariates. Hvis det er slik at covariates forklarer størrelse på forventet avvik (varians..) så må det være hetero.
- dwtest(), durbin watson for autokorrelasjon. Tror den bruker info fra reg av residual på lagged residual.


### sandwich

### AER (IV)

bruker ivreg() fra AER
```R
ivreg(y ~ x | z, data=data)
```
der eksogene blir med i z (instrument for seg selv). Må huske å spesifisere data=.. eksplisitt (som ikke er nødvendig i lm)

Kan få diagnostics med summary(ivreg_mod, diagnostics=T)
1) F test på weak instrument
2) Wu-Hausman som tester om OLS er consistent (gitt at vi antar at iv'en vår er konsistent)
3) Sargan's J test om minst én av restriksjonene ikke stemmer, gitt at k-1 restriksjon gir oss konsistent.


### plm (Panel)

Fordelen med å observere samme enheter over tid ... eller ulike enheter innad i kategori ... 

plm er vår pakke for lineære modeller for panel data. Bruker lm() men gjør transformeringer av data under the hood så jeg slipper å gjøre det eksplisitt. tilsvarer xtset i stata.
```R
plm(formula, data, index=(id, tid), 
    model="within", # within (fe), between, pooling, fd (first difference), random
    effect="twoway" # time, twoways .. 
   )
```

Den har masse default options så det kjører uansett, men tror det er greit å være litt eksplisitt så det blir riktig. Merk at twoway = entity + time fixed effects.

Merker at:
- hver index verdi må være unik for at plm skal kjøre.
- Kan ikke kjøre på group_by. Må ta ungroup() først

Kan konvertere til pdata.frame med explisitt index, vet ikke helt om dette er noe jeg vil bruke

pdata.frame(df, index="group")
- lage tidsvariabel automatisk
- gitt at balansert med stacked tidsserier er det tilstrekkelig å spesifisere antallet obs; kan lage selv om jeg ikke har id til hver gruppe.


### Tidsserie

- Kan være aktuelt å dekomponere trend og støy i en tidsserie.
- har en egen datatype for timeseries :o
- Noen funksjoner krever at tidsserie er univariat. Da må jeg kjøre råtall inn i ts() i stedet for å feede kolonne fra df. 

Kan bruke tidsserie til å forutse verdi av en variabel i fremtiden. Til nå har jeg brukt x_t til å predikere y_t, men hjelper meg ikke så mye til å predikere y_(t+T). Måtte i så fall predikere x'ene først og da er jeg like langt.

Andre ting jeg vil gjøre med mine tidsserier er

1. filtrering; oppdatere min prediksjon om fremtid gitt ny info.
2. Dekomponere trend (langsiktig/sekular, seasonal og residual).

Det kan la meg få ut signal fra støy... tror jeg kan modellere støy som stasjonnær, så må få ut mønster først (ting som avhengig av t..). Har litt ulike måter å modellere avhengighet mellom observasjon over tid

1. AR(1), y_t=p*y_(t-1)+e_t, støy forplanter seg over lang tid
2. MA(1), y_t=u+e_t+e_(t-1), støy påvirker bare k nestene periode
3. ARMA, blanding av AR og MA.

##### Autokorrelasjon

Korrelasjon av feilledd over tid. Hvis realisert verdi er mindre enn fitted verdi i t, så er det sannsynlig at feil er negativ neste t også... kanskje fordi bidrag fra relevant utelatt variabel er persistent?

Moving average MA():

Autoregressiv AR():
y = x'b+e, e=p*e-1+v

Kan estimere p ved å kjøre reg på e=p*e-1+v
Kan utlede form på covariansmatrise til feil.. ikke lenger o2I som i GM. Kan i prinsippet bruke dette til å finne mer effektiv estimator, men tror OLS er konsistent uansett... litt parallel med hetero her.

Autokorrelasjon er ofte tegn på feilspesifikasjon (utelatt variabel). Det kan for eksempel være at lagged variabel fra en covariate gir info.. eksmepl: salg av iskrem forrige dag reduserer salg neste dag, alt annet likt. 


## Annet

Mange objekter (fittede modeller fra lm og sånn) er i praktisk named lists med output. Har tekstrepresentasjon når jeg refererer til objektet. Kan få andre representasjoner med generiske funksjoner (str/summary/..)Kan få ut de ulike størrelsene/egenskapene ved å `obj$navn`. Problem at output ofte er ganske stygt og upraktisk å jobbe med. Bruker broom til å få det i tibble.