# KostraRegnskap og regionsaggregering

## Leser inn nødvendige pakker
- Vi trenger følgende pakker i dette arket:
    - Kostra
    - arrow (for å lese inn parquet filer)
    - Tidyverse (brukes strengt tatt ikke, men fin å ha med om man vil gjøre noe annet med datane)

In [None]:
library(Kostra)
library("arrow")
library(tidyverse)

In [None]:
aar <- readline(prompt="Angi årgang:")

## Leser inn nødvendige filer
- **Vi trenger følgende filer for å kjøre KostraRegnskap**
    - Kasseregnskapet 
        - *Gjør om filen til dataframe* 
        - *Fjerner ekstra kolonne som kommer med i regnskapsfilen. Dette bør ikke komme med. Må finne ut hvorfor å lese inn filen uten denne.*
        - *Endrer kontoklasse fra tall til bokstaver*
        - *Skriver ut de første linjene for å konstrollere at filen blir korrekt. Filen skal inneholde kolonner: periode, region, kontoklasse, art, belop, regnskapsomfang.*

In [None]:
regnskap <- read_parquet(paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/',aar,'/kostra0a_0c_basis_',aar,'.parquet', sep = ""))
regnskap <- as.data.frame(regnskap)
regnskap <- select(regnskap, -last_col())
regnskap$kontoklasse <- CharacterReCode(NaToZero(regnskap$kontoklasse), c("0", "1"), c("I", "D"))
head(regnskap,2)

- Særbedriftsregnskapet
    - *Gjør om filen til dataframe* 
    - *Endrer kontoklasse fra tall til bokstaver*

In [None]:
saerbedrift <- read_parquet(paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/',aar,'/kostra0i_0k_fordelt_',aar,'.parquet', sep = ""))
saerbedrift <- as.data.frame(saerbedrift)
saerbedrift$kontoklasse <- CharacterReCode(NaToZero(saerbedrift$kontoklasse), c("3", "4", "0"), c("D", "I", "I"))

- Artshierarki
    - *Gjør om filen til dataframe* 

In [None]:
artshierarki <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/artshierarki_',aar,'.parquet', sep = ""))
artshierarki <- as.data.frame(artshierarki)

- Funksjonshierarki
    - *Gjør om filen til dataframe* 

In [None]:
funksjonshierarki <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/funksjonshierarki_',aar,'.parquet', sep = ""))
funksjonshierarki <- as.data.frame(funksjonshierarki)

- Formler
    - *Gjør om filen til dataframe* 

In [None]:
formler <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/formler_',aar,'.parquet', sep = ""))
formler <- as.data.frame(formler)

- Stjernetabell
    - *Gjør om filen til dataframe* 
    - *Endrer manglende verdier fra NA til blank*

In [None]:
stjerne <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/stjernetabell_',aar,'.parquet', sep = ""))
stjerne <- as.data.frame(stjerne)
stjerne[is.na(stjerne)] <- ""

- Nettingshierarki kasse
    - *Gjør om filen til dataframe* 

In [None]:
nettinger_kasse <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/nettinger_kasse_',aar,'.parquet', sep = ""))
nettinger_kasse <- as.data.frame(nettinger_kasse)

- Nettingshierarki særbedrift
    - *Gjør om filen til dataframe* 

In [None]:
nettinger_saer <- read_parquet(paste('../../../Testdata/arbeidsdata/KostraRegnskap/nettinger_saer_',aar,'.parquet', sep = ""))
nettinger_saer <- as.data.frame(nettinger_saer)

- **Vi trenger følgende filer for å kjøre aggregering**
    - Regionshierarki

In [None]:
regionshierarki <- read_parquet(paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/',aar,'/regionshierarki.parquet', sep = ""))
regionshierarki <- as.data.frame(regionshierarki)

- **Trenger følgende for å fjerne estimerte kommuner**
    - Kommuner som mangler for 0A og 0C

In [None]:
manglende <-  read_parquet(paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/',aar,'/kostra0a_0c_manglende_',aar,'.parquet', sep = ""))
manglende <- as.data.frame(manglende)

In [None]:
#head(nettinger_kasse,5)
#head(nettinger_saer,5)
#head(regnskap,5)
#head(saerbedrift,5)
#head(artshierarki,5)
#head(funksjonshierarki,5)
#head(formler,5)
#head(stjerne,5)
#head(regionshierarki,5)

### Info om KostraRegnskaps-funksjonen

In [None]:
#?KostraRegnskap

## Kostra regnskapsfunksjonen
- Kjører funksjonen KostraRegnskap fra Kostra biblioteket. Dette er den samme funksjonen som er lagt inn i Kompis.
- Funksjonen må skrives med inputdata i følgende rekkefølge: 
    1. Kasseregnskapet
    2. Funksjonshierarki
    3. Artshierarki
    4. Særbedriftsregnskapet
    5. Nettingshierarki særbedrifter
    6. Nettingshierarki kasse
    7. Stjernetabell
    8. Formler

In [None]:
resultat <- KostraRegnskap(regnskap, funksjonshierarki, artshierarki, saerbedrift, nettinger_saer, nettinger_kasse, stjerne, formler)

**Filter**  
Legger på et filter for å kunne kontrollere output.  
Kontrollerer output ved å sammenligne med verdiene i Kompis.

In [None]:
#filter(resultat, region == "0301", art == "AGD23", funksjon == "FG2", kontoklasse == 'D')

## Aggregerer regnskapet

- Ordner regionshierarkiet
    - Hierarkiet lages i "API'er"
- Det kommer med en ekstra kolonne når tabellen lastes inn her. Det bør fikses. Fjerner siste kolonne foreløpig.
- Skriver ut de to første radene for å kontrollere hierarkiet. Det skal inneholde følgende kolonner:
    - from
    - periode
    - to
    - sign

In [None]:
regionshierarki <- select(regionshierarki, -last_col())
head(regionshierarki,2)

- Kjører funksjon HierarchyCompute fra kostra biblioteket. 
- Funksjonen aggregerer regnskapet til følgende (så sant regionsfierarkiet er korrekt):
    - EAK (Landet - kommuner)
    - EAKUO (Landet uten Oslo - kommuner)
    - EKAXX (Fylker)
    - EKG (kostragrupper)
    - EAFK (Landet - fylkeskommuner)
    - EAFKUO (Landet uten Oslo - fylkeskommuner)
    - EAFKXX (Landsdeler)
    - EAB (Bydeler)  
<br>
<br>
- Vi lager kun aggregerte størrelser på konserntall. Filtrerer derfor bort kasse før aggregeringen. 

In [None]:
konsern <- filter(resultat, regnskapsomfang == "A")

In [None]:
# Kjører aggregering
bev_konsern <- HierarchyCompute(data=konsern, valueVar = "belop", 
                      hierarchies=list(region = regionshierarki, regnskapsomfang = "rowFactor", kontoklasse = "rowFactor",  art = "rowFactor", funksjon = "rowFactor"), 
                      hierarchyVarNames = c(mapsFrom = "from", mapsTo = "to", sign = "sign"), 
                      colVar = "region", rowSelect = unique(konsern[, c("regnskapsomfang", "kontoklasse", "art", "funksjon")]),
                      inputInOutput = TRUE)

## Fjerner estimerte kommuner
- Før filen kan lagres til mappe må estimerte kommuner fjernes. Vi publiserer ikke tall for estimerte kommuner.

In [None]:
bev_konsern <- bev_konsern[!bev_konsern$region %in% manglende$region,]

In [None]:
#filter(bev, region == "5439", art == "AGD23", funksjon == "FG2", kontoklasse == 'D')

- Filterer ut en fil for kassetegnskapet og fjerner estimerte kommuner

In [None]:
bev_kasse <- filter(resultat, regnskapsomfang == "B")

In [None]:
bev_kasse <- bev_kasse[!bev_kasse$region %in% manglende$region,]

# Ferdige filer
- Skriver det ferdig aggregerte konsernregnskapet til mappe

In [None]:
lagring_konsern <- paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/',aar,'/bev_konsern.parquet', sep = "")

In [None]:
write_parquet(bev_konsern, lagring_konsern)

- Filtrerer ut kasse-tallene fra resultatet av KostraRegnskaps-funksjonen 
- Skriver kasseregnskapet til mappe

In [None]:
lagring_kasse <- paste('/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/',aar,'/bev_kasse.parquet', sep = "")

In [None]:
write_parquet(bev_kasse, lagring_kasse)