# KOSTRA skjema A og C
- Hente fra Dynarev
- I Kompis slås A og C sammen etter operasjonene er gjort på hver av datasettene. Kan det gjøres før?
- Må legge til bydeler på Oslo før de slås sammen. I kompis gjøres dette ved: identifier fylkesregion := if BYDEL <> "00" then t1.REGION || t1.BYDEL else t1.REGION,
- Oslo: kopiere alle rader med region 0301 til 0300. 
- Kan jeg kontrollere at kun gyldige arter og funksjoner er inkludert på en annen måte enn filtrering? Kanskje en merge? 

## Henter nødvendige pakker
**For løpet Kostra0A_0C trengs følgende pakker:**  
   - Pandas
   - Numpy
   - Selvlagde funksjoner lagret i fil funksjoner.py

In [None]:
import pandas as pd
import numpy as np
exec(open('../../funksjoner.py').read())

## Henter nødvendige datafiler
**For løpet Kostra0A_0C trengs følgende datafiler:**
- Import fra Driller
    - Skjema KOSTRA0A
    - Skjema KOSTRA0C
- Lister fra KLASS
    - Kodeliste for Kostra regnskapsarter
    - Kodeliste for Kostra regnskapsfunksjoner
    - Kommunelisten for gjeldene årgang
    - Fylkeskommunelisten for gjeldene årgang

In [None]:
kostra0a = pd.read_parquet("../../../../Testdata/arbeidsdata/import_driller/kostra0a.parquet")
kostra0c = pd.read_parquet("../../../../Testdata/arbeidsdata/import_driller/kostra0c.parquet")
art = pd.read_parquet("../../../../Testdata/arbeidsdata/klass/art.parquet")
funksjon = pd.read_parquet("../../../../Testdata/arbeidsdata/klass/funksjon.parquet")
kommuner = pd.read_parquet("../../../../Testdata/arbeidsdata/klass/kommuner.parquet")
fykomm = pd.read_parquet("../../../../Testdata/arbeidsdata/klass/fykomm.parquet")

## Bearbeider regnskapsfilene

### Slår sammen Kostra0A og Kostra0C

In [None]:
#Setter sammen skjema a og c
a_c = pd.concat([kostra0a, kostra0c])

In [None]:
kostra0a

### Ordner data
- Definerer rett datatype
- Endrer kolonnenavn
    - Fra store til små bokstaver
    - Endrer navn
- Fjerner manglende observasjoner
    - Har ikke sjekket om denne funksjonen faktisk fungerer da datasettet mitt ikke har noen manglende observasjonen. Jeg fjerne na. Men det kan jo være manglende registreres som NaN? Dette må kontrolleres!

In [None]:
a_c = a_c.astype({'ART_SEKTOR':str,'FUNKSJON_KAPITTEL':str,'KONTOKLASSE':str,'PERIODE':str,'REGION':str, 'BYDEL':str})

In [None]:
#Endrer headingen fra store til små bokstaver
a_c.columns = [x.lower() for x in a_c.columns]

In [None]:
#Gir nytt navn til et par kolonner. Denne gir feilmelding, men funker. Bør fikses så feilmelding ikke kommer. 
a_c.rename(columns={'funksjon_kapittel':'funksjon','art_sektor':'art'}, inplace = True)

In [None]:
#Filtrerer bort alle rader med manglede verdier. Fungerer det? Må testes på et annet datasett som faktisk har manglende verdier... 
a_c.dropna()

In [None]:
#Legger på ledende nuller. Forhåpentligvis slipper vi dette når data kan hentes direkte fra ISEE
#a_c['art']=a_c['art'].apply(lambda x: '{0:0>3}'.format(x))
#a_c['region']=a_c['region'].apply(lambda x: '{0:0>4}'.format(x))
#a_c['bydel']=a_c['bydel'].apply(lambda x: '{0:0>2}'.format(x))


### Snur fortegn for inntektsarter
- Endrer alle verdier som har art høyere eller lik 600 til negative tall
- Koden under snur fortegn på alle verdier hvor art starter på siffer 6 eller mer. 

In [None]:
a_c['belop']=np.where((a_c.art > '600'), a_c.belop*-1, a_c.belop)

## Lager bydelsregioner
- Slår sammen regions- og bydelsnummer til samme kolonne

In [None]:
#Henter ut alle Oslo tall som har bydel. Slår sammen region og bydelkode.
bydeler = a_c[(a_c['region'] == '0301') & (a_c['bydel'] != '00')].copy()
bydeler.dtypes
bydeler["region"] = bydeler["region"] + bydeler["bydel"]

In [None]:
#Fjerner bydelene fra originalfilen, slår sammen den nye bydelsfilen og arbdeisfilen. Fjerner kolonnen for bydeler. 
ac_uten_bydel = a_c[(a_c['bydel'] == '00')].copy()
bydeler_ac = pd.concat([ac_uten_bydel, bydeler]).drop(columns=['bydel'])

## Lager Oslo Fylkeskommune
- Tallene fra Oslo skal være med både for kommune og fylkeskommune. Vi må derfor kopiere alle Oslo tall og endre region på de kopierte radene fra 0301 til 0300. 

In [None]:
#Henter ut Oslo og endrer regionskode til 0300. Legger Oslo fylkeskommune på arbeidsfilen. 
oslo=bydeler_ac[(bydeler_ac['region']=='0301')].copy()
oslo['region'] = oslo['region'].str.replace('0301', '0300')

Slår sammen Oslo Fylkeskommune med regnskapsfilen

In [None]:
forts_ac = pd.concat([bydeler_ac, oslo])

## Filtrerer gyldige funksjoner/arter
**Funksjons- og artslisten**
- Hentes direkte fra KLASS via API i egen notebook (API Klass). 
- Filen laget i API-notebooken er lastet inn helt i starten av denne boken.

**Kontroll**
- Funksjonen kontroll_merge er laget i egen notebook (funksjoner.py)
- Kontrollen lister ut alle rader som er fjernet i mergen over. Dersom ingen rader listes ut ble ingenting fjernet i operasjonen over.

### Artsfilter
- Merger alle gylige arter med regnskapsfilen. Dette fjerner alle reder med ugyldige arter

In [None]:
artsfilter=pd.merge(art, forts_ac,how='inner', on=['art'])

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(forts_ac, artsfilter)

### Funksjonsfilter
- Merger alle gylige funksjoner med regnskapsfilen. Dette fjerner alle rader med ugyldige funksjoenr

In [None]:
funksjonsfilter = pd.merge(funksjon, artsfilter, on=['funksjon'])

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(artsfilter,funksjonsfilter)

# * Foreløpig Fil - kontrollert *

In [None]:
kostra0a_0c_kontrollert = funksjonsfilter

## Finner manglende kommuner
- For å finne hvem som mangler må vi koble opp mot regionslisten. Dette gjøres via API mot Klass (notebook API Klass).

- Lagt opp mot kommuner og fylkeskommuner, ikke bydeler


In [None]:
#Lister ut alle kommuner og fylkeskommuner som er med i regnskapsfilen. 
#Lagrer filen til senere bruk.
levert = kostra0a_0c_kontrollert[['region']].drop_duplicates()
levert.to_parquet("../../../../Testdata/arbeidsdata/kostra0a_0c_levert_2021.parquet")

### Alle regioner

In [None]:
#Slår sammen kommujne og fylkeskommunelisten tidligere hentet fra Klass. 
regioner = pd.concat([kommuner, fykomm])

### Manglende kommuner

In [None]:
#Lister ut manglende kommuner
manglende = kontroll_merge(regioner,levert)
manglende

## Imputerer for manglende kommuner

### Henter og tilpasser fjorårets regnskap
Filtrerer fjorårets regnskap mot årets arts og funksjonsliste

In [None]:
#Henter inn fjorårets 0A_0C-fil
a_c_2020 = pd.read_parquet("../../../../Testdata/arbeidsdata/a_c_2020.parquet")

In [None]:
a_c_2020.rename(columns={'fylkesregion':'region'}, inplace = True)
estimat_artsfilter=pd.merge(art, a_c_2020, on=['art'])
estimat_funksjonsfilter=pd.merge(funksjon, estimat_artsfilter, on=['funksjon'])
a_c_2020 = estimat_funksjonsfilter

Filterer ut mangldene kommuner  
Endrer periode 

In [None]:
manglende_estimat=pd.merge(manglende, a_c_2020, on=['region']).drop(columns=['_merge'])
manglende_estimat.loc[manglende_estimat['periode'] == '2020', 'periode'] = '2021'

Slår sammen årets regnskap med fjorårets for de manglende kommiunene

In [None]:
a_c_basis = pd.concat([kostra0a_0c_kontrollert, manglende_estimat])

# Ferdig fil
- Oppretter kolonne regnskapsomfang som definerer at dette er kassetall
- Lagrer fil som er klar som input til KostraRegnskaps-metode

In [None]:
a_c_basis['regnskapsomfang'] = 'B'
#a_c_basis.rename(columns={'region':'fylkesregion'}, inplace = True)

In [None]:
a_c_basis.to_parquet("../../../../Testdata/arbeidsdata/KostraRegnskap/kostra0a_0c_basis_2021.parquet")

In [None]:
a_c_basis.drop_duplicates()