# KOSTRA skjema A og C


## Henter nødvendige pakker
**For løpet Kostra0A_0C trengs følgende pakker:**  
   - Pandas
   - Numpy
   - Selvlagde funksjoner lagret i fil funksjoner.py

In [None]:
import pandas as pd
import numpy as np
exec(open('../funksjoner.py').read())

## Angi årgang som produseres

In [None]:
#årgang()

In [None]:
aar=input('Angi årgang for filene:' )
aar_1t = str(int(aar) - 1)
aar_t1 = str(int(aar) + 1)
print("Du lager nå filer for " + aar)

## Henter nødvendige datafiler
**For løpet Kostra0A_0C trengs følgende datafiler:**
- Import fra Driller
    - Skjema KOSTRA0A
    - Skjema KOSTRA0C
- Lister fra KLASS
    - Kodeliste for Kostra regnskapsarter
    - Kodeliste for Kostra regnskapsfunksjoner
    - Kommunelisten for gjeldene årgang
    - Fylkeskommunelisten for gjeldene årgang

In [None]:
kostra0a = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0a.parquet")
kostra0c = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0c.parquet")
art = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/art.parquet").astype(str)
funksjon = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/funksjon.parquet").astype(str)
kommuner = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/komm.parquet").astype(str)
fykomm = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/fykomm.parquet").astype(str)

## Bearbeider regnskapsfilene

### Slår sammen Kostra0A og Kostra0C

In [None]:
#Setter sammen skjema a og c
ac = pd.concat([kostra0a, kostra0c])

### Ordner data
- Definerer rett datatype
- Endrer kolonnenavn
    - Fra store til små bokstaver
    - Endrer navn
- Fjerner manglende observasjoner

In [None]:
ac = ac.astype({'ART_SEKTOR':str,'FUNKSJON_KAPITTEL':str,'KONTOKLASSE':str,'PERIODE':str,'REGION':str, 'BYDEL':str})

In [None]:
#Endrer headingen fra store til små bokstaver
ac.columns = [x.lower() for x in ac.columns]

In [None]:
#Gir nytt navn til et par kolonner. Denne gir feilmelding, men funker. Bør fikses så feilmelding ikke kommer. 
ac.rename(columns={'funksjon_kapittel':'funksjon','art_sektor':'art'}, inplace = True)

In [None]:
#Filtrerer bort alle rader med manglede verdier. Fungerer det? Må testes på et annet datasett som faktisk har manglende verdier... 
ac_null = ac.dropna()

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(ac,ac_null)

### Snur fortegn for inntektsarter
- Endrer alle verdier som har art høyere eller lik 600 til negative tall

In [None]:
ac_snudd = ac_null.copy()

In [None]:
ac_snudd['belop']=np.where((ac_snudd.art >= '600'), ac_snudd.belop*-1, ac_snudd.belop)

## Lager bydelsregioner
- Slår sammen regions- og bydelsnummer til samme kolonne

In [None]:
#Henter ut alle Oslo tall som har bydel. Slår sammen region og bydelkode.
bydeler = ac_snudd[(ac_snudd['region'] == '0301') & (ac_snudd['bydel'] != '00')].copy()
bydeler["region"] = bydeler["region"] + bydeler["bydel"]

In [None]:
#Fjerner bydelene fra originalfilen, slår sammen den nye bydelsfilen og arbdeisfilen. Fjerner kolonnen for bydeler. 
ac_uten_bydel = ac_snudd[(ac_snudd['bydel'] == '00')].copy()
bydeler_ac = pd.concat([ac_uten_bydel, bydeler]).drop(columns=['bydel'])

## Lager Oslo Fylkeskommune
- Tallene fra Oslo skal være med både for kommune og fylkeskommune. Vi må derfor kopiere alle Oslo tall og endre region på de kopierte radene fra 0301 til 0300. 

In [None]:
#Henter ut Oslo og endrer regionskode til 0300. Legger Oslo fylkeskommune på arbeidsfilen. 
oslo=bydeler_ac[(bydeler_ac['region']=='0301')].copy()
oslo['region'] = oslo['region'].str.replace('0301', '0300')

- Slår sammen Oslo Fylkeskommune med regnskapsfilen

In [None]:
forts_ac = pd.concat([bydeler_ac, oslo])

## Filtrerer gyldige funksjoner/arter
**Funksjons- og artslisten**
- Hentes direkte fra KLASS via API i egen notebook (API Klass). 
- Filen laget i API-notebooken er lastet inn helt i starten av denne boken.

**Kontroll**
- Funksjonen kontroll_merge er laget i egen notebook (funksjoner.py)
- Kontrollen lister ut alle rader som er fjernet i mergen over. Dersom ingen rader listes ut ble ingenting fjernet i operasjonen over.

### Artsfilter
- Merger alle gylige arter med regnskapsfilen. Dette fjerner alle reder med ugyldige arter

In [None]:
art=art.drop(columns={'periode'})

In [None]:
gyldige_arter = list(art.columns.values)

In [None]:
a1 = forts_ac.set_index(gyldige_arter).index
a2 = art.set_index(gyldige_arter).index
artsfilter = forts_ac[a1.isin(a2)]

#### Kontrollerer fjernede rader
- Må kunne se nærmere på dataen

In [None]:
kontroll_merge(forts_ac, artsfilter)

### Funksjonsfilter
- Merger alle gylige funksjoner med regnskapsfilen. Dette fjerner alle rader med ugyldige funksjoenr

In [None]:
funksjon=funksjon.drop(columns={'periode'})

In [None]:
gyldige_funksjoner = list(funksjon.columns.values)

In [None]:
f1 = artsfilter.set_index(gyldige_funksjoner).index
f2 = funksjon.set_index(gyldige_funksjoner).index
funksjonsfilter = artsfilter[f1.isin(f2)]

#### Kontrollerer fjernede rader
- Må kunne se nærmere på dataen

In [None]:
kontroll_merge(artsfilter,funksjonsfilter)

# Foreløpig Fil - kontrollert

In [None]:
kostra0a_0c_kontrollert = funksjonsfilter

### Lagrer filen som skal benyttes i neste års imputering

In [None]:
kostra0a_0c_kontrollert.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0a_0c_til_imputering_" + aar + ".parquet")

## Finner manglende kommuner
- For å finne hvem som mangler må vi koble opp mot regionslisten. Dette gjøres via API mot Klass (notebook API Klass).

- Lagt opp mot kommuner og fylkeskommuner, ikke bydeler


In [None]:
#Lister ut alle kommuner og fylkeskommuner som er med i regnskapsfilen. 
#Lagrer filen til senere bruk.
levert = kostra0a_0c_kontrollert[['region']].drop_duplicates()
levert.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0a_0c_levert_" + aar + ".parquet")

### Alle regioner

In [None]:
#Slår sammen kommujne og fylkeskommunelisten tidligere hentet fra Klass. 
regioner = pd.concat([kommuner, fykomm])

### Manglende kommuner

In [None]:
#Lister ut manglende kommuner
manglende = kontroll_merge(regioner,levert)
manglende

## Imputerer for manglende kommuner

### Henter og tilpasser fjorårets regnskap

In [None]:
#Henter inn fjorårets 0A_0C-fil
a_c_1t = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar_1t + "/kostra0a_0c_til_imputering_" + aar_1t + ".parquet")

- Endrer årgang

In [None]:
a_c_1t.loc[a_c_1t['periode'] == aar_1t, 'periode'] = aar

- Filtrerer fjorårets regnskap mot årets arts og funksjonsliste

In [None]:
a3 = a_c_1t.set_index(gyldige_arter).index
a2 = art.set_index(gyldige_arter).index
estimat_artsfilter = a_c_1t[a3.isin(a2)]

In [None]:
f3 = estimat_artsfilter.set_index(gyldige_funksjoner).index
f2 = funksjon.set_index(gyldige_funksjoner).index
estimat_funksjonsfilter = estimat_artsfilter[f3.isin(f2)]

In [None]:
a_c_1t = estimat_funksjonsfilter

- Filterer ut mangldene kommuner  

In [None]:
manglende_estimat=pd.merge(manglende, a_c_1t, on=['region', 'periode']).drop(columns=['_merge'])

- Slår sammen årets regnskap med fjorårets for de manglende kommiunene

In [None]:
a_c_basis = pd.concat([kostra0a_0c_kontrollert, manglende_estimat])

## Oppretter regnskapsomfang
- Regnskapsomfang B definerer at dette er kassetall

In [None]:
a_c_basis['regnskapsomfang'] = 'B'

# Ferdig fil
- Lagrer fil som er klar som input til KostraRegnskaps-metode
- Her må vi ha mulighet for å se på dataen

In [None]:
a_c_basis.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0a_0c_basis_" + aar + ".parquet")

#### Kontrollfilter

In [None]:
#sjekk=a_c_basis[(a_c_basis['region']=='4601') & (a_c_basis['art']=='905') ].copy()
#sjekk

In [None]:
a_c_basis