# KOSTRA skjema I og K

## Henter nødvendige pakker
**For løpet Kostra0A_0C trengs følgende pakker:**  
   - Pandas
   - Numpy
   - Glob (for import fra Linux - ikke nødvendig når hele flyten er over)
   - Selvlagde funksjoner lagret i fil funksjoner.py

In [None]:
import pandas as pd
import numpy as np
import glob
exec(open('../funksjoner.py').read())

## Angi årgang som produseres

In [None]:
aar=input('Angi årgang for filene:' )
aar_1t = str(int(aar) - 1)
aar_t1 = str(int(aar) + 1)
print("Du lager nå filer for " + aar)
print("I fjor var " + aar_1t)

## Henter nødvendige datafiler
**For løpet Kostra0I_0K trengs følgende datafiler:**
- Import fra Driller
    - Skjema KOSTRA0I
    - Skjema KOSTRA0K
- Lister fra KLASS
    - Kodeliste for Kostra regnskapsarter
    - Kodeliste for Kostra regnskapsfunksjoner
- Regnskapsfiler
    - Kostra0a_0c_levert gjeldene årgang

In [None]:
#Henter nødvendige filer
kostra0i = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0i.parquet")
kostra0k = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0k.parquet")
art = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/art.parquet").astype(str)
funksjon = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/funksjon.parquet").astype(str)
levert = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0a_0c_levert_" + aar + ".parquet")
eierandel = pd.read_csv("/ssb/bruker/mtk/Testdata/inndata/Eierandel_" + aar + "_KOMPIS.csv", sep=';', encoding='latin-1')

## Bearbeider regnskapsfilene

### Slår sammen Kostra0I og Kostra0K

In [None]:
i_k = pd.concat([kostra0i, kostra0k])

### Ordner data
- Definerer rett datatype
- Endrer kolonnenavn
    - Fra store til små bokstaver
    - Endrer navn
- Fjerner manglende observasjoner
    - Har ikke sjekket om denne funksjonen faktisk fungerer da datasettet mitt ikke har noen manglende observasjonen. Jeg fjerne na. Men det kan jo være manglende registreres som NaN? Dette må kontrolleres!

In [None]:
#Endrer datatype.
i_k = i_k.astype({'ART_SEKTOR':str,'FUNKSJON_KAPITTEL':str,'KONTOKLASSE':str,'PERIODE':str,'ORG_NR':str})

In [None]:
#Endrer headingen fra store til små bokstaver og navn på to av variablene
i_k.columns = [x.lower() for x in i_k.columns]
i_k.rename(columns={'funksjon_kapittel':'funksjon','art_sektor':'art', 'org_nr':'saerbedrift'}, inplace = True)

In [None]:
#Filtrerer bort alle rader med manglede verdier. Fungerer det? Må testes på et annet datasett som faktisk har manglende verdier... Denne er ikke med i KOMPIS?
i_k.dropna()

### Snur fortegn for inntektsarter
- Endrer alle verdier som har art høyere eller lik 600 til negative tall
- Koden under snur fortegn på alle verdier hvor art starter på siffer 6 eller mer.

In [None]:
i_k['belop']=np.where((i_k.art >= '600'), i_k.belop*-1, i_k.belop)

## Filtrerer gyldige funksjoner/arter
**Funksjons- og artslisten**
- Hentes direkte fra KLASS via API i egen notebook (API Klass). 
- Filen laget i API-notebooken er lastet inn helt i starten av denne boken.

**Kontroll**
- Funksjonen kontroll_merge er laget i egen notebook (funksjoner.py)
- Kontrollen lister ut alle rader som er fjernet i mergen over. Dersom ingen rader listes ut ble ingenting fjernet i operasjonen over.

### Artsfilter
Merger alle gylige arter med regnskapsfilen. Dette fjerner alle reder med ugyldige arter

In [None]:
art=art.drop(columns={'periode'})
gyldige_arter = list(art.columns.values)
a1 = i_k.set_index(gyldige_arter).index
a2 = art.set_index(gyldige_arter).index
artsfilter = i_k[a1.isin(a2)]

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(i_k, artsfilter)

### Funksjonsfilter
Merger alle gylige funksjoner med regnskapsfilen. Dette fjerner alle rader med ugyldige funksjoenr

In [None]:
funksjon=funksjon.drop(columns={'periode'})
gyldige_funksjoner = list(funksjon.columns.values)
f1 = artsfilter.set_index(gyldige_funksjoner).index
f2 = funksjon.set_index(gyldige_funksjoner).index
funksjonsfilter = artsfilter[f1.isin(f2)]

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(artsfilter,funksjonsfilter)

# * Føreløpig fil - kontrollert *

In [None]:
kostra0i_0k_kontrollert = funksjonsfilter.copy()

## Eierandeler

- Denne filen skal lages direkte i Python. Foreløpig hentes den fra linux. 
- Siden filen hentes fra Linux må ledene nuller legges til

In [None]:
eierandel['region']=eierandel['region'].apply(lambda x: '{0:0>4}'.format(x))
eierandel = eierandel.astype({'periode':str,'saerbedrift':str})

Slår sammen eierandelene med listen over kommuner som har levert. På denne måten filtreres kommuner som ikke har levert bort.

In [None]:
eier_levert = pd.merge(eierandel, levert, on=['region'])
eier_levert = eier_levert.astype({'periode':str,'saerbedrift':str})

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(eierandel, eier_levert)

### Fordeler særbedriftenes regnskap

In [None]:
fordelt = pd.merge(kostra0i_0k_kontrollert[['funksjon','art','kontoklasse','belop','saerbedrift']],
                   eier_levert[['periode','saerbedrift','region','andel']], left_on=['saerbedrift'], right_on=['saerbedrift'])

Fordeler særbedriftenes regnskap på kommunene ved å gange beløp og andel

In [None]:
fordelt['fordelt'] = fordelt['belop'] * fordelt['andel']

Fjerner overflødige kolonner

In [None]:
fordelt = fordelt.drop(columns={'andel','belop'})
fordelt = fordelt.rename(columns={'fordelt':'belop'})

## Lager Oslo Fylkeskommune
Tallene fra Oslo skal være med både for kommune og fylkeskommune. Vi må derfor kopiere alle Oslo tall og endre region på de kopierte radene fra 0301 til 0300. 

In [None]:
#Henter ut Oslo og endrer regionskode til 0300. Legger Oslo fylkeskommune på arbeidsfilen. 
oslo=fordelt[(fordelt['region']=='0301')].copy()
oslo['region'] = oslo['region'].str.replace('0301', '0300')

Slår sammen Oslo Fylkeskommune med regnskapsfilen

In [None]:
kostra0i_0k_fordelt = pd.concat([fordelt, oslo])

## Fjerner organisasjonsnummer og summerer langs regnskapet

In [None]:
kostra0i_0k_fordelt = kostra0i_0k_fordelt.groupby(['funksjon','art','kontoklasse','periode','region']).sum().reset_index()

# Ferdig fil
- Lagrer fil som er klar som input til KostraRegnskaps-metode

In [None]:
kostra0i_0k_fordelt.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0i_0k_fordelt_" + aar + ".parquet")

#### Kontrollfilter

In [None]:
sjekk=kostra0i_0k_fordelt[(kostra0i_0k_fordelt['region']=='4601') & (kostra0i_0k_fordelt['art']=='510') ].copy()
sjekk

In [None]:
agg = sjekk.groupby(['art','periode','kontoklasse','region'])[['belop']].sum().reset_index()
agg