# KOSTRA skjema M og P
- Data er hentet fra dynarev i ark "1. Import_driller" og lagret på stamme /ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller
- Oslo: kopiere alle rader med region 0301 til 0300. 

## Henter nødvendige pakker
**For løpet Kostra0M_0P trengs følgende pakker:**  
   - Pandas
   - Numpy
   - Selvlagde funksjoner lagret i fil funksjoner.py

In [None]:
import pandas as pd
import numpy as np
exec(open('../funksjoner.py').read())

## Angi årgang som produseres

In [None]:
#årgang()

In [None]:
aar=input('Angi årgang for filene:' )
aar_1t = str(int(aar) - 1)
aar_t1 = str(int(aar) + 1)
print("Du lager nå filer for " + aar)

## Henter nødvendige datafiler
**For løpet Kostra0M_0P trengs følgende datafiler:**
- Import fra Driller
    - Skjema KOSTRA0M
    - Skjema KOSTRA0P
- Lister fra KLASS
    - Kodeliste for Kostra regnskapsarter
    - Kodeliste for Kostra regnskapsfunksjoner
    - Kommunelisten for gjeldene årgang
    - Fylkeskommunelisten for gjeldene årgang

In [None]:
kostra0m = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0m.parquet")
kostra0p = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/import_driller/" + aar + "/kostra0p.parquet")
art = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/art.parquet").astype(str)
funksjon = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/funksjon.parquet").astype(str)
kommuner = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/komm.parquet").astype(str)
fykomm = pd.read_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/klass/" + aar + "/fykomm.parquet").astype(str)

## Bearbeider regnskapsfilene

### Slår sammen Kostra0M og Kostra0P

In [None]:
#Setter sammen skjema m og p
mp = pd.concat([kostra0m, kostra0p])

### Ordner data
- Definerer rett datatype
- Endrer kolonnenavn
    - Fra store til små bokstaver
    - Endrer navn
- Fjerner manglende observasjoner
    - Har ikke sjekket om denne funksjonen faktisk fungerer da datasettet mitt ikke har noen manglende observasjonen. Jeg fjerne na. Men det kan jo være manglende registreres som NaN? Dette må kontrolleres!

In [None]:
mp = mp.astype({'ART_SEKTOR':str,'FUNKSJON_KAPITTEL':str,'KONTOKLASSE':str,'PERIODE':str,'REGION':str})

In [None]:
#Endrer headingen fra store til små bokstaver
mp.columns = [x.lower() for x in mp.columns]

In [None]:
#Gir nytt navn til funkjson og art
mp.rename(columns={'funksjon_kapittel':'funksjon','art_sektor':'art'}, inplace = True)

In [None]:
#Filtrerer bort alle rader med manglede verdier. Fungerer det? Må testes på et annet datasett som faktisk har manglende verdier... 
mp_null = mp.dropna()

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(mp, mp_null)

### Snur fortegn for inntektsarter
- Endrer alle verdier som har art høyere eller lik 600 til negative tall

In [None]:
mp_null['belop']=np.where((mp_null.art >= '600'), mp_null.belop*-1, mp_null.belop)

## Lager Oslo Fylkeskommune
- Tallene fra Oslo skal være med både for kommune og fylkeskommune. Vi må derfor kopiere alle Oslo tall og endre region på de kopierte radene fra 0301 til 0300. 

In [None]:
#Henter ut Oslo og endrer regionskode til 0300. Legger Oslo fylkeskommune på arbeidsfilen. 
oslo=mp_null[(mp_null['region']=='0301')].copy()
oslo['region'] = oslo['region'].str.replace('0301', '0300')

Slår sammen Oslo Fylkeskommune med regnskapsfilen

In [None]:
forts_mp = pd.concat([mp_null, oslo])

## Filtrerer gyldige funksjoner/arter
**Funksjons- og artslisten**
- Hentes direkte fra KLASS via API i egen notebook (API Klass). 
- Filen laget i API-notebooken er lastet inn helt i starten av denne boken.

**Kontroll**
- Funksjonen kontroll_merge er laget i egen notebook (funksjoner.py)
- Kontrollen lister ut alle rader som er fjernet i mergen over. Dersom ingen rader listes ut ble ingenting fjernet i operasjonen over.

### Artsfilter
- Merger alle gylige arter med regnskapsfilen. Dette fjerner alle reder med ugyldige arter

In [None]:
art=art.drop(columns={'periode'})

In [None]:
gyldige_arter = list(art.columns.values)

In [None]:
a1 = forts_mp.set_index(gyldige_arter).index
a2 = art.set_index(gyldige_arter).index
artsfilter = forts_mp[a1.isin(a2)]

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(forts_mp, artsfilter)

### Funksjonsfilter
- Merger alle gylige funksjoner med regnskapsfilen. Dette fjerner alle rader med ugyldige funksjoenr

In [None]:
funksjon=funksjon.drop(columns={'periode'})

In [None]:
gyldige_funksjoner = list(funksjon.columns.values)

In [None]:
f1 = artsfilter.set_index(gyldige_funksjoner).index
f2 = funksjon.set_index(gyldige_funksjoner).index
funksjonsfilter = artsfilter[f1.isin(f2)]

#### Kontrollerer fjernede rader

In [None]:
kontroll_merge(artsfilter,funksjonsfilter)

## Foreløpig Fil - kontrollert

In [None]:
kostra0m_0p_kontrollert = funksjonsfilter.copy()

## Finner manglende kommuner
- For å finne hvem som mangler må vi koble opp mot regionslisten. Dette gjøres via API mot Klass (notebook API Klass).

- Lagt opp mot kommuner og fylkeskommuner, ikke bydeler


In [None]:
#Lister ut alle kommuner og fylkeskommuner som er med i regnskapsfilen. 
levert = kostra0m_0p_kontrollert[['region']].drop_duplicates()
levert.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0m_0p_levert_" + aar + ".parquet")

### Alle regioner

In [None]:
#Slår sammen kommujne og fylkeskommunelisten tidligere hentet fra Klass. 
regioner = pd.concat([kommuner, fykomm])

### Manglende kommuner

In [None]:
#Lister ut manglende kommuner
manglende = kontroll_merge(regioner,levert)
manglende

## Oppretter regnskapsomfang
- Regnskapsomfang C definerer at dette er konsoliderte tall

In [None]:
m_p_basis = kostra0m_0p_kontrollert.copy()

In [None]:
m_p_basis['regnskapsomfang'] = 'C'

# Ferdig fil
- Lagrer fil som er klar som input til KostraRegnskaps-metode
- Her må vi ha mulighet for å se på dataen

In [None]:
m_p_basis.to_parquet("/ssb/stamme03/komakro/pilot_python/arbeidsdata/arbeidsfiler/" + aar + "/kostra0m_0p_basis_" + aar + ".parquet")

#### Kontrollfilter

In [None]:
#sjekk=m_p_basis[(m_p_basis['region']=='4601') & (m_p_basis['art']=='905') ].copy()
#sjekk

In [None]:
#m_p_basis