## Beregning av statistiske størrelser med pyhton og pandas
### I denne noten viser vi hvordan vi kan beregne statistiske størrelser i pyhton og ved bruk av pandas. Utgangspunkt for beregninger er parquet datasett som leses inn fra dapla.

#### Innhenter verktøy fra bibliotek
Daplas Python pakke (dapla), samt bibliotekene statistics og pandas importeres.

In [None]:
import dapla as dp
import statistics as st
import pandas as pd

#### Vis tilgjengelige datasett
Kjører metoden show for å få oversikt over parquet datasett som skal være utgangspunkt for beregninger.<br> Oversikten blir lest inn i egen dataframe - df_datasets.
Aktuelt lagringsområde blir lagt inn som parameter (string objekt som vi definerer selv) INNDATA_PATH.

In [None]:
INNDATA_PATH = '/felles/veiledning/datasett/'
df_datasets = dp.show(INNDATA_PATH)

#### Formater output
df_datsets skrives ut i output vindu. Setter opsjonen max_colwith til 150 slik at vi får se all informasjon i df_datasets i output.
Oversikt over ulike options som kan settes i Pandas:https://pandas.pydata.org/pandas-docs/stable/user_guide/options.html

In [None]:
pd.options.display.max_colwidth = 150
pd.options.display.float_format = '{:.2f}'.format
df_datasets

Parquet datasettene df_sammensatt_pyspark og df_sammensatt_python over skal i utgangspunktet være identiske. De er produsert i henholdsvis pyspark og python. I vårt eksempel tar vi utgangspunkt i df_sammensatt_python.

#### Leser inn parquet datasett
Leser inn parquet datasett som vi skal utføre beregninger på.

In [None]:
df_areal_bnp_og_innbyggerantall = dp.read_pandas('/felles/veiledning/datasett/df_sammensatt_python')
df_areal_bnp_og_innbyggerantall


### Beregninger - eksempel 1
Vi ønsker som utgangspunkt å beregne størrelsene count, mean, std, min, max og median for alle variable i df_areal_bnp_og_innbyggerantall. Ved å kjøre metoden describe på datasettet får vi ut  størrelsene count, mean, std, min, max, 25% percentile, 50% percentile og 75% percentile.  Vi betrakter 50% percentile som medianen. Dvs at vi får ut alle de størrelser vi ønsker å beregne i dette eksempelet kun ved å benytte describe metoden i pandas. 

##### Kjører ut statistiske størrelser
Kjører ut statistike størrelser fra dataframe df_areal_bnp_og_innbyggerantall med metoden describe. Resultat fra metoden blir lagt i dataframen df_stat.

In [None]:
df_stat = df_areal_bnp_og_innbyggerantall.describe()
df_stat

##### Transformere
Transformerer df_stat med transpose metoden i pandas slik at rader i df_stat blir kolonner i dataframe df_stat_trans. Formål er å gjøre output mer oversiktlig ved at alle størrelser på en gitt variabel blir liggende i samme rad. Dette kan være hensiktsmessig i de tilfeller antall "statistikkvaiable" er høyt (dvs langt høyere enn de fire som inngår i eksempel).

In [None]:
df_stat_trans = df_stat.transpose()
df_stat_trans

### Beregninger - eksempel 2
I eksempel 1 fikk vi beregnet de størrelsene vi var ute etter kun ved å bruke metoden describe. Hvis vi ønsker å beregne størrelser som ikke er støttet av describe metoden kan vi bruke andre bibliotek - f.eks. statistics bilioteket. 

I eksempel 2 ønsker vi å beregne størrelsen mode (viser den verdien som opptrer oftest i variabel) gjennom å bruke en fuksjon/metode fra statistics biblioteket. Videre ønsker vi i samme steg å inkludere mode "sammen" med størrelsene vi får ved å kjøre describe metoden. Resultat skal transformeres på tilsvarende måte som i eksempel 1.

Det er satt opp en funksjon - desc_statistics - som utører nødvendige steg for beregningene. 



Parametere til desc_statistics
- df  : dataframen som er input til funksjon
- dec : Numerisk variabel som hvis satt til 0 endrer datatyper til integer
- mod : Boolsk variabel som hvis satt til True beregner mode ved å bruke funksjonen (mode) i statistics(st) biblioteket

In [None]:
def desc_statistics(df, dec, mod):
    df_desc = df.describe()
    if mod: 
        mode_value = []
        for col in df_desc.columns:
            mode_value.append(st.mode(df[col]))
        df_desc.loc['mode']= mode_value 
    if dec==0:
        df_desc = df_desc.astype(int)
    #return df_desc.transpose().round(dec)
    return df_desc.transpose()

In [None]:
df_stat_advanced = desc_statistics(df_areal_bnp_og_innbyggerantall,0,True)
df_stat_advanced