## Koble data i Python med bruk av Pandas bibliotek
<font size=2>Når du skal koble sammen to datasett ved hjelp av koblingsnøkkel eller identifiseringsvariabler slik at datasettet består av variablene fra begge datasett, kan du bruke merge metoden:
<code>pandas.merge</code>: <i>Merge DataFrame objects by performing a database-style join operation by columns or indexes..</i> ([https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.merge.html](https://spark.apache.org/docs/latest/api/R/join.html))

Eksemplene under kobler sammen datasettene <code>areal</code> og <code>innbyggerantall</code>. Enhetene og nøkkelen er <i>Land</i>. 
- Det første eksempelet kobler land som er med i begge settene. Det nye datasettet inneholder snittet av land (koblingsmetoden 'inner').
- Det andre eksempelet kobler alle landene sammen. Det nye datasettet inneholder unionen av land (koblingsmetode = 'outer').
</font>

#### Innhenter verktøy fra bibliotek
Daplas Python pakke (dapla) og biblioteket pandas importeres.

In [None]:
import dapla as dp
import pandas as pd

#### Vis tilgjengelige datasett
Kjører metoden show for å få oversikt over parquet datasett som skal være utgangspunkt for koblinger.
Oversikten blir lest inn i egen dataframe - df_datasets. Aktuelt lagringsområde blir lagt inn som parameter (string objekt som vi definerer selv) INNDATA_PATH.

In [None]:
INNDATA_PATH = 'gs://ssb-prod-dapla-felles-data-delt/felles/veiledning/pyspark/eksempler/'
df_datasets = dp.show(INNDATA_PATH)

In [None]:
df_datasets

### Hente eksempeldata (kode)

In [None]:
df_areal           = dp.read_pandas(INNDATA_PATH+'areal')
df_bnp             = dp.read_pandas(INNDATA_PATH+'bnp')
df_innbyggerantall = dp.read_pandas(INNDATA_PATH+'innbyggerantall/2020')

### Kontrollere om det er konflikter i variabelnavnene (kolonnene)
<font size=2>Når to datasett skal kobles, er det viktig at kolonnene, som ikke er koblingsnøkkel har forskjellige navn. Dette kan løses på forskjellige måter. I dette eksemplet sjekker vi først hva kolonnene heter og deretter endrere vi kolonnennavnene for å unngå konflikt. For å sjekke kolonnenavn kan vi bruke metoden for å skrive ut <i>skjemaet</i> til datasettet: <code><i>dataframe</i>.info()</code>
</font>

#### Viser skjemaet til df_areal og df_innbyggerantall (kode)

In [None]:
df_areal.info()

In [None]:
df_innbyggerantall.info()

### Endre kolonnennavn (variabelnavn)
<font size=2>I eksempelet med datasettene <code>df_areal</code> og <code>df_innbyggerantall</code> ser vi at følgende variabler (kolonnenavn) som bør endres:
- <code>df_areal.Årstall</code> er ikke i konflikt med <code>df_innbyggerantall.År</code>, men kan gjerne endres til forståelige navn, som f.eks. <code>df_areal.Registrert_areal</code> og <code>df_innbyggerantall.Registrert_innbyggerantall</code>
- <code>df_areal.Kilde</code> --> <code>df_areal.Kilde_areal</code>
- <code>df_innbyggerantall.Kilde</code> --> <code>df_innbyggerantall.Kilde_innbyggerantall</code>

Land og landkode er konblingsnøkler, så de kan være like.

For å endre navn på en kolonne (variabel) i datasettet, brukes metoden <code><i>dataframe</i>.rename</code></font>

In [None]:
df_areal = df_areal.rename(columns = {'Årstall': 'Registrert_areal', 'Kilde': 'Kilde_areal'}, inplace = False)
df_innbyggerantall = df_innbyggerantall.rename(columns = {'År': 'Registrert_innbyggerantall', 'Kilde': 'Kilde_innbyggerantall'}, inplace = False)

#### Koble land som har areal og innbyggertall (snitt = 'inner') (kode)

In [None]:
df_areal_innbyggerantall = pd.merge(left=df_areal, right=df_innbyggerantall, left_on='Land', right_on='Land', how='inner')
df_areal_innbyggerantall

#### Koble alle landene sammen (union = 'outer') (kode)

In [None]:
df_areal_innbyggerantall_union = pd.merge(left=df_areal, right=df_innbyggerantall, left_on='Land', right_on='Land', how='outer')

In [None]:
df_areal_innbyggerantall_union