# Merge af data

Ofte kan man have brug for at sætte data sammen. For surveys kan det fx være pga. forskellige interviewrunder, mens man med arbeje med registre kan have behov for at sammensætte forskellige registre.

Data kan nogen gange også være indsamlet uafhængigt af hinanden (fx data på kommuneniveau, virksomhedsniveau, landeniveau eller andet). Her kan man også bruge merge-teknikker til at samle data fra flere kilder på fx kommuneniveau eller på tid.

![mario](./../img/data-in-other-dataset.png)

I nedenstående indlæses, udover det ESS2018 vi allerede har arbejdet med, et andet datasæt med flere variable fra samme interviewrunde.

In [1]:
import pandas as pd

ess2018 = pd.read_csv("https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_subset.csv")
ess18_trst = pd.read_csv("https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_trst-subset_raw.csv")

In [2]:
ess2018.head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
0,5816,90.0,7.0,Yes,SF Socialistisk Folkeparti - Socialist People'...,1994,60,Male,1974,Mellemlang videregående uddannelse af 3-4 års ...,35.0,37.0,37.0,37000.0,35000.0,61.0
1,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,32.0,34.0,22000.0,30000.0,68.0
2,7887,360.0,8.0,Yes,Socialdemokratiet - The Social democrats,1983,55,Male,1958,Lang videregående uddannelse. Kandidatuddannel...,25.0,39.0,39.0,36000.0,42000.0,89.0
3,9607,540.0,9.0,Yes,Alternativet - The Alternative,1982,64,Female,1964,Mellemlang videregående uddannelse af 3-4 års ...,13.0,32.0,34.0,32000.0,,50.0
4,11688,,5.0,Yes,Socialdemokratiet - The Social democrats,1968,50,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug ...",2.0,37.0,37.0,,,77.0


In [3]:
ess18_trst.head()

Unnamed: 0,idno,cntry,ppltrst,trstprl,trstlgl,trstplc,trstplt,trstprt,trstep,trstun
0,110,DK,8,8,Complete trust,Complete trust,7,8,5,8
1,705,DK,5,6,8,9,3,3,4,1
2,1327,DK,5,7,5,2,5,6,Don't know,Don't know
3,3760,DK,7,5,9,9,5,5,5,8
4,4658,DK,8,8,8,8,6,6,3,Don't know


## Typer af merge/joins

Man adskiller mellem to hovedtyper af joins:

- Inner join: Her er man kun interesseret i at samle data på observationer, der indgår i begge datasæt.
- Outer join: Her man interesseret i at bevare observationer fra et datasæt og supplere med data fra et andet datasæt.

For "outer join" adskilles mellem left, right og full. "left" og "right" er i princippet det samme join; det er blot et spørgsmål om, hvilket datasæt, man tager udgangspunkt i. Ved et "full join" samles al data i det samme datasæt.

![image.png](https://www.ionos.ca/digitalguide/fileadmin/DigitalGuide/Screenshots_2018/Outer-Join.jpg)

Joins fungerer ved at samle data på baggrund af en eller anden nøgle; altså en måde at unikt identificere observationerne i hvert datasæt.

I ESS2018 datasættet har hver respondent tilknyttet et ID nummer ("idno"). Dette kan bruges til at kombinere data ud fra.

Man foretager (bl.a.) joins i pandas med funktionen `pd.merge()`. Denne kræver følgende argumenter:

- Et datasæt ("left")
- Et andet datasæt ("right")
- En id-variabel ("on" - kan være flere, hvis observationer er unikt identificeret ved en kombination af variable)
- En join metode ("how")

I nedenstående tilføjes de ekstra variable ved at specificere 'idno' som id-variabel. Der foretages en "left join", hvorfor det oprindelige ESS2018 datasæt angives først, da det er dette, der skal tages udgangspunkt i:

In [4]:
ess18_merged = pd.merge(ess2018, ess18_trst, on = 'idno', how = 'left')

In [5]:
ess18_merged.head()

Unnamed: 0,idno,netustm,ppltrst_x,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,...,inwtm,cntry,ppltrst_y,trstprl,trstlgl,trstplc,trstplt,trstprt,trstep,trstun
0,5816,90.0,7.0,Yes,SF Socialistisk Folkeparti - Socialist People'...,1994,60,Male,1974,Mellemlang videregående uddannelse af 3-4 års ...,...,61.0,DK,7,5,6,6,4,6,3,7
1,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",...,68.0,DK,5,5,6,8,5,4,7,6
2,7887,360.0,8.0,Yes,Socialdemokratiet - The Social democrats,1983,55,Male,1958,Lang videregående uddannelse. Kandidatuddannel...,...,89.0,DK,8,8,9,8,8,8,6,6
3,9607,540.0,9.0,Yes,Alternativet - The Alternative,1982,64,Female,1964,Mellemlang videregående uddannelse af 3-4 års ...,...,50.0,DK,9,9,Complete trust,9,7,7,7,7
4,11688,,5.0,Yes,Socialdemokratiet - The Social democrats,1968,50,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug ...",...,77.0,DK,5,Complete trust,7,Complete trust,7,7,4,4


# ØVELSE 6: Merge af data

- Du skal indlæse et nyt datasæt, som indeholder baggrundsoplysninger på respondenterne: "ESS2018DK_bcg-subset_raw.csv".
    - Link: "https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_bcg-subset_raw.csv"
    
- Inspicér datasættet - kan det sættes sammen med det andet ESS2018 datasæt, som vi har arbejdet med?

- Foretag den korrekte join operation for at sammensætte de to datasæt