In [5]:
# Prep
import pandas as pd
import os
from os.path import join

data_dir = 'C:/Users/kgk/OneDrive - Aalborg Universitet/Undervisning/E23/sds_2023/datasets'
ess_dir = join(data_dir, 'ess2014')
eurob_path = join(data_dir, 'eurobarometer-96_dk_subset.csv')

## Sammensætning af data

Man kan adskille mellem to overordnede måder at sammensætte data på:

- Concatentation/appending: Datasæt "klaskes" sammen uden videre
- Merge/joins: Datasæt sammensættes på baggrund af en nøgle (fx personnummer)

I denne notebook ses eksempler på, hvordan man sammensætter data på disse måder med `pandas`.

### Concatenation/appending

Concatenation/appending bruges til at sætte datasæt sammen - typisk uden nogen form for validering. Det kan fx bruges, når man har to datasæt med samme variable, men forskellige observationer.

I `pandas` bruges `pd.concat()` til at sammensætte data på denne måde. Funktionen forventer en liste af dataframes, som skal slås sammen.

*BEMÆRK*: Funktionen tillader, at man kan sammensætte langs begge akser (rækker eller kolonner). Som standard antager funktionen, at det er datasættenes rækker, som skal slås sammen (`axis = 0`).

In [60]:
# stier til data

ess14_1_path = join(ess_dir, 'ess2014_mainsub_p1.csv')
ess14_2_path = join(ess_dir, 'ess2014_mainsub_p2.csv')

# indlæs datasæt
ess14_1 = pd.read_csv(ess14_1_path)
ess14_2 = pd.read_csv(ess14_2_path)

In [61]:
ess14_1.head()

Unnamed: 0,idno,ppltrst,polintr,vote,lrscale,happy,health,cgtsday,cgtsmke,alcfreq,brncntr,height,weight,gndr,yrbrn,edlvddk,marsts,polpartvt
0,921018,6,Hardly interested,Not eligible to vote,4,9,Very good,10.0,I smoke but not every day,2-3 times a month,Yes,178.0,64.0,Male,1990,Folkeskole 6.-8. klasse,None of these (NEVER married or in legally reg...,[NA] Not applicable
1,921026,8,Quite interested,Yes,4,8,Very good,,I have never smoked,Several times a week,Yes,172.0,64.0,Female,1948,Mellemlang videregående uddannelse af 3-4 års ...,Widowed/civil partner died,[1] Socialdemokraterne - the Danish social dem...
2,921034,8,Quite interested,Yes,7,8,Good,,I don't smoke now but I used to,Every day,Yes,176.0,87.0,Male,1957,Kort videregående uddannelse af op til 2-3 års...,Not applicable,"[7] Venstre, Danmarks Liberale Parti - Venstre"
3,921181,9,Quite interested,Yes,5,9,Fair,,I don't smoke now but I used to,Once a week,Yes,194.0,102.0,Male,1956,"Faglig uddannelse (håndværk, handel, landbrug ...",Not applicable,[2] Det Radikale Venstre - Danish Social-Liber...
4,921204,9,Hardly interested,Yes,7,8,Good,,I don't smoke now but I used to,Once a week,No,157.0,48.0,Female,1941,Kort videregående uddannelse af op til 2-3 års...,Not applicable,[NA] Don't know


In [62]:
ess14_1.shape

(751, 18)

In [63]:
ess14_2.head()

Unnamed: 0,idno,ppltrst,polintr,vote,lrscale,happy,health,cgtsday,cgtsmke,alcfreq,brncntr,height,weight,gndr,yrbrn,edlvddk,marsts,polpartvt
0,921076,8,Quite interested,Yes,5,8,Good,,I don't smoke now but I used to,Several times a week,Yes,162.0,70.0,Female,1958,Mellemlang videregående uddannelse af 3-4 års ...,Not applicable,[NA] No answer
1,921084,5,Not at all interested,Yes,Don't know,8,Very good,,I have only smoked a few times,Every day,Yes,175.0,80.0,Male,1936,Folkeskole 6.-8. klasse,Widowed/civil partner died,[1] Socialdemokraterne - the Danish social dem...
2,921131,8,Very interested,Yes,5,8,Fair,,I don't smoke now but I used to,Several times a week,Yes,160.0,70.0,Female,1940,"Faglig uddannelse (håndværk, handel, landbrug ...",Widowed/civil partner died,[8] Liberal Alliance - Liberal Alliance
3,921165,8,Quite interested,Yes,8,Extremely happy,Good,,I have never smoked,Once a week,Yes,167.0,78.0,Female,1965,"Gymnasielle uddannelser, studentereksamen, HF,...",Not applicable,"[7] Venstre, Danmarks Liberale Parti - Venstre"
4,921199,9,Quite interested,Yes,Right,8,Fair,20.0,I smoke daily,2-3 times a month,Yes,176.0,62.0,Female,1993,Folkeskole 9.-10. klasse,None of these (NEVER married or in legally reg...,"[7] Venstre, Danmarks Liberale Parti - Venstre"


In [64]:
ess14_2.shape

(751, 18)

In [65]:
# sammensæt data med pd.concat
ess14_comb = pd.concat([ess14_1, ess14_2])

In [66]:
ess14_comb.shape

(1502, 18)

### Merge/joins

Merge/joins bruges til at sammensætte variable fra flere datasæt på baggrund af en eller flere nøglevariable, som optræder i de datasæt, som skal slås sammen. Det kan fx være et personnummer eller andet id-nummer. I visse tilfælde bruges flere nøglevariable, hvis fx hver række unikt identificeres ved kombinationen af flere variable (fx vejnavn og postnummer). 

Der findes forskellige typer af joins, alt efter hvordan data skal slås sammen:
- left/right: behold rækker i et datasæt
- outer: behold alle rækker
- inner: behold rækker, som optræder i begge datasæt

I `pandas` bruges funktionen `pd.merge()` til at joine data. Funktionen forventer to datasæt (et "left" datasæt og et "right" datasæt). Man styrer, hvilken type join det er med argumentet `how`. Nøglevariable sættes med argumentet `on`. Hvis variable har forskellige navne i de to datasæt, kan man angive navnet for hhv. det venstre og højre datasæt (`left_on`/`right_on`). 

*BEMÆRK*: Som standard antager funktionen, at der skal foretages et inner join (behold rækker, som optræder i begge datasæt).

In [36]:
# sti til data
ess14_trst_path = join(ess_dir, 'ess2014_trstsub.csv')

# indlæs data
ess14_trst = pd.read_csv(ess14_trst_path)

In [37]:
ess14_trst.head()

Unnamed: 0,idno,trstprl,trstlgl,trstplc,trstplt,trstprt,trstep,trstun
0,921018,7,6,7,7,7,Don't know,5
1,921026,7,8,8,7,6,6,6
2,921034,9,9,9,7,7,5,6
3,921076,4,6,7,6,5,5,5
4,921084,5,Don't know,6,4,4,Don't know,7


In [39]:
ess14_trst.shape

(1502, 8)

In [42]:
# left join

ess14_joined1 = pd.merge(ess14_1, ess14_trst, how = 'left', on = 'idno')

In [43]:
ess14_joined1.head()

Unnamed: 0,idno,ppltrst,polintr,vote,lrscale,happy,health,cgtsday,cgtsmke,alcfreq,...,edlvddk,marsts,polpartvt,trstprl,trstlgl,trstplc,trstplt,trstprt,trstep,trstun
0,921018,6,Hardly interested,Not eligible to vote,4,9,Very good,10.0,I smoke but not every day,2-3 times a month,...,Folkeskole 6.-8. klasse,None of these (NEVER married or in legally reg...,[NA] Not applicable,7,6,7,7,7,Don't know,5
1,921026,8,Quite interested,Yes,4,8,Very good,,I have never smoked,Several times a week,...,Mellemlang videregående uddannelse af 3-4 års ...,Widowed/civil partner died,[1] Socialdemokraterne - the Danish social dem...,7,8,8,7,6,6,6
2,921034,8,Quite interested,Yes,7,8,Good,,I don't smoke now but I used to,Every day,...,Kort videregående uddannelse af op til 2-3 års...,Not applicable,"[7] Venstre, Danmarks Liberale Parti - Venstre",9,9,9,7,7,5,6
3,921181,9,Quite interested,Yes,5,9,Fair,,I don't smoke now but I used to,Once a week,...,"Faglig uddannelse (håndværk, handel, landbrug ...",Not applicable,[2] Det Radikale Venstre - Danish Social-Liber...,8,7,9,6,6,5,6
4,921204,9,Hardly interested,Yes,7,8,Good,,I don't smoke now but I used to,Once a week,...,Kort videregående uddannelse af op til 2-3 års...,Not applicable,[NA] Don't know,Don't know,8,8,3,3,4,6


In [44]:
# right join

ess14_joined2 = pd.merge(ess14_1, ess14_trst, how = 'right', on = 'idno')

In [45]:
ess14_joined2.head()

Unnamed: 0,idno,ppltrst,polintr,vote,lrscale,happy,health,cgtsday,cgtsmke,alcfreq,...,edlvddk,marsts,polpartvt,trstprl,trstlgl,trstplc,trstplt,trstprt,trstep,trstun
0,921018,6.0,Hardly interested,Not eligible to vote,4.0,9.0,Very good,10.0,I smoke but not every day,2-3 times a month,...,Folkeskole 6.-8. klasse,None of these (NEVER married or in legally reg...,[NA] Not applicable,7,6,7,7,7,Don't know,5
1,921026,8.0,Quite interested,Yes,4.0,8.0,Very good,,I have never smoked,Several times a week,...,Mellemlang videregående uddannelse af 3-4 års ...,Widowed/civil partner died,[1] Socialdemokraterne - the Danish social dem...,7,8,8,7,6,6,6
2,921034,8.0,Quite interested,Yes,7.0,8.0,Good,,I don't smoke now but I used to,Every day,...,Kort videregående uddannelse af op til 2-3 års...,Not applicable,"[7] Venstre, Danmarks Liberale Parti - Venstre",9,9,9,7,7,5,6
3,921076,,,,,,,,,,...,,,,4,6,7,6,5,5,5
4,921084,,,,,,,,,,...,,,,5,Don't know,6,4,4,Don't know,7


## Ændring af dataformat

Datasæt kan have forskellige formater og strukturer. Det kan ofte være nødvendigt at ændre på datas format - enten for at det passer med den metode/funktion/model, som det skal bruges i, eller fordi det skal sættes sammen med andre datasæt.

For datasæt i en tabelstruktur (rækker og kolonner), kan man overordnet adskille mellem to formater:
- wide: én række per observeret enhed (fx person), hvor hver oplysning/variabel har sin egen kolonne
- long: en observeret enhed kan have flere rækker, hvor en variabel indikerer, hvilken oplysning der er tale om for enheden

Man støder ofte på det ene eller andet format i forbindelse med tidsserier, hvor man har gentagne målinger for de samme enheder. I wide-format vil man typisk adskille mellem tidsenheder i kolonnerne for at bevare én række per enhed. I long-format vil man adskille mellem tidsenheder i en variabel, så hver enhed ender med flere rækker.

I `pandas` bruges funktionen `melt()` til at konvertere wide-long og `pivot()` til at konvertere long-wide.

### Wide-long konvertering (`melt()`)

I en wide-long konvertering, laver man kolonnenavne om til en variabel, sådan at man finder en unik værdi i datasættet ud fra en nøglevariabel, den nye kolonnevariabel samt den variabel, som man er interesseret i.

For at foretage konverteringen skal man som mininmum angive følgende: 
- En nøglevariabel: Hvordan findes unikke observationer? (`id_vars`)
- Kolonner, som skal formateres om (`value_vars`)
- Navn på variabel, som skal indeholde kolonnenavne (`var_name`)
- Navn på variabel, som skal indeholde værdierne (`value_name`)

In [67]:
# sti til data

dream_path = join(data_dir, 'bef_dream_2015_sim.csv')

# indlæs data

dream_df = pd.read_csv(dream_path)

In [78]:
dream_df.head()

Unnamed: 0,PNR,KOEN,FOED_DAG,br_2010_01,br_2010_02,br_2010_03,br_2010_04,br_2010_05,br_2010_06,br_2010_07,...,br_2015_03,br_2015_04,br_2015_05,br_2015_06,br_2015_07,br_2015_08,br_2015_09,br_2015_10,br_2015_11,br_2015_12
0,5532,2,23may1942,,,,,,,,...,,,,,,,,,,
1,5562,2,28jun1971,,,,,,,,...,,,,,,,,,,
2,7589,1,21jan1955,110200.0,852010.0,851000.0,741010.0,422200.0,862100.0,889920.0,...,463500.0,910200.0,429900.0,581200.0,62000.0,,464100.0,390000.0,855300.0,771100.0
3,9287,1,29aug1968,,,,,,,,...,,,,,,,,,,
4,14523,1,08nov1957,881030.0,,853110.0,869020.0,852010.0,871020.0,873010.0,...,522300.0,431100.0,873020.0,856000.0,,931100.0,471130.0,856000.0,881020.0,461710.0


In [95]:
# columns to reshape

cols_reshape = dream_df.columns[dream_df.columns.str.startswith('br')]

# reshape
dream_long = dream_df.melt(id_vars = 'PNR', value_vars = cols_reshape, var_name = 'month_year', value_name = 'branche')
dream_long = dream_long.sort_values(['PNR', 'month_year'])

In [96]:
dream_long.dropna().head(10)

Unnamed: 0,PNR,month_year,branche
2,7589,br_2010_01,110200.0
12969,7589,br_2010_02,852010.0
25936,7589,br_2010_03,851000.0
38903,7589,br_2010_04,741010.0
51870,7589,br_2010_05,422200.0
64837,7589,br_2010_06,862100.0
77804,7589,br_2010_07,889920.0
103738,7589,br_2010_09,841200.0
116705,7589,br_2010_10,842400.0
129672,7589,br_2010_11,851000.0


### Long-wide konvertering (`pivot()`)

I en long-wide konvertering, laver man værdier i en variabel om til kolonnenavne, som tager sin værdi fra en anden variabel. På den måde får hver enhed i data sin egen række, hvor man adskiller mellem værdierne i kolonnerne.

For at foretage konverteringen skal man som mininmum angive følgende: 
- En nøglevariabel: Hvordan findes unikke observationer? (`index`)
- Navn på variabel, som skal laves til kolonnenavne (`columns`)
- Navn på variabel, som indeholder værdier til de nye kolonner (`values`)

In [99]:
# reshape back

dream_wide = dream_long.pivot(index = 'PNR', columns = 'month_year', values = 'branche')

In [100]:
dream_wide.head()

month_year,br_2010_01,br_2010_02,br_2010_03,br_2010_04,br_2010_05,br_2010_06,br_2010_07,br_2010_08,br_2010_09,br_2010_10,...,br_2015_03,br_2015_04,br_2015_05,br_2015_06,br_2015_07,br_2015_08,br_2015_09,br_2015_10,br_2015_11,br_2015_12
PNR,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
5532,,,,,,,,,,,...,,,,,,,,,,
5562,,,,,,,,,,,...,,,,,,,,,,
7589,110200.0,852010.0,851000.0,741010.0,422200.0,862100.0,889920.0,,841200.0,842400.0,...,463500.0,910200.0,429900.0,581200.0,62000.0,,464100.0,390000.0,855300.0,771100.0
9287,,,,,,,,,,,...,,,,,,,,,,
14523,881030.0,,853110.0,869020.0,852010.0,871020.0,873010.0,,463100.0,465100.0,...,522300.0,431100.0,873020.0,856000.0,,931100.0,471130.0,856000.0,881020.0,461710.0
