# Basal datahåndtering med pandas

## Subsetting

"Subsetting" vil sige at udvælge specifikke dele af data.

Man subsetter pandas med metoderne `.loc()` og `.iloc()`. `.loc()` bruges til at subsette ud fra række- og kolonnenavne, mens `.iloc()` bruges til at subsette ud fra række- og kolnneindeks.

Format for subsetting: `data.loc[rækker, kolonner]`

Selekter bestemte rækker:

In [1]:
import pandas as pd

ess2018 = pd.read_csv("https://github.com/CALDISS-AAU/course_ndms-I/raw/master/datasets/ESS2018DK_subset.csv")

In [2]:
ess2018.loc[2:10, :]

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0
3,3760,300.0,7.0,Not eligible to vote,,"Still in parental home, never left 2 months",40.0,Male,2002,Folkeskole 9.-10. klasse,9.0,2.0,2.0,200.0,,43.0
4,4658,90.0,8.0,Yes,,1974,50.0,Female,1956,Kort videregående uddannelse af op til 2-3 års...,4.0,30.0,30.0,,,62.0
5,5816,90.0,7.0,Yes,SF Socialistisk Folkeparti - Socialist People'...,1994,60.0,Male,1974,Mellemlang videregående uddannelse af 3-4 års ...,35.0,37.0,37.0,37000.0,35000.0,61.0
6,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40.0,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,32.0,34.0,22000.0,30000.0,68.0
7,7887,360.0,8.0,Yes,Socialdemokratiet - The Social democrats,1983,55.0,Male,1958,Lang videregående uddannelse. Kandidatuddannel...,25.0,39.0,39.0,36000.0,42000.0,89.0
8,9607,540.0,9.0,Yes,Alternativet - The Alternative,1982,64.0,Female,1964,Mellemlang videregående uddannelse af 3-4 års ...,13.0,32.0,34.0,32000.0,,50.0
9,11123,150.0,7.0,Yes,Socialdemokratiet - The Social democrats,1994,45.0,Male,1974,"Faglig uddannelse (håndværk, handel, landbrug ...",16.0,37.0,37.0,9000.0,,62.0
10,11688,,5.0,Yes,Socialdemokratiet - The Social democrats,1968,50.0,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug ...",2.0,37.0,37.0,,,77.0


Selekter bestemte kolonner (specificeres som en liste):

In [3]:
ess2018.loc[:, ['gndr', 'vote']].head()

Unnamed: 0,gndr,vote
0,Male,Yes
1,Male,Yes
2,Male,
3,Male,Not eligible to vote
4,Female,Yes


Selekter bestemte rækker og kolonner:

In [4]:
ess2018.loc[2:10, ['gndr', 'vote']]

Unnamed: 0,gndr,vote
2,Male,
3,Male,Not eligible to vote
4,Female,Yes
5,Male,Yes
6,Female,Yes
7,Male,Yes
8,Female,Yes
9,Male,Yes
10,Female,Yes


Selekter ud fra kolonneindeks:

In [5]:
ess2018.iloc[2:10, [8, 5]]

Unnamed: 0,yrbrn,lvpntyr
2,2000,"Still in parental home, never left 2 months"
3,2002,"Still in parental home, never left 2 months"
4,1956,1974
5,1974,1994
6,1975,1993
7,1958,1983
8,1964,1982
9,1974,1994


Bemærk at datasæt ikke ændres. Hvis subset skal gemmes, skal det gemmes i et nyt objekt (ny dataframe):

In [6]:
ess2018_subset = ess2018.loc[2:10, ['gndr', 'vote']]

ess2018_subset.head()

Unnamed: 0,gndr,vote
2,Male,
3,Male,Not eligible to vote
4,Female,Yes
5,Male,Yes
6,Female,Yes


### Subsetting med booleans (logiske værdier)

I stedet for at specificere indeksnumrene, kan man i stedet specificere betingelser:

In [7]:
ess2018.loc[ess2018['eduyrs'] > 10, :].head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
1,705,60.0,5.0,Yes,Det Konservative Folkeparti - Conservative Peo...,1976,67.0,Male,1958,Kort videregående uddannelse af op til 2-3 års...,22.0,37.0,45.0,,,55.0
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0
5,5816,90.0,7.0,Yes,SF Socialistisk Folkeparti - Socialist People'...,1994,60.0,Male,1974,Mellemlang videregående uddannelse af 3-4 års ...,35.0,37.0,37.0,37000.0,35000.0,61.0
6,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40.0,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,32.0,34.0,22000.0,30000.0,68.0
7,7887,360.0,8.0,Yes,Socialdemokratiet - The Social democrats,1983,55.0,Male,1958,Lang videregående uddannelse. Kandidatuddannel...,25.0,39.0,39.0,36000.0,42000.0,89.0


In [8]:
ess2018.loc[(ess2018['eduyrs'] > 10) & (ess2018['gndr'] == 'Female'), :].head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm
6,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,32.0,34.0,22000.0,30000.0,68.0
8,9607,540.0,9.0,Yes,Alternativet - The Alternative,1982,64,Female,1964,Mellemlang videregående uddannelse af 3-4 års ...,13.0,32.0,34.0,32000.0,,50.0
13,17504,210.0,4.0,Yes,Dansk Folkeparti - Danish People's Party,2001,45,Female,1984,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,,10.0,,,51.0
14,19970,240.0,9.0,Yes,Liberal Alliance - Liberal Alliance,1984,60,Female,1966,Lang videregående uddannelse. Kandidatuddannel...,21.0,36.0,36.0,85000.0,,42.0
16,22248,121.0,9.0,Yes,Socialdemokratiet - The Social democrats,1970,Never too young,Female,1950,Mellemlang videregående uddannelse af 3-4 års ...,19.0,37.0,37.0,,,62.0


# ØVELSE 4: SUBSETTING

*Dan et subset bestående af alle kvinder med en månedlig indkomst over 40.000 (`grspnum`).*

## Nye variable

Ofte har man brug for at tilføje oplysninger til et datasæt i form af nye variable.

Man danner en ny variabel blot ved at referere til et kolonnenavn, som endnu ikke er brugt.

I nedenstående dannes en variabel for interviewlængde i timer:

In [9]:
ess2018['inwth'] = ess2018['inwtm'] / 60

ess2018.head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm,inwth
0,110,180.0,8.0,Yes,Socialdemokratiet - The Social democrats,1968,Never too young,Male,1949,Kort videregående uddannelse af op til 2-3 års...,9.0,28.0,28.0,,,119.0,1.983333
1,705,60.0,5.0,Yes,Det Konservative Folkeparti - Conservative Peo...,1976,67,Male,1958,Kort videregående uddannelse af op til 2-3 års...,22.0,37.0,45.0,,,55.0,0.916667
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0,0.616667
3,3760,300.0,7.0,Not eligible to vote,,"Still in parental home, never left 2 months",40,Male,2002,Folkeskole 9.-10. klasse,9.0,2.0,2.0,200.0,,43.0,0.716667
4,4658,90.0,8.0,Yes,,1974,50,Female,1956,Kort videregående uddannelse af op til 2-3 års...,4.0,30.0,30.0,,,62.0,1.033333


## Rekodning

Ofte har man brug for at rekode variable.

Variable rekodes ved at overskrive værdier i en eksisterende variabel.

Det er god praksis ikke at rekode de oprindelige variable i datasættet, så man vil i stedet lave en kopi af variablen og så rekode den i stedet.

Hvis man fx vil rekode en kontinuerlig variabel til kategorisk, kan man gøre brug af booleans. 

I nedenstående inddeles personer i datasættet i tre indkomstgrupper baseret på, om de har en indkomst under 1. kvartil ("low"), over 3. kvartil ("high") eller midt imellem ("medium").

In [10]:
import numpy as np

quart1 = ess2018['grspnum'].quantile(0.25)
quart3 = ess2018['grspnum'].quantile(0.75)

ess2018['grsp_cat'] = np.nan # Danner en "tom" variabel bestående af missing

ess2018.loc[ess2018['grspnum'] <= quart1, 'grsp_cat'] = "low"
ess2018.loc[(ess2018['grspnum'] > quart1) & (ess2018['grspnum'] < quart3), 'grsp_cat'] = "medium"
ess2018.loc[ess2018['grspnum'] >= quart3, 'grsp_cat'] = "high"

ess2018.head(10)

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm,inwth,grsp_cat
0,110,180.0,8.0,Yes,Socialdemokratiet - The Social democrats,1968,Never too young,Male,1949,Kort videregående uddannelse af op til 2-3 års...,9.0,28.0,28.0,,,119.0,1.983333,
1,705,60.0,5.0,Yes,Det Konservative Folkeparti - Conservative Peo...,1976,67,Male,1958,Kort videregående uddannelse af op til 2-3 års...,22.0,37.0,45.0,,,55.0,0.916667,
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0,0.616667,
3,3760,300.0,7.0,Not eligible to vote,,"Still in parental home, never left 2 months",40,Male,2002,Folkeskole 9.-10. klasse,9.0,2.0,2.0,200.0,,43.0,0.716667,low
4,4658,90.0,8.0,Yes,,1974,50,Female,1956,Kort videregående uddannelse af op til 2-3 års...,4.0,30.0,30.0,,,62.0,1.033333,
5,5816,90.0,7.0,Yes,SF Socialistisk Folkeparti - Socialist People'...,1994,60,Male,1974,Mellemlang videregående uddannelse af 3-4 års ...,35.0,37.0,37.0,37000.0,35000.0,61.0,1.016667,medium
6,7251,300.0,5.0,Yes,Dansk Folkeparti - Danish People's Party,1993,40,Female,1975,"Faglig uddannelse (håndværk, handel, landbrug ...",13.0,32.0,34.0,22000.0,30000.0,68.0,1.133333,low
7,7887,360.0,8.0,Yes,Socialdemokratiet - The Social democrats,1983,55,Male,1958,Lang videregående uddannelse. Kandidatuddannel...,25.0,39.0,39.0,36000.0,42000.0,89.0,1.483333,medium
8,9607,540.0,9.0,Yes,Alternativet - The Alternative,1982,64,Female,1964,Mellemlang videregående uddannelse af 3-4 års ...,13.0,32.0,34.0,32000.0,,50.0,0.833333,medium
9,11123,150.0,7.0,Yes,Socialdemokratiet - The Social democrats,1994,45,Male,1974,"Faglig uddannelse (håndværk, handel, landbrug ...",16.0,37.0,37.0,9000.0,,62.0,1.033333,low


In [11]:
ess2018['grsp_cat'].value_counts()

medium    392
low       221
high      207
Name: grsp_cat, dtype: int64

### Rekodning af kategoriske variable

Den nemmeste måde at rekode kategoriske variable, er ved at lave en "mapping", der skitserer, hvordan værdierne skal erstattes. 

I datasættet er variablen "edlvddk", som indikerer respondentens højeste uddannelsesniveau:

In [12]:
ess2018['edlvddk'].value_counts()

Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-       384
Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,     340
Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks     183
Folkeskole 9.-10. klasse                                                           156
Kort videregående uddannelse af op til 2-3 års varighed, F.eks. Erhvervsakadem     150
Gymnasielle uddannelser, studentereksamen, HF, HHX, HTX                            121
Folkeskole 6.-8. klasse                                                             81
Kort erhvervsuddannelse under 1-2 års varighed, F.eks. AMU Arbejdsmarkedsuddann     80
Universitetsbachelor. 1. del af kandidatuddannelse                                  43
Forskeruddannelse. Ph.d., doktor                                                    18
Other                                                                                9
Licentiat                                  

For bedre at kunne danne sig et overblik, kan det nogengang være nødvendigt at reducere til færre kategorier. I ovenstående ses fx, at man har adskilt i to folkeskoleniveauer (6.-8. og 9.-10.). 

#### Dictionaries

For at slå disse kategorier sammen, danner vi først en "dictionary".

En dictionary er en datastruktur, der består af nøgle-værdi par (unikke nøgler til forskellige værdier). Dicionaries har mange formål, men i rekodning af kategorier, bruges de til at mappe, hvordan værdier skal rekodes.

For at slå de to folkeskoleværdier sammen, dannes følgende dictionary: 

In [13]:
recode_edu = {"Folkeskole 6.-8. klasse": "Folkeskole", "Folkeskole 9.-10. klasse": "Folkeskole"}

Bemærk opbygningen:
- Dictionaries dannes med `{}`
- Dictionaries består af nøgle-værdi par
- Nøglen og værdien adskilles med `:` (nøgle før, værdi efter)
- Hvert nøgle-værdi par adskilles med komma

Når dictionaries bruges i rekodning, er det meget vigtigt, at nøglernes værdi er identisk med værdien, som den er i datasættet. Vær derfor opmærksom på casing, tegn osv.

Ingen ændringer er foretaget i data endnu; der er blot dannet en mapping, der kan bruges i rekodning. 

Selve rekodningen foregår med metoden `.replace()`. For ikke at miste information, dannes en ny variabel, hvori rekodningen foretages:

In [14]:
ess2018['edlvddk_new'] = ess2018['edlvddk'].replace(recode_edu)

ess2018['edlvddk_new'].value_counts()

Faglig uddannelse (håndværk, handel, landbrug mv.), F.eks. Faglærte, Social-       384
Mellemlang videregående uddannelse af 3-4 års varighed. Professionsbachelorer,     340
Folkeskole                                                                         237
Lang videregående uddannelse. Kandidatuddannelser af 5.-6. års varighed, F.eks     183
Kort videregående uddannelse af op til 2-3 års varighed, F.eks. Erhvervsakadem     150
Gymnasielle uddannelser, studentereksamen, HF, HHX, HTX                            121
Kort erhvervsuddannelse under 1-2 års varighed, F.eks. AMU Arbejdsmarkedsuddann     80
Universitetsbachelor. 1. del af kandidatuddannelse                                  43
Forskeruddannelse. Ph.d., doktor                                                    18
Other                                                                                9
Licentiat                                                                            4
Name: edlvddk_new, dtype: int64

## Missingværdier

Missing værdier er angivet med `NaN`. Man kan undersøge, om en variabel indeholder missing, ved at bruge metoden `isnull()`:

In [15]:
ess2018['grspnum'].isnull().head()

0     True
1     True
2     True
3    False
4     True
Name: grspnum, dtype: bool

Denne kan også bruges i `.loc[]`:

In [16]:
ess2018.loc[ess2018['grspnum'].isnull(), :].head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm,inwth,grsp_cat,edlvddk_new
0,110,180.0,8.0,Yes,Socialdemokratiet - The Social democrats,1968,Never too young,Male,1949,Kort videregående uddannelse af op til 2-3 års...,9.0,28.0,28.0,,,119.0,1.983333,,Kort videregående uddannelse af op til 2-3 års...
1,705,60.0,5.0,Yes,Det Konservative Folkeparti - Conservative Peo...,1976,67,Male,1958,Kort videregående uddannelse af op til 2-3 års...,22.0,37.0,45.0,,,55.0,0.916667,,Kort videregående uddannelse af op til 2-3 års...
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0,0.616667,,Folkeskole
4,4658,90.0,8.0,Yes,,1974,50,Female,1956,Kort videregående uddannelse af op til 2-3 års...,4.0,30.0,30.0,,,62.0,1.033333,,Kort videregående uddannelse af op til 2-3 års...
10,11688,,5.0,Yes,Socialdemokratiet - The Social democrats,1968,50,Female,1952,"Faglig uddannelse (håndværk, handel, landbrug ...",2.0,37.0,37.0,,,77.0,1.283333,,"Faglig uddannelse (håndværk, handel, landbrug ..."


### Kod til missingværdi

Man kan kode værdier til missing på samme måde, som man rekoder kategoriske: Netop ved at lave en mapping over, hvilke værdier, der skal kodes til missing. 

I variablen for hvornår respondenten flyttede hjemmefra første gang ("lvpntyr"), indgår værdi for dem, som stadig bor hjemme. Denne kunne evt. kodes til missing.

Selve missingværdien importeres fra pakken `numpy`, da det ikke er en standardværdi i Python:

In [17]:
import numpy as np

lvpn_replace = {"Still in parental home, never left 2 months": np.NaN}

ess2018['lvpntyr_recode'] = ess2018['lvpntyr'].replace(lvpn_replace)

In [18]:
ess2018.head()

Unnamed: 0,idno,netustm,ppltrst,vote,prtvtddk,lvpntyr,tygrtr,gndr,yrbrn,edlvddk,eduyrs,wkhct,wkhtot,grspnum,frlgrsp,inwtm,inwth,grsp_cat,edlvddk_new,lvpntyr_recode
0,110,180.0,8.0,Yes,Socialdemokratiet - The Social democrats,1968,Never too young,Male,1949,Kort videregående uddannelse af op til 2-3 års...,9.0,28.0,28.0,,,119.0,1.983333,,Kort videregående uddannelse af op til 2-3 års...,1968.0
1,705,60.0,5.0,Yes,Det Konservative Folkeparti - Conservative Peo...,1976,67,Male,1958,Kort videregående uddannelse af op til 2-3 års...,22.0,37.0,45.0,,,55.0,0.916667,,Kort videregående uddannelse af op til 2-3 års...,1976.0
2,1327,240.0,5.0,,,"Still in parental home, never left 2 months",,Male,2000,Folkeskole 9.-10. klasse,11.0,37.0,37.0,,,37.0,0.616667,,Folkeskole,
3,3760,300.0,7.0,Not eligible to vote,,"Still in parental home, never left 2 months",40,Male,2002,Folkeskole 9.-10. klasse,9.0,2.0,2.0,200.0,,43.0,0.716667,low,Folkeskole,
4,4658,90.0,8.0,Yes,,1974,50,Female,1956,Kort videregående uddannelse af op til 2-3 års...,4.0,30.0,30.0,,,62.0,1.033333,,Kort videregående uddannelse af op til 2-3 års...,1974.0


### Fjern missingværdier

Missingværdier kan fjernes med metoden `dropna()`.

In [19]:
ess2018_nomissing = ess2018.dropna()

Det er sjældent en god ide at fjerne missing på tværs af hele datasættet, da man på den måde mister mange observationer:

In [20]:
print(ess2018.shape,
     ess2018_nomissing.shape)

(1572, 20) (187, 20)


Hvis missing skal fjernes, bør man forsøge at fokusere på de variable, som rent faktisk skal bruges i ens analyse. Det kan man gøre med argumentet `subset`, hvor man kan angive hvilke kolonner, som frasorteringen af missing skal baseres på:

In [21]:
ess2018_nomissing_specific = ess2018.dropna(subset = ['vote', 'wkhct', 'wkhtot'])

In [22]:
print(ess2018.shape,
     ess2018_nomissing_specific.shape)

(1572, 20) (1436, 20)


# ØVELSE 5: BASAL DATAHÅNDTERING

1. Tilføj en aldersvariabel til ESS2014DK datasættet (husk at data er fra 2018)
 
2. Dan en kategorisk variabel, der inddeler respondenterne i to lige store kategorier efter antal arbejdstimer om ugen (`wkhtot`)

3. Rekod uddannelsesvariablen (`edlvddk`) sådan, at kort, mellemlang og lang videregående uddannelse samt universitetsbachelor alle får værdien "Videregående uddannelse" (byg evt. videre på variablen `edlvddk_new`, hvis I allerede har lavet den).