In [4]:
import pandas as pd
import numpy as np
pop = pd.read_csv('../data/mock_sysselsatte/population_2019_30000.csv')
comp = pd.read_csv('../data/mock_sysselsatte/companies_2019_30000.csv')

In [5]:
pop2020 = pd.read_csv('../data/mock_sysselsatte/population_2020_30000.csv')

In [6]:
pop.columns

Index(['Unnamed: 0', 'id', 'work_id', 'sex', 'age', 'year_birth',
       'work_percent'],
      dtype='object')

In [7]:
pop2020.columns

Index(['Unnamed: 0', 'id', 'work_id', 'sex', 'age', 'year_birth',
       'work_percent'],
      dtype='object')

In [28]:
pop1920 = pd.concat([pop, pop2020])

In [29]:
pop1920

Unnamed: 0.1,Unnamed: 0,id,work_id,sex,age,year_birth,work_percent
0,0,29101946112,,Menn,0.0,2019,
1,1,26101930288,,Menn,0.0,2019,
2,2,22091952214,,Menn,0.0,2019,
3,3,4071997222,,Menn,0.0,2019,
4,4,7101970642,,Menn,0.0,2019,
...,...,...,...,...,...,...,...
30215,30215,22046452036,241246664.0,Kvinner,56.0,1964,
30216,30216,7056249311,,Kvinner,58.0,1962,
30217,30217,31085890423,529912577.0,Kvinner,62.0,1958,100.0
30218,30218,29035325576,,Kvinner,67.0,1953,


In [30]:
pop1920.drop_duplicates(subset=['id'], keep = 'last')

Unnamed: 0.1,Unnamed: 0,id,work_id,sex,age,year_birth,work_percent
49,49,6071999716,,Menn,0.0,2019,
81,81,24121986910,,Menn,0.0,2019,
292,292,28011771596,,Menn,2.0,2017,
380,380,11101474862,,Menn,5.0,2014,
631,631,22041624266,,Menn,3.0,2016,
...,...,...,...,...,...,...,...
30215,30215,22046452036,241246664.0,Kvinner,56.0,1964,
30216,30216,7056249311,,Kvinner,58.0,1962,
30217,30217,31085890423,529912577.0,Kvinner,62.0,1958,100.0
30218,30218,29035325576,,Kvinner,67.0,1953,


In [31]:
pd.unique(pop1920[pop1920['id'].duplicated()]['id'])

array([29101946112, 26101930288, 22091952214, ..., 14102931680,
       29062932768, 11072931487])

### Kort variant: Svar på Kristins spørsmål om duplikat-status-setting

Det vi måler ved å finne duplikater på disse kolonnene, i dette sammenslåtte datasettet, er gjerne: \
"de personene som finnes i datasettene begge årene, og jobber på samme sted i 2020 versus 2019, og ikke har endret registrert kjønn"

In [41]:
# Putt "True/False" i ny kolonne "v0302". True om det finnes duplikater på alle disse fire kolonnene, i en annen rad.
pop1920['v0302'] = pop1920.duplicated(subset = ['id', 'work_id', 'sex'])
# Splitt dataframen i to nye dataframes, avhengig av om de har duplikater eller ikke.
pop1920_dupes = pop1920[pop1920['v0302']]
pop1920_nodupe = pop1920[~pop1920['v0302']]

In [44]:
print(f'{len(pop1920_dupes)} rader i duplikatdatasettet, versus \n{len(pop1920_nodupe)} i datasettet med de som er duplikater.\nHusk at de som ligger i duplikatsettet, da telles flere ganger.')

20067 rader i duplikatdatasettet, versus 
40153 i datasettet med de som er duplikater.
Husk at de som ligger i duplikatsettet, da telles flere ganger.


### Lang variant: Svar på Kristins spørsmål om duplikat-status-setting

In [32]:
# Logikken avhenger av at vi "breaker" når vi finner den første, det er derfor viktig hvilken rekkefølge vi looper gjennom dicten på.
from collections import OrderedDict
# Derfor bruker vi "ordereddicts" fra "collections-pakken" som følger med Python
kol_check = OrderedDict([
    ('id', 'idB'),
    ('work_id', 'idtypeB'), 
    ('sex',  'idmeldB')
])
    
kol_check

OrderedDict([('id', 'idB'), ('work_id', 'idtypeB'), ('sex', 'idmeldB')])

In [33]:
# Opprett kolonner med data om hvilke kolonner som er duplikater eller ikke
for col in kol_check:
    pop1920[f'{col}_dup'] = pop1920[col].duplicated()

In [34]:
pop1920

Unnamed: 0.1,Unnamed: 0,id,work_id,sex,age,year_birth,work_percent,id_dup,work_id_dup,sex_dup
0,0,29101946112,,Menn,0.0,2019,,False,False,False
1,1,26101930288,,Menn,0.0,2019,,False,True,True
2,2,22091952214,,Menn,0.0,2019,,False,True,True
3,3,4071997222,,Menn,0.0,2019,,False,True,True
4,4,7101970642,,Menn,0.0,2019,,False,True,True
...,...,...,...,...,...,...,...,...,...,...
30215,30215,22046452036,241246664.0,Kvinner,56.0,1964,,False,True,True
30216,30216,7056249311,,Kvinner,58.0,1962,,False,True,True
30217,30217,31085890423,529912577.0,Kvinner,62.0,1958,100.0,False,True,True
30218,30218,29035325576,,Kvinner,67.0,1953,,False,True,True


In [35]:
# Ny kolonne for å holde på "statusen"
pop1920['v0302'] = ''

In [36]:
# Loop gjennom hver rad i datasettet
for i, row in pop1920.iterrows():
    # Loop gjennom kolonnene vi skal se på
    for col, code in kol_check.items():
        # Om kolonnen for duplikat er True i denne raden for koden vi ser på 
        if row[f'{col}_dup']:
            # Sett statusen lik koden i dicten
            pop1920.at[i, 'v0302'] = code
            # Break ut av loopen som looper over kode-dicten, når vi finner noe
            break

In [37]:
# Antall av de ulike statusene i datasettet
pop1920[['v0302']].value_counts()

v0302  
idB        59248
idtypeB      968
idmeldB        4
dtype: int64

In [38]:
# Fjern de duplikatradene vi ikke trenger lengre
pop1920.drop(
    # En list comprehension for å regenerere de duplikat-kolonnene vi ikke trenger lengre
    [f'{col}_dup' for col in kol_check.keys()],
    axis = 1,
    inplace = True)

In [39]:
pop1920

Unnamed: 0.1,Unnamed: 0,id,work_id,sex,age,year_birth,work_percent,v0302
0,0,29101946112,,Menn,0.0,2019,,idB
1,1,26101930288,,Menn,0.0,2019,,idB
2,2,22091952214,,Menn,0.0,2019,,idB
3,3,4071997222,,Menn,0.0,2019,,idB
4,4,7101970642,,Menn,0.0,2019,,idB
...,...,...,...,...,...,...,...,...
30215,30215,22046452036,241246664.0,Kvinner,56.0,1964,,idtypeB
30216,30216,7056249311,,Kvinner,58.0,1962,,idtypeB
30217,30217,31085890423,529912577.0,Kvinner,62.0,1958,100.0,idtypeB
30218,30218,29035325576,,Kvinner,67.0,1953,,idtypeB
