# Datagenerering til DigDirCamp 2020

av Bjørn Christian Weinbach, DigDir Campar.

## Bakgrunn

I vår applikasjon skal me demonstrere korleis tilgang til eins eigne persondata kan gjere det enklare å navigere i den norske offentlege sektor, spesielt for ungdom. Denne dataen er ikkje tilgjengeleg vha API i dag og vi er nøydd å generere denne dataen sjølv. Denne jupyter notebooken inneheld python-kode for generering av syntetiske data for ein populasjon som blei brukt som ein del av forarbeidet til prosjektet til DigDir Camparane i 2020.

## Naudsynte imports

In [None]:
import pandas as pd
import numpy as np
import datetime
import random
import datetime

## Globale variablar

$$\text{testpnr} = \text{Test-personnummer}$$

In [None]:
testpnr = ['23079412414',
           '23079412333',
           '23079412252',
           '23079412171',
           '31010650596',
           '27080350274',
           '04090751315',
           '18060550537',
           '23090350056',
           '23079418366',
           '23079418285',
           '23079418013',
           '23079417815']

## Globale Funksjonar

In [None]:
def tlfnr():
    """Return phone no in the norwegian style."""
    return random.randint(10000000, 99999999)

def randomName(data):
    """Return random norwegian male or female name."""
    if random.randint(0, 1) == 1:   
        malename = np.array(data["Malename"].sample(1, replace = True))
        malelastname = np.array(data["Lastname"].sample(1, replace = True))
        return (malename + " " + malelastname), (malename + "." + malelastname + "@norge.no")
    else:
        femalename = np.array(data["Femalename"].sample(1, replace = True))
        femalelastname = np.array(data["Lastname"].sample(1, replace = True))
        return (femalename + " " + femalelastname), (femalename + "." + femalelastname + "@norge.no")

## Globale klasser

In [None]:
class vigo:
    """
    Class for vigo-data in data generation code.

    Methods:
        __init__() : initialize class with random variables
    """

    def __init__(self):
        """Initialize object with random data."""
        self.grades = {'RLE' : random.randint(1, 6),
                       'Naturfag' : random.randint(1, 6),
                       'Matematikk' : random.randint(1, 6)}
        self.absence = {'RLE' : abs(np.random.normal(0.05, 0.03)),
                        'Naturfag' : abs(np.random.normal(0.05, 0.03)),
                        'Matematikk' : abs(np.random.normal(0.05, 0.03))}

## Last inn datasett

### Kjelder

Norske navn: https://no.wikipedia.org/wiki/Liste_over_norske_mannsnavn , https://no.wikipedia.org/wiki/Liste_over_norske_kvinnenavn og https://no.wikipedia.org/wiki/Liste_over_norske_etternavn

Postnummer: https://data.norge.no/datasets/5e6847ba-156d-4e14-85d3-8d7f8b727523

In [None]:
data = pd.read_csv('navn.csv')
post = pd.read_csv('postnr.csv', converters={'Postnummer': lambda x: str(x)})

## Kombiner til ein heil populasjon og lagre som JSON

In [None]:
pnum = []
name = []
email = []
fnum = []
vig = []
adress = []
for t in testpnr:
    nam, ema = randomName(data)
    pnum.append(t)
    name.append(nam)
    email.append(ema)
    fnum.append(tlfnr())
    vig.append(vigo())
    adress.append("Test adresse " + str(random.randint(1, 100)))

populasjon = pd.DataFrame()
populasjon['Personalno'] = pnum
populasjon['Name'] = name
populasjon['Email'] = email
populasjon['Phoneno'] = fnum
populasjon['Adress'] = adress
populasjon[post.columns] = pd.concat([post.sample(len(testpnr), replace = True, axis = 0)], axis=0, ignore_index=True)
populasjon['VIGO'] = [{'Grade' : v.grades, 'Absence' : v.absence} for v in vig]
populasjon = populasjon.reset_index(drop=True)
populasjon = populasjon.set_index("Personalno")
populasjon.to_json(r'populasjon.json')