This example loads data on educational levels from Statistics Sweden, specifically [this table](http://www.statistikdatabasen.scb.se/pxweb/sv/ssd/START__UF__UF0506/Utbildning/?rxid=99ed2bb1-e766-428b-961c-d2d5ee5fef48). The data format is already quite straightforward, it just needs some basic reformatting.

In [1]:
import pandas as pd

import sys
sys.path.append('../..')
from frame2package import Frame2Package

In [2]:
df = pd.read_csv('data.csv', encoding='latin1', skiprows=1)
df.head(3)

Unnamed: 0,region,ålder,utbildningsnivå,kön,2010,2011,2012,2013,2014,2015,2016,2017
0,01 Stockholms län,16-24 år,förgymnasial utbildning kortare än 9 år,män,807,808,805,831,874,838,882,996
1,01 Stockholms län,16-24 år,förgymnasial utbildning kortare än 9 år,kvinnor,887,815,769,702,677,608,650,638
2,01 Stockholms län,16-24 år,"förgymnasial utbildning, 9 (10) år",män,48968,48228,46618,44538,44358,43536,44105,44874


In [3]:
# Place the years in a column
df = df.melt(id_vars=['region', 'ålder', 'utbildningsnivå', 'kön'],
             value_vars=[str(x) for x in range(2010, 2018)],
             var_name=['år'], value_name='antal')

In [4]:
df = df.rename(columns={
    'ålder': 'age',
    'utbildningsnivå': 'edu_level',
    'kön': 'sex',
    'år': 'year',
    'antal': 'people'
})

In [5]:
df.head(3)

Unnamed: 0,region,age,edu_level,sex,year,people
0,01 Stockholms län,16-24 år,förgymnasial utbildning kortare än 9 år,män,2010,807
1,01 Stockholms län,16-24 år,förgymnasial utbildning kortare än 9 år,kvinnor,2010,887
2,01 Stockholms län,16-24 år,"förgymnasial utbildning, 9 (10) år",män,2010,48968


In [6]:
# Map all variables and their types
concepts = [
    {'concept': 'region', 'concept_type': 'entity_domain'},
    {'concept': 'age', 'concept_type': 'entity_domain'},
    {'concept': 'edu_level', 'concept_type': 'entity_domain'},
    {'concept': 'sex', 'concept_type': 'entity_domain'},
    {'concept': 'year', 'concept_type': 'time'},
    {'concept': 'people', 'concept_type': 'measure'}
]

In [7]:
# Convert to a data package
f2p = Frame2Package()
f2p.add_data(df, concepts)
f2p.to_package('ddf')

100%|██████████| 6/6 [00:00<00:00, 18.77it/s]
