In [1]:
# Start by importing necessary packages
import requests
import pandas as pd
import numpy as np
from IPython.display import display
from io import StringIO

from dstapi import DstApi # The helper class

In [2]:
# Directly embed parameters in the URL with response.get()
requests.get('https://api.statbank.dk/v1' + '/tableinfo' + "?id=metrox1&format=JSON").json()

# Pass a dictionary of parameters to requests.get()
params = {'id': 'NAIO3', 'format': 'JSON'}
requests.get('https://api.statbank.dk/v1' + '/tableinfo', params=params).json()

# Use response.post() - note the change in the name of the parameter about the table's name
# I'm also adding here a language parameter - most tables are available in both Danish and English
params = {'table': 'NAIO5', 'format': 'JSON', 'lang':'da'}
requests.post('https://api.statbank.dk/v1' + '/tableinfo', json=params).json()

{'id': 'NAIO5',
 'text': 'Beskæftigelse og timer',
 'description': 'Beskæftigelse og timer efter socioøkonomisk status, branche og tid',
 'unit': '-',
 'suppressedDataValue': '0',
 'updated': '2025-06-30T08:00:00',
 'active': True,
 'contacts': [{'name': 'Peter Rørmose Jensen',
   'phone': '+4540135126',
   'mail': 'prj@dst.dk'}],
 'documentation': {'id': 'add44c1a-760f-4b22-9aea-82cf93b4da68',
  'url': 'https://www.dst.dk/statistikdokumentation/add44c1a-760f-4b22-9aea-82cf93b4da68'},
 'footnote': None,
 'variables': [{'id': 'SOCIO',
   'text': 'socioøkonomisk status',
   'elimination': False,
   'time': False,
   'values': [{'id': 'EMPH_DC',
     'text': 'Samlede præsterede timer (1000 timer)'},
    {'id': 'SALH_DC',
     'text': 'Præsterede timer for lønmodtagere (1000 timer)'},
    {'id': 'SELFH_DC',
     'text': 'Præsterede timer for selvstændige (1000 timer)'},
    {'id': 'EMPM_DC', 'text': 'Samlet antal beskæftigede (antal)'},
    {'id': 'SALM_DC', 'text': 'Lønmodtagere (antal)'}

In [3]:
# Initialize the class with the target table
Lon_landbrug = DstApi('NAIO5')

# Get the table summary
Lon_landbrug.tablesummary(language='da')

Table NAIO5: Beskæftigelse og timer efter socioøkonomisk status, branche og tid
Last update: 2025-06-30T08:00:00


Unnamed: 0,variable name,# values,First value,First value label,Last value,Last value label,Time variable
0,SOCIO,9,EMPH_DC,Samlede præsterede timer (1000 timer),SELFEM_DC,Selvstændige ekskl. orlov mv. (antal),False
1,BRANCHE,234,V,I alt,V970000,970000 Private husholdninger med ansat medhjælp,False
2,Tid,57,1966,1966,2022,2022,True


In [4]:
levels = Lon_landbrug.variable_levels('BRANCHE', language='da')
print(levels.to_string(index=False))


     id                                                           text
      V                                                          I alt
     VA                                A Landbrug, skovbrug og fiskeri
 V01000                                     01000 Landbrug og gartneri
V010000                                    010000 Landbrug og gartneri
 V02000                                                 02000 Skovbrug
V020000                                                020000 Skovbrug
 V03000                                                  03000 Fiskeri
V030000                                                 030000 Fiskeri
     VB                                             B Råstofindvinding
 V06090                                         06090 Råstofindvinding
V060000                               060000 Indvinding af olie og gas
V080090                              080090 Indvinding af grus og sten
V090000                            090000 Service til råstofindvinding
     V

In [5]:
params = {
    'table': 'NAIO5',
    'format': 'BULK',
    'variables': [
        {'code': 'SOCIO', 'values': [
    "EMPH_DC"
]},
        {'code': 'BRANCHE', 'values': [
    "V010000",  # 010000 Landbrug og gartneri-(Anvendelse)
    "V020000",  # 020000 Skovbrug-(Anvendelse)
    "V030000",  # 030000 Fiskeri-(Anvendelse)
    "VB",       # B Råstofindvinding-(Anvendelse)
    "V100010",  # 100010 Slagterier-(Anvendelse)
    "V100020",  # 100020 Fiskeindustri-(Anvendelse)
    "V100030",  # 100030 Mejerier-(Anvendelse)
    "V100040",  # 100040 Bagerier, brødfabrikker mv.-(Anvendelse)
    "V100050",  # 100050 Anden fødevareindustri-(Anvendelse)
    "V110000",  # 110000 Drikkevareindustri-(Anvendelse)
    "V120000",  # 120000 Tobaksindustri-(Anvendelse)
    "VCB",      # CB Tekstil- og læderindustri-(Anvendelse)
    "VCC",      # CC Træ- og papirindustri, trykkerier-(Anvendelse)
    "VCD",      # CD Olieraffinaderier mv.-(Anvendelse)
    "VCE",      # CE Kemisk industri-(Anvendelse)
    "VCF",      # CF Medicinalindustri-(Anvendelse)
    "VCG",      # CG Plast-, glas- og betonindustri-(Anvendelse)
    "VCH",      # CH Metalindustri-(Anvendelse)
    "VCI",      # CI Elektronikindustri-(Anvendelse)
    "VCJ",      # CJ Fremst. af elektrisk udstyr-(Anvendelse)
    "VCK",      # CK Maskinindustri-(Anvendelse)
    "VCL",      # CL Transportmiddelindustri-(Anvendelse)
    "VCM",      # CM Møbel- og anden industri mv.-(Anvendelse)
    "VD_E",     # D_E Forsyningsvirksomhed-(Anvendelse)
    "VF",       # F Bygge og anlæg-(Anvendelse)
    "VG_I",     # G_I Handel og transport mv.-(Anvendelse)
    "VJ",       # J Information og kommunikation-(Anvendelse)
    "VK",       # K Finansiering og forsikring-(Anvendelse)
    "VLA",      # LA Ejendomshandel og udlejning af erhvervsejendomme-(Anvendelse)
    "VLB",      # LB Boliger-(Anvendelse)
    "VM_N",     # M_N Erhvervsservice-(Anvendelse)
    "VO_Q",     # O_Q Offentlig administration, undervisning og sundhed-(Anvendelse)
    "VR_S",     # R_S Kultur, fritid og anden service-(Anvendelse)
]
},
        {'code': 'TID', 'values': ['*']}
    ]
}
r = requests.post('https://api.statbank.dk/v1' + '/data', json=params)
print(r.text[:200])

SOCIO;BRANCHE;TID;INDHOLD
Samlede præsterede timer (1000 timer);010000 Landbrug og gartneri;1966;630077
Samlede præsterede timer (1000 timer);020000 Skovbrug;1966;7983
Samlede præsterede timer (100


In [6]:
df = pd.read_csv(
    StringIO(
        requests.post('https://api.statbank.dk/v1' + '/data', json=params).text
    ), sep=';'
)

# Behandler og summer over data

## Tilgang

In [7]:
# 1) Sørg for at INDHOLD er tal (DK-format: komma som decimal)
df["INDHOLD"] = (
    df["INDHOLD"].astype(str)
      .str.replace("\u00a0", "", regex=False)  # non-breaking space
      .str.replace(" ", "", regex=False)       # mellemrum som tusindtals-sep
      .str.replace(".", "", regex=False)       # punktum som tusindtals-sep (hvis findes)
      .str.replace(",", ".", regex=False)      # komma -> punktum (decimal)
)
df["INDHOLD"] = pd.to_numeric(df["INDHOLD"], errors="coerce")

## Anvendelse

### Alt andet

In [8]:
# Brancher der skal trækkes fra (1-4)
exclude_codes = [
    "010000 Landbrug og gartneri",
    "100010 Slagterier",
    "100030 Mejerier",
    "100040 Bagerier, brødfabrikker mv.",
    "100050 Anden fødevareindustri",
]

# Dit nye id/navn for "resten"
new_name = "REST_ANVENDELSE"  # unikt id
new_id   = "REST_ANVENDELSE Øvrige brancher"

# Gruppér på alle andre dimensioner end TILGANG2 og INDHOLD
group_cols = [c for c in df.columns if c not in ["BRANCHE", "INDHOLD"]]

# Sum over alle brancher i tilgang, men udelad de fem ovenfor
new_rows = (
    df.loc[~df["BRANCHE"].isin(exclude_codes)]
      .groupby(group_cols, as_index=False)["INDHOLD"]
      .sum()
)

# Sæt den nye kode og tilføj tilbage
new_rows["BRANCHE"] = new_id
df = pd.concat([df, new_rows[df.columns]], ignore_index=True)

In [9]:
print("Antal REST-rækker:", (df["BRANCHE"] == new_id).sum())
print(df.loc[df["BRANCHE"] == new_id, ["SOCIO","TID","INDHOLD"]].head(200).to_string(index=False))


Antal REST-rækker: 57
                                SOCIO  TID  INDHOLD
Samlede præsterede timer (1000 timer) 1966  3785957
Samlede præsterede timer (1000 timer) 1967  3763454
Samlede præsterede timer (1000 timer) 1968  3736627
Samlede præsterede timer (1000 timer) 1969  3756574
Samlede præsterede timer (1000 timer) 1970  3781149
Samlede præsterede timer (1000 timer) 1971  3733886
Samlede præsterede timer (1000 timer) 1972  3692693
Samlede præsterede timer (1000 timer) 1973  3651295
Samlede præsterede timer (1000 timer) 1974  3601508
Samlede præsterede timer (1000 timer) 1975  3411451
Samlede præsterede timer (1000 timer) 1976  3505454
Samlede præsterede timer (1000 timer) 1977  3449679
Samlede præsterede timer (1000 timer) 1978  3441074
Samlede præsterede timer (1000 timer) 1979  3475002
Samlede præsterede timer (1000 timer) 1980  3506550
Samlede præsterede timer (1000 timer) 1981  3386283
Samlede præsterede timer (1000 timer) 1982  3430094
Samlede præsterede timer (1000 timer) 1983

### Anden fødevareindustri

In [10]:
codes = [
    "100040 Bagerier, brødfabrikker mv.",
    "100050 Anden fødevareindustri"
]

new_name = "100040x100050"              # vælg selv et id (skal bare være unikt)
new_id = "100040x100050 Anden fødevareindustri (100040, 100050)"


group_cols = [c for c in df.columns if c not in ["BRANCHE", "INDHOLD"]]

new_rows = (
    df.loc[df["BRANCHE"].isin(codes)]
      .groupby(group_cols, as_index=False)["INDHOLD"]
      .sum()
)

new_rows["BRANCHE"] = new_id
df = pd.concat([df, new_rows[df.columns]], ignore_index=True)



In [11]:
cols = [c for c in ["TID", "SOCIO", "INDHOLD"] if c in df.columns]
print(df.loc[df["BRANCHE"] == new_id, cols].head(500).to_string(index=False))

 TID                                 SOCIO  INDHOLD
1966 Samlede præsterede timer (1000 timer)    97800
1967 Samlede præsterede timer (1000 timer)    93506
1968 Samlede præsterede timer (1000 timer)    87958
1969 Samlede præsterede timer (1000 timer)    85218
1970 Samlede præsterede timer (1000 timer)    84063
1971 Samlede præsterede timer (1000 timer)    79268
1972 Samlede præsterede timer (1000 timer)    75336
1973 Samlede præsterede timer (1000 timer)    71064
1974 Samlede præsterede timer (1000 timer)    69597
1975 Samlede præsterede timer (1000 timer)    63730
1976 Samlede præsterede timer (1000 timer)    63080
1977 Samlede præsterede timer (1000 timer)    63045
1978 Samlede præsterede timer (1000 timer)    60837
1979 Samlede præsterede timer (1000 timer)    60222
1980 Samlede præsterede timer (1000 timer)    59378
1981 Samlede præsterede timer (1000 timer)    56891
1982 Samlede præsterede timer (1000 timer)    57332
1983 Samlede præsterede timer (1000 timer)    57116
1984 Samlede

# Gem udvalgt data

In [12]:
# 1. Vælg de kategorier du vil beholde
udvalgte_anvendelse = [
    "010000 Landbrug og gartneri",
    "100010 Slagterier",
    "100030 Mejerier",
    "100040x100050 Anden fødevareindustri (100040, 100050)",
    "REST_ANVENDELSE Øvrige brancher",
]

# 2. Lav det nye datasæt ved at filtrere
# Vi tjekker om TILGANG2 er i vores liste OG om ANVENDELSE er i vores liste
df_subset = df[(df["BRANCHE"].isin(udvalgte_anvendelse))
].copy()

# 3. Tjek resultatet
print(f"Det nye datasæt har {df_subset.shape[0]} rækker.")
display(df_subset.head())
df_subset.to_csv('Data/Lontimer_landbrugsdata.csv', index=False)

Det nye datasæt har 285 rækker.


Unnamed: 0,SOCIO,BRANCHE,TID,INDHOLD
0,Samlede præsterede timer (1000 timer),010000 Landbrug og gartneri,1966,630077
3,Samlede præsterede timer (1000 timer),100010 Slagterier,1966,60113
5,Samlede præsterede timer (1000 timer),100030 Mejerier,1966,30437
33,Samlede præsterede timer (1000 timer),010000 Landbrug og gartneri,1967,595974
36,Samlede præsterede timer (1000 timer),100010 Slagterier,1967,54768
