# Analyzing Employment Data from SCB

This script utilizes the SCB API to retrieve and analyze employment data for the population aged 15-74 years. It focuses on individuals classified as 'sysselsatta' (employed) and 'sysselsatta i arbete' (employed at work) for the years 2000 to 2020. The extracted data is then cleaned, formatted, and saved to an Excel file named 'employment.xlsx'. The script uses the PySCBWrapper, NumPy, and Pandas libraries.

In [1]:
# Import necessary libraries

from pyscbwrapper import SCB
import numpy as np
import pandas as pd

In [2]:
# Initialize SCB object for Swedish data
scb = SCB('sv')
scb.info()

[{'id': 'AA', 'type': 'l', 'text': 'Ämnesövergripande statistik'},
 {'id': 'AM', 'type': 'l', 'text': 'Arbetsmarknad'},
 {'id': 'BE', 'type': 'l', 'text': 'Befolkning'},
 {'id': 'BO', 'type': 'l', 'text': 'Boende, byggande och bebyggelse'},
 {'id': 'EN', 'type': 'l', 'text': 'Energi'},
 {'id': 'FM', 'type': 'l', 'text': 'Finansmarknad'},
 {'id': 'HA', 'type': 'l', 'text': 'Handel med varor och tjänster'},
 {'id': 'HE', 'type': 'l', 'text': 'Hushållens ekonomi'},
 {'id': 'HS', 'type': 'l', 'text': 'Hälso- och sjukvård'},
 {'id': 'JO', 'type': 'l', 'text': 'Jord- och skogsbruk, fiske'},
 {'id': 'KU', 'type': 'l', 'text': 'Kultur och fritid'},
 {'id': 'LE', 'type': 'l', 'text': 'Levnadsförhållanden'},
 {'id': 'ME', 'type': 'l', 'text': 'Demokrati'},
 {'id': 'MI', 'type': 'l', 'text': 'Miljö'},
 {'id': 'NR', 'type': 'l', 'text': 'Nationalräkenskaper'},
 {'id': 'NV', 'type': 'l', 'text': 'Näringsverksamhet'},
 {'id': 'OE', 'type': 'l', 'text': 'Offentlig ekonomi'},
 {'id': 'PR', 'type': 'l'

In [3]:
# Navigate to the desired data level using codes
scb.go_down('AM')
scb.info()

[{'id': 'AM0301',
  'type': 'l',
  'text': 'Arbetskostnadsindex för arbetare och tjänstemän inom privat sektor (AKI)'},
 {'id': 'AM0401', 'type': 'l', 'text': 'Arbetskraftsundersökningarna (AKU)'},
 {'id': 'AM0403',
  'type': 'l',
  'text': 'Arbetskraftsundersökningarna, tidigare definitioner'},
 {'id': 'AM0402',
  'type': 'l',
  'text': 'Arbetskraftsundersökningar, äldre serier (AKU)'},
 {'id': 'AM0501', 'type': 'l', 'text': 'Arbetsmiljöundersökningen'},
 {'id': 'AM0502', 'type': 'l', 'text': 'Arbetsorsakade besvär'},
 {'id': 'AM0210',
  'type': 'l',
  'text': 'Befolkningens arbetsmarknadsstatus (BAS)'},
 {'id': 'AM0209',
  'type': 'l',
  'text': 'Konjunkturstatistik över sjuklöner (KSju)'},
 {'id': 'AM0701',
  'type': 'l',
  'text': 'Konjunkturstatistik över vakanser (KV)'},
 {'id': 'AM0108',
  'type': 'l',
  'text': 'Konjunkturstatistik, löner för kommuner (KLK)'},
 {'id': 'AM0109',
  'type': 'l',
  'text': 'Konjunkturstatistik, löner för regioner (KLR)'},
 {'id': 'AM0101',
  'type'

In [4]:
scb.go_down('AM0403')
scb.info()

[{'id': 'AM0403A',
  'type': 'l',
  'text': 'Befolkningen efter arbetskraftstillhörighet 1970-2020'},
 {'id': 'AM0403I', 'type': 'l', 'text': 'Sysselsatta 1970-2020'},
 {'id': 'AM0403J', 'type': 'l', 'text': 'Anställda 2005-2020'},
 {'id': 'AM0403S', 'type': 'l', 'text': 'Arbetstid 2005-2020'},
 {'id': 'AM0403B',
  'type': 'l',
  'text': 'Arbetstid efter näringsgren (SNI2007) 2009-2020'},
 {'id': 'AM0403K', 'type': 'l', 'text': 'Frånvarande 2005-2020'},
 {'id': 'AM0403L', 'type': 'l', 'text': 'Arbetslösa 2005-2020'},
 {'id': 'AM0403M',
  'type': 'l',
  'text': 'Personer ej i arbetskraften 2005-2020'},
 {'id': 'AM0403O',
  'type': 'l',
  'text': 'Outnyttjat arbetskraftsutbud 2005-2020'},
 {'id': 'AM0403N', 'type': 'l', 'text': 'Regionala tabeller 2005-2020'},
 {'id': 'AM0403P',
  'type': 'l',
  'text': 'Utbildningens nivå och inriktning 2005-2020'},
 {'id': 'AM0403Q', 'type': 'l', 'text': 'Civilstånd och barn 2005-2020'},
 {'id': 'AM0403R', 'type': 'l', 'text': 'Inrikes och utrikes född

In [5]:
scb.go_down('AM0403I')
scb.info()

[{'id': 'NAKUSysselsatta2MTD',
  'type': 't',
  'text': 'Sysselsatta 15-74 år (AKU), därav i arbete samt därav frånvarande hela veckan efter kön och ålder, tidigare definitioner. Månad 1970M01 - 2020M12',
  'updated': '2022-02-18T08:00:00'},
 {'id': 'NAKUSysselsatta2KTD',
  'type': 't',
  'text': 'Sysselsatta 15-74 år (AKU), därav i arbete samt därav frånvarande hela veckan efter kön och ålder, tidigare definitioner.  Kvartal 1970K1 - 2020K4',
  'updated': '2022-02-18T08:00:00'},
 {'id': 'NAKUSysselsatta2ArTD',
  'type': 't',
  'text': 'Sysselsatta 15-74 år (AKU), därav i arbete samt därav frånvarande hela veckan efter kön och ålder, tidigare definitioner.  År 1970 - 2020',
  'updated': '2022-02-18T08:00:00'},
 {'id': 'NAKUSysselAnk2MTD',
  'type': 't',
  'text': 'Sysselsatta 15-74 år (AKU) efter anknytningsgrad till arbetsmarknaden, kön och ålder, tidigare definitioner.  Månad 1970M01 - 2020M12',
  'updated': '2022-02-18T08:00:00'},
 {'id': 'NAKUSysselAnk2KTD',
  'type': 't',
  'text'

In [6]:
scb.go_down('NAKUSysselsatta2MTD')
scb.info()

{'title': 'Tidigare definitioner. Sysselsatta 15-74 år (AKU) efter kön, ålder, arbetskraftstillhörighet, tabellinnehåll och månad',
 'variables': [{'code': 'Kon',
   'text': 'kön',
   'values': ['1', '2', '1+2'],
   'valueTexts': ['män', 'kvinnor', 'totalt'],
   'elimination': True},
  {'code': 'Alder',
   'text': 'ålder',
   'values': ['15-19',
    '15-24',
    '20-24',
    '25-34',
    '35-44',
    '45-54',
    '55-64',
    '65-74',
    'tot15-74',
    'tot16-64',
    'tot16-65',
    'tot16-66',
    'tot20-64',
    'tot20-65',
    'tot20-66'],
   'valueTexts': ['15-19 år',
    '15-24 år',
    '20-24 år',
    '25-34 år',
    '35-44 år',
    '45-54 år',
    '55-64 år',
    '65-74 år',
    'totalt 15-74 år',
    'totalt 16-64 år',
    'totalt 16-65 år',
    'totalt 16-66 år',
    'totalt 20-64 år',
    'totalt 20-65 år',
    'totalt 20-66 år'],
   'elimination': True},
  {'code': 'Arbetskraftstillh',
   'text': 'arbetskraftstillhörighet',
   'values': ['SYS', 'IARBAVSYSS', 'FRANVHVAVSYS

In [7]:
# Get information about available variables at the current level
scb.get_variables()

{'kön': ['män', 'kvinnor', 'totalt'],
 'ålder': ['15-19 år',
  '15-24 år',
  '20-24 år',
  '25-34 år',
  '35-44 år',
  '45-54 år',
  '55-64 år',
  '65-74 år',
  'totalt 15-74 år',
  'totalt 16-64 år',
  'totalt 16-65 år',
  'totalt 16-66 år',
  'totalt 20-64 år',
  'totalt 20-65 år',
  'totalt 20-66 år'],
 'arbetskraftstillhörighet': ['sysselsatta',
  'sysselsatta i arbete',
  'sysselsatta frånvarande hela veckan'],
 'tabellinnehåll': ['1000-tal', 'Felmarginal ±, 1000-tal'],
 'månad': ['1970M01',
  '1970M02',
  '1970M03',
  '1970M04',
  '1970M05',
  '1970M06',
  '1970M07',
  '1970M08',
  '1970M09',
  '1970M10',
  '1970M11',
  '1970M12',
  '1971M01',
  '1971M02',
  '1971M03',
  '1971M04',
  '1971M05',
  '1971M06',
  '1971M07',
  '1971M08',
  '1971M09',
  '1971M10',
  '1971M11',
  '1971M12',
  '1972M01',
  '1972M02',
  '1972M03',
  '1972M04',
  '1972M05',
  '1972M06',
  '1972M07',
  '1972M08',
  '1972M09',
  '1972M10',
  '1972M11',
  '1972M12',
  '1973M01',
  '1973M02',
  '1973M03',
  '1

In [8]:
# Defining the start and end years
start_year = 2000
end_year = 2020

# Defining the months
months = ["01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12"]

# Initialize an empty list to store the formatted dates
formatted_dates = []

# Loop through the years and months
for year in range(start_year, end_year + 1):
    for month in months:
        formatted_date = f"{year}M{month}"
        formatted_dates.append(formatted_date)

# The 'formatted_dates' list now contains the desired date strings
print(formatted_dates)


['2000M01', '2000M02', '2000M03', '2000M04', '2000M05', '2000M06', '2000M07', '2000M08', '2000M09', '2000M10', '2000M11', '2000M12', '2001M01', '2001M02', '2001M03', '2001M04', '2001M05', '2001M06', '2001M07', '2001M08', '2001M09', '2001M10', '2001M11', '2001M12', '2002M01', '2002M02', '2002M03', '2002M04', '2002M05', '2002M06', '2002M07', '2002M08', '2002M09', '2002M10', '2002M11', '2002M12', '2003M01', '2003M02', '2003M03', '2003M04', '2003M05', '2003M06', '2003M07', '2003M08', '2003M09', '2003M10', '2003M11', '2003M12', '2004M01', '2004M02', '2004M03', '2004M04', '2004M05', '2004M06', '2004M07', '2004M08', '2004M09', '2004M10', '2004M11', '2004M12', '2005M01', '2005M02', '2005M03', '2005M04', '2005M05', '2005M06', '2005M07', '2005M08', '2005M09', '2005M10', '2005M11', '2005M12', '2006M01', '2006M02', '2006M03', '2006M04', '2006M05', '2006M06', '2006M07', '2006M08', '2006M09', '2006M10', '2006M11', '2006M12', '2007M01', '2007M02', '2007M03', '2007M04', '2007M05', '2007M06', '2007M07'

In [9]:
# Set the query parameters for the SCB API using the formatted dates

scb.set_query(ålder='totalt 15-74 år',
              arbetskraftstillhörighet=['sysselsatta', 'sysselsatta i arbete'],
              tabellinnehåll = ['1000-tal', 'Felmarginal ±, 1000-tal'],
              månad=formatted_dates)

In [10]:
# Retrieve data from the SCB API
scb_data = scb.get_data()

In [11]:
# Extract the 'data' key from the response
scb_uttag = scb_data['data']

In [12]:
type(scb_data)

dict

In [13]:
type(scb_uttag)

list

In [14]:
scb_uttag

[{'key': ['tot15-74', 'SYS', '2000M01'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M02'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M03'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M04'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M05'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M06'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M07'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M08'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M09'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M10'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M11'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2000M12'], 'values': ['..', '..']},
 {'key': ['tot15-74', 'SYS', '2001M01'], 'values': ['4236.0', '..']},
 {'key': ['tot15-74', 'SYS', '2001M02'], 'values': ['4288.5', '..']},
 {'key': ['tot15-74', 'SYS', '2001M03'], 'values': ['4285.3', '..']}

In [15]:
# Create a DataFrame from the extracted data
df = pd.DataFrame(scb_uttag)
df

Unnamed: 0,key,values
0,"[tot15-74, SYS, 2000M01]","[.., ..]"
1,"[tot15-74, SYS, 2000M02]","[.., ..]"
2,"[tot15-74, SYS, 2000M03]","[.., ..]"
3,"[tot15-74, SYS, 2000M04]","[.., ..]"
4,"[tot15-74, SYS, 2000M05]","[.., ..]"
...,...,...
499,"[tot15-74, IARBAVSYSS, 2020M08]","[3400.9, 72.2]"
500,"[tot15-74, IARBAVSYSS, 2020M09]","[4560.1, 61.9]"
501,"[tot15-74, IARBAVSYSS, 2020M10]","[4584.9, 61.2]"
502,"[tot15-74, IARBAVSYSS, 2020M11]","[4600.8, 59.8]"


In [16]:
# Create a new DataFrame from the 'key' column, splitting it into 'Population', 'Info', and 'Dates'
split_df = pd.DataFrame(df['key'].tolist(), columns=['Population', 'Info','Dates'])
split_df

Unnamed: 0,Population,Info,Dates
0,tot15-74,SYS,2000M01
1,tot15-74,SYS,2000M02
2,tot15-74,SYS,2000M03
3,tot15-74,SYS,2000M04
4,tot15-74,SYS,2000M05
...,...,...,...
499,tot15-74,IARBAVSYSS,2020M08
500,tot15-74,IARBAVSYSS,2020M09
501,tot15-74,IARBAVSYSS,2020M10
502,tot15-74,IARBAVSYSS,2020M11


In [17]:
# Create another DataFrame from the 'values' column
split_df2 = pd.DataFrame(df['values'].tolist(), columns=['Sysselsättning', 'Sysselsättning[%]'])
split_df2

Unnamed: 0,Sysselsättning,Sysselsättning[%]
0,..,..
1,..,..
2,..,..
3,..,..
4,..,..
...,...,...
499,3400.9,72.2
500,4560.1,61.9
501,4584.9,61.2
502,4600.8,59.8


In [18]:
# Concatenate the two DataFrames along columns
df = pd.concat([split_df, split_df2], axis=1)
# display df
df

Unnamed: 0,Population,Info,Dates,Sysselsättning,Sysselsättning[%]
0,tot15-74,SYS,2000M01,..,..
1,tot15-74,SYS,2000M02,..,..
2,tot15-74,SYS,2000M03,..,..
3,tot15-74,SYS,2000M04,..,..
4,tot15-74,SYS,2000M05,..,..
...,...,...,...,...,...
499,tot15-74,IARBAVSYSS,2020M08,3400.9,72.2
500,tot15-74,IARBAVSYSS,2020M09,4560.1,61.9
501,tot15-74,IARBAVSYSS,2020M10,4584.9,61.2
502,tot15-74,IARBAVSYSS,2020M11,4600.8,59.8


In [19]:
# Drop unnecessary columns
df.drop(columns=['Population','Info' ], inplace=True)

In [20]:
df

Unnamed: 0,Dates,Sysselsättning,Sysselsättning[%]
0,2000M01,..,..
1,2000M02,..,..
2,2000M03,..,..
3,2000M04,..,..
4,2000M05,..,..
...,...,...,...
499,2020M08,3400.9,72.2
500,2020M09,4560.1,61.9
501,2020M10,4584.9,61.2
502,2020M11,4600.8,59.8


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 504 entries, 0 to 503
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Dates              504 non-null    object
 1   Sysselsättning     504 non-null    object
 2   Sysselsättning[%]  504 non-null    object
dtypes: object(3)
memory usage: 11.9+ KB


In [22]:
# Extract year and month from the 'Dates' column and add '01' for the day
df['Dates'] = df['Dates'].str.extract('(\d{4})M(\d{2})').apply(lambda x: x[0] + x[1] + '01', axis=1)



# Convert the 'Date' column to datetime format 
df['Dates'] = pd.to_datetime(df['Dates'], format='%Y%m%d')


In [23]:
df

Unnamed: 0,Dates,Sysselsättning,Sysselsättning[%]
0,2000-01-01,..,..
1,2000-02-01,..,..
2,2000-03-01,..,..
3,2000-04-01,..,..
4,2000-05-01,..,..
...,...,...,...
499,2020-08-01,3400.9,72.2
500,2020-09-01,4560.1,61.9
501,2020-10-01,4584.9,61.2
502,2020-11-01,4600.8,59.8


In [24]:
# Set 'Dates' as the index
df.set_index('Dates', inplace=True)
df

Unnamed: 0_level_0,Sysselsättning,Sysselsättning[%]
Dates,Unnamed: 1_level_1,Unnamed: 2_level_1
2000-01-01,..,..
2000-02-01,..,..
2000-03-01,..,..
2000-04-01,..,..
2000-05-01,..,..
...,...,...
2020-08-01,3400.9,72.2
2020-09-01,4560.1,61.9
2020-10-01,4584.9,61.2
2020-11-01,4600.8,59.8


In [25]:
# Save the DataFrame to an Excel file
df.to_excel('employment.xlsx', index=True)
