# Fetching and Processing Average Monthly Earnings Data by Region from Statistics Sweden (SCB)

This code fetches average monthly earnings data from Statistics Sweden (SCB) for selected regions and years, processes the data, and saves it to an Excel file named 'averagesalary.xlsx'.

In [1]:
# Import necessary libraries
from pyscbwrapper import SCB
import numpy as np
import pandas as pd

###  Connecting to SCB api and navigate to the desired data

In [2]:
# Initialize SCB object for Swedish data
scb2 = SCB('sv')
scb2.info()

[{'id': 'AA', 'type': 'l', 'text': 'Ämnesövergripande statistik'},
 {'id': 'AM', 'type': 'l', 'text': 'Arbetsmarknad'},
 {'id': 'BE', 'type': 'l', 'text': 'Befolkning'},
 {'id': 'BO', 'type': 'l', 'text': 'Boende, byggande och bebyggelse'},
 {'id': 'EN', 'type': 'l', 'text': 'Energi'},
 {'id': 'FM', 'type': 'l', 'text': 'Finansmarknad'},
 {'id': 'HA', 'type': 'l', 'text': 'Handel med varor och tjänster'},
 {'id': 'HE', 'type': 'l', 'text': 'Hushållens ekonomi'},
 {'id': 'HS', 'type': 'l', 'text': 'Hälso- och sjukvård'},
 {'id': 'JO', 'type': 'l', 'text': 'Jord- och skogsbruk, fiske'},
 {'id': 'KU', 'type': 'l', 'text': 'Kultur och fritid'},
 {'id': 'LE', 'type': 'l', 'text': 'Levnadsförhållanden'},
 {'id': 'ME', 'type': 'l', 'text': 'Demokrati'},
 {'id': 'MI', 'type': 'l', 'text': 'Miljö'},
 {'id': 'NR', 'type': 'l', 'text': 'Nationalräkenskaper'},
 {'id': 'NV', 'type': 'l', 'text': 'Näringsverksamhet'},
 {'id': 'OE', 'type': 'l', 'text': 'Offentlig ekonomi'},
 {'id': 'PR', 'type': 'l'

In [3]:
scb2.go_down('AM')
scb2.info()

[{'id': 'AM0301',
  'type': 'l',
  'text': 'Arbetskostnadsindex för arbetare och tjänstemän inom privat sektor (AKI)'},
 {'id': 'AM0401', 'type': 'l', 'text': 'Arbetskraftsundersökningarna (AKU)'},
 {'id': 'AM0403',
  'type': 'l',
  'text': 'Arbetskraftsundersökningarna, tidigare definitioner'},
 {'id': 'AM0402',
  'type': 'l',
  'text': 'Arbetskraftsundersökningar, äldre serier (AKU)'},
 {'id': 'AM0501', 'type': 'l', 'text': 'Arbetsmiljöundersökningen'},
 {'id': 'AM0502', 'type': 'l', 'text': 'Arbetsorsakade besvär'},
 {'id': 'AM0210',
  'type': 'l',
  'text': 'Befolkningens arbetsmarknadsstatus (BAS)'},
 {'id': 'AM0209',
  'type': 'l',
  'text': 'Konjunkturstatistik över sjuklöner (KSju)'},
 {'id': 'AM0701',
  'type': 'l',
  'text': 'Konjunkturstatistik över vakanser (KV)'},
 {'id': 'AM0108',
  'type': 'l',
  'text': 'Konjunkturstatistik, löner för kommuner (KLK)'},
 {'id': 'AM0109',
  'type': 'l',
  'text': 'Konjunkturstatistik, löner för regioner (KLR)'},
 {'id': 'AM0101',
  'type'

In [4]:
scb2.go_down('AM0106')
scb2.info()

[{'id': 'AM0106A', 'type': 'l', 'text': 'Löner'},
 {'id': 'AM0106C',
  'type': 'l',
  'text': 'Tidsserie: Anställda inom offentlig sektor'},
 {'id': 'AM0106D', 'type': 'l', 'text': 'Äldre tabeller som inte uppdateras'}]

In [5]:
scb2.go_down('AM0106A')
scb2.info()

[{'id': 'Kommun17g',
  'type': 't',
  'text': 'Genomsnittlig månadslön inom kommuner efter kommun och kön. År 2007 - 2022',
  'updated': '2023-05-16T08:00:00'},
 {'id': 'Kommunutb',
  'type': 't',
  'text': 'Genomsnittlig månadslön, lönespridning m.m. inom kommuner efter utbildningsinriktning, utbildningsnivå och kön. År 2001 - 2022',
  'updated': '2023-05-16T08:00:00'},
 {'id': 'Kommun10g',
  'type': 't',
  'text': 'Genomsnittlig månadslön inom kommuner efter verksamhetsområde, tjänstgöringsomfattning och kön. År 2000 - 2022',
  'updated': '2023-05-16T08:00:00'},
 {'id': 'Kommun9gNy',
  'type': 't',
  'text': 'Genomsnittlig månadslön inom kommuner efter verksamhetsområde, överenskommen sysselsättningsgrad och kön. År 2012 - 2022',
  'updated': '2023-05-16T08:00:00'},
 {'id': 'Kommun1g12',
  'type': 't',
  'text': 'Genomsnittlig månadslön inom kommuner efter län, yrke SSYK 2012  och kön. År 2014 - 2022',
  'updated': '2023-05-16T08:00:00'},
 {'id': 'Kommun2g12',
  'type': 't',
  'text'

In [6]:
scb2.go_down('Kommun17g')
scb2.info()

{'title': 'Genomsnittlig månadslön inom kommuner efter region, kön, tabellinnehåll och år',
 'variables': [{'code': 'Region',
   'text': 'region',
   'values': ['00',
    '0114',
    '0115',
    '0117',
    '0120',
    '0123',
    '0125',
    '0126',
    '0127',
    '0128',
    '0136',
    '0138',
    '0139',
    '0140',
    '0160',
    '0162',
    '0163',
    '0180',
    '0181',
    '0182',
    '0183',
    '0184',
    '0186',
    '0187',
    '0188',
    '0191',
    '0192',
    '0305',
    '0319',
    '0330',
    '0331',
    '0360',
    '0380',
    '0381',
    '0382',
    '0428',
    '0461',
    '0480',
    '0481',
    '0482',
    '0483',
    '0484',
    '0486',
    '0488',
    '0509',
    '0512',
    '0513',
    '0560',
    '0561',
    '0562',
    '0563',
    '0580',
    '0581',
    '0582',
    '0583',
    '0584',
    '0586',
    '0604',
    '0617',
    '0642',
    '0643',
    '0662',
    '0665',
    '0680',
    '0682',
    '0683',
    '0684',
    '0685',
    '0686',
    '0687',
    '

### Get and create a dataframe with the extract data

In [7]:
# Retrieve available variables for the selected data
scb2.get_variables()

{'region': ['Riket',
  'Upplands Väsby',
  'Vallentuna',
  'Österåker',
  'Värmdö',
  'Järfälla',
  'Ekerö',
  'Huddinge',
  'Botkyrka',
  'Salem',
  'Haninge',
  'Tyresö',
  'Upplands-Bro',
  'Nykvarn',
  'Täby',
  'Danderyd',
  'Sollentuna',
  'Stockholm',
  'Södertälje',
  'Nacka',
  'Sundbyberg',
  'Solna',
  'Lidingö',
  'Vaxholm',
  'Norrtälje',
  'Sigtuna',
  'Nynäshamn',
  'Håbo',
  'Älvkarleby',
  'Knivsta',
  'Heby',
  'Tierp',
  'Uppsala',
  'Enköping',
  'Östhammar',
  'Vingåker',
  'Gnesta',
  'Nyköping',
  'Oxelösund',
  'Flen',
  'Katrineholm',
  'Eskilstuna',
  'Strängnäs',
  'Trosa',
  'Ödeshög',
  'Ydre',
  'Kinda',
  'Boxholm',
  'Åtvidaberg',
  'Finspång',
  'Valdemarsvik',
  'Linköping',
  'Norrköping',
  'Söderköping',
  'Motala',
  'Vadstena',
  'Mjölby',
  'Aneby',
  'Gnosjö',
  'Mullsjö',
  'Habo',
  'Gislaved',
  'Vaggeryd',
  'Jönköping',
  'Nässjö',
  'Värnamo',
  'Sävsjö',
  'Vetlanda',
  'Eksjö',
  'Tranås',
  'Uppvidinge',
  'Lessebo',
  'Tingsryd',
  'Al

In [8]:
# Define a list of years for which data will be fetched and set the query parameters, specifying regions and years
years = ['2007','2008','2009','2010','2011','2012','2013','2014','2015','2016','2017','2018','2019','2020', '2021']

scb2.set_query(region=['Riket', 'Malmö', 'Stockholm', 'Göteborg'],
              år=years)


In [9]:
# Fetch data from SCB
data2 = scb2.get_data()

In [10]:
# Extract relevant data from the fetched results
data3 = data2['data']

In [11]:
# Create a DataFrame from the extracted data
mlön_region = pd.DataFrame(data3)
mlön_region

Unnamed: 0,key,values
0,"[00, 2007]","[21800, 762200]"
1,"[00, 2008]","[23200, 756400]"
2,"[00, 2009]","[24100, 748500]"
3,"[00, 2010]","[24500, 752000]"
4,"[00, 2011]","[25000, 756600]"
5,"[00, 2012]","[25500, 745600]"
6,"[00, 2013]","[26400, 747300]"
7,"[00, 2014]","[27200, 774400]"
8,"[00, 2015]","[28000, 793600]"
9,"[00, 2016]","[28900, 823600]"


### Processing and Mapping Average Monthly Earnings Data by Region - From Code to Excel






In [12]:
# Split the 'key' column into 'Region_code' and 'Year'
split_df3 = pd.DataFrame(mlön_region['key'].tolist(), columns=['Region_code','Year'])
split_df3.head()

Unnamed: 0,Region_code,Year
0,0,2007
1,0,2008
2,0,2009
3,0,2010
4,0,2011


In [13]:
# Split the 'values' column into 'Medellön' and 'Vet ej'
split_df4 = pd.DataFrame(mlön_region['values'].tolist(), columns=['Medellön','Vet ej'])
split_df4.head()

Unnamed: 0,Medellön,Vet ej
0,21800,762200
1,23200,756400
2,24100,748500
3,24500,752000
4,25000,756600


In [14]:
# Drop the 'Vet ej' column
split_df4.drop(columns='Vet ej', inplace=True)

In [15]:
split_df4.head()

Unnamed: 0,Medellön
0,21800
1,23200
2,24100
3,24500
4,25000


In [16]:
# Concatenate the split DataFrames along the columns
mlön_regioner = pd.concat([split_df3, split_df4], axis=1)

In [17]:
# Get unique region codes
region_code = mlön_regioner.Region_code.unique()
region_code

array(['00', '0180', '1280', '1480'], dtype=object)

In [18]:
# Map region codes to readable region names
region=['Riket', 'Stockholm','Malmö', 'Göteborg']
conditions = [
    (mlön_regioner['Region_code'] == region_code[0]),
    (mlön_regioner['Region_code'] == region_code[1]),
    (mlön_regioner['Region_code'] == region_code[2]),
    (mlön_regioner['Region_code'] == region_code[3])
]
mlön_regioner['Region'] = np.select(conditions, region)
mlön_regioner.head()

Unnamed: 0,Region_code,Year,Medellön,Region
0,0,2007,21800,Riket
1,0,2008,23200,Riket
2,0,2009,24100,Riket
3,0,2010,24500,Riket
4,0,2011,25000,Riket


In [19]:
# Drop the 'Region_code' column
mlön_regioner.drop(columns='Region_code', inplace=True)

In [20]:
# Convert the 'Year' column to datetime format
mlön_regioner['Year'] = pd.to_datetime(mlön_regioner['Year'], format='%Y')
mlön_regioner.head()

Unnamed: 0,Year,Medellön,Region
0,2007-01-01,21800,Riket
1,2008-01-01,23200,Riket
2,2009-01-01,24100,Riket
3,2010-01-01,24500,Riket
4,2011-01-01,25000,Riket


In [21]:
# Set 'Year' column as the index
mlön_regioner.set_index('Year', inplace=True)
mlön_regioner.head()

Unnamed: 0_level_0,Medellön,Region
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2007-01-01,21800,Riket
2008-01-01,23200,Riket
2009-01-01,24100,Riket
2010-01-01,24500,Riket
2011-01-01,25000,Riket


In [22]:
# Save the DataFrame to an Excel file
mlön_regioner.to_excel('averagesalary.xlsx', index=True)

In [23]:
mlön_regioner

Unnamed: 0_level_0,Medellön,Region
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2007-01-01,21800,Riket
2008-01-01,23200,Riket
2009-01-01,24100,Riket
2010-01-01,24500,Riket
2011-01-01,25000,Riket
2012-01-01,25500,Riket
2013-01-01,26400,Riket
2014-01-01,27200,Riket
2015-01-01,28000,Riket
2016-01-01,28900,Riket
