# Chart 4: Regional Employment Gap Map (Choropleth)

## Data Source
**Statistics Sweden (SCB)** — Integration Statistics (Register-based)

| Field | Value |
|-------|-------|
| Table | Arbetsmarknadsvariabler efter län, kön, utbildningsnivå och bakgrundsvariabel |
| URL | https://www.statistikdatabasen.scb.se/pxweb/sv/ssd/START__AA__AA0003__AA0003A/ |
| Coverage | 2022–2023 (annual) |
| Unit | Proportion employed (%) |

## How to Replicate (Download from SCB)
1. Go to: Arbetsmarknad och integration → län och kön
2. Select table: **Arbetsmarknadsvariabler efter län...**
3. Choose variables:
   - **tabellinnehåll**: `Andel sysselsatta`
   - **region**: All 21 län
   - **kön**: `män och kvinnor` (total)
   - **utbildningsnivå**: `samtliga utbildningsnivåer`
   - **bakgrundsvariabel (Födelseregion)**: All categories
   - **år**: 2022, 2023
4. Click **Fortsätt** / **Continue**
5. Download as: **CSV with heading**
6. Save as `p4_raw.csv`

## Output
CSV file for choropleth map showing employment gap (native − foreign) by Swedish county (län)

In [None]:
import pandas as pd
import json

print("Libraries loaded successfully")

Libraries loaded successfully


In [None]:
# Load data directly from GitHub, or through previous instructions
DATA_URL = "https://raw.githubusercontent.com/kelvinchwng/kelvinchwng.github.io/main/project/data/p4_raw.csv"

# Skip the title row (row 0), use row 1 as header
# Use latin-1 encoding for Swedish characters
df_raw = pd.read_csv(DATA_URL, encoding='latin-1', skiprows=1)

print(f"Loaded from: {DATA_URL}")
print(f"Shape: {df_raw.shape}")
print(f"\nColumns: {df_raw.columns.tolist()}")

# Preview the data
df_raw.head(12)

Loaded from: https://raw.githubusercontent.com/kelvinchwng/kelvinchwng.github.io/main/project/data/p4_raw.csv
Shape: (126, 6)

Columns: ['region', 'kön', 'utbildningsnivå', 'bakgrundsvariabel', '2022', '2023']


Unnamed: 0,region,kön,utbildningsnivå,bakgrundsvariabel,2022,2023
0,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,samtliga,81.7,81.2
1,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,86.3,85.5
2,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Norden exkl. Sverige,81.7,80.6
3,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: EU/EFTA exkl. Norden,72.7,72.0
4,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: övriga världen,72.3,72.9
5,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,samtliga utrikes födda invandrare,72.9,73.1
6,03 Uppsala län,män och kvinnor,samtliga utbildningsnivåer,samtliga,79.9,79.5
7,03 Uppsala län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,83.9,83.1
8,03 Uppsala län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Norden exkl. Sverige,77.9,77.0
9,03 Uppsala län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: EU/EFTA exkl. Norden,68.7,68.5


In [None]:
# Check unique values
print("Regions:")
print(df_raw['region'].unique())

print("\nBakgrundsvariabel (background):")
print(df_raw['bakgrundsvariabel'].unique())

Regions:
['01 Stockholms län' '03 Uppsala län' '04 Södermanlands län'
 '05 Östergötlands län' '06 Jönköpings län' '07 Kronobergs län'
 '08 Kalmar län' '09 Gotlands län' '10 Blekinge län' '12 Skåne län'
 '13 Hallands län' '14 Västra Götalands län' '17 Värmlands län'
 '18 Örebro län' '19 Västmanlands län' '20 Dalarnas län'
 '21 Gävleborgs län' '22 Västernorrlands län' '23 Jämtlands län'
 '24 Västerbottens län' '25 Norrbottens län']

Bakgrundsvariabel (background):
['samtliga' 'födelseregion: Sverige' 'födelseregion: Norden exkl. Sverige'
 'födelseregion: EU/EFTA exkl. Norden' 'födelseregion: övriga världen'
 'samtliga utrikes födda invandrare']


In [15]:
# Filter for the two categories we need:
# - Native-born: 'födelseregion: Sverige' (exact match, not 'Norden exkl. Sverige')
# - Foreign-born: 'samtliga utrikes födda invandrare'

native_filter = df_raw['bakgrundsvariabel'] == 'födelseregion: Sverige'
foreign_filter = df_raw['bakgrundsvariabel'] == 'samtliga utrikes födda invandrare'

df_native = df_raw[native_filter].copy()
df_foreign = df_raw[foreign_filter].copy()

print(f"Native-born rows: {len(df_native)}")
print(f"Foreign-born rows: {len(df_foreign)}")

df_native.head()

Native-born rows: 21
Foreign-born rows: 21


Unnamed: 0,region,kön,utbildningsnivå,bakgrundsvariabel,2022,2023
1,01 Stockholms län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,86.3,85.5
7,03 Uppsala län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,83.9,83.1
13,04 Södermanlands län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,85.0,84.1
19,05 Östergötlands län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,84.2,83.6
25,06 Jönköpings län,män och kvinnor,samtliga utbildningsnivåer,födelseregion: Sverige,88.0,87.2


In [16]:
# Clean region names to match GeoJSON
# Remove the numeric prefix (e.g., "01 Stockholms län" → "Stockholms län")
# Then remove 's län' or ' län' suffix to match se.json (e.g., "Stockholm", "Skåne")

def clean_region_name(name):
    # Remove leading number and space (e.g., "01 " or "12 ")
    if name[:2].isdigit():
        name = name[3:]  # Skip "XX "
    # Remove 's län' or ' län' suffix
    if name.endswith('s län'):
        name = name[:-5]  # Remove 's län'
    elif name.endswith(' län'):
        name = name[:-4]  # Remove ' län'
    return name

df_native['name'] = df_native['region'].apply(clean_region_name)
df_foreign['name'] = df_foreign['region'].apply(clean_region_name)

print("Cleaned region names:")
print(df_native['name'].unique())

Cleaned region names:
['Stockholm' 'Uppsala' 'Södermanland' 'Östergötland' 'Jönköping'
 'Kronoberg' 'Kalmar' 'Gotland' 'Blekinge' 'Skåne' 'Halland'
 'Västra Götaland' 'Värmland' 'Örebro' 'Västmanland' 'Dalarna' 'Gävleborg'
 'Västernorrland' 'Jämtland' 'Västerbotten' 'Norrbotten']


In [17]:
# Extract 2023 employment rates
df_native_2023 = df_native[['name', '2023']].rename(columns={'2023': 'native_rate'})
df_foreign_2023 = df_foreign[['name', '2023']].rename(columns={'2023': 'foreign_rate'})

# Merge on region name
df_merged = pd.merge(df_native_2023, df_foreign_2023, on='name')

# Calculate employment gap
df_merged['gap'] = (df_merged['native_rate'] - df_merged['foreign_rate']).round(1)

print(f"Merged shape: {df_merged.shape}")
df_merged

Merged shape: (21, 4)


Unnamed: 0,name,native_rate,foreign_rate,gap
0,Stockholm,85.5,73.1,12.4
1,Uppsala,83.1,69.2,13.9
2,Södermanland,84.1,67.5,16.6
3,Östergötland,83.6,67.6,16.0
4,Jönköping,87.2,71.5,15.7
5,Kronoberg,86.0,67.7,18.3
6,Kalmar,85.1,68.8,16.3
7,Gotland,84.4,65.8,18.6
8,Blekinge,84.7,65.4,19.3
9,Skåne,83.1,66.4,16.7


In [18]:
# Check what names exist in the GeoJSON to ensure matching
import requests

geojson_url = "https://raw.githubusercontent.com/kelvinchwng/kelvinchwng.github.io/main/portfolio/data/se.json"
geojson = requests.get(geojson_url).json()

geojson_names = [f['properties']['name'] for f in geojson['features']]
print("GeoJSON property names:")
print(sorted(geojson_names))

GeoJSON property names:
['Blekinge', 'Dalarna', 'Gotland', 'Gävleborg', 'Halland', 'Jämtland', 'Jönköping', 'Kalmar', 'Kronoberg', 'Norrbotten', 'Skåne', 'Stockholm', 'Södermanland', 'Uppsala', 'Värmland', 'Västerbotten', 'Västernorrland', 'Västmanland', 'Västra Götaland', 'Örebro', 'Östergötland']


In [19]:
# Compare CSV names with GeoJSON names to find mismatches
csv_names = set(df_merged['name'].tolist())
geo_names = set(geojson_names)

print("In CSV but not in GeoJSON:")
print(csv_names - geo_names)

print("\nIn GeoJSON but not in CSV:")
print(geo_names - csv_names)

In CSV but not in GeoJSON:
set()

In GeoJSON but not in CSV:
set()


In [20]:
# If there are mismatches, create a mapping to fix them
# Common issues: "Skåne län" vs "Skånes län", "Västra Götalands län" vs "Västra Götaland", etc.

# This cell will need adjustment based on actual mismatches found above
# Example mapping (adjust as needed):
name_mapping = {
    # 'CSV name': 'GeoJSON name',
    # Add mappings here if needed
}

if name_mapping:
    df_merged['name'] = df_merged['name'].replace(name_mapping)
    print("Applied name mapping")
else:
    print("No mapping needed - names match!")

df_merged

No mapping needed - names match!


Unnamed: 0,name,native_rate,foreign_rate,gap
0,Stockholm,85.5,73.1,12.4
1,Uppsala,83.1,69.2,13.9
2,Södermanland,84.1,67.5,16.6
3,Östergötland,83.6,67.6,16.0
4,Jönköping,87.2,71.5,15.7
5,Kronoberg,86.0,67.7,18.3
6,Kalmar,85.1,68.8,16.3
7,Gotland,84.4,65.8,18.6
8,Blekinge,84.7,65.4,19.3
9,Skåne,83.1,66.4,16.7


In [21]:
# Summary statistics
print("Employment Gap Statistics (2023):")
print("="*50)
print(f"Mean gap: {df_merged['gap'].mean():.1f} pp")
print(f"Min gap: {df_merged['gap'].min():.1f} pp ({df_merged.loc[df_merged['gap'].idxmin(), 'name']})")
print(f"Max gap: {df_merged['gap'].max():.1f} pp ({df_merged.loc[df_merged['gap'].idxmax(), 'name']})")

print("\nTop 5 largest gaps:")
print(df_merged.nlargest(5, 'gap')[['name', 'native_rate', 'foreign_rate', 'gap']])

print("\nTop 5 smallest gaps:")
print(df_merged.nsmallest(5, 'gap')[['name', 'native_rate', 'foreign_rate', 'gap']])

Employment Gap Statistics (2023):
Mean gap: 15.5 pp
Min gap: 10.4 pp (Norrbotten)
Max gap: 19.3 pp (Blekinge)

Top 5 largest gaps:
         name  native_rate  foreign_rate   gap
8    Blekinge         84.7          65.4  19.3
7     Gotland         84.4          65.8  18.6
5   Kronoberg         86.0          67.7  18.3
16  Gävleborg         84.2          66.3  17.9
15    Dalarna         85.8          68.4  17.4

Top 5 smallest gaps:
               name  native_rate  foreign_rate   gap
20       Norrbotten         85.4          75.0  10.4
19     Västerbotten         84.7          72.9  11.8
0         Stockholm         85.5          73.1  12.4
1           Uppsala         83.1          69.2  13.9
11  Västra Götaland         85.3          71.4  13.9


In [22]:
# Export to CSV (matching cc5 format for choropleth lookup)
output_filename = 'p4_data.csv'

# Select and rename columns to match Vega-Lite lookup format
# Use 'name' as key (matching cc5_data2.csv format) and 'employment_gap' as value
df_output = df_merged[['name', 'native_rate', 'foreign_rate', 'gap']].copy()
df_output = df_output.rename(columns={'gap': 'employment_gap'})

df_output.to_csv(output_filename, index=False)

print(f"Exported {len(df_output)} rows to {output_filename}")
print(f"\nCSV preview:")
print(df_output.to_string(index=False))

Exported 21 rows to p4_data.csv

CSV preview:
           name  native_rate  foreign_rate  employment_gap
      Stockholm         85.5          73.1            12.4
        Uppsala         83.1          69.2            13.9
   Södermanland         84.1          67.5            16.6
   Östergötland         83.6          67.6            16.0
      Jönköping         87.2          71.5            15.7
      Kronoberg         86.0          67.7            18.3
         Kalmar         85.1          68.8            16.3
        Gotland         84.4          65.8            18.6
       Blekinge         84.7          65.4            19.3
          Skåne         83.1          66.4            16.7
        Halland         87.0          72.6            14.4
Västra Götaland         85.3          71.4            13.9
       Värmland         84.3          67.6            16.7
         Örebro         83.7          69.0            14.7
    Västmanland         84.5          70.3            14.2
        Da

In [23]:
# Export to CSV (matching cc5 format for choropleth lookup)
output_filename = 'p4_data.csv'

# Select and rename columns to match Vega-Lite lookup format
# Use 'name' as key (matching cc5_data2.csv format) and 'employment_gap' as value
df_output = df_merged[['name', 'native_rate', 'foreign_rate', 'gap']].copy()
df_output = df_output.rename(columns={'gap': 'employment_gap'})

df_output.to_csv(output_filename, index=False)

print(f"Exported {len(df_output)} rows to {output_filename}")
print(f"\nCSV preview:")
print(df_output.to_string(index=False))

# Download
from google.colab import files
files.download(output_filename)

print(f"\nDownloaded: {output_filename}")

Exported 21 rows to p4_data.csv

CSV preview:
           name  native_rate  foreign_rate  employment_gap
      Stockholm         85.5          73.1            12.4
        Uppsala         83.1          69.2            13.9
   Södermanland         84.1          67.5            16.6
   Östergötland         83.6          67.6            16.0
      Jönköping         87.2          71.5            15.7
      Kronoberg         86.0          67.7            18.3
         Kalmar         85.1          68.8            16.3
        Gotland         84.4          65.8            18.6
       Blekinge         84.7          65.4            19.3
          Skåne         83.1          66.4            16.7
        Halland         87.0          72.6            14.4
Västra Götaland         85.3          71.4            13.9
       Värmland         84.3          67.6            16.7
         Örebro         83.7          69.0            14.7
    Västmanland         84.5          70.3            14.2
        Da

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


Downloaded: p4_data.csv


---
## Summary

### Data Pipeline
```
SCB Integration Statistics (employment rate by region × birth region)
    |
    v
Filter: native-born (Sverige) vs foreign-born (samtliga utrikes födda)
    |
    v
Clean region names to match GeoJSON properties
    |
    v
Calculate gap: native_rate - foreign_rate
    |
    v
CSV export for Vega-Lite choropleth lookup
```

### Output Schema (CSV)
```csv
name,native_rate,foreign_rate,employment_gap
Stockholm,85.5,73.1,12.4
Skåne,83.1,66.4,16.7
...
```

### Vega-Lite Lookup
The CSV `name` column matches `properties.name` in se.json GeoJSON for the lookup transform (same format as cc5_data2.csv).