# Enterprise Size

In [3]:
import pandas as pd

filename = "Bedrijven__bedrijfsgrootte_en_rechtsvorm_27012026_123318.csv"

df = pd.read_csv(filename, sep=';', skiprows=[0, 1, 2, 4], encoding='utf-8-sig')


df = df.rename(columns={
    'Unnamed: 0' : 'Sector',
    'Totaal bedrijven' : 'Total',
    'Bedrijfsgrootte|1 werkzaam persoon': '1 worker',
    'Bedrijfsgrootte|2 tot 10 werkzame personen': '2-10 workers',
    'Bedrijfsgrootte|10 tot 50 werkzame personen': '10-50 workers',
    'Bedrijfsgrootte|50 tot 250 werkzame personen': '50-250 workers'
})

df.set_index('Sector', inplace=True)
df = df.drop('Bron: CBS')
df = df.astype(int)
df

Unnamed: 0_level_0,Total,1 worker,2-10 workers,10-50 workers,50-250 workers
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A-U Alle economische activiteiten,2392455,1965125,354805,56675,12150
"Business Economy, B-N, excl. K, incl. 95",1630865,1317745,256120,45325,9525
"A Landbouw, bosbouw en visserij",78235,40715,35520,1805,185
B-E Nijverheid (geen bouw) en energie,91615,65650,17135,6115,2170
B Delfstoffenwinning,645,505,65,40,35
C Industrie,86720,61975,16420,5820,2020
D Energievoorziening,2205,1800,275,75,35
E Waterbedrijven en afvalbeheer,2045,1375,375,185,80
F Bouwnijverheid,270790,234820,30445,4595,775
"G-I Handel, vervoer en horeca",446310,299380,121860,20980,3440


In [4]:
# All business economy
# business_economy_sectors = [
#     'Business Economy, B-N, excl. K, incl. 95',
#     'B-E Nijverheid (geen bouw) en energie',
#     'B Delfstoffenwinning',
#     'C Industrie',
#     'D Energievoorziening',
#     'E Waterbedrijven en afvalbeheer',
#     'F Bouwnijverheid',
#     'G-I Handel, vervoer en horeca',
#     'G Handel',
#     'H Vervoer en opslag',
#     'I Horeca',
#     'J Informatie en communicatie',
#     'L Verhuur en handel van onroerend goed',
#     'M-N Zakelijke dienstverlening',
#     'M Specialistische zakelijke diensten',
#     'N Verhuur en overige zakelijke diensten'
# ]

# Grouped
business_economy_sectors = [
    'Business Economy, B-N, excl. K, incl. 95',
    'B-E Nijverheid (geen bouw) en energie',
    'F Bouwnijverheid',
    'G-I Handel, vervoer en horeca',
    'J Informatie en communicatie',
    'L Verhuur en handel van onroerend goed',
    'M-N Zakelijke dienstverlening'
]


df_BE = df.loc[df.index.isin(business_economy_sectors)]

# CBS data on SME size
df_BE

Unnamed: 0_level_0,Total,1 worker,2-10 workers,10-50 workers,50-250 workers
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"Business Economy, B-N, excl. K, incl. 95",1630865,1317745,256120,45325,9525
B-E Nijverheid (geen bouw) en energie,91615,65650,17135,6115,2170
F Bouwnijverheid,270790,234820,30445,4595,775
"G-I Handel, vervoer en horeca",446310,299380,121860,20980,3440
J Informatie en communicatie,132900,114255,14685,3095,720
L Verhuur en handel van onroerend goed,39400,30605,8080,500,180
M-N Zakelijke dienstverlening,640125,565010,62295,9965,2230


# Enterprise Age


In [5]:
# CBS data on SME age
enterprise_age = {"0-3" : 348175,
                  "3-5" : 261480,
                  "5-10" : 389545,
                  "10+" : 618635}


In [6]:
sum(enterprise_age.values())

1617835

In [None]:
size_categories = ["micro", "small", "medium"]
age_categories  = ["young", "mature", "old"]

# Size per Sector
# Size Categories:
#   Micro: 0 - 10 workers
#   Small: 10 - 50 workers
#   Medium: 50 -250 workers
df_size = pd.DataFrame({
    "Micro": df_BE.iloc[:,1]+df_BE.iloc[:,2],
    "Small": df_BE.iloc[:,3],
    "Medium": df_BE.iloc[:,4]
}, index=df_BE.index)

df_size.loc["Total per Size"] = df_size.sum()

# Age Categories:
#   Young: 0 - 5 years
#   Mature: 6 - 11 years
#   Old: > 10 years
sme_age = {
    "young":enterprise_age.get("0-3",0)+enterprise_age.get("3-5"),
    "mature": enterprise_age.get("5-10",0),
    "old": enterprise_age.get("10+",0)
    }
sectors = list(df_size[1:].index)


# Compute Szie shares when a subset of sectors is selected
def compute_size_shares(df = df_size, sectors=sectors):
    if isinstance(sectors, str):
        sectors = [sectors]
    
    population_subset = df.loc[sectors]
    total_smes = population_subset.sum().sum()
    total_per_cat = population_subset.sum()
    size_shares = {
        cat: round(total_per_cat[cat]/total_smes,4)
        for cat in total_per_cat.index
    }
    return size_shares



In [None]:
# Size Shares when all sectors are selected
compute_size_shares(df_size,sectors)

{'Micro': np.float64(0.9662),
 'Small': np.float64(0.0279),
 'Medium': np.float64(0.0059)}