In [71]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [72]:
df = pd.read_csv("2025_Jan.csv", sep=';') # Have to separate with ';' due to swedish comma system.
df.head()

Unnamed: 0,Utgiftsområde,Utgiftsområdesnamn,Anslag,Anslagsnamn,Anslagspost,Anslagspostsnamn,Anslagsdelpost,Anslagsdelpostsnamn,Myndighet,Organisationsnummer,...,Utfall november,Utfall december,Utgiftsområde utfallsår,Utgiftsområdesnamn utfallsår,Anslag utfallsår,Anslagsnamn utfallsår,Anslagspost utfallsår,Anslagspostsnamn utfallsår,Anslagsdelpost utfallsår,Anslagsdelpostsnamn utfallsår
0,,Riksgäldskontorets nettoutlåning,,Riksgäldskontorets nettoutlåning,,,,,,,...,-29069747742,3010081694312,92,Riksgäldskontorets nettoutlåning,929701,Riksgäldskontorets nettoutlåning,,,,
1,,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,,,,,,,...,1496738924,16818660261,93,Ålderspensionssystemet vid sidan av statsbudgeten,939801,Ålderspensionssystemet vid sidan av statsbudgeten,,,,
2,,Kassamässig korrigering,,Kassamässig korrigering,,,,,,,...,-24558356159,-737767225413,91,Kassamässig korrigering,919601,Kassamässig korrigering,,,,
3,1.0,Rikets styrelse,101001.0,Kungliga hov- och slottsstaten,1.0,Kungliga hovstaten,,,Kammarkollegiet,2021001000.0,...,0,0,1,Rikets styrelse,19001,Kungliga hov- och slottsstaten,1.0,Kungliga hovstaten,,
4,1.0,Rikets styrelse,101001.0,Kungliga hov- och slottsstaten,2.0,Kungliga slottsstaten,,,Kungliga hov- och slottsstaten,2021003000.0,...,776817896,1230499422,1,Rikets styrelse,19001,Kungliga hov- och slottsstaten,2.0,Kungliga slottsstaten,,


## Data cleaning and Removing unnecessary columns

In [73]:
# Data cleaning and remove unnecessary columns
# Can't remove all NaN-values because of the missing numbers that would occur. It removes the entire row.
df = df.drop(columns=['Utgiftsområde', 'Anslagspost', 'Anslag utfallsår', 'Anslagspost utfallsår', 'Anslagsdelpost utfallsår', 'Anslagsdelpostsnamn utfallsår', 'Anslagsdelpost', 'Anslagsdelpostsnamn'])

### Getting all the columns in a list + add 'År' to the first column

In [74]:
# print(df.columns)
df = df[['År','Utgiftsområdesnamn', 'Anslag', 'Anslagsnamn', 'Anslagspostsnamn',
       'Myndighet', 'Organisationsnummer', 'Utfall januari',
       'Utfall februari', 'Utfall mars', 'Utfall april', 'Utfall maj',
       'Utfall juni', 'Utfall juli', 'Utfall augusti', 'Utfall september',
       'Utfall oktober', 'Utfall november', 'Utfall december',
       'Utgiftsområde utfallsår', 'Utgiftsområdesnamn utfallsår',
       'Anslagsnamn utfallsår', 'Anslagspostsnamn utfallsår']]

## IMPORTANT STEP: Choose what year you want to analyze

In [87]:
year = 2024
df = df.loc[df['År'] >= year]

df.head()

Unnamed: 0,År,Utgiftsområdesnamn,Anslag,Anslagsnamn,Anslagspostsnamn,Myndighet,Organisationsnummer,Utgiftsområde utfallsår,Utgiftsområdesnamn utfallsår,Anslagsnamn utfallsår,Anslagspostsnamn utfallsår,Total
22806,2024,Riksgäldskontorets nettoutlåning,,Riksgäldskontorets nettoutlåning,,,,92,Riksgäldskontorets nettoutlåning,Riksgäldskontorets nettoutlåning,,1595.040688
22807,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",30203.20706
22808,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,Administrationsutgifter,,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,Administrationsutgifter,94.765832
22809,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",2.15605
22810,2024,Kassamässig korrigering,,Kassamässig korrigering,,,,91,Kassamässig korrigering,Kassamässig korrigering,,7543.777608


### Summarizing the total utfall per year

#### Checking for str-type in the utfall columns.

In [88]:
column_list = ['Utfall januari',
			'Utfall februari', 'Utfall mars', 'Utfall april', 'Utfall maj',
			'Utfall juni', 'Utfall juli', 'Utfall augusti', 'Utfall september',
			'Utfall oktober', 'Utfall november', 'Utfall december']
print(df[column_list].dtypes) # Will be object's probably

KeyError: "None of [Index(['Utfall januari', 'Utfall februari', 'Utfall mars', 'Utfall april',\n       'Utfall maj', 'Utfall juni', 'Utfall juli', 'Utfall augusti',\n       'Utfall september', 'Utfall oktober', 'Utfall november',\n       'Utfall december'],\n      dtype='object')] are in the [columns]"

##### Replace commas with dots for smoother transition from str to int.

In [None]:
df[column_list] = df[column_list].replace(',', '.', regex=True)

##### Turn each column values from str to float64.

In [None]:
df[column_list] = df[column_list].apply(pd.to_numeric)
print(df[column_list].dtypes) # Should show float64

Utfall januari      float64
Utfall februari     float64
Utfall mars         float64
Utfall april        float64
Utfall maj          float64
Utfall juni         float64
Utfall juli         float64
Utfall augusti      float64
Utfall september    float64
Utfall oktober      float64
Utfall november     float64
Utfall december     float64
dtype: object


### Creates a 'Total' column for easier analysis and drop the monthly columns.

In [None]:
df['Total'] = df[column_list].sum(axis=1)
# Remove the monthly columns for ease of use.
df = df.drop(columns=column_list)


In [None]:
df.head()

Unnamed: 0,År,Utgiftsområdesnamn,Anslag,Anslagsnamn,Anslagspostsnamn,Myndighet,Organisationsnummer,Utgiftsområde utfallsår,Utgiftsområdesnamn utfallsår,Anslagsnamn utfallsår,Anslagspostsnamn utfallsår,Total
22806,2024,Riksgäldskontorets nettoutlåning,,Riksgäldskontorets nettoutlåning,,,,92,Riksgäldskontorets nettoutlåning,Riksgäldskontorets nettoutlåning,,1595.040688
22807,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",30203.20706
22808,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,Administrationsutgifter,,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,Administrationsutgifter,94.765832
22809,2024,Ålderspensionssystemet vid sidan av statens bu...,,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",,,93,Ålderspensionssystemet vid sidan av statens bu...,Ålderspensionssystemet vid sidan av statens bu...,"AP-fonderna, pensionsutgifter",2.15605
22810,2024,Kassamässig korrigering,,Kassamässig korrigering,,,,91,Kassamässig korrigering,Kassamässig korrigering,,7543.777608


### BIG STEP: Group by and sum for each 'Myndighet' or smaller department of Sweden.

In [None]:
df_group = df.groupby("Myndighet")['Total'].sum().reset_index()
df_group_sorted = df_group.sort_values(by="Total", ascending=False).reset_index()
df_group_sorted

Unnamed: 0,index,Myndighet,Total
0,35,Försäkringskassan,20341.173784
1,148,Skatteverket,15850.570242
2,57,Kammarkollegiet,13789.154122
3,131,Pensionsmyndigheten,6161.197092
4,3,Arbetsförmedlingen,6052.403405
...,...,...,...
205,7,Bokföringsnämnden,0.817877
206,14,Domarnämnden,0.726352
207,24,Finanspolitiska rådet,0.647622
208,129,Nämnden för prövning av oredlighet i forskning,-0.033385


### Find values for given 'Myndighet'

In [None]:
search = 'Riksdagsförvaltningen'
value = df_group[df_group['Myndighet'] == search]['Total']
print(value)

139    279.529829
Name: Total, dtype: float64


### Top 15 biggest spendors

In [89]:
df_group_sorted[:15]

Unnamed: 0,index,Myndighet,Total
0,35,Försäkringskassan,20341.173784
1,148,Skatteverket,15850.570242
2,57,Kammarkollegiet,13789.154122
3,131,Pensionsmyndigheten,6161.197092
4,3,Arbetsförmedlingen,6052.403405
5,196,Trafikverket,5413.859579
6,182,Styrelsen för internationellt utvecklingssamar...,4895.062924
7,33,Försvarsmakten,3598.57185
8,133,Polismyndigheten,3218.019574
9,12,Centrala studiestödsnämnden,3102.036607


### Total of entire yearly budget (ca 119Md kr/ca $12 Billion)

In [110]:
number = df_group_sorted[:15]['Total'].sum()*1000000
nr = "{:,.8f}".format(number)
print(nr + ' kr') # About 80% of the yearly budget (pareto principle)

89,911,283,039.31001282 kr
