# Datasets en Preprocessing

In [6]:
# All imports

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.graph_objs as go
import plotly.express as px
import calendar

# from pyaxis import pyaxis

from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)

## Dataset 1: Consumer Price Index

In [7]:
# Load source dataset 1

# CPI_url = "dataset_sources/CPI.px"
# CPI_decoded = pyaxis.parse(uri = CPI_url , encoding = 'ISO-8859-2')
# df_CPI = CPI_decoded["DATA"]
# df_CPI.to_csv('processed_data/CPI.csv', index=False)

# Load converted source dataset 1
df_CPI = pd.read_csv('processed_data/CPI.csv')
# df_CPI.info()
# df_CPI.head(n=5)

### Source

<table>
    <tr>
        <td>
            Bron:
        </td>
        <td>
            Statistics Sweden(SCB)
        </td>
    </tr>
    <tr>
        <td>
            Naam:
        </td>
        <td>
            Consumer Price Index (CPI), monthly changes, percent by economic indicator and month
        </td>
    </tr>
    <tr>
        <td>
            URL:
        </td>
        <td>
            https://www.statistikdatabasen.scb.se/pxweb/en/ssd/START__PR__PR0101__PR0101S/SnabbStatPR0101/
        </td>
    </tr>
</table>


Deze dataset, komt van Statistics Sweden, het statestiek bureau van de Zweedse overheid. Onze 'source' dataset komt van de URL hierboven, met:

- Observatoins: Montly changes
- economic indicator: all
- month: all (2014M01 t/m 2025M05)

### Beschrijving
De dataset geeft een overzicht van de maandelijkse veranderingen in CPI voor Zweden, van januari 2014 tot en met mei 2025. Het bied inzicht in inflatieontwikkelingen in Zweden. 

Het bevat zes verschillende prijsindexen:
1. CPI: standaard
2. CPI-CT: sluit belastingwijzigingen uit
3. CPIF: houdt hypotheekrentes constant
4. CPIF-CT: combinatie van CPIF en CPI-CT
5. HICP: Geharmoniseerde consumentenprijsindex, methode om inflatie internationaal te vergelijken
6. HICP-CT: hetzelfde als CPI-CT maar dan met de methode van HICP

Elke maand wordt het percentage weergeven waarmee de prijzen zijn verandert ten opziche van de maand ervoor.

### Processing

In [8]:
# Code processig en filterig hier
# TODO, Uncomment de de code hieronder, en zet de code er in; uncomment ook de load in Visualisatie.ipynb

# df_CPI_processed = 
# df_CPI_processed.to_csv('processed_data/CPI_2014-2024.csv', index=False)

In [9]:
# Laad processed data

df_CPI_processed = pd.read_csv('processed_data/CPI_2024-2024.csv')
df_CPI_processed.info()

Tijdens de preprocessing hebben we:

- Alleen data voor Zweden geselecteerd
- De tijdspanne beperkt tot januari 2014 t/m december 2024
- De relevante kolommen behouden

<table>
    <thead>
        <tr>
            <td></td>
            <td>
                Source
            </td>
            <td>
                Na preprocessing
            </td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                Datapunten
            </td>
            <td>
                822
            </td>
            <td>
                780
            </td>
        </tr>
        <tr>
            <td>
                Variabelen
            </td>
            <td>
                4
            </td>
            <td>
                4
            </td>
        </tr>
        <tr>
            <td>
                Tijdspanne
            </td>
            <td>
                Jan 2014 - Juni 2025
            </td>
            <td>
                Jan 2014 - Dec 2024
            </td>
        </tr>
    </tbody>
</table>

## Dataset 2: World Development Indicators

In [10]:
# Laad source dataset 2

df_WDI_all = pd.read_csv('dataset_sources/WDI_Data.csv')
df_WDI_all.info()

### Source

<table>
    <tr>
        <td>
            Bron:
        </td>
        <td>
            World Bank Group
        </td>
    </tr>
    <tr>
        <td>
            Naam:
        </td>
        <td>
            World Development Indicators
        </td>
    </tr>
    <tr>
        <td>
            URL:
        </td>
        <td>
            https://databank.worldbank.org/source/world-development-indicators
        </td>
    </tr>
</table>


Deze dataset, komt van World Bank Group. Onze 'source' dataset komt van de URL hierboven, met:

- Database: World Development Indicators
- Country: Sweden
- Series: Economic Policy & Debt (all), Financial Sector (all), Poverty (all)
- Time: all (1975 - 2024)

### Beschrijving
Deze dataset bevat economische en financiële indicatoren voor Zweden van 2014 tot 2024. Een aantal belangrijke veriabelen zijn: BBP, bruto nationaal inkomen, armoedecijfers en de gini-index(inkomensongelijkheid). Deze gegevens vormen een belangrijk achtergrondkader voor het interpreteren van trends in voedselprijzen en inkomensverdeling.

### Processing

In [11]:
# Code processig en filterig hier
df_temp = df_WDI_all
for x in range(1975, 2014):
    st = str(x) + ' [YR' + str(x) + ']'
    df_temp = df_temp.drop(st, axis=1)
df_WDI_processed = df_temp
df_WDI_processed.to_csv('processed_data/WDI_2014-2024.csv', index=False)

In [12]:
# Laad processed data

df_WDI_processed = pd.read_csv('processed_data/WDI_2014-2024.csv')
df_WDI_processed.info()
# df_WDI_processed.head(n-5)

Tijdens het preprocessing hebben we:

- Alleen data voor Zweden geselecteerd
- De tijdsperiode beperkt tot 2014–2024
- Indicatoren gefilterd op relevantie
- Ontbrekende waarden verwijderd waar nodig.

<table>
    <thead>
        <tr>
            <td></td>
            <td>
                Source
            </td>
            <td>
                Na preprocessing
            </td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                Datapunten
            </td>
            <td>
                209
            </td>
            <td>
                11
            </td>
        </tr>
        <tr>
            <td>
                Variabelen
            </td>
            <td>
                95
            </td>
            <td>
                93
            </td>
        </tr>
        <tr>
            <td>
                Tijdspanne
            </td>
            <td>
                1975 - 2025
            </td>
            <td>
                2014 - 2024
            </td>
        </tr>
    </tbody>
</table>

## Dataset 3: Annual net earnings

In [13]:
# Laad source dataset 3

df_annual_net_earnings = pd.read_csv('dataset_sources/estat_earn_nt_net_en.csv')
df_annual_net_earings.info()

### Source

<table>
    <tr>
        <td>
            Bron:
        </td>
        <td>
            Eurostat
        </td>
    </tr>
    <tr>
        <td>
            Naam
        </td>
        <td>
            Annual Net Earnings
        </td>
    </tr>
    <tr>
        <td>
            URL:
        </td>
        <td>
            https://ec.europa.eu/eurostat/databrowser/bookmark/6adafcb6-297e-4d27-b687-9b7c189c264c?lang=en
        </td>
    </tr>
</table>


Deze dataset komt van eurostat. Eurostat is van de europese commissie. Wij hebben onze 'source' dataset van de URL hierboven, met:

- Row: Geopolitical entity: Sweden
- Column: all
- Dimensions: all

### Beschrijving

Deze dataset bevat de financiele gegevens voor verschillende type huishoudens in Zweden van 2014 tot 2024. De gegevens zijn weergeven in euro en in de valuta van Zweden. De dataset bevat onder andere: bruto inkomen, netto inkomen, uitkeringen, inkomstenbelasting, sociale zekerheid en het type huishouden(gezin zonder kinderen, eenverdieners, alleenstaanden, etc.). 

### Processing

In [14]:
# Code processing en sla op

df_annual_net_earnings_processed = df_annual_net_earnings[((df_annual_net_earnings['geo'] == 'Sweden') & (df_annual_net_earnings['TIME_PERIOD'] >= 2014))].drop('geo', axis=1)
df_annual_net_earnings_processed.to_csv('processed_data/Annual_Net_Earnings_Sweden_2014-2024.csv', index=False)

In [15]:
# Laad processed data

df_annual_net_earnings_processed = pd.read_csv('processed_data/Annual_Net_Earnings_Sweden_2014-2024.csv')
df_annual_net_earnings_processed.info()
# df_annual_net_earnings_processed.head(n=5)

Tijdens de preprocessing hebben we:

- De tijdspanne beperkt tot 2014–2024
- Enkel de relevante huishoudtypes behouden voor vergelijking
- Zowel euro’s als SEK omgerekend naar een uniforme valuta waar nodig

<table>
    <thead>
        <tr>
            <td></td>
            <td>
                Source
            </td>
            <td>
                Na preprocessing
            </td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>
                Datapunten
            </td>
            <td>
                193548
            </td>
            <td>
                5742
            </td>
        </tr>
        <tr>
            <td>
                Variabelen
            </td>
            <td>
                11
            </td>
            <td>
                10
            </td>
        </tr>
        <tr>
            <td>
                Tijdspanne
            </td>
            <td>
                2000 - 2024
            </td>
            <td>
                2014 - 2024
            </td>
        </tr>
    </tbody>
</table>