In [None]:
import pandas as pd
import re

In [139]:
import pandas as pd
import re

def expand_quarter_to_daily(df, quarter_col=None, use_index=False):
    """
    Expands rows in the DataFrame so that each valid quarter is expanded into daily rows
    covering the entire quarter, with the same values copied to each day.

    Expected quarter format: "year number kwartaal" (e.g., "2020 4e kwartaal" or "2020 4 kwartaal").
    Rows are skipped if:
      - The value is exactly "Bron: CBS"
      - The value is not in the expected quarter format (e.g., if it’s only a year or otherwise invalid).

    Parameters:
        df (pd.DataFrame): The original DataFrame.
        quarter_col (str, optional): Name of the column containing the quarter info.
                                     Must be provided if use_index is False.
        use_index (bool): If True, the quarter info is taken from the DataFrame's index.

    Returns:
        pd.DataFrame: A new DataFrame with a daily date index and expanded rows.
    """
    def convert_quarter_string(s):
        s = s.strip()
        # Expected pattern: "YYYY <number>[optional letter] kwartaal"
        pattern = r"^(\d{4})\s+(\d+)[a-zA-Z]*\s+kwartaal$"
        m = re.fullmatch(pattern, s)
        if m:
            year = m.group(1)
            quarter = m.group(2)
            return pd.Period(f"{year}Q{quarter}", freq='Q')
        else:
            return None

    expanded_rows = []
    
    for idx, row in df.iterrows():
        # Extract the quarter string either from the index or the specified column.
        if use_index:
            quarter_str = str(idx).strip()
        else:
            if quarter_col is None:
                raise ValueError("quarter_col must be provided if use_index is False.")
            quarter_str = str(row[quarter_col]).strip()
        
        # Skip rows that should be dropped.
        if quarter_str == "Bron: CBS":
            continue
        
        period = convert_quarter_string(quarter_str)
        if period is None:
            continue  # Skip rows not matching the expected quarter format.
        
        start_date = period.start_time
        end_date = period.end_time
        
        # Create a daily date range for the quarter.
        daily_index = pd.date_range(start=start_date, end=end_date, freq='D')
        # Duplicate the row for each day.
        row_expanded = pd.DataFrame([row] * len(daily_index), index=daily_index)
        row_expanded['date'] = daily_index
        
        expanded_rows.append(row_expanded)
    
    return pd.concat(expanded_rows) if expanded_rows else pd.DataFrame()


def expand_year_to_daily(df, year_col=None, use_index=False):
    """
    Expands rows in the DataFrame so that each valid year is expanded into daily rows
    covering the entire year, with the same values copied to each day.

    Expected year format: a four-digit year (e.g., "2020").
    Rows are skipped if:
      - The value is exactly "Bron: CBS"
      - The value is not a valid four-digit year.

    Parameters:
        df (pd.DataFrame): The original DataFrame.
        year_col (str, optional): Name of the column containing the year info.
                                  Must be provided if use_index is False.
        use_index (bool): If True, the year info is taken from the DataFrame's index.

    Returns:
        pd.DataFrame: A new DataFrame with a daily date index and expanded rows.
    """
    def convert_year_string(s):
        s = s.strip()
        # Expected: exactly a four-digit year.
        m = re.fullmatch(r"\d{4}", s)
        if m:
            return int(s)
        else:
            return None

    expanded_rows = []
    
    for idx, row in df.iterrows():
        # Extract the year string either from the index or from the specified column.
        if use_index:
            year_str = str(idx).strip()
        else:
            if year_col is None:
                raise ValueError("year_col must be provided if use_index is False.")
            year_str = str(row[year_col]).strip()
        
        # Skip rows that should be dropped.
        if year_str == "Bron: CBS":
            continue
        
        year_int = convert_year_string(year_str)
        if year_int is None:
            continue  # Skip rows that do not have a valid year.
        
        start_date = pd.Timestamp(year=year_int, month=1, day=1)
        end_date = pd.Timestamp(year=year_int, month=12, day=31)
        
        # Create a daily date range for the year.
        daily_index = pd.date_range(start=start_date, end=end_date, freq='D')
        # Duplicate the row for each day.
        row_expanded = pd.DataFrame([row] * len(daily_index), index=daily_index)
        row_expanded['date'] = daily_index
        
        expanded_rows.append(row_expanded)
    
    return pd.concat(expanded_rows) if expanded_rows else pd.DataFrame()


# Example usage:
# Quarter-based expansion using a column:
data_quarter = {
    'quarter': ["2020 4e kwartaal   ", "2021 1e kwartaal", "2022", "Bron: CBS", "2023 extra"],
    'value': [100, 200, 300, 400, 500]
}
df_quarter = pd.DataFrame(data_quarter)
df_quarter_expanded = expand_quarter_to_daily(df_quarter, quarter_col='quarter')
print("Quarter-based expansion (using column):")
print(df_quarter_expanded.head())

# Year-based expansion using the index:
data_year = {
    'value': [100, 200, 300, 400]
}
# Create a DataFrame with the index as year strings.
df_year = pd.DataFrame(data_year, index=["2020", "2021", "Bron: CBS", "2023"])
df_year_expanded = expand_year_to_daily(df_year, use_index=True)
print("\nYear-based expansion (using index):")
print(df_year_expanded.head())


Quarter-based expansion (using column):
                        quarter  value       date
2020-10-01  2020 4e kwartaal       100 2020-10-01
2020-10-02  2020 4e kwartaal       100 2020-10-02
2020-10-03  2020 4e kwartaal       100 2020-10-03
2020-10-04  2020 4e kwartaal       100 2020-10-04
2020-10-05  2020 4e kwartaal       100 2020-10-05

Year-based expansion (using index):
            value       date
2020-01-01    100 2020-01-01
2020-01-02    100 2020-01-02
2020-01-03    100 2020-01-03
2020-01-04    100 2020-01-04
2020-01-05    100 2020-01-05


In [140]:
LaborParticipation = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Arbeidsdeelname__kerncijfers_seizoengecorrigeerd_21022025_095354.csv',
sep=';', header=3)
LaborParticipation = LaborParticipation.drop([0])
LaborParticipation.head(5)
LaborParticipation_daily = expand_quarter_to_daily(LaborParticipation, 'Unnamed: 0')
LaborParticipation_daily.head(5)



Unnamed: 0.1,Unnamed: 0,Beroepsbevolking|werkloze beroepsbevolking|Werkloze beroepsbevolking,Beroepsbevolking|werkloze beroepsbevolking|Kortdurig,Beroepsbevolking|werkloze beroepsbevolking|Langdurig of onbekend,Beroepsbevolking|Werkloosheidspercentage,date
2013-01-01,2013 1e kwartaal,709,477,232,77,2013-01-01
2013-01-02,2013 1e kwartaal,709,477,232,77,2013-01-02
2013-01-03,2013 1e kwartaal,709,477,232,77,2013-01-03
2013-01-04,2013 1e kwartaal,709,477,232,77,2013-01-04
2013-01-05,2013 1e kwartaal,709,477,232,77,2013-01-05


In [68]:
LaborParticipation['Unnamed: 0']

1     2013 1e kwartaal
2     2013 2e kwartaal
3     2013 3e kwartaal
4     2013 4e kwartaal
5                 2013
            ...       
57    2024 2e kwartaal
58    2024 3e kwartaal
59    2024 4e kwartaal
60                2024
61           Bron: CBS
Name: Unnamed: 0, Length: 61, dtype: object

In [141]:
ConsumerPriceIndex = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Consumentenprijzen__prijsindex_2015_100_21022025_095130.csv',sep=';', header=3)
ConsumerPriceIndex.drop([0])
ConsumerPriceIndex.head(5)
ConsumerPriceIndex_daily = expand_year_to_daily(ConsumerPriceIndex, 'Unnamed: 0')
ConsumerPriceIndex_daily.head(5)

Unnamed: 0.1,Unnamed: 0,CPI,CPI afgeleid,Jaarmutatie CPI,Jaarmutatie CPI afgeleid,date
1996-01-01,1996,6894,7325,,,1996-01-01
1996-01-02,1996,6894,7325,,,1996-01-02
1996-01-03,1996,6894,7325,,,1996-01-03
1996-01-04,1996,6894,7325,,,1996-01-04
1996-01-05,1996,6894,7325,,,1996-01-05


In [142]:
ConsumerPriceIndex = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Consumentenprijzen__prijsindex_2015_100_21022025_095130.csv',sep=';', header=3)
ConsumerPriceIndex.head(5)

Unnamed: 0.1,Unnamed: 0,CPI,CPI afgeleid,Jaarmutatie CPI,Jaarmutatie CPI afgeleid
0,Perioden,2015 = 100,2015 = 100,%,%
1,1996,6894,7325,,
2,1997,7040,7463,21,19
3,1998,7178,7593,20,17
4,1999,7332,7719,21,17


In [143]:
PopulationSize = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Bevolking_op_1_januari_en_gemiddeld__geslacht__leeftijd_en_regio_21022025_094947.csv',sep=';', header=3)
PopulationSize.head(5)

Unnamed: 0.1,Unnamed: 0,Onderwerp,Bevolking op 1 januari,Bevolking op 1 januari.1,Bevolking op 1 januari.2,Bevolking op 1 januari.3,Bevolking op 1 januari.4,Bevolking op 1 januari.5,Bevolking op 1 januari.6,Bevolking op 1 januari.7,...,Gemiddelde bevolking .81,Gemiddelde bevolking .82,Gemiddelde bevolking .83,Gemiddelde bevolking .84,Gemiddelde bevolking .85,Gemiddelde bevolking .86,Gemiddelde bevolking .87,Gemiddelde bevolking .88,Gemiddelde bevolking .89,Gemiddelde bevolking .90
0,,Geslacht,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,...,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen,Totaal mannen en vrouwen
1,,Burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,...,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat,Totaal burgerlijke staat
2,,Leeftijd,Totaal,10 jaar,11 jaar,12 jaar,13 jaar,14 jaar,15 jaar,16 jaar,...,90 jaar,91 jaar,92 jaar,93 jaar,94 jaar,95 jaar,96 jaar,97 jaar,98 jaar,99 jaar
3,Regio's,Perioden,aantal,aantal,aantal,aantal,aantal,aantal,aantal,aantal,...,aantal,aantal,aantal,aantal,aantal,aantal,aantal,aantal,aantal,aantal
4,Nederland,1988,14714948,176401,180149,182392,191976,201130,220650,234758,...,.,.,.,.,.,.,.,.,.,.


In [145]:
Gdp = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Opbouw_binnenlands_product__bbp___nationale_rekeningen__1995_2022_21022025_094218.csv',sep=';', header=3).T


Gdp.columns = Gdp.iloc[0]
Gdp.head(5)
Gdp_daily = expand_year_to_daily(Gdp,use_index=True )
Gdp_daily.head(5)

Onderwerp,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Beloning van werknemers|Totaal,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Beloning van werknemers|Lonen,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Beloning van werknemers|Sociale premies t.l.v. werkgevers,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Belastingen en subsidies|Saldo,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Belastingen en subsidies|Belastingen op productie en invoer,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Belastingen en subsidies|Subsidies,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Exploitatieoverschot|Bruto,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Exploitatieoverschot|Verbruik van vaste activa (-),Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Exploitatieoverschot|Netto,Bbp vanuit de inkomensvorming|Waarde in werkelijke prijzen|Bruto binnenlands product,...,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Beloning van werknemers|Sociale premies t.l.v. werkgevers,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Belastingen en subsidies|Saldo,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Belastingen en subsidies|Belastingen op productie en invoer,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Belastingen en subsidies|Subsidies,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Exploitatieoverschot|Bruto,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Exploitatieoverschot|Verbruik van vaste activa (-),Bbp vanuit de inkomensvorming|Prijsindexcijfers|Exploitatieoverschot|Netto,Bbp vanuit de inkomensvorming|Prijsindexcijfers|Bruto binnenlands product,Bron: CBS,date
1995-01-01,165485,139141,26344,31178,35959,4781,132884,52442,80442,329547,...,.,550,588,907,.,765,.,702,,1995-01-01
1995-01-02,165485,139141,26344,31178,35959,4781,132884,52442,80442,329547,...,.,550,588,907,.,765,.,702,,1995-01-02
1995-01-03,165485,139141,26344,31178,35959,4781,132884,52442,80442,329547,...,.,550,588,907,.,765,.,702,,1995-01-03
1995-01-04,165485,139141,26344,31178,35959,4781,132884,52442,80442,329547,...,.,550,588,907,.,765,.,702,,1995-01-04
1995-01-05,165485,139141,26344,31178,35959,4781,132884,52442,80442,329547,...,.,550,588,907,.,765,.,702,,1995-01-05


In [64]:
GdpProductionAndSpending = pd.read_csv('/Users/ruben/Documents/GitHub/MsCThesisRubenCuriel2024/Data/CBS/Bbp__productie_en_bestedingen__kwartalen__mutaties__na__1995__2024_I_21022025_094045.csv',sep=';', header=3).T
GdpProductionAndSpending = GdpProductionAndSpending.reset_index(drop=True)
# set header of
GdpProductionAndSpending.columns = GdpProductionAndSpending.iloc[0]
GdpProductionAndSpending = GdpProductionAndSpending.drop([0,1])
GdpProductionAndSpending = GdpProductionAndSpending.drop('Bron: CBS', axis=1)   
GdpProductionAndSpending_daily = expand_quarter_to_daily(GdpProductionAndSpending, 'Onderwerp')
GdpProductionAndSpending_daily[100::105]


Unnamed: 0,Onderwerp,Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Totaal,Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Bruto binnenlands product,"Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Bbp, gecorrigeerd voor werkdageneffecten",Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Invoer van goederen en diensten|Totaal,Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Invoer van goederen en diensten|Goederen,Opbouw bbp vanuit de finale bestedingen|Beschikbaar voor finale bestedingen|Invoer van goederen en diensten|Diensten,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Totaal,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Totaal,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Consumptieve bestedingen|Totaal,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Consumptieve bestedingen|Huishoudens,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Consumptieve bestedingen|Overheid,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Bruto investeringen in vaste activa|Totaal,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Bruto investeringen in vaste activa|Bedrijven en huishoudens,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Bruto investeringen in vaste activa|Overheid,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Nationale finale bestedingen|Verandering in voorraden,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Uitvoer van goederen en diensten|Totaal,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Uitvoer van goederen en diensten|Goederen,Opbouw bbp vanuit de finale bestedingen|Finale bestedingen|Uitvoer van goederen en diensten|Diensten,date
1995-04-11,1995 2e kwartaal,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,1995-04-11
1995-07-25,1995 3e kwartaal,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,1995-07-25
1995-11-07,1995 4e kwartaal,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,.,1995-11-07
1996-02-20,1996 1e kwartaal,35,24,.,56,51,79,35,28,30,53,-18,00,07,-37,01,46,40,71,1996-02-20
1996-06-04,1996 2e kwartaal,34,40,.,24,12,68,34,53,29,50,-16,59,51,102,00,04,-12,68,1996-06-04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2019-10-09,2019 4e kwartaal,09,27,.,-14,-26,20,09,26,25,25,25,27,28,21,.,-08,-17,18,2019-10-09
2020-01-22,2020 1e kwartaal,05,19,.,-15,-27,18,05,24,19,14,26,33,35,22,.,-16,-26,12,2020-01-22
2020-05-06,2020 2e kwartaal,-13,16,.,-54,-78,12,-13,15,14,15,12,27,30,13,.,-45,-65,10,2020-05-06
2020-08-19,2020 3e kwartaal,-07,20,.,-43,-59,04,-07,16,14,09,22,22,25,09,.,-31,-45,10,2020-08-19
