In [1]:
import polars as pl
import pandas as pd

Начнем с обработки данных и соберем их в единую таблицу

С headline cpi все нормально, просто закастуем нужны типы данных и разделим год и квартал

In [2]:
headline_cpi = pl.read_csv('data/headline_cpi.csv')
headline_cpi = headline_cpi.filter(pl.col('Title').str.contains('Q1|Q2|Q3|Q4'))
headline_cpi = headline_cpi.select(pl.col('Title').alias('quarter_str'), pl.col('CPI ANNUAL RATE 00: ALL ITEMS 2015=100').cast(pl.Float64).alias('headline_cpi'))
headline_cpi = headline_cpi.with_columns([
    pl.col("quarter_str").str.extract(r"(\d{4})", 1).cast(pl.Int32).alias("year"),
    pl.col("quarter_str").str.extract(r"Q(\d)", 1).cast(pl.Int8).alias("quarter")
])
headline_cpi = headline_cpi.drop('quarter_str')
headline_cpi

headline_cpi,year,quarter
f64,i32,i8
5.0,1989,1
5.3,1989,2
5.1,1989,3
5.5,1989,4
5.8,1990,1
…,…,…
6.7,2023,3
4.2,2023,4
3.5,2024,1
2.1,2024,2


C core_cpi все сложнее, так как данные в формате m-on-m, то есть изменение за месяц. Во-первых, надо разбить столбец даты на год и квартал (тут сложность в том, что в таблице указывается инфляция за предыдущий период, то есть если дата - 2000-10-01, то инфляция за сентябрь). Во-вторых, надо перемножить инфляцию в каждом квартале, чтобы получить общую за квартал, а потом аннуализировать ее.

In [3]:
core_cpi = pl.read_csv('data/core_cpi_m-on-m.csv')
core_cpi = core_cpi.with_columns(pl.col('DATE').str.strptime(pl.Date, format="%Y-%m-%d")).rename({'GBRCPHPLA01GPM' : 'core_cpi'})
core_cpi = core_cpi.with_columns([
    pl.col("DATE").dt.year().alias("year"),
    ((pl.col("DATE").dt.month() - 2) // 3 + 1).alias("quarter")
])
core_cpi = core_cpi.with_columns(pl.when(pl.col('quarter') == 0)
                      .then(pl.lit(4))
                      .otherwise(pl.col('quarter'))
                      .alias('quarter'))
core_cpi = core_cpi.with_columns(pl.when(pl.col('DATE').dt.month() == 1).
                      then(pl.col('year') - 1).
                      otherwise(pl.col('year')).
                      alias('year'))
core_cpi = core_cpi.drop('DATE').group_by(['year', 'quarter']).agg(((pl.col('core_cpi') / 100 + 1).product() - 1) * 100).sort(['year', 'quarter'])
core_cpi = core_cpi.with_columns((((pl.col('core_cpi') / 100 + 1).pow(4) - 1) * 100).round(1))
core_cpi

year,quarter,core_cpi
i32,i8,f64
1988,1,8.6
1988,2,4.5
1988,3,6.0
1988,4,2.2
1989,1,8.9
…,…,…
2022,4,0.0
2023,1,14.3
2023,2,5.2
2023,3,3.8


Склеим core и headline cpi

In [4]:
overall_data = headline_cpi.join(core_cpi, on=['year', 'quarter'], how='left')

Информацию об инфляционных ожиданиях мы взяли из опросов на сайте Bank of England (ЦБ местного розлива). В таблице есть разные данные, но мы взяли медианное значение ответов на вопрос "How much would you expect prices in the shops generally to change over the next 12 months?".

In [5]:
# !pip install fastexcel

In [6]:
inf_expectations = pl.read_excel('data/inflation_expectations.xlsx')
df = pl.concat([inf_expectations.filter(pl.col('PUBLIC ATTITUDES TO INFLATION') == 'SUMMARY RESULTS '), inf_expectations.filter(pl.col('PUBLIC ATTITUDES TO INFLATION') == 'Median')[1]]).transpose()
df.columns = df.row(0)
inf_expectations = df[1::]
inf_expectations = inf_expectations.with_columns(pl.col('SUMMARY RESULTS ').str.strptime(pl.Date, format="%Y-%m-%d %H:%M:%S"), pl.col('Median').cast(pl.Float64).round(1)).with_columns(pl.col('SUMMARY RESULTS ').dt.year().alias('year'), (pl.col('SUMMARY RESULTS ').dt.month() // 3 + 1).alias('quarter'))
inf_expectations = inf_expectations.drop('SUMMARY RESULTS ').rename({'Median' : 'inf_expectation'})
inf_expectations

inf_expectation,year,quarter
f64,i32,i8
1.5,1999,4
2.3,2000,1
2.4,2000,2
2.2,2000,3
2.3,2000,4
…,…,…
3.6,2023,3
3.3,2023,4
3.0,2024,1
2.8,2024,2


In [7]:
overall_data = overall_data.join(inf_expectations, on=['year', 'quarter'], how='left')

GDP так же как и другие данные аннуализируем сложным процентом

In [8]:
gdp = pl.read_csv('data/gdp_q-on-q.csv')
gdp = gdp.filter(pl.col("Title").str.contains('Q1|Q2|Q3|Q4'))
gdp = gdp.with_columns([
    pl.col("Title").str.extract(r"(\d{4})", 1).cast(pl.Int32).alias("year"),
    pl.col("Title").str.extract(r"Q(\d)", 1).cast(pl.Int8).alias("quarter")
])
gdp = gdp.rename({'Gross Domestic Product: Quarter on Quarter growth: CVM SA %' : 'gdp_change'}).drop("Title").with_columns(pl.col("gdp_change").cast(pl.Float64))
gdp = gdp.with_columns((((pl.col('gdp_change') / 100 + 1).pow(4) - 1) * 100).round(1))
gdp

gdp_change,year,quarter
f64,i32,i8
0.0,1955,2
8.2,1955,3
-2.4,1955,4
4.5,1956,1
-0.4,1956,2
…,…,…
-0.4,2023,3
-1.2,2023,4
2.8,2024,1
2.0,2024,2


In [9]:
overall_data = overall_data.join(gdp, on=['year', 'quarter'], how='right')

Посчитаем output gap с помощью hk-фильтра

In [10]:
from statsmodels.tsa.filters.hp_filter import hpfilter

gdp_pounds = pl.read_csv('data/gdp_pounds.csv')
gdp_pounds = gdp_pounds.filter(pl.col("Title").str.contains('Q1|Q2|Q3|Q4'))
gdp_pounds = gdp_pounds.with_columns([
    pl.col("Title").str.extract(r"(\d{4})", 1).cast(pl.Int32).alias("year"),
    pl.col("Title").str.extract(r"Q(\d)", 1).cast(pl.Int8).alias("quarter"),
    pl.col('Gross Domestic Product: chained volume measures: Seasonally adjusted £m').cast(pl.Float64)
])
gdp_pounds = gdp_pounds.drop("Title").rename({'Gross Domestic Product: chained volume measures: Seasonally adjusted £m' : 'gdp'})[1::]

gdp_cycle, gdp_trend = hpfilter(gdp_pounds.to_pandas()['gdp'], lamb=1600)
output_gap = (gdp_pounds.to_pandas()['gdp'] - gdp_trend) / gdp_trend * 100
output_gap

0      0.731929
1      2.071649
2      0.853010
3      1.338878
4      0.596398
         ...   
273    0.492303
274   -0.274195
275   -0.007708
276    0.018331
277   -0.262066
Length: 278, dtype: float64

In [11]:
overall_data = overall_data.with_columns([pl.Series('potential_gdp', gdp_trend), pl.Series('output_gap', output_gap)])
overall_data.join(gdp_pounds, on=['year', 'quarter'], how='left')

headline_cpi,core_cpi,inf_expectation,gdp_change,year,quarter,potential_gdp,output_gap,gdp
f64,f64,f64,f64,i32,i8,f64,f64,f64
,,,0.0,1955,2,133943.627461,0.731929,134924.0
,,,8.2,1955,3,134799.428665,2.071649,137592.0
,,,-2.4,1955,4,135655.842602,0.85301,136813.0
,,,4.5,1956,1,136515.227362,1.338878,138343.0
,,,-0.4,1956,2,137380.664258,0.596398,138200.0
…,…,…,…,…,…,…,…,…
6.7,3.8,3.6,-0.4,2023,3,630850.30763,0.492303,633956.0
4.2,-0.9,3.3,-1.2,2023,4,633562.195063,-0.274195,631825.0
3.5,,3.0,2.8,2024,1,636271.045192,-0.007708,636222.0
2.1,,2.8,2.0,2024,2,638977.866482,0.018331,639095.0


Обрабатываем безработицу по привычной схеме

In [12]:
unemployment = pl.read_csv('data/unemployment.csv')
unemployment = unemployment.filter(pl.col("Title").str.contains('Q1|Q2|Q3|Q4'))
unemployment = unemployment.with_columns([
    pl.col("Title").str.extract(r"(\d{4})", 1).cast(pl.Int32).alias("year"),
    pl.col("Title").str.extract(r"Q(\d)", 1).cast(pl.Int8).alias("quarter")
])
unemployment = unemployment.rename({'Unemployment rate (aged 16 and over, seasonally adjusted): %' : 'unemployment'}).drop("Title").with_columns(pl.col('unemployment').cast(pl.Float64))
unemployment

unemployment,year,quarter
f64,i32,i8
3.8,1971,1
4.1,1971,2
4.2,1971,3
4.4,1971,4
4.5,1972,1
…,…,…
4.1,2023,3
3.8,2023,4
4.3,2024,1
4.2,2024,2


In [13]:
overall_data = overall_data.join(unemployment, on=['year', 'quarter'], how='left')
overall_data = overall_data.drop_nulls()
overall_data

headline_cpi,core_cpi,inf_expectation,gdp_change,year,quarter,potential_gdp,output_gap,unemployment
f64,f64,f64,f64,i32,i8,f64,f64,f64
1.1,-4.1,1.5,5.7,1999,4,436612.737794,0.568069,5.8
0.8,3.7,2.3,4.9,2000,1,440240.419726,0.976644,5.8
0.6,-3.1,2.4,2.8,2000,2,443834.332802,0.899134,5.5
0.8,4.8,2.2,2.4,2000,3,447389.368326,0.737307,5.3
1.0,-3.1,2.3,2.4,2000,4,450902.911771,0.564221,5.2
…,…,…,…,…,…,…,…,…
10.7,0.0,4.8,1.2,2022,4,622687.300277,1.823821,3.9
10.2,14.3,3.9,0.4,2023,1,625410.985046,1.471195,4.0
8.4,5.2,3.5,0.0,2023,2,628133.288676,1.033333,4.2
6.7,3.8,3.6,-0.4,2023,3,630850.30763,0.492303,4.1


Так у нас выглядит итоговая табличка. Поскольку данные об ожидаемой инфляции наичнаются с 2000-го года, то отсальные ряды придется подрезать. Но на всякий случай сохраним исходные таблицы.

In [15]:
overall_data.write_csv('clear_data/overall_data.csv')
headline_cpi.write_csv('clear_data/headline_cpi_clear.csv')
core_cpi.write_csv('clear_data/core_cpi_clear.csv')
inf_expectations.write_csv('clear_data/inflation_expectations_clear.csv')
gdp.write_csv('clear_data/gdp_change_clear.csv')
gdp_pounds.write_csv('clear_data/gdp_clear.csv')
overall_data['potential_gdp', 'output_gap'].write_csv('clear_data/output_gap_clear.csv')
unemployment.write_csv('clear_data/unemployment_clear.csv')