Смотрим, что представляют из себя данные по потребительским расходам

In [1]:
import pandas as pd

df = pd.read_parquet('data/8_consumption.parquet')
df.head(7)

Unnamed: 0,date,territory_id,category,value
0,2023-01,1,Продовольствие,7692
1,2023-01,1,Здоровье,1271
2,2023-01,1,Маркетплейсы,2505
3,2023-01,1,Общественное питание,1142
5,2023-01,1,Транспорт,1718
6,2023-01,1,Все категории,21580
7,2023-01,2,Продовольствие,6395


In [2]:
# Посмотрим на уникальные категории
df['category'].unique()

array(['Продовольствие', 'Здоровье', 'Маркетплейсы',
       'Общественное питание', 'Транспорт', 'Все категории'], dtype=object)

In [3]:
# Посмотриим временной срез
df['date'].unique()

array(['2023-01', '2023-02', '2023-03', '2023-04', '2023-05', '2023-06',
       '2023-07', '2023-08', '2023-09', '2023-10', '2023-11', '2023-12',
       '2024-01', '2024-02', '2024-03', '2024-04', '2024-05', '2024-06',
       '2024-07', '2024-08', '2024-09', '2024-10', '2024-11', '2024-12'],
      dtype=object)

In [4]:
# отберем записи по 2024 году
df_2024 = df[df['date'].str.contains('2024')]
df_2024.head(10)

Unnamed: 0,date,territory_id,category,value
178178,2024-01,1,Продовольствие,8590
178179,2024-01,1,Здоровье,1393
178180,2024-01,1,Маркетплейсы,4031
178181,2024-01,1,Общественное питание,1249
178183,2024-01,1,Транспорт,1763
178184,2024-01,1,Все категории,23813
178185,2024-01,2,Продовольствие,6387
178186,2024-01,2,Здоровье,1333
178187,2024-01,2,Маркетплейсы,3193
178188,2024-01,2,Общественное питание,1030


In [5]:
# Следующая задача преобразовать таблицу в удобный вид для передачи на фронт
res = df_2024.pivot_table(index=['territory_id'], columns=['date', 'category'])
# res.to_excel('data/test.xlsx')
res = res.droplevel(level=0, axis=1).reset_index()
# сразу экпортнем в json он автоматом объединит levels при загрузке в pandas
res.to_json('data/data.json')
res

date,territory_id,2024-01,2024-01,2024-01,2024-01,2024-01,2024-01,2024-02,2024-02,2024-02,...,2024-11,2024-11,2024-11,2024-11,2024-12,2024-12,2024-12,2024-12,2024-12,2024-12
category,Unnamed: 1_level_1,Все категории,Здоровье,Маркетплейсы,Общественное питание,Продовольствие,Транспорт,Все категории,Здоровье,Маркетплейсы,...,Маркетплейсы,Общественное питание,Продовольствие,Транспорт,Все категории,Здоровье,Маркетплейсы,Общественное питание,Продовольствие,Транспорт
0,1,23813.0,1393.0,4031.0,1249.0,8590.0,1763.0,26764.0,1514.0,4493.0,...,6463.0,1599.0,9993.0,2170.0,36320.0,1621.0,7726.0,1734.0,12031.0,2253.0
1,2,17925.0,1333.0,3193.0,1030.0,6387.0,1018.0,19030.0,1412.0,3457.0,...,5921.0,1267.0,7910.0,1087.0,28136.0,1363.0,6711.0,1271.0,9473.0,1232.0
2,3,18548.0,963.0,3697.0,280.0,8064.0,656.0,20610.0,1106.0,4134.0,...,5812.0,403.0,9026.0,788.0,27367.0,988.0,6989.0,410.0,11090.0,765.0
3,4,19319.0,1219.0,3023.0,524.0,7706.0,1621.0,22258.0,1355.0,3837.0,...,5421.0,790.0,8794.0,1868.0,31036.0,1373.0,6729.0,838.0,11340.0,2088.0
4,5,16634.0,994.0,2973.0,300.0,7401.0,1174.0,19588.0,955.0,4072.0,...,5565.0,386.0,8888.0,1306.0,27742.0,1065.0,6338.0,361.0,11088.0,1608.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122,3011,25364.0,1468.0,2939.0,1133.0,10626.0,1508.0,27354.0,1519.0,3435.0,...,5367.0,1356.0,12605.0,1755.0,37819.0,1644.0,6223.0,1398.0,14955.0,1802.0
2123,3012,18207.0,1092.0,2315.0,376.0,9066.0,816.0,20681.0,1244.0,2770.0,...,4189.0,463.0,10392.0,844.0,29060.0,1360.0,5240.0,518.0,12883.0,996.0
2124,3013,37643.0,1816.0,5742.0,2134.0,14255.0,3148.0,40937.0,2027.0,6477.0,...,8990.0,2597.0,16342.0,3666.0,57410.0,2449.0,11024.0,2753.0,19934.0,3960.0
2125,3014,,,,,,,,,,...,7787.0,1953.0,15307.0,2804.0,50311.0,1934.0,9611.0,2004.0,18531.0,3054.0


In [7]:
# проведем обработку текста
data = pd.read_json('data/data.json')
data.columns = data.columns.str.replace(')', '')
data.columns = data.columns.str.replace('(', '')
data.columns = data.columns.str.replace("'", "")
data.columns = data.columns.str.replace(", ", "_")
data.columns = data.columns.str.replace("-", "_")
data.columns = data.columns.str.replace("2024_", "")
data.columns = data.columns.str.replace("id_", "id")

data

Unnamed: 0,territory_id,01_Все категории,01_Здоровье,01_Маркетплейсы,01_Общественное питание,01_Продовольствие,01_Транспорт,02_Все категории,02_Здоровье,02_Маркетплейсы,...,11_Маркетплейсы,11_Общественное питание,11_Продовольствие,11_Транспорт,12_Все категории,12_Здоровье,12_Маркетплейсы,12_Общественное питание,12_Продовольствие,12_Транспорт
0,1,23813.0,1393.0,4031.0,1249.0,8590.0,1763.0,26764.0,1514.0,4493.0,...,6463.0,1599.0,9993.0,2170.0,36320.0,1621.0,7726.0,1734.0,12031.0,2253.0
1,2,17925.0,1333.0,3193.0,1030.0,6387.0,1018.0,19030.0,1412.0,3457.0,...,5921.0,1267.0,7910.0,1087.0,28136.0,1363.0,6711.0,1271.0,9473.0,1232.0
2,3,18548.0,963.0,3697.0,280.0,8064.0,656.0,20610.0,1106.0,4134.0,...,5812.0,403.0,9026.0,788.0,27367.0,988.0,6989.0,410.0,11090.0,765.0
3,4,19319.0,1219.0,3023.0,524.0,7706.0,1621.0,22258.0,1355.0,3837.0,...,5421.0,790.0,8794.0,1868.0,31036.0,1373.0,6729.0,838.0,11340.0,2088.0
4,5,16634.0,994.0,2973.0,300.0,7401.0,1174.0,19588.0,955.0,4072.0,...,5565.0,386.0,8888.0,1306.0,27742.0,1065.0,6338.0,361.0,11088.0,1608.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2122,3011,25364.0,1468.0,2939.0,1133.0,10626.0,1508.0,27354.0,1519.0,3435.0,...,5367.0,1356.0,12605.0,1755.0,37819.0,1644.0,6223.0,1398.0,14955.0,1802.0
2123,3012,18207.0,1092.0,2315.0,376.0,9066.0,816.0,20681.0,1244.0,2770.0,...,4189.0,463.0,10392.0,844.0,29060.0,1360.0,5240.0,518.0,12883.0,996.0
2124,3013,37643.0,1816.0,5742.0,2134.0,14255.0,3148.0,40937.0,2027.0,6477.0,...,8990.0,2597.0,16342.0,3666.0,57410.0,2449.0,11024.0,2753.0,19934.0,3960.0
2125,3014,,,,,,,,,,...,7787.0,1953.0,15307.0,2804.0,50311.0,1934.0,9611.0,2004.0,18531.0,3054.0


In [136]:
# импортируем полигоны
import geopandas as gpd
gdf = gpd.read_file('data/msk_mo.geojson')
gdf.head(5)

Unnamed: 0,osm_ref,osm_vers,territory_id,year_from_x,year_to_x,municipal_district_name_short,oktmo,municipal_district_name,municipal_district_type,municipal_district_status,...,source_rosstat,year_from_y,year_to_y,change_id_from,change_id_to,region_code,region_name,municipal_district_center_lat,municipal_district_center_lon,geometry
0,1703081,2023-11-01 09:25:37+00:00,1473,2018,9999,Протвино,46-767-000-000,городской округ Протвино,городской округ,,...,data-20180110-structure-20150128.csv,2018,9999,,,50,Московская область,54.87077,37.218863,"MULTIPOLYGON (((37.16554 54.86659, 37.16668 54..."
1,184618,2023-12-20 19:19:32+00:00,1474,2018,9999,Пущино,46-762-000-000,городской округ Пущино,городской округ,,...,data-20180110-structure-20150128.csv,2018,9999,,,50,Московская область,54.834721,37.613968,"MULTIPOLYGON (((37.57860 54.82302, 37.57887 54..."
2,181345,2023-01-01 01:00:00+00:00,1459,2018,9999,Красногорск,46-744-000-000,городской округ Красногорск,городской округ,,...,data-20180110-structure-20150128.csv,2018,9999,,,50,Московская область,55.821754,37.34009,"POLYGON ((37.28327 55.90474, 37.28504 55.90562..."
3,181346,2023-01-01 01:00:00+00:00,2651,2020,9999,Одинцовский,46-755-000-000,городской округ Одинцовский,городской округ,,...,data-20200110-structure-20150128.csv,2020,9999,union_7,,50,Московская область,55.678223,37.26681,"POLYGON ((37.09492 55.76080, 37.09568 55.75856..."
4,189473,2023-01-01 01:00:00+00:00,1448,2018,9999,Жуковский,46-725-000-000,городской округ Жуковский,городской округ,,...,data-20180110-structure-20150128.csv,2018,9999,,,50,Московская область,55.59728,38.119986,"MULTIPOLYGON (((38.03523 55.56989, 38.03650 55..."


In [141]:
# оставляем необходимые поля
gdf_geom = gdf[['territory_id', 'municipal_district_name_short', 'geometry']]
gdf_geom

Unnamed: 0,territory_id,municipal_district_name_short,geometry
0,1473,Протвино,"MULTIPOLYGON (((37.16554 54.86659, 37.16668 54..."
1,1474,Пущино,"MULTIPOLYGON (((37.57860 54.82302, 37.57887 54..."
2,1459,Красногорск,"POLYGON ((37.28327 55.90474, 37.28504 55.90562..."
3,2651,Одинцовский,"POLYGON ((37.09492 55.76080, 37.09568 55.75856..."
4,1448,Жуковский,"MULTIPOLYGON (((38.03523 55.56989, 38.03650 55..."
...,...,...,...
200,2598,Михайлово-Ярцевское,"MULTIPOLYGON (((37.15009 55.43896, 37.17666 55..."
201,2601,Новофедоровское,"MULTIPOLYGON (((36.96389 55.49456, 36.97779 55..."
202,2602,Первомайское,"MULTIPOLYGON (((37.12088 55.53315, 37.12179 55..."
203,2603,Роговское,"MULTIPOLYGON (((37.20236 55.23965, 37.19984 55..."


In [None]:
# экспортируем слой объединенный слой
gdf_end = pd.merge(gdf_geom, data, left_on=['territory_id'], right_on=['territory_id'])
gdf_end.to_file('data/mo_potreb_time.geojson')