# Определение уязвимых групп населения...

## Итоговый проект первого года обучения Skillfactory Data Science Pro
## Часть 1. Компиляция данных

In [1]:
import numpy as np
import pandas as pd
import pickle
import regex as re

### Данные компилируются частично из предоставленных в проекте файлов, частично - по дополнительным источникам (указаны в тексте).

### Сведения берутся по 85 федеральным субъектам. Архангельская, Тюменская области и автономные округа в их составе рассматриваются по-отдельности. В качестве опорной точки будем ориентироваться на данные 2020 г. - как станет понятно, после считывания файлов, сведения по этому году представлены наиболее полно, и результаты будут более согласованными. В случае необходимости можно рассматривать другие близкие годы или динамику по годам.

### Ниже - функция для извлечения данных по федеральным субъектам и стандартизации их названий.

### df - DataFrame;
### standard_names - словарь стандартных названий;
### список names_to_drop позволяет сразу исключить некоторые регионы, которые могут быть ошибочно обработаны функцией как федеральные субъекты;
### region_col - колонка DataFrame с названиями регионов..

In [2]:
def federal_subj(
    df, standard_names, names_to_drop=None, region_col='region'):
    """Считывание данных по федеральным субъектам"""
       
    def get_standard_name(x):
        """Функция для .apply()
        Просмотр столбца регионов и вывод названий в стандартном виде"""
    
        for key, value in standard_names.items():
            x = re.sub('[\(].*?[\)]', '', x)  # удаляем всё, что в скобках ()
            if re.search(key, x.lower()):
                return value
        return None
    
    if names_to_drop is None:
        names_to_drop = []
    df = df[~df[region_col].isin(names_to_drop)].copy()
    df[region_col] = df[region_col].apply(get_standard_name)
    return (df.dropna(subset=region_col)
            .set_index(region_col).sort_index()) 

In [3]:
def finances_readout(file, sheet):
    "Считывание финансовых данных с excel-листа"
    df = pd.read_excel(file, sheet_name=sheet)
    names_to_drop = ['Архангельская область', 'Тюменская область']
    df = federal_subj(df, standard_names, names_to_drop)
    df.columns = pd.to_datetime((df.columns).astype(int), format='%Y').year
    return df
    

with open('standard_names.pkl', 'rb') as f:
    standard_names = pickle.load(f)

In [4]:
def finances_readout(file, sheet):
    "Считывание финансовых данных с excel-листа"
    df = pd.read_excel(file, sheet_name=sheet)
    names_to_drop = ['Архангельская область', 'Тюменская область']
    df = federal_subj(df, standard_names, names_to_drop)
    df.columns = pd.to_datetime((df.columns).astype(int), format='%Y').year
    return df
    

with open('russia-data//standard_names.pkl', 'rb') as f:
    standard_names = pickle.load(f)
file = './russia-data/cash_real_income_wages_2015_2020.xlsx'
per_capita = finances_readout(file, 0)
real_incomes = finances_readout(file, 1)
formal_wage = finances_readout(file, 2)
real_pay = finances_readout(file, 3)

display('Номинальный доход на душу населения', per_capita.head(3))
display('Реальный доход, %', real_incomes.head(3))
display('Номинальная зарплата', formal_wage.head(3))
display('Реальная зарпалата, %', real_pay.head(3))

'Номинальный доход на душу населения'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,20860.0,21256.0,22139.0,22829.0,23937.0,23864.0
Амурская область,28240.0,27976.0,29213.0,30937.0,33304.0,35499.0
Архангельская область без Ненецкого АО,29716.0,29837.0,30707.0,32054.0,33874.0,34852.0


'Реальный доход, %'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,99.1,94.7,100.0,99.7,99.6,95.5
Амурская область,96.1,92.1,101.1,102.4,101.7,100.3
Архангельская область без Ненецкого АО,95.1,93.0,98.7,101.7,100.2,98.4


'Номинальная зарплата'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,20090.0,21202.0,22743.0,25519.0,27962.0,30072.0
Амурская область,32902.0,33837.0,37368.0,42315.0,47234.0,52430.0
Архангельская область без Ненецкого АО,35592.0,38118.0,40352.0,45427.0,49435.0,52779.0


'Реальная зарпалата, %'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,90.0,98.4,103.6,109.3,104.9,103.8
Амурская область,88.0,96.0,107.4,110.1,106.0,105.2
Архангельская область без Ненецкого АО,92.4,100.0,102.5,110.7,104.0,102.9


## Детская смертность
## Единица измерения - количество человек. Берем суммарные данные по городской и сельской статамостоятельно из-за различающейся организации данных в зависимости от года.истике. Данные по Архангельской и Тюменской областям пересчитываем с

In [5]:


def mortality_readout(file):
    "Считывание данных с excel-листа"
    df = pd.read_excel(file, header=2, skipfooter=13, usecols='A, D:AI')
    df.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
    names_to_drop = [
        '            Архангельская область (кроме Ненецкого автономного округа)',
        '            Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
    ]
    df = federal_subj(df, standard_names, names_to_drop)
    df.loc['Архангельская область без Ненецкого АО'] \
        = (df.loc['Архангельская область без Ненецкого АО']
           - df.loc['Ненецкий автономный округ'])
    df.loc['Тюменская область без округов'] \
        = (df.loc['Тюменская область без округов']
           - df.loc['Ханты-Мансийский автономный округ - Югра']
           - df.loc['Ямало-Ненецкий автономный округ'])
    df.columns = pd.to_datetime(df.columns, format='%Y').year
    return df


rural = mortality_readout(
    'russia-data/child_mortality_rural_1990_2021.xls')
urban = mortality_readout(
    'russia-data/child_mortality_urban_1990_2021.xls')
child_mortality = rural.add(urban)
child_mortality.head(3)

Unnamed: 0_level_0,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,522.0,567.0,529.0,560.0,497.0,490.0,405.0,375.0,340.0,391.0,...,330.0,290.0,275.0,222.0,211.0,185.0,176.0,114.0,97.0,88.0
Амурская область,343.0,293.0,280.0,244.0,242.0,250.0,245.0,268.0,246.0,270.0,...,161.0,119.0,101.0,83.0,53.0,48.0,46.0,43.0,42.0,36.0
Архангельская область без Ненецкого АО,288.0,274.0,245.0,237.0,224.0,206.0,194.0,157.0,167.0,168.0,...,108.0,113.0,97.0,84.0,79.0,72.0,53.0,58.0,29.0,32.0


##  Инвалидность среди трудоспособного возраста
## Единица измерения - количество человек. Таблица содержит данные по месяцам и для разных возрастов, берем данные на 1 января каждого года по непенсионным (до 60 лет) возрастам: количество инвалидов пожилого возраста может зависеть, в том, числе, от естественного старения. Инвалидность среди трудоспособного населения дает более точную оценку социального неблагополучия региона.


In [6]:


disabled = pd.read_csv(
    'russia-data/disabled_total_by_age_2017_2022.csv')
disabled = federal_subj(disabled, standard_names)

disabled['date'] = pd.to_datetime(disabled['date'])
disabled['dayofyear'] = disabled['date'].dt.dayofyear
disabled = disabled[disabled['dayofyear'] == 1]
disabled['young'] = disabled[['18_30', '31_40', '41_50', '51_60']].sum(axis=1)
disabled_18_60 = pd.pivot_table(
    data=disabled, values='young', index='region', columns='date')
disabled_18_60.columns = (disabled_18_60.columns).year
disabled_18_60.head(3)

date,2017,2018,2019,2020,2021,2022
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,66770.0,64605.0,62840.0,61378.0,59810.0,59006.0
Амурская область,27892.0,26720.0,25976.0,25069.0,24149.0,23356.0
Архангельская область без Ненецкого АО,29228.0,28262.0,27615.0,26984.0,26498.0,26009.0


## 1.4. Алкоголизм, наркомания
## Единица измерения - количество акогольных/наркотических психозов на 100 тыс. населения.

In [7]:


def alco_readout(file, sheet):
    "Считывание данных с excel-листа"
    df = pd.read_excel(file, sheet_name=sheet)
    df = federal_subj(df, standard_names)
    df.columns = pd.to_datetime((df.columns).astype(int), format='%Y').year
    return df


file = 'russia-data/drug_alco.xlsx'
alco = alco_readout(file, 0)
alco1718 = alco_readout(file, 1)
drug = alco_readout(file, 2)
drug1718 = alco_readout(file, 3)
alco = pd.concat([alco, alco1718], axis=1).sort_index()
drug = pd.concat([drug, drug1718], axis=1).sort_index()

display('Алкоголизм', alco.head(3))
display('Наркомания', drug.head(3))

'Алкоголизм'

Unnamed: 0_level_0,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Алтайский край,227.6,202.4,173.9,199.8,177.9,164.0,157.6,138.9,105.0,111.9,115.7,100.1,85.9,88.1
Амурская область,174.3,159.0,120.9,113.3,115.5,140.5,124.7,104.8,100.0,96.7,97.2,92.3,91.4,113.3
Архангельская область без Ненецкого АО,120.1,115.2,102.5,89.8,96.5,99.5,84.4,73.2,77.6,,,,55.3,64.7


'Наркомания'

Unnamed: 0_level_0,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Алтайский край,29.8,35.2,35.2,37.7,27.3,24.5,26.4,33.4,22.9,21.6,20.7,17.4,17.4,17.4
Амурская область,21.3,27.2,27.2,28.4,26.2,37.1,33.9,24.2,22.5,22.2,19.1,18.9,18.7,24.4
Архангельская область без Ненецкого АО,1.5,1.4,1.4,2.6,3.4,4.6,6.4,4.0,4.0,,,,5.4,9.2


## 1.5. Валовый региональный продукт на душу населения
## Считываем данные с 2011 года - обеспечивается единая методика расчета по Архангельской и Тюменской областям.

In [8]:


grp = pd.read_excel('russia-data/gross_regional_product_1996_2020.xls', 
                    header=2, skipfooter=1, usecols='A, Q:Z')
grp.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
names_to_drop = [
    '        Архангельская область',
    '        Тюменская область']
grp = federal_subj(grp, standard_names, names_to_drop)
grp.columns = pd.to_datetime(grp.columns).year
grp.head(9)

Unnamed: 0_level_0,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Алтайский край,137677.2,153556.7,173763.5,186798.6,204933.1,224525.8,231268.4,247599.3,271319.7,291156.9
Амурская область,273175.8,280023.9,258817.0,286282.6,343385.7,370192.4,373935.1,419905.2,521060.1,571362.1
Архангельская область без Ненецкого АО,232540.7,270662.9,283264.5,310817.4,352837.9,400764.6,441961.6,493205.1,509917.0,514200.4
Астраханская область,170504.7,206677.1,269821.7,290822.2,315996.9,361704.8,434701.5,570206.4,596388.2,526950.9
Белгородская область,331010.0,354570.6,368874.8,400820.8,447619.7,501467.8,539720.5,588641.5,617426.5,646569.0
Брянская область,137187.1,164726.6,175865.0,196096.7,221080.0,258752.7,280630.1,304547.1,332442.8,347204.5
Владимирская область,181842.6,200456.4,216320.8,232757.6,262945.5,309713.7,325043.1,349856.4,394560.3,410443.6
Волгоградская область,195463.7,220755.1,235814.1,279101.4,290186.0,324961.1,336306.7,369000.4,384677.3,394256.5
Вологодская область,269252.8,296726.1,289782.8,324790.3,402652.1,430041.5,459777.5,525206.6,541318.7,544379.2


## Жилищные условия по данным 2020 г.
## Выделяем:

## среднюю жилую площадь на одного человека;
## процент домохозяйств, указавших на плохое состояние жилого помещения;
## процент домохозяйств, не имеющих средств для улучшения жилищных условий (процент встающих в очередь на жилье или рассчитывающих на переселение в связи со сносом дома)

In [9]:

def housing_readout(file, sheet, cols, skipfooter=0):
    "Считывание данных с excel-листа"
    df = pd.read_excel(
        file, sheet_name=sheet, usecols=cols, skipfooter=skipfooter)
    df.rename({'Регион': 'region'}, axis=1, inplace=True)
    
    # Ошибки в написании названий (латиница?)
    df.replace({'Bладимирская область': 'Владимирская'}, inplace=True)
    df.replace({'Bолгоградская область': 'Волгоградская'}, inplace=True)
    df.replace({'Bологодская область': 'Вологодская'}, inplace=True)
    df.replace({'Bоронежская область': 'Воронежская'}, inplace=True)
    df.replace('...', 0, inplace=True)  # слабая статистика -> 0
    df = federal_subj(df, standard_names)
    return df


file = 'russia-data/housing_2020.xlsx'
living_area = housing_readout(file, 0, 'A, H')
living_area.columns.values[0] = 'living area'
intents = housing_readout(file, 1, 'A, C, E, H, I', 2)
intents.columns.values[0] = 'to improve'
intents.columns.values[1] = 'bad conditions'
intents.columns.values[2] = 'queue'
intents.columns.values[3] = 'demolition'
intents['no funds'] = ((intents['to improve']/100 
    * (intents['queue']/100 + intents['demolition']/100)) * 100)
housing = pd.concat(
    [living_area, intents[['bad conditions', 'no funds']]], axis=1)
housing.head(3)

Unnamed: 0_level_0,living area,bad conditions,no funds
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,18.0,0.3,0.8642
Амурская область,17.3,1.3,1.0731
Архангельская область без Ненецкого АО,16.9,1.4,1.2998


### Заболеваемость
### Для обеспечения единой методики расчета по Архангельской и Тюменской областям берем данные с 2014 г. (данные рассчитывались в перерасчете на 100 тыс. человек, при этом статистика по областям без автономных округов до 2014 г. не приводится). Данные позже 2016 г. отсутствуют. Выделяем данные по диагнозам, которые могут быть связаны с социальным неблагополучием

In [10]:


morbidity = pd.read_excel(
        'russia-data/morbidity_2005_2020_age_disease.xls',
        header=2, usecols='A:C, M:O')
morbidity.rename(
    {'Unnamed: 0': 'region', 'Unnamed: 1': 'type', 'Unnamed: 2': 'age'}, 
    axis=1, inplace=True)
morbidity = morbidity.dropna(subset=['2014', '2015', '2016'], how='all')
morbidity = federal_subj(morbidity, standard_names)

# Общая заболеваемость
mask = (
    (morbidity['type'] == 'Все заболевания')
    & (morbidity['age'] ==  'Всего')   
)
general_morbidity = morbidity[mask].copy()
general_morbidity.drop(columns=['type', 'age', '2014'], inplace=True)
general_morbidity.columns = pd.to_datetime(
    general_morbidity.columns).year

# Врожденные пороки развития
mask = (
    (morbidity['type'] == 'Врожденные аномалии (пороки развития), деформации и хромосомные нарушения')
    & (morbidity['age'] ==  'Всего')   
)
congenital_malformation = morbidity[mask].copy()
congenital_malformation.drop(columns=['type', 'age'], inplace=True)
congenital_malformation.columns = pd.to_datetime(
    congenital_malformation.columns).year

# Психические расстройства и расстройства поведения
mask = (
    (morbidity['type'] == 'Психические расстройства и расстройства поведения')
    & (morbidity['age'] ==  'Всего')   
)
psychosis = morbidity[mask].copy()
psychosis.drop(columns=['type', 'age'], inplace=True)
psychosis.columns = pd.to_datetime(
    psychosis.columns).year

# Подростковая беременность (до 14 лет)
mask = (
    (morbidity['type'] == 'Беременность, роды и послеродовой период')
    & (morbidity['age'] ==  '0-14 лет')   
)
teenage_pregnancy = morbidity[mask].copy()
teenage_pregnancy.drop(columns=['type', 'age'], inplace=True)
teenage_pregnancy.columns = pd.to_datetime(
    teenage_pregnancy.columns).year

display('Общая заболеваемость', general_morbidity.head(3))
display('Врожденные пороки развития', congenital_malformation.head(3))
display('Психические расстройства', psychosis.head(3))
display('Подростковая беременность', teenage_pregnancy.head(3))


'Общая заболеваемость'

Unnamed: 0_level_0,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Алтайский край,109652.6,112764.7
Амурская область,83919.0,83412.0
Архангельская область без Ненецкого АО,101587.4,99842.1


'Врожденные пороки развития'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,176.1,196.7,200.1
Амурская область,391.2,335.2,370.1
Архангельская область без Ненецкого АО,380.8,423.9,458.9


'Психические расстройства'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,1454.0,1467.7,1272.1
Амурская область,512.4,485.3,446.7
Архангельская область без Ненецкого АО,646.0,693.5,685.3


'Подростковая беременность'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,3.4,8.3,3.3
Амурская область,22.4,13.3,4.4
Архангельская область без Ненецкого АО,10.5,6.9,13.8


## Рождаемость
## Единица измерения - количество человек

In [11]:


newborn = pd.read_csv(
    'russia-data/newborn_2006_2022_monthly.csv', sep=';', decimal=',')
newborn.drop(columns='Unnamed: 198',inplace=True)
newborn.rename({'Region': 'region'}, axis=1, inplace=True)
names_to_drop = [
    'Архангельская область (кроме Ненецкого автономного округа)',
    'Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
    'Московская обл. в старых границах',
    'Москва в старых границах'
]
newborn = federal_subj(newborn, standard_names, names_to_drop=names_to_drop)
newborn.loc['Архангельская область без Ненецкого АО'] \
    = (newborn.loc['Архангельская область без Ненецкого АО']
      - newborn.loc['Ненецкий автономный округ'])
newborn.loc['Тюменская область без округов'] \
    = (newborn.loc['Тюменская область без округов']
       - newborn.loc['Ханты-Мансийский автономный округ - Югра']
       - newborn.loc['Ямало-Ненецкий автономный округ'])
    
# Суммируем данные за год
for year in range(2006, 2023):
    cols = []
    for col in newborn.columns:
        if str(year) in str(col):
            cols.append(col)
    newborn[year] = newborn[cols].sum(axis=1)
    newborn.drop(columns=cols, inplace=True)
newborn.drop(columns=2022, inplace=True)  # Неполный год
newborn = newborn.round(0).astype(int)
newborn.columns = pd.to_datetime(newborn.columns, format='%Y').year

newborn.head(3)

Unnamed: 0_level_0,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Алтайский край,25513,28209,30711,31038,30863,30739,32695,32461,31429,30065,28867,25525,23491,21117,19976,18992
Амурская область,10405,10935,11233,11384,11473,11188,11733,11483,11159,10781,10377,9430,8889,7919,7853,7343
Архангельская область без Ненецкого АО,13396,14438,14577,14776,14806,14253,14730,14584,14331,13908,13313,11714,10671,9662,8906,8487


## Население
## Единица измерения - количество человек

In [12]:


population = pd.read_excel(
        'russia-data/population.xlsx', header=1, usecols='A, C:Z')
population.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)

for i, val in enumerate(population['region']):
    if val == 'Раздел 1. Муниципальные образования субъектов Российской Федерации':
        population.loc[i, 'region'] = population.loc[i-1, 'region']
population.dropna(subset=population.columns[1:], how='all', inplace=True)

names_to_drop = [
        'Архангельская область (кроме Ненецкого автономного округа)',
        'Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
        'Муниципальные образования Алтайского края',
        'Алтайский муниципальный район',
        'Алтайский сельсовет',
        'Большекалтайский сельсовет',
        'Населенные пункты, входящие в состав муниципальных образований Алтайского края',
        'Кировский сельсовет'
]
population = federal_subj(population, standard_names, names_to_drop)
population.loc['Архангельская область без Ненецкого АО'] \
    = (population.loc['Архангельская область без Ненецкого АО']
      - population.loc['Ненецкий автономный округ'])
population.loc['Тюменская область без округов'] \
    = (population.loc['Тюменская область без округов']
       - population.loc['Ханты-Мансийский автономный округ - Югра']
       - population.loc['Ямало-Ненецкий автономный округ'])

newcols = []
for col in population.columns:
    newcols.append(re.search(r'\d+', col).group(0))
population.columns = pd.to_datetime(newcols).year

population.head(3)

Unnamed: 0_level_0,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,2662738.0,2651628.0,2641079.0,2621050.0,2602595.0,2571987.0,2539430.0,2503510.0,2473024.0,2453455.0,...,2398751.0,2390638.0,2384812.0,2376774.0,2365680.0,2350080.0,2332813.0,2317153.0,2296353.0,2268179.0
Амурская область,949526.0,935607.0,923055.0,911381.0,901044.0,887781.0,874018.0,861056.0,850502.0,844290.0,...,816910.0,811274.0,809873.0,805689.0,801752.0,798424.0,793194.0,790044.0,781846.0,772525.0
Архангельская область без Ненецкого АО,1372631.0,1349160.0,1328187.0,1309552.0,1290956.0,1273668.0,1257312.0,1239924.0,1224813.0,1215264.0,...,1159506.0,1148760.0,1139950.0,1130240.0,1121813.0,1111031.0,1100290.0,1092424.0,1082662.0,1069782.0


## Процент населения за чертой бедности (доходы ниже прожиточного минимума)

In [13]:

poverty_percent = pd.read_csv(
    'russia-data/poverty_percent_by_regions_1992_2020.csv')
poverty_percent = pd.pivot_table(
    data=poverty_percent, values='poverty_percent', 
    columns='year', index='region').reset_index()
names_to_drop = [
    '        Архангельская область',
    '        Тюменская область'
]
poverty_percent = federal_subj(poverty_percent, standard_names, names_to_drop)
poverty_percent.columns = pd.to_datetime(
    poverty_percent.columns, format='%Y').year

poverty_percent.head(3)

year,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,,,,33.7,46.8,45.7,52.9,53.8,53.9,47.3,...,22.6,20.6,17.6,17.1,18.0,17.8,17.5,17.4,17.6,17.5
Амурская область,,,,36.1,28.2,26.3,31.2,38.0,47.7,45.3,...,20.4,16.0,16.2,14.8,15.2,17.0,16.7,15.6,15.7,15.2
Архангельская область без Ненецкого АО,,,,,,,,,,,...,,13.0,14.5,14.5,16.2,14.9,13.9,12.5,12.7,12.3


### В 2019 и 2020 гг. данные частично не предоставлены (NaN или нули по всем категориям). Также имеются случаи, когда данные по одной из групп отсутствуют (дано 0%), что, скорее всего, является следствием халатного статистического подсчета, т.к. соседние годы показывают другие (ненулевые) цифры. Во всех этих случаях пропущенных или недостоверных данных будем брать для каждого конкретного региона данные по предшествующему году.

In [14]:
def socdem_readout(file):
    df = pd.read_excel(file, header=2)
    df.rename({
        'Unnamed: 0': 'region',
        'Все население': 'all',
        'Дети в возрасте до 16 лет': 'children',
        'Население старше трудоспособного возраста': 'retired',
        'Население трудоспособного возраста': 'employable'
        }, axis=1, inplace=True)
    
    names_to_drop = [
        '        Архангельская область',
        '        Тюменская область'
    ]
    df = federal_subj(df, standard_names, names_to_drop)
    return df


poverty_socdem_2017 = socdem_readout(
    'russia-data/poverty_socdem_2017.xls')
poverty_socdem_2018 = socdem_readout(
    'russia-data/poverty_socdem_2018.xls')
poverty_socdem_2019 = socdem_readout(
    'russia-data/poverty_socdem_2019.xls')
poverty_socdem_2020 = socdem_readout(
    'russia-data/poverty_socdem_2020.xls')

poverty_socdem = poverty_socdem_2020.copy()

mask = (poverty_socdem[['children', 'retired', 'employable']]
        .isna().all(axis=1))
poverty_socdem[mask] = poverty_socdem_2019

mask = ((poverty_socdem[['children', 'retired', 'employable']] == 0)
        .any(axis=1))
poverty_socdem[mask] = poverty_socdem_2018

mask = ((poverty_socdem[['children', 'retired', 'employable']] == 0)
        .any(axis=1))
poverty_socdem[mask] = poverty_socdem_2017

poverty_socdem.head(3)

Unnamed: 0_level_0,all,children,retired,employable
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,100,31.4,9.2,59.4
Амурская область,100,38.4,4.7,56.9
Архангельская область без Ненецкого АО,100,28.5,7.2,64.3


## Региональное производство
## Объем отгруженных товаров собственного производства или работ/услуг, выполненных собственными силами, по видам деятельности, в тысячах рублей

## Региональное производство
## Объем отгруженных товаров собственного производства или работ/услуг, выполненных собственными силами, по видам деятельности, в тысячах рублей

In [15]:


reg_prod = pd.read_csv(
    'russia-data/regional_production_2017_2020.csv')
names_to_drop = [
    '        Архангельская область', 
    '        Тюменская область']
reg_prod = federal_subj(reg_prod, standard_names, names_to_drop) 
reg_prod.columns.values[-4:] = pd.to_datetime(reg_prod.columns[-4:]).year
reg_prod_total = (reg_prod
                  .groupby('region')[[2017, 2018, 2019, 2020]].sum()) 
reg_prod_total.columns = pd.to_datetime(
    reg_prod_total.columns, format='%Y').year

display('Региональное производство, по видам деятельности', reg_prod.head(5))
display('Региональное производство, общий объем', reg_prod_total.head(3))

'Региональное производство, по видам деятельности'

Unnamed: 0_level_0,production_field,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Алтайский край,"ВОДОСНАБЖЕНИЕ; ВОДООТВЕДЕНИЕ, ОРГАНИЗАЦИЯ СБОРА И УТИЛИЗАЦИИ ОТХОДОВ, ДЕЯТЕЛЬНОСТЬ ПО ЛИКВИДАЦИИ ЗАГРЯЗНЕНИЙ",8068621.4,10323030.0,9813456.6,10454410.0
Алтайский край,ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ,6143029.4,5023392.0,7745963.3,9146146.0
Алтайский край,ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА,307969929.4,322810300.0,357699013.3,361880100.0
Алтайский край,"ОБЕСПЕЧЕНИЕ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИЕЙ, ГАЗОМ И ПАРОМ; КОНДИЦИОНИРОВАНИЕ ВОЗДУХА",45806615.7,47439690.0,43900541.6,44741020.0
Алтайский край,Промышленное производство (промышленность),367988195.7,385596400.0,419158974.7,426221700.0


'Региональное производство, общий объем'

Unnamed: 0_level_0,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,735976391.6,771192700.0,838317949.5,852443400.0
Амурская область,268844147.6,268760800.0,340026685.8,404576500.0
Архангельская область без Ненецкого АО,709009752.2,606471100.0,533584941.4,664107000.0


# Розничная торговля на душу населения

In [16]:

retail = pd.read_excel(
    'russia-data/retail_turnover_per_capita_2000_2021.xls', 
    header=2, usecols='A, P:X')
retail.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
retail.drop(0, inplace=True)
names_to_drop = [
        '        Архангельская область',
        '            Архангельская область (без АО)',
        '        Тюменская область',
        '            Тюменская область (без АО)'
]
retail = federal_subj(retail, standard_names, names_to_drop)
retail.columns = pd.to_datetime(retail.columns).year

retail.head(3)

Unnamed: 0_level_0,2013,2014,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Алтайский край,118096,128376,134925,137844,143873,150444,159514,153605,174321
Амурская область,145301,163781,182491,191523,202038,214688,231113,245233,276635
Архангельская область без Ненецкого АО,154177,176420,194345,202977,217332,229922,240155,250033,280050


## Бюджеты регионов и расходы на социальную политику
## По данным сайта https://budget.permkrai.ru/

## В миллионах рублей. Доходы бюджетов расзделены на собственные доходы (income, средства, получаемые из налогов, акцизов, использования имущества) и дотации из бюджетов других уровней (subsidies, как правило это средства федерального бюджета).

In [17]:


income = pd.read_excel('russia-data/regional_budget_incomes_2020.xlsx', 
                        header=2, usecols='A, C, E, G, I, K, M, O')
income['income'] = income[income.columns[-7:-1]].sum(axis=1) / 1_000_000 
income['subsidies'] = income[income.columns[-2]] / 1_000_000  
income.drop(columns=income.columns[-9:-2], inplace=True)
income.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
income = federal_subj(income, standard_names) 

welfare = pd.read_excel('russia-data/regional_budget_expenses_2020.xlsx', 
                        header=2, usecols='A, Q', decimal=',')
welfare.rename({'Unnamed: 0': 'region', 'Факт.7': 'welfare'}, 
               axis=1, inplace=True)
welfare['welfare'] = (welfare['welfare'].apply(
    lambda x: float(x.replace(',', '.').replace(' ', ''))))
welfare = federal_subj(welfare, standard_names)

display('Доходы бюджета, млн руб.', income.head(3))
display('Расходы на социальную политику, млн руб.', welfare.head(3))

'Доходы бюджета, млн руб.'

Unnamed: 0_level_0,income,subsidies
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Алтайский край,56637.87973,74306.23537
Амурская область,51571.555319,34011.885547
Архангельская область без Ненецкого АО,52963.99301,42447.952872


'Расходы на социальную политику, млн руб.'

Unnamed: 0_level_0,welfare
region,Unnamed: 1_level_1
Алтайский край,46350.3
Амурская область,26104.8
Архангельская область без Ненецкого АО,29656.2


## Преступность
## По открытым данным Генпрокуратуры за 2020 г.: форма 4-ЕГС раздел 1 "Общие сведения о состоянии преступности". Берем данные по преступлениям, погибшим и тяжело пострадавшим на территории Российской Федерации.

## Предоставленные в проекте формы 4-ЕГС раздел 4 содержат сведения о преступлениях, совершенных отдельными категориями лиц, и не отражают полную статистику

In [18]:


file = 'russia-data/4-EGS_Razdel_1_122020.xls'

crimes = pd.read_excel(
    file, header=13, usecols='B, D, G, AB, AD')
crimes['registered crimes'] = crimes[2] - crimes[5]
crimes['killed'] = crimes[26]
crimes['grievous harm'] = crimes[28]
crimes.drop([2, 5, 26, 28], axis=1, inplace=True)
crimes.rename({'Unnamed: 1': 'region'}, axis=1, inplace=True)

felony = pd.read_excel(
    file, sheet_name=1, header=13, usecols='D, G')
felony['felonies'] = felony[2] - felony[5]

misdemeanor = pd.read_excel(
    file, sheet_name=2, header=13, usecols='D, G')
misdemeanor['misdemeanors'] = misdemeanor[2] - misdemeanor[5]

crimes = pd.concat([
    crimes[['region', 'registered crimes']],
    felony[['felonies']],
    misdemeanor[['misdemeanors']],
    crimes[['killed', 'grievous harm']]
    ], axis=1
)

crimes = federal_subj(crimes, standard_names)
crimes.head(3)



Unnamed: 0_level_0,registered crimes,felonies,misdemeanors,killed,grievous harm
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Алтайский край,39024,1529,8887,411,647
Амурская область,18420,560,4967,223,255
Архангельская область без Ненецкого АО,19074,823,4569,166,288


## Дети
## Данные портала https://tochno.st за 2020 г.

In [19]:


children = pd.read_excel(
    'russia-data/report_orphanhood_2020.xlsx',
    header=1, usecols='B:E')
children.rename({
    'Регион': 'region',
    'Всего детей в регионе, человек': 'children',
    'Нуждаются в устройстве в семьи, человек': 'orphanage',
    'Устройство детей в семьи, %': 'adopted %'
    }, axis=1, inplace=True)
children['adopted %'] = (children['adopted %']
    .mask(children['adopted %'] == 'мало данных', np.NaN)).astype(float)
children = federal_subj(children, standard_names)
children.head(3)

Unnamed: 0_level_0,children,orphanage,adopted %
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,490149,983,59.0
Амурская область,178702,676,65.0
Архангельская область без Ненецкого АО,226228,785,60.0


 ## Пенсионеры
## Данные портала https://tochno.st

In [20]:


retired = pd.read_csv(
    'russia-data/problem_ageing_all.csv', decimal=',')
cols = [
    'Название показателя', 'Ед.измерения', 'Название региона', 'Сегмент',
    '2015', '2016', '2017', '2018', '2019', '2020', '2021'
]
retired = retired[cols]
retired.replace('н/д', np.NaN, inplace=True)
retired.replace('#Н/Д', np.NaN, inplace=True)
retired.columns.values[-7:] = pd.to_datetime(retired.columns[-7:]).year
retired.rename({'Название региона': 'region'}, axis=1, inplace=True)

# Пенсии
mask = retired['Название показателя'] == 'Средний размер пенсии'
pension = retired[mask].copy()
pension.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент', 2021], 
             inplace=True) 
for year in range(2015, 2021):
    pension[year] = (pension[year]
                     .apply(lambda x: float(str(x).replace(',','.'))))
pension = pension.groupby('region').sum().reset_index()  # Страх. + накопит.
pension = federal_subj(pension, standard_names)

# Число пенсионеров
mask = ((retired['Название показателя'] == 'Люди в возрасте старше трудоспособного')
        & (retired['Ед.измерения'] == 'человек') & (retired['Сегмент'] == 'всего'))
retired_number = retired[mask].copy()
retired_number.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент'],
                     inplace=True) 
for year in range(2015, 2022):
    retired_number[year] = (retired_number[year]
                     .apply(lambda x: float(str(x).replace(',','.'))))
retired_number = federal_subj(retired_number, standard_names)

# Процент пенсионеров
mask = ((retired['Название показателя'] == 'Люди в возрасте старше трудоспособного')
        & (retired['Ед.измерения'] == '%') & (retired['Сегмент'] == 'всего'))
retired_percent = retired[mask].copy()
retired_percent.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент'],
                     inplace=True) 
for year in range(2015, 2022):
    retired_percent[year] = (retired_percent[year]
                     .apply(lambda x: float(str(x).replace(',','.'))))
retired_percent = federal_subj(retired_percent, standard_names)

display('Средний размер пенсии', pension.head(3))
display('Число пенсионеров', retired_number.head(3))
display('Процент пенсионеров', retired_percent.head(3))

'Средний размер пенсии'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,12198.7,12523.82,13147.23,14376.0,15243.87,16128.19
Амурская область,13698.68,14092.91,14780.44,16065.37,17005.85,17998.7
Архангельская область без Ненецкого АО,0.0,0.0,0.0,0.0,0.0,21753.88


'Число пенсионеров'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Алтайский край,604333.0,618276.0,629725.0,639803.0,647643.0,621984.0,622583.0
Амурская область,175375.0,178772.0,181429.0,183228.0,185016.0,176633.0,176179.0
Архангельская область без Ненецкого АО,283394.0,288882.0,293477.0,297292.0,300715.0,288908.0,290570.0


'Процент пенсионеров'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Алтайский край,25.3,26.0,26.6,27.2,27.8,26.8,27.1
Амурская область,21.7,22.2,22.6,22.9,23.3,22.4,22.5
Архангельская область без Ненецкого АО,33.0,25.6,26.2,26.8,27.3,26.4,26.8


## Прожиточный минимум.
## По данным Росстата. Берем данные на 4 квартал 2020 г. для трудоспособного населения.

In [21]:


living_wage = pd.read_excel(
    'russia-data/living_wage_2020.xls',
    header=4, usecols='A, I')
living_wage.rename({
    'Unnamed: 0': 'region',
    'Трудоспособное население.3': 'living wage',
    }, axis=1, inplace=True)
names_to_drop = ['        Архангельская область',
                 '        Тюменская область']
living_wage = federal_subj(living_wage, standard_names, names_to_drop)
living_wage.head(3)

Unnamed: 0_level_0,living wage
region,Unnamed: 1_level_1
Алтайский край,10904.0
Амурская область,14331.0
Архангельская область без Ненецкого АО,14507.0


## Сводная таблица полученных данных. Формирование датасета проекта.
## Выделены признаки, которые потенциально могут быть использованы для кластерного анализа.

In [22]:
russia_regions_2020 = pd.concat([
    per_capita[[2020]].rename({2020: 'per capita'}, axis=1),
    formal_wage[[2020]].rename({2020: 'formal wage'}, axis=1),
    (pd.DataFrame(child_mortality[2020] / newborn[2020] * 100)
        .rename({2020: 'child mortality'}, axis=1)),
    (pd.DataFrame(
        disabled_18_60[2020] 
        / (population[2020]-children['children']-retired_number[2020]) * 100)
        .rename({0: 'disabled 18_60'}, axis=1)),
    alco[[2018]].rename({2018: 'alco (2018)'}, axis=1),
    drug[[2018]].rename({2018: 'drug (2018)'}, axis=1), 
    grp[[2020]].rename({2020: 'grp'}, axis=1),  
    housing,
    general_morbidity[[2016]].rename({2016: 'morbidity (2016)'}, axis=1),
    (congenital_malformation[[2016]]
        .rename({2016: 'congenital malformation (2016)'}, axis=1)),
    psychosis[[2016]].rename({2016: 'psychosis (2016)'}, axis=1),
    teenage_pregnancy[[2016]].rename({2016: 'teenage pregnancy (2016)'}, 
                                     axis=1),
    (pd.DataFrame(newborn[2020] / population[2020] * 100_000)
        .rename({2020: 'birth rate'}, axis=1)),
    population[[2020]].rename({2020: 'population'}, axis=1),
    poverty_percent[[2020]].rename({2020: 'poverty'}, axis=1),
    poverty_socdem.drop(columns='all').rename({
        'children': 'the poor: children',
        'retired': 'the poor: retired',
        'employable': 'the poor: employable',
        }, axis=1),
    (pd.DataFrame(reg_prod_total[2020] / population[2020] * 1000)
        .rename({2020: 'regional production'}, axis=1)),
    retail[[2020]].rename({2020: 'retail'}, axis=1),
    (pd.DataFrame(income['income'] / population[2020] * 1_000_000)
        .rename({0: 'income'}, axis=1)),
    (pd.DataFrame(income['subsidies'] / population[2020] * 1_000_000)
        .rename({0: 'subsidies'}, axis=1)),
    (pd.DataFrame(welfare['welfare'] / population[2020] * 1_000_000)
        .rename({0: 'welfare'}, axis=1)),
    crimes,
    (pd.DataFrame(children['children'] / population[2020] * 100)
        .rename({0: 'children %'}, axis=1)),
    children[['orphanage', 'adopted %']],
    pension[[2020]].rename({2020: 'pension'}, axis=1),
    retired_percent[[2020]].rename({2020: 'retired %'}, axis=1), 
    living_wage   
    ], 
    axis=1
)

russia_regions_2020.to_csv('russia-data/russia_regions_2020.csv')
russia_regions_2020.head(3)

Unnamed: 0_level_0,per capita,formal wage,child mortality,disabled 18_60,alco (2018),drug (2018),grp,living area,bad conditions,no funds,...,felonies,misdemeanors,killed,grievous harm,children %,orphanage,adopted %,pension,retired %,living wage
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,23864.0,30072.0,0.485583,5.093525,88.1,17.4,291156.9,18.0,0.3,0.8642,...,1529,8887,411,647,21.15307,983,59.0,16128.19,26.8,10904.0
Амурская область,35499.0,52430.0,0.534827,5.766846,113.3,24.4,571362.1,17.3,1.3,1.0731,...,560,4967,223,255,22.619247,676,65.0,17998.7,22.4,14331.0
Архангельская область без Ненецкого АО,34852.0,52779.0,0.325623,4.67427,64.7,9.2,514200.4,16.9,1.4,1.2998,...,823,4569,166,288,20.708809,785,60.0,21753.88,26.4,14507.0
