# Итоговый проект первого года обучения Skillfactory Data Science

## Определение уязвимых групп населения

### <center> 1. Описание данных ###
#### Проектный анализ будет проводиться на предоставленных и загруженных из открытых источников интернета данных: ####

  ➔ **child_mortality_rural_1990_2021.xls** — число умерших на первом году жизни детей за год, по всем регионам,в сельской местности;

  ➔ **child_mortality_urban_1990_2021.xls** — число умерших на первом году жизни детей за год, по всем регионам,в городской местности;
  
  ➔ **disabled_total_by_age_2017_2022.csv** — число людей с инвалидностью по регионам, по месяцам, по возрастным группам;

  ➔ **morbidity_2005_2020_age_disease.xls** — заболеваемость на 100 тыс. человек населения, по возрастным группам и группам заболеваний;

  ➔ **poverty_percent_by_regions_1992_2020.csv** — процент людей, живущих за чертой бедности (с денежными доходами ниже величины прожиточного минимума), оценка за год по регионам;

  ➔ **welfare_expense_share_2015_2020** — расходы на социальную политику от общих расходов бюджета региона, % в год;

  ➔ **cash_real_income_wages_2015_2020** — среднедушевые и реальные денежные доходы населения, номинальная и реальная начисленная зарплата, по регионам;

  ➔ **poverty_socdem_2017-2020.xls** — распределение малоимущего населения по социально-демографическим группам (дети, трудящиеся, пенсионеры) за 2017–2020 гг., по регионам;

  ➔ **housing_2020.xlsx** — характеристика жилищных условий домохозяйств. Оценка домохозяйствами состояния занимаемого ими жилого помещения, обследование 2020 года;

  ➔ **population.xlsx** — численность населения по регионам и федеральным округам на 1 января каждого года за 1999–2022 гг;

  ➔ **gross_regional_product_1996_2020.xls** — валовой региональный продукт на душу населения, в рублях;

  ➔ **regional_production_2005_2016.csv** — объём регионального производства или работ/услуг, выполненных собственными силами, 2005–2016 гг. (в млн.руб., значение показателя за год, полный круг)*;

  ➔ **regional_production_2017-2020.csv** — объём регионального производства или работ/услуг, выполненных собственными силами, 2017–2020 гг. (в млн.руб., значение показателя за год, полный круг)*;

  ➔ **retail_turnover_per_capita_2000_2021.xls** — оборот розничной торговли на душу населения, в рублях;

  ➔ **newborn_2006_2022_monthly.csv** — рождаемость (за год) за период 2006-2022гг.*;

  ➔ **disabled_total_by_age_2017_2022.csv** — число людей с инвалидностью по регионам за период 2017-2022гг.*.

  ➔ Папка **crimes** — сведения опреступлениях, совершённых отдельными категориями лиц за 2016–2022гг., по месяцам, регионам, категориям лиц, категориям преступлений:
   1. В папке содержатся файлы о расследованных преступлениях (число преступлений);
   2. Файлы представлены в том виде, в котором их предоставляет Генпрокуратура.
    

In [48]:
import numpy as np
import pandas as pd
import pickle
import regex as re

Функция для извлечения данных по федеральным субъектам и стандартизации их названий. 
- df - DataFrame;
- standard_names - словарь стандартных названий; 
- список names_to_drop позволяет сразу исключить некоторые регионы, которые могут быть ошибочно обработаны функцией как федеральные субъекты;
- region_col - колонка DataFrame с названиями регионов.

In [49]:
def federal_subj(
    df, standard_names, names_to_drop=None, region_col='region'):
    """Считывание данных по федеральным субъектам"""
       
    def get_standard_name(x):
        """Функция для .apply()
        Просмотр столбца регионов и вывод названий в стандартном виде"""
    
        for key, value in standard_names.items():
            x = re.sub('[\(].*?[\)]', '', x)  # удаляем всё, что в скобках ()
            if re.search(key, x.lower()):
                return value
        return None
    
    if names_to_drop is None:
        names_to_drop = []
    df = df[~df[region_col].isin(names_to_drop)].copy()
    df[region_col] = df[region_col].apply(get_standard_name)
    return (df.dropna(subset=region_col)
            .set_index(region_col).sort_index()) 

  x = re.sub('[\(].*?[\)]', '', x)  # удаляем всё, что в скобках ()


Зачитаем словарь `social_russia_data/standard_names.pkl`.

In [50]:
with open('social_russia_data/standard_names.pkl', 'rb') as f:
    standard_names = pickle.load(f)

Зачитаем данные о детской смертности (в сельской и городской местности)

In [51]:
def mortality_readout(file):
    "Считывание данных с excel-листа"
    df = pd.read_excel(file, header=2, skipfooter=13, usecols='A, D:AI')
    df.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
    names_to_drop = [
        '            Архангельская область (кроме Ненецкого автономного округа)',
        '            Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
    ]
    df = federal_subj(df, standard_names, names_to_drop)
    df.loc['Архангельская область без Ненецкого АО'] \
        = (df.loc['Архангельская область без Ненецкого АО']
           - df.loc['Ненецкий автономный округ'])
    df.loc['Тюменская область без округов'] \
        = (df.loc['Тюменская область без округов']
           - df.loc['Ханты-Мансийский автономный округ - Югра']
           - df.loc['Ямало-Ненецкий автономный округ'])
    df.columns = pd.to_datetime(df.columns, format='%Y').year
    return df


rural = mortality_readout(
    'social_russia_data/child_mortality_rural_1990_2021.xls')
urban = mortality_readout(
    'social_russia_data/child_mortality_urban_1990_2021.xls')
child_mortality = rural.add(urban)
child_mortality.head()

Unnamed: 0_level_0,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,522.0,567.0,529.0,560.0,497.0,490.0,405.0,375.0,340.0,391.0,...,330.0,290.0,275.0,222.0,211.0,185.0,176.0,114.0,97.0,88.0
Амурская область,343.0,293.0,280.0,244.0,242.0,250.0,245.0,268.0,246.0,270.0,...,161.0,119.0,101.0,83.0,53.0,48.0,46.0,43.0,42.0,36.0
Архангельская область без Ненецкого АО,288.0,274.0,245.0,237.0,224.0,206.0,194.0,157.0,167.0,168.0,...,108.0,113.0,97.0,84.0,79.0,72.0,53.0,58.0,29.0,32.0
Астраханская область,250.0,235.0,188.0,216.0,202.0,194.0,192.0,188.0,221.0,154.0,...,142.0,130.0,148.0,119.0,82.0,74.0,71.0,72.0,64.0,46.0
Белгородская область,312.0,290.0,240.0,244.0,233.0,203.0,174.0,167.0,160.0,161.0,...,127.0,116.0,103.0,110.0,108.0,77.0,73.0,39.0,47.0,54.0


Зачитаем данные об инвалидности

Единица измерения - количество человек. Таблица содержит данные по месяцам и для разных возрастов, берем данные на 1 января каждого года по непенсионным (до 60 лет) возрастам: количество инвалидов пожилого возраста может зависеть, в том, числе, от естественного старения. Инвалидность среди трудоспособного населения дает более точную оценку социального неблагополучия региона.  

In [52]:
disabled = pd.read_csv(
    'social_russia_data/disabled_total_by_age_2017_2022.csv')
disabled = federal_subj(disabled, standard_names)

disabled['date'] = pd.to_datetime(disabled['date'])
disabled['monthofyear'] = disabled['date'].dt.month
disabled = disabled[disabled['monthofyear'] == 1]
disabled['young'] = disabled[['18_30', '31_40', '41_50', '51_60']].sum(axis=1)
disabled_18_60 = pd.pivot_table(
    data=disabled, values='young', index='region', columns='date')
# Оставляем только год в отображении столбца
disabled_18_60.columns = (disabled_18_60.columns).year
display(disabled_18_60.head())

date,2017,2018,2019,2020,2021,2022
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,66770.0,64605.0,62840.0,61378.0,59810.0,59006.0
Амурская область,27892.0,26720.0,25976.0,25069.0,24149.0,23356.0
Архангельская область без Ненецкого АО,29228.0,28262.0,27615.0,26984.0,26498.0,26009.0
Астраханская область,21018.0,20394.0,19822.0,19534.0,19391.0,19313.0
Белгородская область,70741.0,66742.0,63964.0,60716.0,58208.0,55509.0


Зачитаем данные о численности населения за 1999 - 2022 гг

In [53]:
population = pd.read_excel(
        'social_russia_data/population.xlsx', header=1, usecols='A, C:Z')
population.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)

for i, val in enumerate(population['region']):
    if val == 'Раздел 1. Муниципальные образования субъектов Российской Федерации':
        population.loc[i, 'region'] = population.loc[i-1, 'region']
population.dropna(subset=population.columns[1:], how='all', inplace=True)

names_to_drop = [
        'Архангельская область (кроме Ненецкого автономного округа)',
        'Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
        'Муниципальные образования Алтайского края',
        'Алтайский муниципальный район',
        'Алтайский сельсовет',
        'Большекалтайский сельсовет',
        'Населенные пункты, входящие в состав муниципальных образований Алтайского края',
        'Кировский сельсовет'
]
population = federal_subj(population, standard_names, names_to_drop)
population.loc['Архангельская область без Ненецкого АО'] \
    = (population.loc['Архангельская область без Ненецкого АО']
      - population.loc['Ненецкий автономный округ'])
population.loc['Тюменская область без округов'] \
    = (population.loc['Тюменская область без округов']
       - population.loc['Ханты-Мансийский автономный округ - Югра']
       - population.loc['Ямало-Ненецкий автономный округ'])

newcols = []
for col in population.columns:
    newcols.append(re.search(r'\d+', col).group(0))
population.columns = pd.to_datetime(newcols).year

population.head()

Unnamed: 0_level_0,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,2662738.0,2651628.0,2641079.0,2621050.0,2602595.0,2571987.0,2539430.0,2503510.0,2473024.0,2453455.0,...,2398751.0,2390638.0,2384812.0,2376774.0,2365680.0,2350080.0,2332813.0,2317153.0,2296353.0,2268179.0
Амурская область,949526.0,935607.0,923055.0,911381.0,901044.0,887781.0,874018.0,861056.0,850502.0,844290.0,...,816910.0,811274.0,809873.0,805689.0,801752.0,798424.0,793194.0,790044.0,781846.0,772525.0
Архангельская область без Ненецкого АО,1372631.0,1349160.0,1328187.0,1309552.0,1290956.0,1273668.0,1257312.0,1239924.0,1224813.0,1215264.0,...,1159506.0,1148760.0,1139950.0,1130240.0,1121813.0,1111031.0,1100290.0,1092424.0,1082662.0,1069782.0
Астраханская область,1016372.0,1012385.0,1009281.0,1005510.0,1004780.0,1006073.0,1006467.0,1002517.0,1001300.0,1005897.0,...,1013840.0,1016516.0,1021287.0,1018626.0,1018866.0,1017514.0,1014065.0,1005782.0,997778.0,989430.0
Белгородская область,1494868.0,1501699.0,1506976.0,1508137.0,1511899.0,1513860.0,1511662.0,1511715.0,1514153.0,1520102.0,...,1540985.0,1544108.0,1547936.0,1550137.0,1552865.0,1549876.0,1547418.0,1549151.0,1541259.0,1531917.0


Зачитаем данные по заболеваемости

Для обеспечения единой методики расчета по Архангельской и Тюменской областям берем данные с 2014 г. (данные рассчитывались в перерасчете на 100 тыс. человек, при этом статистика по областям без автономных округов до 2014 г. не приводится). Данные позже 2016 г. отсутствуют. Выделяем данные по диагнозам, которые могут быть связаны с социальным неблагополучием.

In [54]:
morbidity = pd.read_excel(
        'social_russia_data/morbidity_2005_2020_age_disease.xls',
        header=2, usecols='A:C, M:O')
morbidity.rename(
    {'Unnamed: 0': 'region', 'Unnamed: 1': 'type', 'Unnamed: 2': 'age'}, 
    axis=1, inplace=True)
morbidity = morbidity.dropna(subset=['2014', '2015', '2016'], how='all')
morbidity = federal_subj(morbidity, standard_names)

# Общая заболеваемость
mask = (
    (morbidity['type'] == 'Все заболевания')
    & (morbidity['age'] ==  'Всего')   
)
general_morbidity = morbidity[mask].copy()
general_morbidity.drop(columns=['type', 'age', '2014'], inplace=True)
general_morbidity.columns = pd.to_datetime(
    general_morbidity.columns).year

# Врожденные пороки развития
mask = (
    (morbidity['type'] == 'Врожденные аномалии (пороки развития), деформации и хромосомные нарушения')
    & (morbidity['age'] ==  'Всего')   
)
congenital_malformation = morbidity[mask].copy()
congenital_malformation.drop(columns=['type', 'age'], inplace=True)
congenital_malformation.columns = pd.to_datetime(
    congenital_malformation.columns).year

# Психические расстройства и расстройства поведения
mask = (
    (morbidity['type'] == 'Психические расстройства и расстройства поведения')
    & (morbidity['age'] ==  'Всего')   
)
psychosis = morbidity[mask].copy()
psychosis.drop(columns=['type', 'age'], inplace=True)
psychosis.columns = pd.to_datetime(
    psychosis.columns).year

# Подростковая беременность (до 14 лет)
mask = (
    (morbidity['type'] == 'Беременность, роды и послеродовой период')
    & (morbidity['age'] ==  '0-14 лет')   
)
teenage_pregnancy = morbidity[mask].copy()
teenage_pregnancy.drop(columns=['type', 'age'], inplace=True)
teenage_pregnancy.columns = pd.to_datetime(
    teenage_pregnancy.columns).year

display('Общая заболеваемость', general_morbidity.head(3))
display('Врожденные пороки развития', congenital_malformation.head(3))
display('Психические расстройства', psychosis.head(3))
display('Подростковая беременность', teenage_pregnancy.head(3))

'Общая заболеваемость'

Unnamed: 0_level_0,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1
Алтайский край,109652.6,112764.7
Амурская область,83919.0,83412.0
Архангельская область без Ненецкого АО,101587.4,99842.1


'Врожденные пороки развития'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,176.1,196.7,200.1
Амурская область,391.2,335.2,370.1
Архангельская область без Ненецкого АО,380.8,423.9,458.9


'Психические расстройства'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,1454.0,1467.7,1272.1
Амурская область,512.4,485.3,446.7
Архангельская область без Ненецкого АО,646.0,693.5,685.3


'Подростковая беременность'

Unnamed: 0_level_0,2014,2015,2016
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,3.4,8.3,3.3
Амурская область,22.4,13.3,4.4
Архангельская область без Ненецкого АО,10.5,6.9,13.8


Зачидаем данные о численности населения за чертой бедности

In [55]:
poverty_percent = pd.read_csv(
    'social_russia_data/poverty_percent_by_regions_1992_2020.csv')
poverty_percent = pd.pivot_table(
    data=poverty_percent, values='poverty_percent', 
    columns='year', index='region').reset_index()
names_to_drop = [
    '        Архангельская область',
    '        Тюменская область'
]
poverty_percent = federal_subj(poverty_percent, standard_names, names_to_drop)
poverty_percent.columns = pd.to_datetime(
    poverty_percent.columns, format='%Y').year

display(poverty_percent.head())

year,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,,,,33.7,46.8,45.7,52.9,53.8,53.9,47.3,...,22.6,20.6,17.6,17.1,18.0,17.8,17.5,17.4,17.6,17.5
Амурская область,,,,36.1,28.2,26.3,31.2,38.0,47.7,45.3,...,20.4,16.0,16.2,14.8,15.2,17.0,16.7,15.6,15.7,15.2
Архангельская область без Ненецкого АО,,,,,,,,,,,...,,13.0,14.5,14.5,16.2,14.9,13.9,12.5,12.7,12.3
Астраханская область,,,,32.3,30.7,25.0,30.4,36.0,33.4,31.1,...,14.2,12.5,11.8,12.0,14.2,16.1,15.5,15.1,15.5,15.6
Белгородская область,,,,19.9,17.6,18.9,20.1,24.2,33.6,29.1,...,8.6,6.5,7.6,7.7,8.5,8.1,7.8,7.5,7.8,7.2


Зачитаем расходы на социальную политику, % от общих расходов бюджета региона за период 2015-2020гг в год

In [60]:
welfare_expense_share = pd.read_excel('social_russia_data/welfare_expense_share_2015_2020.xlsx', sheet_name=0)
welfare_expense_share = federal_subj(welfare_expense_share, standard_names)
display(welfare_expense_share.head())

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,18.8,20.4,30.9,29.8,28.3,29.7
Амурская область,19.2,28.9,26.3,24.1,22.7,21.7
Архангельская область без Ненецкого АО,15.4,16.3,24.8,24.2,22.4,21.4
Астраханская область,18.8,20.5,27.7,26.4,25.8,31.4
Белгородская область,11.3,11.8,16.4,15.6,13.8,16.1


Зачитаем данные о доходах населения за 2015 - 2020 годы

In [61]:
def read_finances(file, sheet):
    "Считывание финансовых данных с excel-листа"
    df = pd.read_excel(file, sheet_name=sheet)
    names_to_drop = ['Архангельская область', 'Тюменская область']
    df = federal_subj(df, standard_names, names_to_drop)
    df.columns = pd.to_datetime((df.columns).astype(int), format='%Y').year
    return df

file = './social_russia_data/cash_real_income_wages_2015_2020.xlsx'
per_capita = read_finances(file, 0)
real_incomes = read_finances(file, 1)
formal_wage = read_finances(file, 2)
real_pay = read_finances(file, 3)

display('Номинальный доход на душу населения', per_capita.head(3))
display('Реальный доход, %', real_incomes.head())
display('Номинальная зарплата', formal_wage.head())
display('Реальная зарпалата, %', real_pay.head())

'Номинальный доход на душу населения'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,20860.0,21256.0,22139.0,22829.0,23937.0,23864.0
Амурская область,28240.0,27976.0,29213.0,30937.0,33304.0,35499.0
Архангельская область без Ненецкого АО,29716.0,29837.0,30707.0,32054.0,33874.0,34852.0


'Реальный доход, %'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,99.1,94.7,100.0,99.7,99.6,95.5
Амурская область,96.1,92.1,101.1,102.4,101.7,100.3
Архангельская область без Ненецкого АО,95.1,93.0,98.7,101.7,100.2,98.4
Астраханская область,94.0,90.1,97.1,100.6,100.7,97.1
Белгородская область,99.3,100.8,99.1,98.7,100.6,98.1


'Номинальная зарплата'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,20090.0,21202.0,22743.0,25519.0,27962.0,30072.0
Амурская область,32902.0,33837.0,37368.0,42315.0,47234.0,52430.0
Архангельская область без Ненецкого АО,35592.0,38118.0,40352.0,45427.0,49435.0,52779.0
Астраханская область,25499.0,27493.0,29599.0,33630.0,36093.0,38885.0
Белгородская область,25456.0,27091.0,29066.0,31852.0,34615.0,37442.0


'Реальная зарпалата, %'

Unnamed: 0_level_0,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Алтайский край,90.0,98.4,103.6,109.3,104.9,103.8
Амурская область,88.0,96.0,107.4,110.1,106.0,105.2
Архангельская область без Ненецкого АО,92.4,100.0,102.5,110.7,104.0,102.9
Астраханская область,89.9,101.4,104.5,110.7,103.0,104.5
Белгородская область,93.2,100.8,104.5,106.8,104.0,104.8


Зачитаем данные о жилищных условиях за 2020 г

Выделяем: 
- среднюю жилую площадь на одного человека;
- процент домохозяйств, указавших на плохое состояние жилого помещения;
- процент домохозяйств, не имеющих средств для улучшения жилищных условий (процент встающих в очередь на жилье или рассчитывающих на переселение в связи со сносом дома)

In [62]:
def housing_readout(file, sheet, cols, skipfooter=0):
    "Считывание данных с excel-листа"
    df = pd.read_excel(
        file, sheet_name=sheet, usecols=cols, skipfooter=skipfooter)
    df.rename({'Регион': 'region'}, axis=1, inplace=True)
    
    # Ошибки в написании названий (латиница?)
    df.replace({'Bладимирская область': 'Владимирская'}, inplace=True)
    df.replace({'Bолгоградская область': 'Волгоградская'}, inplace=True)
    df.replace({'Bологодская область': 'Вологодская'}, inplace=True)
    df.replace({'Bоронежская область': 'Воронежская'}, inplace=True)
    df.replace('...', 0, inplace=True)  # слабая статистика -> 0
    df = federal_subj(df, standard_names)
    return df


file = 'social_russia_data/housing_2020.xlsx'
living_area = housing_readout(file, 0, 'A, H')
living_area.columns.values[0] = 'living area'
intents = housing_readout(file, 1, 'A, C, E, H, I', 2)
intents.columns.values[0] = 'to improve'
intents.columns.values[1] = 'bad conditions'
intents.columns.values[2] = 'queue'
intents.columns.values[3] = 'demolition'
intents['no funds'] = ((intents['to improve']/100 
    * (intents['queue']/100 + intents['demolition']/100)) * 100)
housing = pd.concat(
    [living_area, intents[['bad conditions', 'no funds']]], axis=1)
display(housing.head())

  df.replace('...', 0, inplace=True)  # слабая статистика -> 0


Unnamed: 0_level_0,living area,bad conditions,no funds
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Алтайский край,18.0,0.3,0.8642
Амурская область,17.3,1.3,1.0731
Архангельская область без Ненецкого АО,16.9,1.4,1.2998
Астраханская область,19.2,0.8,2.9028
Белгородская область,17.8,0.7,0.384


Зачитаем данные о численности населения, кол-во человек

In [64]:
population = pd.read_excel(
        'social_russia_data/population.xlsx', header=1, usecols='A, C:Z')
population.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)

for i, val in enumerate(population['region']):
    if val == 'Раздел 1. Муниципальные образования субъектов Российской Федерации':
        population.loc[i, 'region'] = population.loc[i-1, 'region']
population.dropna(subset=population.columns[1:], how='all', inplace=True)

names_to_drop = [
        'Архангельская область (кроме Ненецкого автономного округа)',
        'Тюменская область (кроме Ханты-Мансийского автономного округа-Югры и Ямало-Ненецкого автономного округа)',
        'Муниципальные образования Алтайского края',
        'Алтайский муниципальный район',
        'Алтайский сельсовет',
        'Большекалтайский сельсовет',
        'Населенные пункты, входящие в состав муниципальных образований Алтайского края',
        'Кировский сельсовет'
]
population = federal_subj(population, standard_names, names_to_drop)
population.loc['Архангельская область без Ненецкого АО'] \
    = (population.loc['Архангельская область без Ненецкого АО']
      - population.loc['Ненецкий автономный округ'])
population.loc['Тюменская область без округов'] \
    = (population.loc['Тюменская область без округов']
       - population.loc['Ханты-Мансийский автономный округ - Югра']
       - population.loc['Ямало-Ненецкий автономный округ'])

newcols = []
for col in population.columns:
    newcols.append(re.search(r'\d+', col).group(0))
population.columns = pd.to_datetime(newcols).year

display(population.head())

Unnamed: 0_level_0,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Алтайский край,2662738.0,2651628.0,2641079.0,2621050.0,2602595.0,2571987.0,2539430.0,2503510.0,2473024.0,2453455.0,...,2398751.0,2390638.0,2384812.0,2376774.0,2365680.0,2350080.0,2332813.0,2317153.0,2296353.0,2268179.0
Амурская область,949526.0,935607.0,923055.0,911381.0,901044.0,887781.0,874018.0,861056.0,850502.0,844290.0,...,816910.0,811274.0,809873.0,805689.0,801752.0,798424.0,793194.0,790044.0,781846.0,772525.0
Архангельская область без Ненецкого АО,1372631.0,1349160.0,1328187.0,1309552.0,1290956.0,1273668.0,1257312.0,1239924.0,1224813.0,1215264.0,...,1159506.0,1148760.0,1139950.0,1130240.0,1121813.0,1111031.0,1100290.0,1092424.0,1082662.0,1069782.0
Астраханская область,1016372.0,1012385.0,1009281.0,1005510.0,1004780.0,1006073.0,1006467.0,1002517.0,1001300.0,1005897.0,...,1013840.0,1016516.0,1021287.0,1018626.0,1018866.0,1017514.0,1014065.0,1005782.0,997778.0,989430.0
Белгородская область,1494868.0,1501699.0,1506976.0,1508137.0,1511899.0,1513860.0,1511662.0,1511715.0,1514153.0,1520102.0,...,1540985.0,1544108.0,1547936.0,1550137.0,1552865.0,1549876.0,1547418.0,1549151.0,1541259.0,1531917.0


Зачитаем данные о ВВП регионов

Считываем данные с 2011 года - обеспечивается единая методика расчета по Архангельской и Тюменской областям.

In [65]:
grp = pd.read_excel('social_russia_data/gross_regional_product_1996_2020.xls', 
                    header=2, skipfooter=1, usecols='A, Q:Z')
grp.rename({'Unnamed: 0': 'region'}, axis=1, inplace=True)
names_to_drop = [
    '        Архангельская область',
    '        Тюменская область']
grp = federal_subj(grp, standard_names, names_to_drop)
grp.columns = pd.to_datetime(grp.columns).year
display(grp.head())

Unnamed: 0_level_0,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Алтайский край,137677.2,153556.7,173763.5,186798.6,204933.1,224525.8,231268.4,247599.3,271319.7,291156.9
Амурская область,273175.8,280023.9,258817.0,286282.6,343385.7,370192.4,373935.1,419905.2,521060.1,571362.1
Архангельская область без Ненецкого АО,232540.7,270662.9,283264.5,310817.4,352837.9,400764.6,441961.6,493205.1,509917.0,514200.4
Астраханская область,170504.7,206677.1,269821.7,290822.2,315996.9,361704.8,434701.5,570206.4,596388.2,526950.9
Белгородская область,331010.0,354570.6,368874.8,400820.8,447619.7,501467.8,539720.5,588641.5,617426.5,646569.0


Зачитаем данные об объёме регионального производства или работ/услуг. Будем использовать данные за 2017 - 2020 годы

In [77]:
reg_prod = pd.read_csv(
    'social_russia_data/regional_production_2017_2020.csv')
names_to_drop = [
    '        Архангельская область', 
    '        Тюменская область']
reg_prod = federal_subj(reg_prod, standard_names, names_to_drop) 
reg_prod.columns.values[-4:] = pd.to_datetime(reg_prod.columns[-4:]).year
reg_prod_total = (reg_prod
                  .groupby('region')[[2017, 2018, 2019, 2020]].sum()) 
reg_prod_total.columns = pd.to_datetime(
    reg_prod_total.columns, format='%Y').year

display('Региональное производство, по видам деятельности', reg_prod.head())
display('Региональное производство, общий объем', reg_prod_total.head())

'Региональное производство, по видам деятельности'

Unnamed: 0_level_0,production_field,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Алтайский край,"ВОДОСНАБЖЕНИЕ; ВОДООТВЕДЕНИЕ, ОРГАНИЗАЦИЯ СБОР...",8068621.4,10323030.0,9813456.6,10454410.0
Алтайский край,ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ,6143029.4,5023392.0,7745963.3,9146146.0
Алтайский край,ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА,307969929.4,322810300.0,357699013.3,361880100.0
Алтайский край,"ОБЕСПЕЧЕНИЕ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИЕЙ, ГАЗОМ И ПА...",45806615.7,47439690.0,43900541.6,44741020.0
Алтайский край,Промышленное производство (промышленность),367988195.7,385596400.0,419158974.7,426221700.0


'Региональное производство, общий объем'

Unnamed: 0_level_0,2017,2018,2019,2020
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,735976400.0,771192700.0,838317900.0,852443400.0
Амурская область,268844100.0,268760800.0,340026700.0,404576500.0
Архангельская область без Ненецкого АО,709009800.0,606471100.0,533584900.0,664107000.0
Астраханская область,626569700.0,883766500.0,901514700.0,724597800.0
Белгородская область,1566651000.0,1790868000.0,1878073000.0,1948294000.0
