# <center> Определение уязвимых групп населения

## Постановка задачи

Согласно опросу «инФОМ» от декабря 2021 года, у 27 % россиян хватает
денег только на еду, а ещё 9 % не могут позволить себе полноценное
питание. Эти люди особенно внимательно следят за ценами, а темп роста
цен на продукты обычно превышает средний темп инфляции. При этом
Росстат считает, что расходы на продукты питания должны составлять
примерно 36 % от среднемесячных расходов россиянина (ещё около 10 %
приходится на услуги ЖКХ и жильё, 4 % — на лекарства).
До 2021 года «черта бедности» (жизнь на сумму ниже прожиточного
минимума) в России определялась стоимостью минимальной продуктовой
корзины. В том же году правительство «отвязало» уровень бедности от цен на
базовые продукты: с 2021 года прожиточный минимум рассчитывается как
44.2 % от медианного дохода граждан РФ за прошлый год.

Эти данные указывают на значимость проблемы бедности и недостаточности доходов у значительной части населения страны.

В нашем распоряжении есть данные о доходах, заболеваемости, социально незащищённых слоях населения России и другие экономические и демографические данные.

Цель проекта состоит в том, чтобы предоставить информацию и аналитические результаты, которые могут быть использованы для разработки и реализации эффективных программ и мероприятий по социальной поддержке и снижению уровня бедности в различных регионах России.

**Основные цели, которые нужно будет достигнуть в рамках проекта:**

1. Будем стремиться разделить регионы России на группы, которые имеют схожие характеристики и особенности в социально-экономическом развитии. Это позволит определить регионы с похожими проблемами и потребностями, чтобы улучшить подходы к социальной поддержке и помощи.
2. Проанализируем социально-экономические характеристики населения в каждом кластере, чтобы определить группы, которые испытывают сложности с обеспечением своих базовых потребностей и сталкиваются с бедностью.
3. Будем исследовать связь между уровнем бедности и различными факторами. Например, будет изучено, как число детей, пенсионеров и других социально уязвимых групп влияет на уровень бедности в регионе.
4. Также будем исследовать связь между уровнем бедности и характеристиками экономической деятельности регионов, такими как производство и потребление товаров и услуг.
5. Попробуем рассмотреть и другие возможные зависимости и связи, которые могут быть обнаружены относительно социально незащищённых слоёв населения.

## Данные и их описание

Мы имеем данные состоящие из нескольких таблиц:\
➔ **_child_mortality_rural_1990_2021_** — число умерших на первом году жизни детей за год, по всем регионам, в сельской местности.\
➔ **_child_mortality_urban_1990_2021_** — число умерших на первом году жизни детей за год, по всем регионам, в городской местности.\
➔ **_disabled_total_by_age_2017_2022_** — число людей с инвалидностью по регионам, по месяцам, по возрастным группам.\
➔ **_morbidity_2005_2020_age_disease_** — заболеваемость на 100 тыс. человек населения, по возрастным группам и группам заболеваний.\
➔ **_poverty_percent_by_regions_1992_2020_** — процент людей, живущих за чертой бедности (с денежными доходами ниже величины прожиточного минимума), оценка за год по регионам.\
➔ **_welfare_expense_share_2015_2020_** — расходы на социальную политику от общих расходов бюджета региона, % в год*.\
➔ **_cash_real_income_wages_2015_2020_** — среднедушевые и реальные денежные доходы населения, номинальная и реальная начисленная зарплата, по регионам*.\
➔ **_poverty_socdem_2017_2020_** — распределение малоимущего населения по социально-демографическим группам (дети, трудящиеся, пенсионеры) за 2017–2020 гг., по регионам.\
➔ **_housing_2020_** — характеристика жилищных условий домохозяйств. Оценка домохозяйствами состояния занимаемого ими жилого
помещения, обследование 2020 года.\
➔ **_population_1999_2022_** — численность населения по регионам и федеральным округам на 1 января каждого года за 1999–2022 гг.\
➔ **_gross_regional_product_1996_2020_** — валовой региональный продукт на душу населения, в рублях.\
➔ **_regional_production_2005_2020_** — объём отгруженных товаров собственного производства или работ/услуг, выполненных
собственными силами, по видам деятельности за 2005–2020 гг. (в тысячах рублей, значение показателя за год, полный круг).\
➔ **_retail_turnover_per_capita_2000_2021_** — оборот розничной торговли на душу населения, в рублях.\
➔ **_drug_alco_2005_2018_** — сведения о заболеваемости алкоголизмом и наркоманией, на 100 тыс. населения (2005–2018)\
➔ **_newborn_2006_2022_monthly_** — рождённые в этом месяце, по регионам, без учёта мертворождённых.\
➔ **_workers_2012_2022_** — отношение числа занятых в экономике региона к численности населения региона в трудоспособном возрасте, %, 2012–2022 гг.\
➔ Папка **_crimes_** - сведения о преступлениях, совершённых отдельными категориями лиц за 2016–2022 гг., по месяцам, регионам, категориям лиц, категориям преступлений.

Импорт базовых библиотек:

In [1489]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import re
from regions import standard_names
import datetime

data_path = 'C:/Users/admin/Desktop/FDSupportBK/my_projects_DST120/edu_projects/Diploma/ОУГН/social_russia_data/'


Загрузим все наши данные для дальнейнего анализа над ними.

In [1490]:
# Загрузим данные о числе умерших детей в сельской местности
child_mortality_rural = pd.read_excel(data_path + 'child_mortality_rural_1990_2021.xlsx')

# Загрузим данные о числе умерших детей в городской местности
child_mortality_urban = pd.read_excel(data_path + 'child_mortality_urban_1990_2021.xlsx')

# Загрузим данные о рождаемости по регионам
newborn_data = pd.read_excel(data_path + 'newborn_2006_2022_monthly.xlsx')

# Загрузим данные о числе людей с инвалидностью по регионам
disabled_data = pd.read_excel(data_path + 'disabled_total_by_age_2017_2022.xlsx')

# Загрузим данные о заболеваемости на 100 тыс. человек населения по возрастным группам и группам заболеваний
morbidity_data = pd.read_excel(data_path + 'morbidity_2005_2020_age_disease.xlsx')

# Загрузим данные о заболеваемости алкоголизмом на 100 тыс. населения
alco_data = pd.read_excel(data_path + 'drug_alco_2005_2018.xlsx', sheet_name="alco")

# Загрузим данные о заболеваемости наркоманией на 100 тыс. населения
drug_data = pd.read_excel(data_path + 'drug_alco_2005_2018.xlsx', sheet_name="drugs")

# Загрузим данные о численности населения по регионам и федеральным округам
population_data = pd.read_excel(data_path + 'population_1999_2022.xlsx')

# Загрузим данные о характеристиках жилищных условий домохозяйств
housing_cond_data = pd.read_excel(data_path + 'housing_2020.xlsx', sheet_name="housing_cond")
housing_intent_data = pd.read_excel(data_path + 'housing_2020.xlsx', sheet_name="housing_intent")

# Загрузим данные о валовом региональном продукте на душу населения
grp_data = pd.read_excel(data_path + 'gross_regional_product_1996_2020.xlsx')

# Загрузим данные об объеме отгруженных товаров собственного производства за период с 2005 по 2016
regional_production_1 = pd.read_excel(data_path + 'regional_production_2005_2016.xlsx')

# Загрузим данные об объеме отгруженных товаров собственного производства за период с 2017 по 2020
regional_production_2 = pd.read_excel(data_path + 'regional_production_2017_2020.xlsx')

# Загрузим данные об обороте розничной торговли на душу населения
retail_turnover_data = pd.read_excel(data_path + 'retail_turnover_per_capita_2000_2021.xlsx')

# Загрузим данные о расходах на социальную политику от общих расходов бюджета региона
welfare_expense_data = pd.read_excel(data_path + 'welfare_expense_share_2015_2020.xlsx')

# Загрузим данные о распределении малоимущего населения по социально-демографическим группам с 2017 по 2020
poverty_data = pd.read_excel(data_path + 'poverty_socdem_2017_2020.xlsx')

# Загрузим данные об отношении числа занятых к численности населения в трудоспособном возрасте
workers_data = pd.read_excel(data_path + 'workers_2012_2022.xlsx')

# Загрузим данные о среднедушевых и реальных денежных доходах населения
per_capita_cash_income_data = pd.read_excel(data_path + 'cash_real_income_wages_2015_2020.xlsx', sheet_name="per_capita_cash_income")
real_incomes_data = pd.read_excel(data_path + 'cash_real_income_wages_2015_2020.xlsx', sheet_name="real_incomes")
formal_wage_paid_data = pd.read_excel(data_path + 'cash_real_income_wages_2015_2020.xlsx', sheet_name="formal_wage_paid")
real_pay_data = pd.read_excel(data_path + 'cash_real_income_wages_2015_2020.xlsx', sheet_name="real_pay")

# Загрузим данные о проценте людей, живущих за чертой бедности
poverty_percent_data = pd.read_excel(data_path + 'poverty_percent_by_regions_1992_2020.xlsx')


## Часть 1. Знакомство с данными и их подготовка

#### Перед тем как работать с данными я их проанализировал и мне удалось немного привести их к стандарту, где я ориентируюсь на регионы и года. В целом вот что было сделано мной перед тем как я приступил к обработке данных:

1. В данных регионов имеется Республика Крым г. Севостополь и Крымский автономный округ. С 2014 года было разделение Крымский автономный округ на Республика Крым и г. Севостополь и данные их соответсвенно суммируются. Поэтому я убрал из всех таблиц значение Крымский край признака region.
2. Я убрал из признака region: Московская обл. в старых границах и Москва в старых границах
3. Выношу в отдельный раздел все округа, такие как: так как их скорее всего не буду использовать. Я буду пользоваться только регионами, поэтому использование округов будет избыточным
4. В таблице drug_alco я объединил данные с 2005 по 2016 и с 2017 по 2018 и оставил только два листа "alco" и "drugs"
5. В некоторых таблицах города Москва, Санкт-Петербург, Севастополь записаны как - город федерального значения. Я это убрал и оставил только г. Москва, г. Санкт-Петербург, г. Севастополь
6. В таблице gross_regional_product у признака region есть дублирующее значение округов, причем данные только по одному году. Они примерно совпадают с основными данными этого значения, поэтому дубль я просто удаляю.
7. В некоторых таблицах присутствуют отдельные округа входящие в состав края или области. Например: "Камчатский край" и отдельно фигурируют значения - "Корякский округ, входящий в состав Камчатского края". Что я заметил, данные таких значений определены до 2002 года или не по всем годам. Убираю такие избыточные данные.
8. У меня есть две области: Архангельская и Тюменская. У этих областей есть округа - Нанецкий АО и Ханты-Мансийский АО, Ямало-Ненецкий АО. В данных эти округа принадлежат областям, но если открыть карту России по регионам, то это отдельно стоящие округа со своими территориальными границами, это можно также найти из Википедии. Поэтому я принял утвердительное решение - эти округа расматривать как отдельно стоящие. На основе этого я оставляю данные для областей без округов и отдельно по округам. Убираю общие данные.
9. Также имеются по тем же областям странные данные, такие как, например: Архангельская область, Ненецкий автономный округ, Архангельская область (кроме Ненецкого автономного округа), Архангельская область (без АО). Данные Архангельская область (кроме Ненецкого автономного округа) есть не по всем годам и они примерно совпадают с данными Архангельская область, поэтому я принимаю решение удалять эти данные. В датасетах: grp_data, poverty_data, retail_turnover_data и workers_data это как раз прослеживается. В датасетах: newborn_data, population_data, regional_production не так, поэтому тут данные мы вычитаем по примеру с датасетами child_mortality для получения значений двух областей.
10. Я объединил четыре таблицы poverty_socdem в одну добавив в нее года.
11. Также я сделал с двумя таблицами regional_production. Для этого я убрал из таблицы regional_production_2005_2016 у признака production_field лишние символы (Раздел, Подраздел) с помощью регулярного выражения: 
regional_production_1['production_field'] = regional_production_1['production_field'].str.replace(r'(РАЗДЕЛ|Подраздел)\s\w+\s', '', regex=True)
12. Так как у нас в таблице morbidity_2005_2020_age_disease имеется разделение для некоторых регионов по годам. То есть есть данные с 2005 по 2013 годы, а далее ниже имеются данные с 2014 по 2016 годы. То мы имеем много пропусков. Я применил группировку данных по 'region', 'Заболеваемость', 'Возраст', а затем применил агрегацию, чтобы получить одну строку для каждой уникальной комбинации 'region', 'Заболеваемость', 'Возраст' с заполненными данными за все годы:
aggregated_data = morbidity_data.groupby(['region', 'Заболеваемость', 'Возраст']).agg('first').reset_index()



Так как у нас в каждом датафрейме имеются различия в написании регионов, я создал словарь стандартных названий **standart_names**. И на основе него я написал функцию которая может стандартизировать названия регионов в каждом датафрейме.

In [1491]:
def standardize_region_names(df, standard_names, column_name='region'):
    """Считывание данных по федеральным субъектам"""
       
    def get_standard_name(x):
        """Функция для .apply()
        Просмотр столбца регионов и вывод названий в стандартном виде"""
        
        if not isinstance(x, str):  # Проверяем, является ли x строкой
            return None

        x = re.sub('[\(].*?[\)]', '', x)  # удаляем всё, что в скобках ()
        for key, value in standard_names.items():
            if re.search(key, x.lower()):
                return value
        return x  # если совпадений не найдено, возвращаем исходное значение
    
    df[column_name] = df[column_name].apply(get_standard_name)
    
    return df.dropna(subset=[column_name]).sort_values(by=column_name)



Другая же функция будет проверять, что регионов действительно 85 и что они уникальны

In [1492]:
def check_regions_count(df, standard_names, column_name="region", df_name="Unknown Dataframe"):
    standardized_df = standardize_region_names(df, standard_names=standard_names, column_name=column_name)
    unique_regions_count = standardized_df[column_name].nunique()

    if unique_regions_count != 85:
        if df_name:
            print(f"Внимание! Количество уникальных регионов в {df_name}: {unique_regions_count}, ожидалось 85.")
        else:
            print(f"Внимание! Количество уникальных регионов в датафрейме: {unique_regions_count}, ожидалось 85.")
        
        missing_regions =  set(standard_names.values()) - set(standardized_df[column_name].unique())
        if missing_regions:
            print(f"Отсутствующие регионы: {missing_regions}")
        
        wrong_regions = set(standardized_df[column_name].unique()) - set(standard_names.values())
        if wrong_regions:
            print(f"Лишние регионы: {wrong_regions}")

    return standardized_df


Стандартизируем названия регионов в каждом датафрейме через функцию standardize_region_names()

In [1493]:
# Мой список датафреймов
dataframes = [per_capita_cash_income_data,
              real_incomes_data,
              formal_wage_paid_data,
              real_pay_data,
              child_mortality_rural,
              child_mortality_urban,
              disabled_data,
              alco_data,
              drug_data,
              grp_data,
              housing_cond_data,
              housing_intent_data,
              morbidity_data,
              newborn_data,
              population_data,
              poverty_percent_data,
              poverty_data,
              regional_production_1,
              regional_production_2,           
              retail_turnover_data,
              welfare_expense_data,
              workers_data]

for df in dataframes:
    standardize_region_names(df, standard_names)

И проверим все датафреймы через функцию check_regions_count()

In [1494]:
dataframe_names = ["per_capita_cash_income_data",
              "real_incomes_data",
              "formal_wage_paid_data",
              "real_pay_data",
              "child_mortality_rural",
              "child_mortality_urban",
              "disabled_data",
              "alco_data",
              "drug_data",
              "grp_data",
              "housing_cond_data",
              "housing_intent_data",
              "morbidity_data",
              "newborn_data",
              "population_data",
              "poverty_percent_data",
              "poverty_data",
              "regional_production_1",
              "regional_production_2",           
              "retail_turnover_data",
              "welfare_expense_data",
              "workers_data"]


for df, df_name in zip(dataframes, dataframe_names):
    check_regions_count(df, standard_names, df_name=df_name)

Разберемся в этом.

In [1495]:
unique_regions = housing_intent_data['region'].unique()

for region in sorted(unique_regions):
    print(region)

print("\nВсего уникальных регионов:", len(unique_regions))

Bладимирская область
Bолгоградская область
Bологодская область
Bоронежская область
Алтайский край
Амурская область
Архангельская область
Астраханская область
Белгородская область
Брянская область
Еврейская автономная область
Забайкальский край
Ивановская область
Иркутская область
Кабардино-Балкарская Республика
Калининградская область
Калужская область
Камчатский край
Карачаево-Черкесская Республика
Кемеровская область
Кировская область
Костромская область
Краснодарский край
Красноярский край
Курганская область
Курская область
Ленинградская область
Липецкая область
Магаданская область
Московская область
Мурманская область
Ненецкий автономный округ
Нижегородская область
Новгородская область
Новосибирская область
Омская область
Оренбургская область
Орловская область
Пензенская область
Пермский край
Приморский край
Псковская область
Республика Адыгея
Республика Алтай
Республика Башкортостан
Республика Бурятия
Республика Дагестан
Республика Ингушетия
Республика Калмыкия
Республика Карелия


Проблема в том, что у нас в этих датафреймах названия этих регионов начинаются с символа "B", который, скорее всего, представляет собой неправильное кодирование кириллической буквы "В".

In [1496]:
# Исправим этот момент
housing_cond_data['region'] = housing_cond_data['region'].str.replace('B', 'В', regex=False)
housing_intent_data['region'] = housing_intent_data['region'].str.replace('B', 'В', regex=False)
poverty_percent_data['region'] = poverty_percent_data['region'].str.replace('B', 'В', regex=False)

df внутри функции standardize_region_names() — это локальная копия исходного df. Любые изменения, внесенные в df внутри функции, не отразятся на исходном df вне функции, если мы не вернем новый df из функции и не присвоите его исходному df

Поэтому, для того, чтобы результат функции стандартизации применился в каждом датафрейме мы должны присваивать результат функции standardize_region_names() обратно каждому датафрейму

In [1497]:
per_capita_cash_income_data = standardize_region_names(per_capita_cash_income_data, standard_names)
real_incomes_data = standardize_region_names(real_incomes_data, standard_names)
formal_wage_paid_data = standardize_region_names(formal_wage_paid_data, standard_names)
real_pay_data = standardize_region_names(real_pay_data, standard_names)
child_mortality_rural = standardize_region_names(child_mortality_rural, standard_names)
child_mortality_urban = standardize_region_names(child_mortality_urban, standard_names)
disabled_data = standardize_region_names(disabled_data, standard_names)
alco_data = standardize_region_names(alco_data, standard_names)
drug_data = standardize_region_names(drug_data, standard_names)
grp_data = standardize_region_names(grp_data, standard_names)
housing_cond_data = standardize_region_names(housing_cond_data, standard_names)
housing_intent_data = standardize_region_names(housing_intent_data, standard_names)
morbidity_data = standardize_region_names(morbidity_data, standard_names)
newborn_data = standardize_region_names(newborn_data, standard_names)
population_data = standardize_region_names(population_data, standard_names)
poverty_percent_data = standardize_region_names(poverty_percent_data, standard_names)
poverty_data = standardize_region_names(poverty_data, standard_names)
regional_production_1 = standardize_region_names(regional_production_1, standard_names)
regional_production_2 = standardize_region_names(regional_production_2, standard_names)
retail_turnover_data = standardize_region_names(retail_turnover_data, standard_names)
welfare_expense_data = standardize_region_names(welfare_expense_data, standard_names)
workers_data = standardize_region_names(workers_data, standard_names)

## Часть 2. Предобработка, очистка и анализ данных

### Пройдемся по каждому датафрейму для их обработки.
#### Сейчас итоговой целью является выявление потенциальных признаков из датафреймов.

### 2.1 Детская смертность / child_mortality_rural и child_mortality_urban

Получение значений Архангельской и Тюменских областей. Тут имеется ввиду, что значения этих областей имеются, но они показаны с учетом округов. Поэтому мы вычитаем значения округов из областей. Но перед этим посмотрим на пропуски.

In [1498]:
missing_values = child_mortality_rural.isnull().sum()
print(missing_values)

region    0
1990      2
1991      2
1992      2
1993      2
1994      2
1995      2
1996      2
1997      5
1998      5
1999      5
2000      4
2001      4
2002      4
2003      4
2004      4
2005      4
2006      4
2007      4
2008      4
2009      4
2010      4
2011      4
2012      3
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      1
dtype: int64


In [1499]:
missing_values = child_mortality_urban.isnull().sum()
print(missing_values)

region    0
1990      2
1991      2
1992      2
1993      2
1994      2
1995      2
1996      2
1997      3
1998      3
1999      3
2000      2
2001      2
2002      2
2003      2
2004      2
2005      2
2006      2
2007      2
2008      2
2009      2
2010      2
2011      2
2012      2
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      1
dtype: int64


У нас в данных датасетов имеются пустые значения. Давайте их заполнил нулями так как пропусков по отдельным столбцам немного. Это послужит для точного вычисления некоторых значений по годам.

In [1500]:
child_mortality_rural.fillna(0, inplace=True)
child_mortality_urban.fillna(0, inplace=True)

Теперь мы можем получить корректные данные областей

In [1501]:
# Получим корректные значение для Архангельской области 
child_mortality_rural.loc[child_mortality_rural['region'] == 'Архангельская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ненецкий автономный округ', '1990':'2021'].values

# Получим корректные значение для Тюменской области 
child_mortality_rural.loc[child_mortality_rural['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ханты-Мансийский автономный округ - Югра', '1990':'2021'].values
child_mortality_rural.loc[child_mortality_rural['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ямало-Ненецкий автономный округ', '1990':'2021'].values

#print(child_mortality_rural.head(63))

In [1502]:
# Получим корректные значение для Архангельской области 
child_mortality_urban.loc[child_mortality_urban['region'] == 'Архангельская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ненецкий автономный округ', '1990':'2021'].values

# Получим корректные значение для Тюменской области 
child_mortality_urban.loc[child_mortality_urban['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ханты-Мансийский автономный округ - Югра', '1990':'2021'].values
child_mortality_urban.loc[child_mortality_urban['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ямало-Ненецкий автономный округ', '1990':'2021'].values


Так как эти два датафрейма говорят нам о детской смертности и далее в других датареймах нет разделения на сельскую и городскую местность, то лучше будет объединить их оба в один датафрейм ***child_mortality*** 

In [1503]:
child_mortality = child_mortality_rural.copy()

# Суммируем значения по годам
for year in range(1990, 2022):
    child_mortality[str(year)] = child_mortality_rural[str(year)] + child_mortality_urban[str(year)]

### 2.2 Рождаемость / newborn_data

In [1505]:
newborn_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Columns: 198 entries, region to май 2022 г.
dtypes: int64(3), object(195)
memory usage: 132.1+ KB


In [1506]:
#display(newborn_data)
newborn_data.columns

Index(['region', 'январь 2006 г.', 'февраль 2006 г.', 'март 2006 г.',
       'апрель 2006 г.', 'май 2006 г.', 'июнь 2006 г.', 'июль 2006 г.',
       'август 2006 г.', 'сентябрь 2006 г.',
       ...
       'август 2021 г.', 'сентябрь 2021 г.', 'октябрь 2021 г.',
       'ноябрь 2021 г.', 'декабрь 2021 г.', 'январь 2022 г.',
       'февраль 2022 г.', 'март 2022 г.', 'апрель 2022 г.', 'май 2022 г.'],
      dtype='object', length=198)

Преобразуем данные: 
1. Переименуем столбцы год-месяц
2. У большинства столбцов имеется тип данных 'object' (текстовые строки) поэтому их нужно преобразовать в числовой тип


In [1507]:
newborn_data.columns = newborn_data.columns.str.replace(' г.', '').str.strip()

months_dict = {
    'январь': '01', 'февраль': '02', 'март': '03', 'апрель': '04',
    'май': '05', 'июнь': '06', 'июль': '07', 'август': '08',
    'сентябрь': '09', 'октябрь': '10', 'ноябрь': '11', 'декабрь': '12'
}

for col in newborn_data.columns[1:]:
    month, year = col.split()
    numerical_month = months_dict.get(month)
    if numerical_month is not None:
        new_col_name = f"{year}-{numerical_month}"
        newborn_data[new_col_name] = newborn_data[col]
        newborn_data.drop(col, axis=1, inplace=True)

In [1508]:
newborn_data.columns

Index(['region', '2006-01', '2006-02', '2006-03', '2006-04', '2006-05',
       '2006-06', '2006-07', '2006-08', '2006-09',
       ...
       '2021-08', '2021-09', '2021-10', '2021-11', '2021-12', '2022-01',
       '2022-02', '2022-03', '2022-04', '2022-05'],
      dtype='object', length=198)

In [1509]:
# Преобразуем текстовые значения в числовой формат
for column in newborn_data.columns[1:]:
    newborn_data[column] = pd.to_numeric(newborn_data[column], errors='coerce')

In [1510]:
#newborn_data.info()
# Посмотрим имеются ли пропуски в данных
missing_values = newborn_data.isnull().sum()
print(missing_values)

region     0
2006-01    7
2006-02    7
2006-03    9
2006-04    5
          ..
2022-01    4
2022-02    5
2022-03    3
2022-04    0
2022-05    2
Length: 198, dtype: int64


In [1511]:
# Заполним пропуски нулями
newborn_data.fillna(0, inplace=True)

Я хочу произвести агрегацию данных по годам, но 2022 год у нас заканчивается на мае. Я хочу использовать полноценный год так как при дальнейшем анализе 2022 год будет давать просадку, из-за чего могут возникнуть вопросы.

In [1512]:
# Вычислим среднее значение по месяцам 2022 года до мая включительно
months_2022_so_far = [f"2022-{str(month).zfill(2)}" for month in range(1, 6)]
newborn_data["mean_2022_so_far"] = newborn_data[months_2022_so_far].mean(axis=1)

In [1513]:
# А теперь заполним недостающие месяца средним значением 2022 года
months_to_fill = [f"2022-{str(month).zfill(2)}" for month in range(6, 13)]
for month in months_to_fill:
    newborn_data[month] = newborn_data["mean_2022_so_far"]

# Удалим вспомогательный столбец 
newborn_data.drop(columns=["mean_2022_so_far"], inplace=True)

In [1514]:
# Теперь произведем агрегацию данных по годам, для удаления месячных данных
for year in range(2006, 2023):
    columns_for_year = [f"{year}-{str(month).zfill(2)}" for month in range(1, 13)]
    newborn_data[f'{year}'] = newborn_data[columns_for_year].sum(axis=1)

In [1515]:
# Теперь можно удалить месячные данные
columns_to_drop = [f"{year}-{str(month).zfill(2)}" for year in range(2006, 2023) for month in range(1, 13)]
newborn_data.drop(columns=columns_to_drop, inplace=True)

А теперь можно вычислить и корректные данные по Архангельской и Тюменской областям вычитая из текущих данных областей данных округов

In [1516]:
# Получим корректные значение для Архангельской области 
newborn_data.loc[newborn_data['region'] == 'Архангельская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ненецкий автономный округ', '2006':'2022'].values

# Получим корректные значение для Тюменской области 
newborn_data.loc[newborn_data['region'] == 'Тюменская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ханты-Мансийский автономный округ - Югра', '2006':'2022'].values
newborn_data.loc[newborn_data['region'] == 'Тюменская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ямало-Ненецкий автономный округ', '2006':'2022'].values


In [1517]:
# Возьмем признак newborn
newborn = newborn_data.copy()

### 2.3 Население / population_data

In [1521]:
population_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 25 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          85 non-null     object 
 1   январь 1999 г.  83 non-null     float64
 2   январь 2000 г.  83 non-null     float64
 3   январь 2001 г.  83 non-null     float64
 4   январь 2002 г.  83 non-null     float64
 5   январь 2003 г.  83 non-null     float64
 6   январь 2004 г.  83 non-null     float64
 7   январь 2005 г.  83 non-null     float64
 8   январь 2006 г.  83 non-null     float64
 9   январь 2007 г.  83 non-null     float64
 10  январь 2008 г.  83 non-null     float64
 11  январь 2009 г.  83 non-null     float64
 12  январь 2010 г.  83 non-null     float64
 13  январь 2011 г.  83 non-null     float64
 14  январь 2012 г.  83 non-null     float64
 15  январь 2013 г.  83 non-null     float64
 16  январь 2014 г.  83 non-null     float64
 17  январь 2015 г.  85 non-null     int64  
 

In [1522]:
population_data.columns

Index(['region', 'январь 1999 г.', 'январь 2000 г.', 'январь 2001 г.',
       'январь 2002 г.', 'январь 2003 г.', 'январь 2004 г.', 'январь 2005 г.',
       'январь 2006 г.', 'январь 2007 г.', 'январь 2008 г.', 'январь 2009 г.',
       'январь 2010 г.', 'январь 2011 г.', 'январь 2012 г.', 'январь 2013 г.',
       'январь 2014 г.', 'январь 2015 г.', 'январь 2016 г.', 'январь 2017 г.',
       'январь 2018 г.', 'январь 2019 г.', 'январь 2020 г.', 'январь 2021 г.',
       'январь 2022 г.'],
      dtype='object')

Тут данные о переписи населения подаются каждый январь нового года. Давайте уберем месяц и оставим только год в числовом виде.

In [1523]:
population_data.columns = population_data.columns.str.replace(r'январь | г.', '', regex=True)

In [1524]:
population_data.columns

Index(['region', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022'],
      dtype='object')

In [1525]:
# Посмотрим имеются ли пропуски в данных
missing_values = population_data.isnull().sum()
print(missing_values)

region    0
1999      2
2000      2
2001      2
2002      2
2003      2
2004      2
2005      2
2006      2
2007      2
2008      2
2009      2
2010      2
2011      2
2012      2
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      0
2022      0
dtype: int64


In [1526]:
# Заполним пропуски нулями
population_data.fillna(0, inplace=True)

А теперь можно вычислить и корректные данные по Архангельской и Тюменской областям вычитая из текущих данных областей данных округов

In [1527]:
# Получим корректные значение для Архангельской области
population_data.loc[population_data['region'] == 'Архангельская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ненецкий автономный округ', '1999':'2022'].values

# Получим корректные значение для Тюменской области 
population_data.loc[population_data['region'] == 'Тюменская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ханты-Мансийский автономный округ - Югра', '1999':'2022'].values
population_data.loc[population_data['region'] == 'Тюменская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ямало-Ненецкий автономный округ', '1999':'2022'].values

In [1528]:
# Возьмем признак population
population = population_data.copy()

### 2.4 Инвалидность среди трудоспособного возраста / disabled_data

Я переделал таблицу disabled_total_by_age_2017_2022. По сути я ее перевернул. Но для этого я убрал группы и оставил только total для всех годов с 2017 по 2022 по месяцам. Убрал из признака data -01 (день). Также я убрал г. Байконур из данных так как этот город является невалидным для общего анализа.

In [1531]:
 disabled_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 65 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   region   85 non-null     object 
 1   2017-01  85 non-null     int64  
 2   2017-02  85 non-null     int64  
 3   2017-03  85 non-null     int64  
 4   2017-04  85 non-null     int64  
 5   2017-05  79 non-null     float64
 6   2017-06  85 non-null     int64  
 7   2017-07  85 non-null     int64  
 8   2017-08  85 non-null     int64  
 9   2017-09  85 non-null     int64  
 10  2017-10  85 non-null     int64  
 11  2017-11  85 non-null     int64  
 12  2017-12  85 non-null     int64  
 13  2018-01  85 non-null     int64  
 14  2018-02  85 non-null     int64  
 15  2018-03  85 non-null     int64  
 16  2018-04  85 non-null     int64  
 17  2018-05  85 non-null     int64  
 18  2018-06  85 non-null     int64  
 19  2018-07  85 non-null     int64  
 20  2018-08  85 non-null     int64  
 21  2018-09  85 non-null  

У нас имеются пропуски в столбце 2017-05. Заполним их средним значением.

In [1532]:
# Вычислим среднее значение
mean_values = disabled_data.drop(columns='region').mean()

# Заполним пропуски средним значением
disabled_data.fillna(mean_values, inplace=True)

Тут я также хочу произвести агрегацию данных по годам, но 2022 год у нас заканчивается на апреле. Я хочу использовать полноценный год так как при дальнейшем анализе 2022 год будет давать просадку, из-за чего могут возникнуть вопросы.

In [1533]:
# Вычислим среднее значение по месяцам 2022 года до мая включительно
months_2022_so_far = [f"2022-{str(month).zfill(2)}" for month in range(1, 5)]
disabled_data["mean_2022_so_far"] = disabled_data[months_2022_so_far].mean(axis=1)

In [1534]:
# А теперь заполним недостающие месяца средним значением 2022 года
months_to_fill = [f"2022-{str(month).zfill(2)}" for month in range(5, 13)]
for month in months_to_fill:
    disabled_data[month] = disabled_data["mean_2022_so_far"]

# Удалим вспомогательный столбец 
disabled_data.drop(columns=["mean_2022_so_far"], inplace=True)

In [1535]:
# Теперь произведем агрегацию данных по годам, для удаления месячных данных
for year in range(2017, 2023):
    columns_for_year = [f"{year}-{str(month).zfill(2)}" for month in range(1, 13)]
    disabled_data[f'{year}'] = disabled_data[columns_for_year].sum(axis=1)

In [1536]:
# Теперь можно удалить месячные данные
columns_to_drop = [f"{year}-{str(month).zfill(2)}" for year in range(2017, 2023) for month in range(1, 13)]
disabled_data.drop(columns=columns_to_drop, inplace=True)

In [1537]:
# Возьмем признак disabled_18_60
disabled_18_60 = disabled_data.copy()

### 2.5 Валовый региональный продукт на душу населения / grp_data

In [1540]:
grp_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 26 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   1996    82 non-null     float64
 2   1997    82 non-null     float64
 3   1998    82 non-null     float64
 4   1999    82 non-null     float64
 5   2000    82 non-null     float64
 6   2001    82 non-null     float64
 7   2002    82 non-null     float64
 8   2003    82 non-null     float64
 9   2004    82 non-null     float64
 10  2005    82 non-null     float64
 11  2006    82 non-null     float64
 12  2007    82 non-null     float64
 13  2008    82 non-null     float64
 14  2009    82 non-null     float64
 15  2010    82 non-null     float64
 16  2011    85 non-null     float64
 17  2012    85 non-null     float64
 18  2013    85 non-null     float64
 19  2014    85 non-null     float64
 20  2015    85 non-null     float64
 21  2016    85 non-null     float64
 22  2017    

В этом датафрейме у Ненецкого,  Ханты-Мансийского, Ямало-Ненецкого автономных округов отсутствуют данные с 1996 по 2010. Если мы заполним средним значением последующих годов, то у нас будет отсутствовать динамика и это все равно, что их эти данные заполнить нулями. А так как у Чеченкой республики, Республики Крым отсутствуют также данные и они просто заполнены нулями, то давайте заполним нулями и недостающие значения по годам для округов.

In [1541]:
# Посмотрим имеются ли пропуски в данных
missing_values = grp_data.isnull().sum()
print(missing_values)

region    0
1996      3
1997      3
1998      3
1999      3
2000      3
2001      3
2002      3
2003      3
2004      3
2005      3
2006      3
2007      3
2008      3
2009      3
2010      3
2011      0
2012      0
2013      0
2014      0
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
dtype: int64


In [1542]:
# Заполним пропуски нулями
grp_data.fillna(0, inplace=True)

In [1543]:
# Возьмем признак grp
grp = grp_data.copy()

### 2.6 Распределение малоимущего населения по социально-демографическим группам / poverty_data

In [1545]:
poverty_data = pd.read_excel(data_path + 'poverty_socdem_2017_2020.xlsx')

In [1546]:
poverty_data.head()

Unnamed: 0,region,Все население,2017,Unnamed: 3,Unnamed: 4,2018,Unnamed: 6,Unnamed: 7,2019,Unnamed: 9,Unnamed: 10,2020,Unnamed: 12,Unnamed: 13
0,,%,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста
1,Белгородская область,100,43.4,11.8,44.8,44.8,12.9,42.3,0,0,0,,,
2,Брянская область,100,42.9,4.9,52.2,40.3,1.8,57.9,37.5,5.1,57.4,44.8,3.7,51.6
3,Владимирская область,100,34.8,8.6,56.6,48.9,8.3,42.8,34.8,4.8,60.4,,,
4,Воронежская область,100,38.6,5.9,55.6,32.6,8,59.4,45.2,5.4,49.4,28.5,2.3,69.2


In [1547]:
print(poverty_data.columns)

Index([       'region', 'Все население',            2017,    'Unnamed: 3',
          'Unnamed: 4',            2018,    'Unnamed: 6',    'Unnamed: 7',
                  2019,    'Unnamed: 9',   'Unnamed: 10',            2020,
         'Unnamed: 12',   'Unnamed: 13'],
      dtype='object')


Данные не совсем читабельны для дальнейшего анализа. Я хочу перевернуть таблицу и сделать ее в формате представления как в датафрейме morbidity_data.

In [1548]:
# Создадим словарь года и его столбцов
year_columns = {
    2017: [2017, 'Unnamed: 3', 'Unnamed: 4'],
    2018: [2018, 'Unnamed: 6', 'Unnamed: 7'],
    2019: [2019, 'Unnamed: 9', 'Unnamed: 10'],
    2020: [2020, 'Unnamed: 12', 'Unnamed: 13']
}

# Инициалиpуем новый датафрейм
new_data = {
    'region': [],
    'Все население': [],
    'Возраст': [],
    2017: [],
    2018: [],
    2019: [],
    2020: []
}

# Объявим категории
age_categories = ["Дети в возрасте до 16 лет", "Население старше трудоспособного возраста", "Население трудоспособного возраста"]


# Заполним новый датафрейм
for idx, row in poverty_data.iterrows():
    for age_idx, age_category in enumerate(age_categories):
        new_data['region'].append(row['region'])
        new_data['Все население'].append(row['Все население'])
        new_data['Возраст'].append(age_category)
        
        for year, columns in year_columns.items():
            new_data[year].append(row[columns[age_idx]])

# Преобразуем словарь в датафрейм
poverty_data = pd.DataFrame(new_data)

In [1549]:
# Удалим первые три строки из датафрейма
poverty_data = poverty_data.iloc[3:].reset_index(drop=True)

# Объединим каждые три строки региона в одну
poverty_data.set_index(['region', 'Возраст'], inplace=True)

Столбец "Все население" содержит одно и тоже значение 100. 100 получается путем сложения трех возрастных групп и не является необходимым для дальнейшего анализа, так как мы итак знаем, что это процентные показатели от общего кол-ва.

In [1550]:
poverty_data = poverty_data.drop(columns=['Все население'])

У нас в данных есть явные расхождения, такие как 0% малоимущих в одном году при высоком проценте в другие годы, это может указывать на ошибку в данных или на существенное изменение экономической ситуации в регионе, что является маловероятным.
Я заполню пустые и нулевые значения медианой для каждого года и возрастной группы (исключая нулевые значения, так как считаю их аномалиями). Но сделаю это для 2019 года, а для 2020 года я буду заполнять средним значением.

In [1552]:
# Замена NaN на 0
poverty_data.fillna(0, inplace=True)

# Расчет медианных значений за 2017-2019 года, исключая 0
medians = poverty_data.loc[:, [2017, 2018, 2019]].replace(0, np.nan).median(axis=1)

# Замена 0 на медианные значения для 2017-2019 годов
for year in [2017, 2018, 2019]:
    mask = poverty_data[year] == 0
    poverty_data.loc[mask, year] = medians[mask]

# Отображение обновленного датафрейма
display(poverty_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,2017,2018,2019,2020
region,Возраст,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Белгородская область,Дети в возрасте до 16 лет,43.4,44.8,44.1,0.0
Белгородская область,Население старше трудоспособного возраста,11.8,12.9,12.35,0.0
Белгородская область,Население трудоспособного возраста,44.8,42.3,43.55,0.0
Брянская область,Дети в возрасте до 16 лет,42.9,40.3,37.5,44.8
Брянская область,Население старше трудоспособного возраста,4.9,1.8,5.1,3.7
...,...,...,...,...,...
Еврейская автономная область,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
Еврейская автономная область,Население трудоспособного возраста,54.1,58.9,57.5,54.4
Чукотский автономный округ,Дети в возрасте до 16 лет,46.9,51,48.95,0.0
Чукотский автономный округ,Население старше трудоспособного возраста,2.7,2.7,2.7,0.0


In [1553]:
print("Medians for 2017-2019:")
print(medians)

Medians for 2017-2019:
region                        Возраст                                  
Белгородская область          Дети в возрасте до 16 лет                    44.10
                              Население старше трудоспособного возраста    12.35
                              Население трудоспособного возраста           43.55
Брянская область              Дети в возрасте до 16 лет                    40.30
                              Население старше трудоспособного возраста     4.90
                                                                           ...  
Еврейская автономная область  Население старше трудоспособного возраста     9.90
                              Население трудоспособного возраста           57.50
Чукотский автономный округ    Дети в возрасте до 16 лет                    48.95
                              Население старше трудоспособного возраста     2.70
                              Население трудоспособного возраста           49.70
Length: 255, d

In [1554]:
means = poverty_data.loc[:, [2017, 2018, 2019]].mean(axis=1)
print("\nMeans for 2017-2019:")
print(means)


Means for 2017-2019:
region                        Возраст                                  
Белгородская область          Дети в возрасте до 16 лет                         44.1
                              Население старше трудоспособного возраста        12.35
                              Население трудоспособного возраста               43.55
Брянская область              Дети в возрасте до 16 лет                    40.233333
                              Население старше трудоспособного возраста     3.933333
                                                                             ...    
Еврейская автономная область  Население старше трудоспособного возраста     9.266667
                              Население трудоспособного возраста           56.833333
Чукотский автономный округ    Дети в возрасте до 16 лет                        48.95
                              Население старше трудоспособного возраста          2.7
                              Население трудоспособного 

In [1555]:
# Расчет средних значений за 2017-2019 годы
means = poverty_data.loc[:, [2017, 2018, 2019]].mean(axis=1)

# Замена 0 на средние значения для 2020 года
mask_2020 = (poverty_data[2020] == 0) | (poverty_data[2020] == medians)
poverty_data.loc[mask_2020, 2020] = means[mask_2020]

# Отображение обновленного датафрейма
display(poverty_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,2017,2018,2019,2020
region,Возраст,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Белгородская область,Дети в возрасте до 16 лет,43.4,44.8,44.1,44.1
Белгородская область,Население старше трудоспособного возраста,11.8,12.9,12.35,12.35
Белгородская область,Население трудоспособного возраста,44.8,42.3,43.55,43.55
Брянская область,Дети в возрасте до 16 лет,42.9,40.3,37.5,44.8
Брянская область,Население старше трудоспособного возраста,4.9,1.8,5.1,3.7
...,...,...,...,...,...
Еврейская автономная область,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
Еврейская автономная область,Население трудоспособного возраста,54.1,58.9,57.5,54.4
Чукотский автономный округ,Дети в возрасте до 16 лет,46.9,51,48.95,48.95
Чукотский автономный округ,Население старше трудоспособного возраста,2.7,2.7,2.7,2.7


Видно, что у этого датафрейма мультииндексные строки. Сбросим индексы и превратим их в столбцы.

In [1556]:
poverty_data = poverty_data.reset_index()

В целом если посмотреть теперь на заполненные данные можно увидеть что медианное значение и среднее значение у нас совпадает в большинстве случаев. Оставим пока так, возможно придется далее еще с этим поработать.

Теперь переименуем возрастные группы с учетом дальнейшего использования групп в качестве признаков.

In [1557]:
    age_mapping = {
    'Дети в возрасте до 16 лет': 'the poor: children',
    'Население старше трудоспособного возраста': 'the poor: retired',
    'Население трудоспособного возраста': 'the poor: employable'    
}

poverty_data['Возраст'] = poverty_data['Возраст'].replace(age_mapping)


### 2.7 Заболеваемость / morbidity_data

In [1558]:
morbidity_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6956 entries, 5689 to 2986
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          6956 non-null   object 
 1   Заболеваемость  6956 non-null   object 
 2   Возраст         6956 non-null   object 
 3   2005            5727 non-null   float64
 4   2006            5727 non-null   float64
 5   2007            5727 non-null   float64
 6   2008            5727 non-null   float64
 7   2009            5727 non-null   float64
 8   2010            5727 non-null   float64
 9   2011            5727 non-null   float64
 10  2012            5395 non-null   float64
 11  2013            5727 non-null   float64
 12  2014            5780 non-null   float64
 13  2015            5525 non-null   float64
 14  2016            5525 non-null   float64
dtypes: float64(12), object(3)
memory usage: 869.5+ KB


In [1559]:
morbidity_data.head(10)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
5689,Алтайский край,Все заболевания,Всего,97448.8,101443.9,101913.3,102813.4,105709.1,100795.0,105022.5,108559.3,108846.7,,109652.6,112764.7
5683,Алтайский край,"Врожденные аномалии (пороки развития), деформа...",15-17 лет,571.0,519.7,510.7,476.5,393.6,450.6,482.8,365.4,371.9,469.9,547.8,476.8
5682,Алтайский край,"Врожденные аномалии (пороки развития), деформа...",0-14 лет,1232.5,1194.4,1268.6,1383.8,1342.5,1294.1,1183.3,1132.4,1004.1,841.6,926.8,946.8
5681,Алтайский край,"Болезни эндокринной системы, расстройства пита...",Всего,1992.2,2707.4,2627.4,2685.9,2385.0,2405.8,2381.3,2561.5,2453.2,2652.7,2932.9,3885.0
5680,Алтайский край,"Болезни эндокринной системы, расстройства пита...",18 лет и старше,2014.7,2926.5,2860.9,2942.6,2592.1,2608.9,2556.9,2783.3,2675.7,2909.6,3260.7,4470.4
5679,Алтайский край,"Болезни эндокринной системы, расстройства пита...",15-17 лет,3063.7,2880.7,2371.4,2652.0,2588.6,2615.6,2580.7,2676.6,2930.6,3421.4,4072.5,3623.7
5678,Алтайский край,"Болезни эндокринной системы, расстройства пита...",0-14 лет,1526.0,1450.2,1397.6,1276.3,1219.1,1273.0,1429.1,1419.4,1288.3,1350.9,1263.2,1291.7
5677,Алтайский край,Болезни уха и сосцевидного отростка,Всего,2836.4,2879.9,2954.1,2847.0,3130.4,2931.8,2952.2,3457.1,3564.2,3685.1,3486.6,3451.0
5676,Алтайский край,Болезни уха и сосцевидного отростка,18 лет и старше,2561.3,2620.6,2682.9,2561.8,2842.1,2665.1,2751.3,3311.4,3365.0,3405.3,3191.4,3195.6
5675,Алтайский край,Болезни уха и сосцевидного отростка,15-17 лет,3616.8,3484.0,3658.3,3273.4,4001.4,3732.3,3736.7,4324.5,4884.3,5198.2,4641.8,3862.9


Убираю из столбца "Возраст" значение "Всего" так как оно не относится к возрастной группе.

In [1560]:
morbidity_data = morbidity_data[morbidity_data['Возраст'] != 'Всего']

Посмотрим на наши пропуски

In [1561]:
morbidity_data.isnull().sum()

region               0
Заболеваемость       0
Возраст              0
2005               925
2006               925
2007               925
2008               925
2009               925
2010               925
2011               925
2012              1174
2013               925
2014               821
2015              1076
2016              1076
dtype: int64

В этом датафрейме много пропущенных значений. Предлагаю над этим поработать.

In [1562]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(50)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
5705,Алтайский край,Прочие болезни,18 лет и старше,621.9,704.5,709.2,722.9,700.8,597.2,,,581.6,6250.2,,
5704,Алтайский край,Прочие болезни,15-17 лет,1750.3,2014.9,1414.0,1829.4,1733.7,1471.4,,,1304.0,13368.2,,
5703,Алтайский край,Прочие болезни,0-14 лет,3266.9,1565.1,2963.5,2718.5,2989.3,2570.2,,,1602.8,11006.0,,
5692,Алтайский край,Злокачественные новообразования,18 лет и старше,,,,,,,513.3,,,,,
5691,Алтайский край,Злокачественные новообразования,15-17 лет,,,,,,,8.4,,,,,
5690,Алтайский край,Злокачественные новообразования,0-14 лет,,,,,,,15.6,,,,,
6641,Амурская область,Злокачественные новообразования,18 лет и старше,,,,,,,404.2,,,,,
6640,Амурская область,Злокачественные новообразования,15-17 лет,,,,,,,7.2,,,,,
6639,Амурская область,Злокачественные новообразования,0-14 лет,,,,,,,18.3,,,,,
6652,Амурская область,Прочие болезни,0-14 лет,2770.9,2836.8,3017.8,2591.1,2639.2,2626.0,,,2525.0,11590.4,,


В основном у нас есть пропуски в значениях "Злокачественные новообразования" и "Прочие болезни". Но что я еще заметил, что у нас имеется разделение для некоторых регионов по годам. Тоесть есть данные с 2005 по 2013 годы, а далее ниже имеются данные с 2014 по 2016 годы. Из-за этого мы имеем много пропусков. Я решил применить группировку данных по 'region', 'Заболеваемость', 'Возраст', а затем применить агрегацию, чтобы получить одну строку для каждой уникальной комбинации 'region', 'Заболеваемость', 'Возраст' с заполненными данными за все годы. Поэтому это надо сделать в первую очередь, а уже во-вторую взяться за пропуски в значениях "Злокачественные новообразования" и "Прочие болезни".

In [1563]:
morbidity_data = morbidity_data.groupby(['region', 'Заболеваемость', 'Возраст']).agg('first').reset_index()

In [1564]:
# Теперь снова посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
36,Алтайский край,Злокачественные новообразования,0-14 лет,,,,,,,15.6,,,,,
37,Алтайский край,Злокачественные новообразования,15-17 лет,,,,,,,8.4,,,,,
38,Алтайский край,Злокачественные новообразования,18 лет и старше,,,,,,,513.3,,,,,
46,Алтайский край,Прочие болезни,0-14 лет,3266.9,1565.1,2963.5,2718.5,2989.3,2570.2,,,1602.8,11006.0,,
47,Алтайский край,Прочие болезни,15-17 лет,1750.3,2014.9,1414.0,1829.4,1733.7,1471.4,,,1304.0,13368.2,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
873,Калининградская область,Прочие болезни,18 лет и старше,159.4,201.0,247.6,283.4,311.2,437.3,,,403.6,3489.7,,
916,Калужская область,Злокачественные новообразования,0-14 лет,,,,,,,20.0,,,,,
917,Калужская область,Злокачественные новообразования,15-17 лет,,,,,,,21.0,,,,,
918,Калужская область,Злокачественные новообразования,18 лет и старше,,,,,,,364.8,,,,,


Так как в значении "Злокачественные новообразования" заполненных значений очень мало, только за 2011 год, то по всем остальным годам будет нереально заполнить другими значениями основываясь только на одном годе. Поэтому тут я заполню нулями пропуски.

In [1565]:
morbidity_data.loc[morbidity_data['Заболеваемость'] == 'Злокачественные новообразования'] = morbidity_data.loc[morbidity_data['Заболеваемость'] == 'Злокачественные новообразования'].fillna(0)

У значения "Прочие болезни" у нас пропуски за 2011, 2012, 2015, 2016 года. Давайте попробуем тут заполнить пропуски через метод интерполяции, опираясь на соседние точки.

In [1566]:
# Выберем строки, относящиеся к "Прочие болезни"
mask = morbidity_data['Заболеваемость'] == 'Прочие болезни'

# Применим интерполяцию для заполнения пропусков в этих строках
morbidity_data.loc[mask, '2005':'2013'] = morbidity_data.loc[mask, '2005':'2013'].interpolate(axis=1, limit_direction='both').round(1)

# Проверим результат
display(morbidity_data.loc[mask])

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
46,Алтайский край,Прочие болезни,0-14 лет,3266.9,1565.1,2963.5,2718.5,2989.3,2570.2,2247.7,1925.3,1602.8,11006.0,,
47,Алтайский край,Прочие болезни,15-17 лет,1750.3,2014.9,1414.0,1829.4,1733.7,1471.4,1415.6,1359.8,1304.0,13368.2,,
48,Алтайский край,Прочие болезни,18 лет и старше,621.9,704.5,709.2,722.9,700.8,597.2,592.0,586.8,581.6,6250.2,,
101,Амурская область,Прочие болезни,0-14 лет,2770.9,2836.8,3017.8,2591.1,2639.2,2626.0,2592.3,2558.7,2525.0,11590.4,,
102,Амурская область,Прочие болезни,15-17 лет,1890.6,1561.7,1599.8,1557.2,1663.6,1791.7,1813.5,1835.4,1857.2,11330.7,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4609,г. Санкт-Петербург,Прочие болезни,15-17 лет,4465.5,4757.1,6872.7,6106.5,5416.8,5603.2,5182.3,4761.3,4340.4,19759.0,,
4610,г. Санкт-Петербург,Прочие болезни,18 лет и старше,207.5,222.6,261.6,280.0,255.3,345.6,300.7,255.9,211.0,4621.1,,
4660,г. Севастополь,Прочие болезни,0-14 лет,,,,,,,,,,8467.7,,
4661,г. Севастополь,Прочие болезни,15-17 лет,,,,,,,,,,7592.2,,


2014 год отличается от других годов по значению "Прочие болезни", поэтому я считаю что это будет являться выбросом. Основываясь на этом я заполню 2015 и 2016 год медианой.

In [1567]:
# Вычислим медиану для каждой строки, исключая 2014 год
medians = morbidity_data.loc[mask, '2005':'2013'].median(axis=1).astype('float64')

# Заполним пропуски в 2015 и 2016 годах используя посчитанные медианы
morbidity_data.loc[mask, '2015'] = morbidity_data.loc[mask, '2015'].fillna(medians)
morbidity_data.loc[mask, '2016'] = morbidity_data.loc[mask, '2016'].fillna(medians)

# Посмотрим на результат
display(morbidity_data.loc[mask])

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
46,Алтайский край,Прочие болезни,0-14 лет,3266.9,1565.1,2963.5,2718.5,2989.3,2570.2,2247.7,1925.3,1602.8,11006.0,2570.2,2570.2
47,Алтайский край,Прочие болезни,15-17 лет,1750.3,2014.9,1414.0,1829.4,1733.7,1471.4,1415.6,1359.8,1304.0,13368.2,1471.4,1471.4
48,Алтайский край,Прочие болезни,18 лет и старше,621.9,704.5,709.2,722.9,700.8,597.2,592.0,586.8,581.6,6250.2,621.9,621.9
101,Амурская область,Прочие болезни,0-14 лет,2770.9,2836.8,3017.8,2591.1,2639.2,2626.0,2592.3,2558.7,2525.0,11590.4,2626.0,2626.0
102,Амурская область,Прочие болезни,15-17 лет,1890.6,1561.7,1599.8,1557.2,1663.6,1791.7,1813.5,1835.4,1857.2,11330.7,1791.7,1791.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4609,г. Санкт-Петербург,Прочие болезни,15-17 лет,4465.5,4757.1,6872.7,6106.5,5416.8,5603.2,5182.3,4761.3,4340.4,19759.0,5182.3,5182.3
4610,г. Санкт-Петербург,Прочие болезни,18 лет и старше,207.5,222.6,261.6,280.0,255.3,345.6,300.7,255.9,211.0,4621.1,255.9,255.9
4660,г. Севастополь,Прочие болезни,0-14 лет,,,,,,,,,,8467.7,,
4661,г. Севастополь,Прочие болезни,15-17 лет,,,,,,,,,,7592.2,,


Снова посмотрим имеются ли еще пропуски в данных

In [1568]:
morbidity_data.isnull().sum()

region              0
Заболеваемость      0
Возраст             0
2005              104
2006              104
2007              104
2008              104
2009              104
2010              104
2011              104
2012              104
2013              104
2014                0
2015                6
2016                6
dtype: int64

In [1569]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
2805,Республика Крым,"Беременность, роды и послеродовой период",0-14 лет,,,,,,,,,,17.3,0.0,0.0
2806,Республика Крым,"Беременность, роды и послеродовой период",15-17 лет,,,,,,,,,,4976.0,242.2,323.3
2807,Республика Крым,"Беременность, роды и послеродовой период",18 лет и старше,,,,,,,,,,7420.7,3800.8,4975.7
2808,Республика Крым,Болезни глаза и его придаточного аппарата,0-14 лет,,,,,,,,,,3401.2,3135.2,4034.7
2809,Республика Крым,Болезни глаза и его придаточного аппарата,15-17 лет,,,,,,,,,,4104.2,4125.0,3542.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4660,г. Севастополь,Прочие болезни,0-14 лет,,,,,,,,,,8467.7,,
4661,г. Севастополь,Прочие болезни,15-17 лет,,,,,,,,,,7592.2,,
4662,г. Севастополь,Прочие болезни,18 лет и старше,,,,,,,,,,3852.7,,
4663,г. Севастополь,Психические расстройства и расстройства поведения,0-14 лет,,,,,,,,,,328.6,262.3,405.1


Республика Крым и г. Севастополь у нас имеют данные с 2014 года. Поэтому пропуски мы заполним нулями.

In [1570]:
# Отфильтруем строки, относящиеся к Республике Крым
mask1 = morbidity_data['region'] == 'Республика Крым'
mask2 = morbidity_data['region'] == 'г. Севастополь'

# Заполним пропуски нулями
morbidity_data.loc[mask1, '2005':'2013'] = morbidity_data.loc[mask1, '2005':'2013'].fillna(0)
morbidity_data.loc[mask2, '2005':'2013'] = morbidity_data.loc[mask2, '2005':'2013'].fillna(0)

Снова посмотрим имеются ли еще пропуски в данных

In [1571]:
morbidity_data.isnull().sum()

region            0
Заболеваемость    0
Возраст           0
2005              0
2006              0
2007              0
2008              0
2009              0
2010              0
2011              0
2012              0
2013              0
2014              0
2015              6
2016              6
dtype: int64

In [1572]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
2848,Республика Крым,Прочие болезни,0-14 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8731.0,,
2849,Республика Крым,Прочие болезни,15-17 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,22286.1,,
2850,Республика Крым,Прочие болезни,18 лет и старше,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3714.8,,
4660,г. Севастополь,Прочие болезни,0-14 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8467.7,,
4661,г. Севастополь,Прочие болезни,15-17 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7592.2,,
4662,г. Севастополь,Прочие болезни,18 лет и старше,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3852.7,,


Отлично, с этим мы справились. Теперь выделим данные по диагнозам, которые могут быть связаны с социальным неблагополучием.

Выделим такие как:
- Общая заболеваемость - **general morbidity**
- Врожденные пороки развития - **congenital_malformation**
- Психические расстройства и расстройства поведения - **mental_disorders** 
- Подростковая беременность (до 14 лет) - **teenage_pregnancy**    

А теперь найдем каждый из них.

In [1574]:
# Вычислим признаки
general_morbidity = morbidity_data[morbidity_data['Заболеваемость'] == 'Все заболевания'].copy()
general_morbidity = general_morbidity.groupby('region').sum().reset_index()

congenital_malformation = morbidity_data[morbidity_data['Заболеваемость'] == 'Врожденные аномалии (пороки развития), деформации и хромосомные нарушения'].copy()
congenital_malformation = congenital_malformation.groupby('region').sum().reset_index()

mental_disorders = morbidity_data[morbidity_data['Заболеваемость'] == 'Психические расстройства и расстройства поведения'].copy()
mental_disorders = mental_disorders.groupby('region').sum().reset_index()

teenage_pregnancy = morbidity_data[(morbidity_data['Заболеваемость'] == 'Беременность, роды и послеродовой период') & (morbidity_data['Возраст'] == '0-14 лет')].copy()
teenage_pregnancy = teenage_pregnancy.groupby('region').sum().reset_index()

# Удалим ненужные столбцы
general_morbidity = general_morbidity.drop(columns=['Заболеваемость', 'Возраст'], errors='ignore')
congenital_malformation = congenital_malformation.drop(columns=['Заболеваемость', 'Возраст'], errors='ignore')
mental_disorders = mental_disorders.drop(columns=['Заболеваемость', 'Возраст'], errors='ignore')
teenage_pregnancy = teenage_pregnancy.drop(columns=['Заболеваемость', 'Возраст'], errors='ignore')

display('Общая заболеваемость', general_morbidity.head(3))
display('Врожденные пороки развития', congenital_malformation.head(3))
display('Психические расстройства и расстройства поведения', mental_disorders.head(3))
display('Подростковая беременность (до 14 лет))', teenage_pregnancy.head(3))

'Общая заболеваемость'

Unnamed: 0,region,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Алтайский край,393458.2,406038.4,406884.3,406199.0,433971.4,414497.0,429582.3,434271.0,446182.4,446676.1,457941.9,463734.9
1,Амурская область,283931.3,295294.4,326450.3,337911.2,368991.4,366159.7,387465.4,402330.4,390049.6,394210.7,412247.1,408636.0
2,Архангельская область,434651.7,494376.5,501193.8,501238.1,544999.5,542755.4,569092.0,562046.6,524430.4,537959.9,524785.5,526120.6


'Врожденные пороки развития'

Unnamed: 0,region,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Алтайский край,1833.1,1754.2,1812.6,1887.5,1763.8,1775.4,1691.9,1521.6,1395.5,1333.2,1498.8,1448.1
1,Амурская область,1300.9,1326.2,1441.6,2365.6,2909.3,2893.5,2921.2,2655.2,2933.8,2485.6,2275.5,2640.4
2,Архангельская область,2741.3,3646.1,4027.2,4400.6,3963.4,3876.3,3575.1,3528.1,2950.6,2476.9,2830.6,2952.5


'Психические расстройства и расстройства поведения'

Unnamed: 0,region,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Алтайский край,6498.0,6138.4,6050.1,5996.9,5861.8,5354.9,5527.9,5338.8,5355.9,5445.6,5675.5,5048.8
1,Амурская область,2915.4,2879.1,3025.3,3169.5,3075.7,3317.1,3317.5,3223.3,2863.7,2871.4,3680.1,3059.2
2,Архангельская область,3492.0,3339.0,3047.6,2941.7,2714.1,3941.5,3248.6,2907.1,2757.8,2740.6,2926.5,2836.1


'Подростковая беременность (до 14 лет))'

Unnamed: 0,region,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Алтайский край,4.4,1.6,6.9,14.3,20.0,11.0,11.2,7.3,1.8,3.4,8.3,3.3
1,Амурская область,47.7,12.0,21.5,36.0,23.1,42.3,9.8,39.2,0.0,22.4,13.3,4.4
2,Архангельская область,22.3,15.2,13.0,20.3,10.3,10.5,10.8,10.8,22.2,10.5,6.9,13.8


### 2.8 Процент населения за чертой бедности (доходы ниже прожиточного минимума) / poverty_percent_data

In [1579]:
poverty_percent_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 27 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   1995    82 non-null     float64
 2   1996    82 non-null     float64
 3   1997    82 non-null     float64
 4   1998    82 non-null     float64
 5   1999    82 non-null     float64
 6   2000    82 non-null     float64
 7   2001    82 non-null     float64
 8   2002    82 non-null     float64
 9   2003    83 non-null     float64
 10  2004    83 non-null     float64
 11  2005    83 non-null     float64
 12  2006    83 non-null     float64
 13  2007    83 non-null     float64
 14  2008    83 non-null     float64
 15  2009    83 non-null     float64
 16  2010    83 non-null     float64
 17  2011    83 non-null     float64
 18  2012    83 non-null     float64
 19  2013    83 non-null     float64
 20  2014    83 non-null     float64
 21  2015    85 non-null     float64
 22  2016    

In [1580]:
poverty_percent_data.head()

Unnamed: 0,region,1995,1996,1997,1998,1999,2000,2001,2002,2003,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
67,Алтайский край,33.7,46.8,45.7,52.9,53.8,53.9,47.3,38.9,33.9,...,22.6,20.6,17.6,17.1,18.0,17.8,17.5,17.4,17.6,17.5
80,Амурская область,36.1,28.2,26.3,31.2,38.0,47.7,45.3,44.6,35.6,...,20.4,16.0,16.2,14.8,15.2,17.0,16.7,15.6,15.7,15.2
20,Архангельская область,26.2,26.8,23.9,31.6,42.6,33.5,27.4,26.5,23.5,...,14.4,13.2,14.6,14.8,16.5,15.2,14.3,13.5,13.6,12.8
33,Астраханская область,33.8,28.6,23.3,31.2,47.7,34.9,29.3,26.8,21.4,...,15.1,13.6,13.0,13.6,14.2,14.4,13.6,13.4,12.9,11.9
0,Белгородская область,19.9,17.6,18.9,20.1,24.2,33.6,29.1,25.4,22.9,...,8.6,6.5,7.6,7.7,8.5,8.1,7.8,7.5,7.8,7.2


В нашем датасете пропуски есть там, где не логично заполнять каким-то средним значением или медианой. Это Крым, Чечня, Калмыкия. Поэтому я решаю заполнить пропуски нулями.

In [1581]:
poverty_percent_data.fillna(0, inplace=True)

In [1582]:
poverty_percent_data.isnull().sum()

region    0
1995      0
1996      0
1997      0
1998      0
1999      0
2000      0
2001      0
2002      0
2003      0
2004      0
2005      0
2006      0
2007      0
2008      0
2009      0
2010      0
2011      0
2012      0
2013      0
2014      0
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
dtype: int64

In [1583]:
# Возьмем признак poverty
poverty_percent = poverty_percent_data.copy()

### 2.8 Региональное производство / regional_production_1 и regional_production_2

Я хочу объединить эти два датафрейма.

In [1723]:
regional_production_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 255 entries, 0 to 254
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   region            255 non-null    object 
 1   production_field  255 non-null    object 
 2   2005              246 non-null    float64
 3   2006              246 non-null    float64
 4   2007              249 non-null    float64
 5   2008              249 non-null    float64
 6   2009              249 non-null    float64
 7   2010              249 non-null    float64
 8   2011              249 non-null    float64
 9   2012              249 non-null    float64
 10  2013              249 non-null    float64
 11  2014              255 non-null    float64
 12  2015              255 non-null    float64
 13  2016              255 non-null    float64
dtypes: float64(12), object(2)
memory usage: 28.0+ KB


In [1724]:
regional_production_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 421 entries, 0 to 420
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   region            421 non-null    object 
 1   production_field  421 non-null    object 
 2   2017              421 non-null    float64
 3   2018              421 non-null    float64
 4   2019              421 non-null    float64
 5   2020              421 non-null    float64
dtypes: float64(4), object(2)
memory usage: 19.9+ KB


In [1725]:
# Получим пересечение колонок обоих датафреймов
common_columns = set(regional_production_1.columns) & set(regional_production_2.columns)

# Преобразуем числовые данные в подходящий формат
for year in map(str, range(2005, 2021)):
    if year in common_columns:
        regional_production_1[year] = regional_production_1[year].apply(lambda x: "{:,.1f}".format(x) if isinstance(x, float) else x)
        regional_production_2[year] = regional_production_2[year].apply(lambda x: "{:,.1f}".format(x) if isinstance(x, float) else x)

# Объединим два датафрейма в один с использованием внешнего объединения (outer join)
regional_production = pd.merge(regional_production_1, regional_production_2, on=['region', 'production_field'], how='outer')

# Заполним пропущенные значения NaN нулями
regional_production.fillna(0, inplace=True)

# Сортируем данные по региону и области производства
regional_production.sort_values(by=['region', 'production_field'], inplace=True)

В объединенном датафрейме regional_production у нас появилось много пропусков. Пропуски мы заполнили нулями, но если так оставить для всех регионов то мы породим выбросы в нашем датафрейме. Поэтому предлагается заполнение пропусков таким образом. Мы оставляем нули для Республики Крым и г. Севастополь с 2005 по 2013 годы по понятным причинам. В целом нули по данному региону до 2014-2015 года мы считаем нормальным явлением и не относим это к вабросам. Для всех остальных регионов нули будут заполняться так: там где производства имеют нули с 2005 по 2016 года мы заполняем значениями 2017 года, там где производства имеют нули с 2017 по 2020 года мы заполняем значениями 2016 года.

In [1727]:
for index, row in regional_production.iterrows():
    
    # Оставляем нули для Республики Крым и г. Севастополь с 2005 по 2013
    if row['region'] not in ['Республика Крым', 'г. Севастополь']:
    
        # Заполняем нули с 2005 по 2016 значением 2017 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2005, 2017)):
            regional_production.loc[index, range(2005, 2017)] = regional_production.loc[index, 2017]
    
        # Заполняем нули с 2017 по 2020 значением 2016 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2017, 2021)):
            regional_production.loc[index, range(2017, 2021)] = regional_production.loc[index, 2016]
    
    else:
        # Заполняем нули с 2005 по 2016 значением 2017 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2014, 2017)):
            regional_production.loc[index, range(2014, 2017)] = regional_production.loc[index, 2017]
        
        # Заполняем нули с 2017 по 2020 значением 2016 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2017, 2021)):
            regional_production.loc[index, range(2017, 2021)] = regional_production.loc[index, 2016]

In [1728]:
display(regional_production.head(6))

Unnamed: 0,region,production_field,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
455,Алтайский край,"ВОДОСНАБЖЕНИЕ; ВОДООТВЕДЕНИЕ, ОРГАНИЗАЦИЯ СБОР...",8068621.4,8068621.4,8068621.4,8068621.0,8068621.4,8068621.0,8068621.0,8068621.0,8068621.0,8068621.0,8068621.0,8068621.0,8068621.0,10323030.0,9813457.0,10454410.0
201,Алтайский край,ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ,461065.8,968509.5,2238427.0,3095174.0,3383227.4,4402534.0,6040719.0,7208823.0,4068447.0,3637479.0,5519930.0,4852175.0,6143029.0,5023392.0,7745963.0,9146146.0
454,Алтайский край,"ОБЕСПЕЧЕНИЕ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИЕЙ, ГАЗОМ И ПА...",45806615.7,45806615.7,45806615.7,45806620.0,45806615.7,45806620.0,45806620.0,45806620.0,45806620.0,45806620.0,45806620.0,45806620.0,45806620.0,47439690.0,43900540.0,44741020.0
202,Алтайский край,ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА,70381505.7,91823076.0,108789152.1,154664100.0,118002216.6,168751600.0,189278900.0,198975900.0,205629900.0,209856900.0,271651000.0,265882800.0,307969900.0,322810300.0,357699000.0,361880100.0
203,Алтайский край,"ПРОИЗВОДСТВО И РАСПРЕДЕЛЕНИЕ ЭЛЕКТРОЭНЕРГИИ, Г...",21776598.5,23693231.2,19258417.8,23895910.0,26748131.7,31793620.0,31991200.0,34397600.0,37720560.0,40843130.0,44355400.0,45046980.0,45046980.0,45046980.0,45046980.0,45046980.0
456,Алтайский край,Промышленное производство (промышленность),367988195.7,367988195.7,367988195.7,367988200.0,367988195.7,367988200.0,367988200.0,367988200.0,367988200.0,367988200.0,367988200.0,367988200.0,367988200.0,385596400.0,419159000.0,426221700.0


Датафрейм regional_production теперь содержит все объемы по 6 возможным производствам. Теперь посчитаем общий объем от производств по регионам.

In [1733]:
# Группировка по региону и подсчет общего объема для каждого года
reg_prod_total = regional_production.groupby('region').sum().reset_index()
reg_prod_total = reg_prod_total.drop('production_field', axis=1)

### 2.9 Денежные доходы / real_pay_data и real_incomes_data

Датафреймы per_capita_cash_income_data и formal_wage_paid_data чистые и полноценные, поэтому их мы пропускаем. 

In [1594]:
real_pay_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2015    83 non-null     float64
 2   2016    85 non-null     float64
 3   2017    85 non-null     float64
 4   2018    85 non-null     float64
 5   2019    85 non-null     float64
 6   2020    85 non-null     float64
dtypes: float64(6), object(1)
memory usage: 5.3+ KB


In [1595]:
real_incomes_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2015    83 non-null     float64
 2   2016    85 non-null     float64
 3   2017    85 non-null     float64
 4   2018    85 non-null     float64
 5   2019    85 non-null     float64
 6   2020    85 non-null     float64
dtypes: float64(6), object(1)
memory usage: 5.3+ KB


Датафреймы **real_pay_data** и **real_incomes_data** содержат пропуски в 2015 году для республики Крым и г. Севастополь. Я заполняю их средним значением.

In [1596]:
mean_value_real_pay = real_pay_data.loc[real_pay_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2016:2020].mean(axis=1)

real_pay_data.loc[real_pay_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2015] = real_pay_data.loc[real_pay_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2015].fillna(mean_value_real_pay)


mean_value_real_incomes = real_incomes_data.loc[real_incomes_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2016:2020].mean(axis=1)

real_incomes_data.loc[real_incomes_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2015] = real_incomes_data.loc[real_incomes_data['region'].isin(['Республика Крым', 'г. Севастополь']), 2015].fillna(mean_value_real_incomes)

In [1597]:
# Возьмем теперь все 4 признака из 4 датафреймов
per_capita = per_capita_cash_income_data.copy()
formal_wage = formal_wage_paid_data.copy()
real_incomes = real_incomes_data.copy()
real_pay = real_pay_data.copy()

### 2.10 Алкоголизм, наркомания / alco_data и drug_data

## alco_data.info()

In [1602]:
drug_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2005    83 non-null     float64
 2   2006    83 non-null     float64
 3   2007    83 non-null     float64
 4   2008    83 non-null     float64
 5   2009    83 non-null     float64
 6   2010    83 non-null     float64
 7   2011    83 non-null     float64
 8   2012    83 non-null     float64
 9   2013    83 non-null     float64
 10  2014    68 non-null     float64
 11  2015    68 non-null     float64
 12  2016    68 non-null     float64
 13  2017    85 non-null     float64
 14  2018    85 non-null     float64
dtypes: float64(14), object(1)
memory usage: 10.6+ KB


Датафреймы **alco_data** и  **drug_data** содержат пропуски с 2005 по 2016 года для республики Крым и г. Севастополь. Также датафрейм содержит пропуски с 2014 по 2016 года для регионов от Республики Адыгея до Ставропольского края в обоих разделах(листах).

Я заполню пропуски нулями с 2005 по 2014 год для республики Крым и г. Севастополь. С 2015 по 2016 года для заполнения пропусков я попробую использовать линейную интерполяцию чтобы найти значение, идущее по нарастающей. 

In [1603]:
regions_to_fill = ['Республика Крым', 'г. Севастополь']
years_to_fill = list(range(2005, 2015))

for region in regions_to_fill:
    for df in [alco_data, drug_data]:
        # Заполним пропуски нулями для годов с 2005 по 2014
        df.loc[df['region'] == region, years_to_fill] = df.loc[df['region'] == region, years_to_fill].fillna(0)
        
        # Получим значения для 2017 и 2018 годов
        value_2017 = df.loc[df['region'] == region, 2017].values[0]
        value_2018 = df.loc[df['region'] == region, 2018].values[0]
        
        # Создадим линейно нарастающую последовательность для заполнения 2015 и 2016 годов
        filled_values = np.linspace(start=value_2017, stop=value_2018, num=4)
        
        # Заполним пропуски сгенерированными значениями
        df.loc[df['region'] == region, [2015, 2016]] = np.round(filled_values[:2], 1)

Теперь надо заполнить пропуски для регионов с 2014 по 2016 года для регионов от Республики Адыгея до Ставропольского края, а также отдельно по Архангельской и Тюменской областям. Давайте здесь также ипользуем интерполяцию.  

In [1604]:
regions_to_interpolate = [
    "Архангельская область", "Республика Адыгея", "Республика Калмыкия", "Краснодарский край", 
    "Астраханская область", "Волгоградская область", "Ростовская область", 
    "Республика Дагестан", "Республика Ингушетия", "Кабардино-Балкарская Республика", 
    "Карачаево-Черкесская Республика", "Республика Северная Осетия - Алания", 
    "Чеченская Республика", "Ставропольский край", "Тюменская область"
]

years_to_interpolate = list(range(2005, 2019))

for region in regions_to_interpolate:
    for df in [alco_data, drug_data]:
        # Получаем индекс строки для текущего региона
        idx = df['region'] == region

        # Применяем интерполяцию только к строке с текущим регионом
        df.loc[idx, years_to_interpolate] = df.loc[idx, years_to_interpolate].interpolate(axis=1).round(1)

Посмотрим, заполнились ли пропуски

In [1605]:
print(df.loc[df['region'].isin(regions_to_interpolate), [2014, 2015, 2016]])


    2014  2015  2016
20   4.4   4.7   5.1
33   1.9   1.5   1.1
34   6.6   7.2   7.7
39  12.2  11.7  11.2
40   5.2   5.4   5.7
32   4.3   4.2   4.2
29   5.6   5.4   5.2
37  13.5  12.4  11.2
38   1.3   1.3   1.2
30   0.3   0.2   0.1
35  11.6  11.0  10.4
43   5.4   4.9   4.4
60  13.0  12.9  12.8
42   1.1   1.0   0.9


In [1606]:
# Возьмем два признака alco и drug
alco = alco_data.copy()
drug = drug_data.copy()

### 2.11 Жилищные условия по данным 2020 г. / housing_cond_data и housing_intent_data

In [1609]:
housing_cond_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 9 columns):
 #   Column                                                                                         Non-Null Count  Dtype  
---  ------                                                                                         --------------  -----  
 0   region                                                                                         85 non-null     object 
 1   Число домохозяйств, проживающих во всех типах жилых помещений                                  85 non-null     int64  
 2   в том числе домохозяйства, указавшие, что при проживании не испытывают стесненности            85 non-null     float64
 3   в том числе домохозяйства, указавшие, что при проживании испытывают определенную стесненность  85 non-null     float64
 4   в том числе домохозяйства, указавшие, что при проживании испытывают большую стесненность       85 non-null     float64
 5   затруднились ответить        

In [1610]:
housing_intent_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 85 entries, 67 to 36
Data columns (total 14 columns):
 #   Column                                                                                                                                                                       Non-Null Count  Dtype  
---  ------                                                                                                                                                                       --------------  -----  
 0   region                                                                                                                                                                       85 non-null     object 
 1   Все домохозяйства                                                                                                                                                            85 non-null     int64  
 2   из них домохозяйства, собирающиеся улучшить свои жилищные условия                       

В датафрейме **housing_intent_data** есть пропущенные значения в виде троеточия. Это пропуски и с ними надо что-то делать. Применить медиану, моду и тд будет не правильным решением. Я решаю заменить нулями.

In [1611]:
columns_to_fill = [
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: планируют вселиться в жилое помещение, строительство которого ведут (участвуют в долевом строительстве)",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются подать документы для постановки на очередь (и/или ожидают прохождения очереди)",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: рассчитывают на получение нового жилья в связи со сносом дома",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются купить (построить) другое жилье",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются снимать жилье",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются улучшить  свои  жилищные условия  другим способом",
    "затруднились ответить"
]

for col in columns_to_fill:
    housing_intent_data[col].replace('...', 0, inplace=True)

In [1612]:
display(housing_intent_data)

Unnamed: 0,region,Все домохозяйства,"из них домохозяйства, собирающиеся улучшить свои жилищные условия",из них указавшие: на стесненность проживания,из них указавшие: на плохое или очень плохое состояние жилого помещения,из них указавшие: на плохое состояние или очень плохое состояние жилого помещения и на стесненность проживания,"из числа домохозяйств, собирающихся улучшить свои жилищные условия: планируют вселиться в жилое помещение, строительство которого ведут (участвуют в долевом строительстве)","из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются подать документы для постановки на очередь (и/или ожидают прохождения очереди)","из числа домохозяйств, собирающихся улучшить свои жилищные условия: рассчитывают на получение нового жилья в связи со сносом дома","из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются купить (построить) другое жилье","из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются снимать жилье","из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются улучшить свои жилищные условия другим способом",затруднились ответить,"домохозяйства, не собирающиеся улучшать свои жилищные условия"
67,Алтайский край,100,14.9,6.3,0.3,0.2,3.1,5.0,0.8,31.5,3.9,56.2,0.6,85.1
80,Амурская область,100,14.7,6.1,1.3,0.3,16.6,5.5,1.8,32.6,7.1,35.1,1.3,84.6
20,Архангельская область,100,13.4,5.9,1.4,0.7,15.7,3.4,6.3,32.7,4.6,37.3,0.0,86.6
33,Астраханская область,100,16.4,5.3,0.8,0.2,7.5,8.1,9.6,36.3,0.9,36.2,1.3,81.8
0,Белгородская область,100,12.0,4.2,0.7,0.4,11.2,1.6,1.6,29.5,0.0,56.9,0.0,88.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62,Ямало-Ненецкий автономный округ,100,17.7,5.4,1.7,0.8,9.0,17.3,11.0,20.0,4.9,36.9,4.1,77.6
16,Ярославская область,100,5.7,3.7,0.5,0.3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,93.6
17,г. Москва,100,12.8,8.1,0.5,0.2,17.5,4.2,27.8,18.0,10.4,20.2,2.7,83.4
28,г. Санкт-Петербург,100,10.7,5.8,0.1,0.1,23.6,2.3,2.2,41.3,6.3,24.1,0.7,88.1


Из этих датафреймов давайте найдем три признака, которые нам в дальнейшем могут понадобиться в анализе: 

***living area, bad conditions, no funds***

Для living area, мы используем столбец 'Размер жилой площади в расчете на члена домохозяйства' из датафрейма housing_cond_data.

Для определения bad conditions, мы используем следующие столбцы из датафрейма housing_intent_data:

- из них указавшие: на плохое или очень плохое состояние жилого помещения
- из них указавшие: на плохое состояние или очень плохое состояние жилого помещения и на стесненность проживания

Для определения no funds, мы используем следующие столбцы из датафрейма housing_intent_data:
- из них домохозяйства, собирающиеся улучшить свои жилищные условия, собираются подать документы для постановки на очередь (и/или ожидают прохождения очереди)
- рассчитывают на получение нового жилья в связи со сносом дома

Этот подход предполагает, что домохозяйства, которые только желают улучшить свои жилищные условия и ожидающие государственной помощи или сноса своего дома, фактически не имеют средств на улучшение своих жилищных условий самостоятельно.

In [1613]:
living_area =  housing_cond_data[['region', 'Размер жилой площади в расчете на члена домохозяйства']]
living_area = living_area.rename(columns={"Размер жилой площади в расчете на члена домохозяйства": "living_area"})

housing_intent_data['bad_conditions'] = (housing_intent_data['из них указавшие: на плохое или очень плохое состояние жилого помещения'] + 
                                        housing_intent_data['из них указавшие: на плохое состояние или очень плохое состояние жилого помещения и на стесненность проживания'])
bad_conditions = housing_intent_data[['region', 'bad_conditions']]

У нас слишком длинные названия столбцов для нахождения no funds поэтому давайте их чуть сократим.

In [1614]:
columns_rename = {
    "из них домохозяйства, собирающиеся улучшить свои жилищные условия": "собираются улучшить свои жилищные условия",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются подать документы для постановки на очередь (и/или ожидают прохождения очереди)": "собираются подать документы для постановки на очередь",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: рассчитывают на получение нового жилья в связи со сносом дома": "рассчитывают на получение нового жилья в связи со сносом дома"
}

housing_intent_data.rename(columns=columns_rename, inplace=True)

Теперь можно произвести вычисление признака no_funds

In [1615]:
housing_intent_data['no_funds'] = (
    (housing_intent_data['собираются улучшить свои жилищные условия'] / 100) *
    ((housing_intent_data['собираются подать документы для постановки на очередь'] / 100) +
     (housing_intent_data['рассчитывают на получение нового жилья в связи со сносом дома'] / 100))
) * 100

no_funds = housing_intent_data[['region', 'no_funds']]

In [1616]:
# Объединяем все в один датафрейм
result_df = pd.merge(living_area, bad_conditions, on='region')
housing = pd.merge(result_df, no_funds, on='region')

### 2.12 Оборот розничной торговли на душу населения, Отношение числа занятых в экономике региона к численности населения региона в трудоспособном возрасте

Датафреймы retail_turnover_data, workers_data чистые и полноценные поэтому мы просто возьмем один признак характерный для каждого датафрейма.

In [1618]:
# Возьмем признаки retail, workers
retail = retail_turnover_data.copy()
workers = workers_data.copy()

#### Теперь когда все данные у нас прошли очистку и предобработку нужно перейти к анализу данных для сравнения трендов и выявления наиболее релевантных годов. 

Я решил исключить из анализа данные до 2015 года, так как они будут уже не актуальными с современных рамках и мы помним, что у нас стоит задача кластеризации, а не задача временных рядов.

In [1742]:
def plot_data(df, title, *categories):
    # Отбор данных
    columns_to_check = [int(year) for year in range(2015, 2023)]
    print("Columns to check:", columns_to_check)
    print("Columns in DataFrame:", df.columns)
    
    # Преобразовываем только числовые названия столбцов в int
    df.columns = [int(col) if str(col).isdigit() else col for col in df.columns]
    
    columns_present = [col for col in columns_to_check if col in df.columns]
    print("Matching columns:", columns_present)
    
    id_vars = ["region"]
    for category in categories:
        if category in df.columns:
            id_vars.append(category)
    
    df_filtered = df[id_vars + columns_present]
    
    # Преобразование данных
    df_melted = pd.melt(df_filtered, id_vars=id_vars, var_name="year", value_name="value")
    df_melted['value'] = df_melted['value'].astype(float)
    
    # Построение графика
    plt.figure(figsize=(12, 6))
    
    hue_column = id_vars[1] if len(id_vars) > 1 else None
    split_val = True if hue_column and df_melted[hue_column].nunique() == 2 else False

    sns.violinplot(data=df_melted, x="year", y="value", hue=hue_column, split=split_val)
    
    plt.title(title)
    plt.show()


По понятным причинам датафрейм **housing_2020** не подпадает под анализ выявления тренда среди годов.

In [1743]:
# Сделаем список из пар (датафрейм, название, доп. аргумент)
datasets = [
    (per_capita, "per_capita"),
    (real_incomes, "real_incomes"),
    (formal_wage, "formal_wage"),
    (real_pay, "real_pay"),
    (child_mortality, "child_mortality"),
    (disabled_18_60, "disabled_18_60"),
    (alco, "alco"),
    (drug, "drugs"),
    (newborn, "newborn"),
    (population, "population"),
    (poverty_percent, "poverty_percent"),
    (retail, "retail"),
    (workers, "workers"),
    (poverty, "Poverty", "Возраст"),
    (general_morbidity, "Общая заболеваемость"),
    (congenital_malformation, "Врожденные пороки развития"),
    (mental_disorders, "Психические расстройства и расстройства поведения"),
    (teenage_pregnancy, "Подростковая беременность (до 14 лет)"),
    (reg_prod_total, "Общее региональное производство")
]

# Применяем функцию к каждому датафрейму
for data in datasets:
    if len(data) == 2:
        df, name = data
        plot_data(df, name)
    elif len(data) == 3:
        df, name, third_arg = data
        plot_data(df, name, third_arg)

Columns to check: [2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]
Columns in DataFrame: Index(['region', 'per_capita'], dtype='object')
Matching columns: []


ValueError: min() arg is an empty sequence

<Figure size 1200x600 with 0 Axes>

***Исходя из представленных графиков можно сделать вывод что наиболее подпадающим под релевантный год является 2020 год. Так как данные по нему представлены и распределены наиболее полно. Там где данные есть младше этого года (2021 и 2022) мы видим не заметную разницу с 2020 годом. Поэтому наиболее рациональным решением будет взять в качестве опорной точки для создания общего датафрейма преимущественно данные за этот год. Там где данных за этот год нет мы возьмем крайний последний (например 2016 или 2018 года)***

### Исходя из того, что мы определились с годом, мы можем взять остальные возможные датафреймы за этот год. Они нам также могут помочь в дальнейшем анализе.

### 2.13 Преступность / Crimes

По открытым данным Генпрокуратуры за 2020 г.: форма 4-ЕГС раздел 1 "Общие сведения о состоянии преступности". Возьмем данные по преступлениям, погибшим и тяжело пострадавшим на территории Российской Федерации.

*Предоставленные в проекте формы 4-ЕГС раздел 4 содержат сведения о преступлениях, совершенных отдельными категориями лиц, и не отражают полную статистику!*

Из этого датафрейма я хочу выявить такие признаки как ***registered crimes, felonies, misdemeanors, killed, grievous harm***

Я не буду преобразовывать данный датафрейм, а просто возьму интересные мне столбцы с помощью header и usecols

In [1663]:
# Загрузим интересующие нас данные из папки crimes
crimes = pd.read_excel(data_path + './crimes_2016_2022/2020/4-EGS_Razdel_1_122020.xlsx', header=13, usecols='B, D, G, AB, AD')
felony = pd.read_excel(data_path + './crimes_2016_2022/2020/4-EGS_Razdel_1_122020.xlsx', sheet_name=1, header=13, usecols='D, G')
misdemeanor = pd.read_excel(data_path + './crimes_2016_2022/2020/4-EGS_Razdel_1_122020.xlsx', sheet_name=2, header=13, usecols='D, G')

А далее произведу вычисления используя нужные индексы датафрейма

In [1664]:
crimes['registered crimes'] = crimes[2] - crimes[5]
crimes['killed'] = crimes[26]
crimes['grievous harm'] = crimes[28]
crimes.drop([2, 5, 26, 28], axis=1, inplace=True)
crimes.rename({'Unnamed: 1': 'region'}, axis=1, inplace=True)

felony['felonies'] = felony[2] - felony[5]

misdemeanor['misdemeanors'] = misdemeanor[2] - misdemeanor[5]

crimes = pd.concat([
    crimes[['region', 'registered crimes']],
    felony[['felonies']],
    misdemeanor[['misdemeanors']],
    crimes[['killed', 'grievous harm']]
    ], axis=1
)

#### Помимо основных датафреймов проекта я бы хотел добавить дополнительные датафреймы из которых будет полезно получить новые признаки для нашего анализа.

Такими таблицами будут: budget_incomes_2020.xlsx, budget_expenses_2020, living_wage_2020, report_orphanhood_2020, problem_ageing_all

Загрузим данные этих таблиц в свои датафреймы.

In [1666]:
incomes = pd.read_excel(data_path + 'budget_incomes_2020.xlsx')
welfare = pd.read_excel(data_path + 'budget_expenses_2020.xlsx')
living_wage = pd.read_excel(data_path + 'living_wage_2020.xlsx')
children = pd.read_excel(data_path + 'report_orphanhood_2020.xlsx')
retired = pd.read_excel(data_path + 'problem_ageing_all.xlsx')

Стандартизируем названия регионов в каждом датафрейме через функцию standardize_region_names()

In [1667]:
# Мой список датафреймов
dataframes = [crimes,
              incomes,
              welfare,
              living_wage,
              children,
              retired]

for df in dataframes:
    standardize_region_names(df, standard_names)

И проверим все датафреймы через функцию check_regions_count()

In [1668]:
# Мой список датафреймов с строковом виде
dataframe_names = ["crimes",
                   "incomes",
                   "welfare",
                   "living_wage",
                   "children",
                   "retired"]


for df, df_name in zip(dataframes, dataframe_names):
    check_regions_count(df, standard_names, df_name=df_name)

Присвоим результат функции standardize_region_names() обратно каждому датафрейму

In [1669]:
crimes = standardize_region_names(crimes, standard_names)
incomes = standardize_region_names(incomes, standard_names)
welfare = standardize_region_names(welfare, standard_names)
living_wage = standardize_region_names(living_wage, standard_names)
children = standardize_region_names(children, standard_names)
retired = standardize_region_names(retired, standard_names)

### 2.14 Бюджеты регионов и расходы на социальную политику

Данные взяты с портала https://budget.permkrai.ru/

В миллионах рублей. Доходы бюджетов разделены на собственные доходы (income, средства, получаемые из налогов, акцизов, использования имущества) и дотации из бюджетов других уровней (subsidies, как правило это средства федерального бюджета).

In [1670]:
missing_values = incomes.isnull().sum()
print(missing_values)

region                                       0
Налог на доходы физических лиц\nруб.         0
Акцизы\nруб.                                 0
Налог на совокупный доход\nруб.              0
Налог на имущество организаций\nруб.         0
Налог на добычу полезных ископаемых\nруб.    0
Доходы от использования имущества\nруб.      0
Безвозмездные поступления\nруб.              0
dtype: int64


In [1671]:
display(incomes.columns)

Index(['region', 'Налог на доходы физических лиц\nруб.', 'Акцизы\nруб.',
       'Налог на совокупный доход\nруб.',
       'Налог на имущество организаций\nруб.',
       'Налог на добычу полезных ископаемых\nруб.',
       'Доходы от использования имущества\nруб.',
       'Безвозмездные поступления\nруб.'],
      dtype='object')

In [1672]:
# Найдем общий бюжет по регионам
# Добавляем столбец 'income', где суммируем все доходы (исключая первый столбец) и переводим из рублей в миллионы рублей
incomes['income'] = round(incomes.iloc[:, 1:].sum(axis=1) / 1_000_000, 2)

# Теперь найдем признак subsidies
incomes['subsidies'] = round(incomes['Безвозмездные поступления\nруб.'] / 1_000_000, 2)

# Оставим только нужные столбцы
incomes = incomes[['region', 'income', 'subsidies']]

In [1673]:
display('Общие доходы бюджета, млн руб.', incomes)

'Общие доходы бюджета, млн руб.'

Unnamed: 0,region,income,subsidies
43,Алтайский край,130944.12,74306.24
51,Амурская область,85583.44,34011.89
46,Архангельская область,95411.95,42447.95
33,Астраханская область,52310.99,24050.16
0,Белгородская область,93595.18,35521.91
...,...,...,...
81,Ямало-Ненецкий автономный округ,166085.71,18750.62
82,Ярославская область,74062.37,24243.96
27,г. Москва,1912204.89,288463.49
48,г. Санкт-Петербург,465406.38,54096.73


In [1711]:
# Выбираем значения income для Москвы и Ямало-Ненецкого автономного округа
selected_regions = incomes[incomes['region'].isin(['г. Москва', 'Ямало-Ненецкий автономный округ'])][['region', 'income']]

print(selected_regions)


                             region      income
81  Ямало-Ненецкий автономный округ   166085.71
27                        г. Москва  1912204.89


In [1675]:
missing_values = welfare.isnull().sum()
print(missing_values)

region                                                         0
НАЦИОНАЛЬНАЯ БЕЗОПАСНОСТЬ И ПРАВООХРАНИТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ    0
НАЦИОНАЛЬНАЯ ЭКОНОМИКА                                         0
ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО                                 0
ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ                                        0
ОБРАЗОВАНИЕ И НАУКА                                            0
КУЛЬТУРА И КИНЕМАТОГРАФИЯ                                      0
ЗДРАВООХРАНЕНИЕ                                                0
СОЦИАЛЬНАЯ ПОЛИТИКА                                            0
ФИЗИЧЕСКАЯ КУЛЬТУРА И СПОРТ                                    0
ОБСЛУЖИВАНИЕ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО ДОЛГА           1
СОДЕРЖАНИЕ ОРГАНОВ ВЛАСТИ                                      0
dtype: int64


In [1677]:
display(welfare.columns)

Index(['region', 'НАЦИОНАЛЬНАЯ БЕЗОПАСНОСТЬ И ПРАВООХРАНИТЕЛЬНАЯ ДЕЯТЕЛЬНОСТЬ',
       'НАЦИОНАЛЬНАЯ ЭКОНОМИКА', 'ЖИЛИЩНО-КОММУНАЛЬНОЕ ХОЗЯЙСТВО',
       'ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ', 'ОБРАЗОВАНИЕ И НАУКА',
       'КУЛЬТУРА И КИНЕМАТОГРАФИЯ', 'ЗДРАВООХРАНЕНИЕ', 'СОЦИАЛЬНАЯ ПОЛИТИКА',
       'ФИЗИЧЕСКАЯ КУЛЬТУРА И СПОРТ',
       'ОБСЛУЖИВАНИЕ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО ДОЛГА',
       'СОДЕРЖАНИЕ ОРГАНОВ ВЛАСТИ'],
      dtype='object')

In [1678]:
# Найдем признак welfare используя столбец "СОЦИАЛЬНАЯ ПОЛИТИКА"
# Но перед этим заменим , на . и уберем пробелы для преобразования в float
welfare['СОЦИАЛЬНАЯ ПОЛИТИКА'] = welfare['СОЦИАЛЬНАЯ ПОЛИТИКА'].str.replace(' ', '').str.replace(',', '.')
welfare['СОЦИАЛЬНАЯ ПОЛИТИКА'] = welfare['СОЦИАЛЬНАЯ ПОЛИТИКА'].astype(float)

welfare['welfare'] = welfare['СОЦИАЛЬНАЯ ПОЛИТИКА']

# Оставим только нужные столбцы
welfare = welfare[['region', 'welfare']]

In [1679]:
display('Расходы на соц. политику, млн руб.', welfare)

'Расходы на соц. политику, млн руб.'

Unnamed: 0,region,welfare
0,Алтайский край,46350.3
6,Амурская область,26104.8
7,Архангельская область,29656.2
8,Астраханская область,22063.3
9,Белгородская область,23979.5
...,...,...
84,Ямало-Ненецкий автономный округ,34100.2
54,Ярославская область,23638.7
31,г. Москва,527748.0
27,г. Санкт-Петербург,155053.9


### 2.15 Прожиточный минимум

По данным Росстата. 
Возьмем данные на 4 квартал 2020 года для трудоспособного населения.

In [1681]:
living_wage.columns

Index(['region', 'I квартал', 'Unnamed: 2', 'II квартал', 'Unnamed: 4',
       'III квартал', 'Unnamed: 6', 'IV квартал', 'Unnamed: 8'],
      dtype='object')

In [1682]:
# Определим новый признак living_wage
living_wage['living_wage'] = living_wage['Unnamed: 8']

# И оставим датафрейм состоящий только из region и living_wage
living_wage = living_wage[['region', 'living_wage']]

In [1683]:
display('Прожиточный минимум, руб.', living_wage)

'Прожиточный минимум, руб.'

Unnamed: 0,region,living_wage
68,Алтайский край,10904
81,Амурская область,14331
22,Архангельская область,14507
34,Астраханская область,11287
1,Белгородская область,10403
...,...,...
62,Ямало-Ненецкий автономный округ,17403
17,Ярославская область,11689
18,г. Москва,20260
29,г. Санкт-Петербург,13074


### 2.16 Пенсионеры

Данные взяты с портала https://tochno.st

In [1686]:
retired.columns

Index([   'Группа показателей', 'Номер показателя (ID)',
         'Название показателя',          'Ед.измерения',
                      'region',               'Сегмент',
                  'Показывать',                    2014,
                          2015,                    2016,
                          2017,                    2018,
                          2019,                    2020,
                          2021,              'Описание'],
      dtype='object')

In [1687]:
# Отберем необходимые столбцы
cols = [
    'Название показателя', 'Ед.измерения', 'region', 'Сегмент',
    2015, 2016, 2017, 2018, 2019, 2020, 2021
]

# Применим эти столбцы
retired = retired[cols]
retired.replace(['н/д', '#Н/Д'], np.NaN, inplace=True)
retired.columns = [str(col) if isinstance(col, datetime.datetime) else col for col in retired.columns]


In [1688]:
# Найдем средний размер пенсии

mask = retired['Название показателя'] == 'Средний размер пенсии'
avg_pension = retired[mask].copy()

# Удалим лишние столбцы
avg_pension.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент'], inplace=True)

# Заменим запятые на точки и преобразуем значения в числа
for year in range(2015, 2022):  # Теперь до 2022 включительно
    avg_pension[year] = avg_pension[year].str.replace(',', '.').astype(float)

# Сгруппируем по регионам и вычисление среднего (если есть несколько строк для одного региона)
avg_pension = avg_pension.groupby('region').mean().reset_index()


In [1689]:
# Определим число пенсионеров retired_number

mask = (
    (retired['Название показателя'] == 'Люди в возрасте старше трудоспособного') &
    (retired['Ед.измерения'] == 'человек') & 
    (retired['Сегмент'] == 'всего')
)
retired_number = retired[mask].copy()

# Удалим лишние столбцы
retired_number.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент'], inplace=True) 

# Заменим запятые на точки и преобразуем данные
for year in range(2015, 2022):
    retired_number[year] = retired_number[year].astype(str).str.replace(',', '.').astype(float)

# Сгруппируем по регионам и вычислим число
retired_number = retired_number.groupby('region').sum().reset_index()


In [1690]:
# Найдем процент пенсионеров retired_percent

mask = (
    (retired['Название показателя'] == 'Люди в возрасте старше трудоспособного') & 
    (retired['Ед.измерения'] == '%') & 
    (retired['Сегмент'] == 'всего')
)
retired_percent = retired[mask].copy()

# Удалим лишние столбцы
retired_percent.drop(columns=['Название показателя', 'Ед.измерения', 'Сегмент'], inplace=True) 

# Заменим запятые на точки и преобразуем данные
for year in range(2015, 2022):
    retired_percent[year] = retired_percent[year].astype(str).str.replace(',', '.').astype(float)

# Сгруппируем по регионам и вычислим процент
retired_percent = retired_percent.groupby('region').sum().reset_index()


In [1691]:
display('Средний размер пенсии', avg_pension.head(3))
display('Число пенсионеров', retired_number.head(3))
display('Процент пенсионеров', retired_percent.head(3))

'Средний размер пенсии'

Unnamed: 0,region,2015,2016,2017,2018,2019,2020,2021
0,Алтайский край,6099.35,6261.91,6573.615,7188.0,7621.935,8064.095,
1,Амурская область,6849.34,7046.455,7390.22,8032.685,8502.925,8999.35,
2,Архангельская область,,,,,,10876.94,


'Число пенсионеров'

Unnamed: 0,region,2015,2016,2017,2018,2019,2020,2021
0,Алтайский край,604333.0,618276.0,629725.0,639803.0,647643.0,621984.0,622583.0
1,Амурская область,175375.0,178772.0,181429.0,183228.0,185016.0,176633.0,176179.0
2,Архангельская область,283394.0,288882.0,293477.0,297292.0,300715.0,288908.0,290570.0


'Процент пенсионеров'

Unnamed: 0,region,2015,2016,2017,2018,2019,2020,2021
0,Алтайский край,25.3,26.0,26.6,27.2,27.8,26.8,27.1
1,Амурская область,21.7,22.2,22.6,22.9,23.3,22.4,22.5
2,Архангельская область,33.0,25.6,26.2,26.8,27.3,26.4,26.8


### 2.17 Дети

По данным с портала https://tochno.st за 2020 год.

In [1696]:
children.columns

Index(['region', 'Всего детей в регионе, человек',
       'Нуждаются в устройстве в семьи, человек',
       'Устройство детей в семьи, %',
       'Приток кандидатов в приемные родители, семья',
       'Отмены решений о передаче в семью, усл.ед.',
       'Возвращение детей в кровные семьи, усл.ед.'],
      dtype='object')

In [1697]:
children['children'] = children['Всего детей в регионе, человек']
children['orphanage'] = children['Нуждаются в устройстве в семьи, человек']
children['adopted_percent'] = children['Устройство детей в семьи, %']

#
selected_columns = ['region', 'children', 'orphanage', 'adopted_percent']
children = children[selected_columns]


In [1698]:
display(children)

Unnamed: 0,region,children,orphanage,adopted_percent
18,Алтайский край,490149,983,59
8,Амурская область,178702,676,65
9,Архангельская область,226228,785,60
19,Астраханская область,227512,376,66
20,Белгородская область,290694,219,82
...,...,...,...,...
77,Ямало-Ненецкий автономный округ,143794,68,83
63,Ярославская область,242440,485,60
32,г. Москва,2166455,1324,66
14,г. Санкт-Петербург,947039,1265,53


И из датафрейма **poverty_data** нам осталось еще изменить и взять 3 признака: **children, employable, retired**

In [1701]:
# Выделим нужные столбцы
poverty_data = poverty_data[['region', 'Возраст', 2020]]

# Трансформируем данные
poverty_data = poverty_data.pivot(index='region', columns='Возраст', values=2020).reset_index()

# Переименуем столбцы
poverty_data.columns = ['region', 'the poor: children', 'the poor: employable', 'the poor: retired']

KeyError: "['Возраст', 2020] not in index"

In [1702]:
# Возьмем признак poverty_socdem
poverty_socdem = poverty_data.copy()

In [1703]:
display(poverty_socdem)

Unnamed: 0,region,the poor: children,the poor: employable,the poor: retired
0,Алтайский край,31.4,59.4,9.2
1,Амурская область,38.4,56.9,4.7
2,Архангельская область,30.2,63.1,6.7
3,Астраханская область,42.1,52.4,5.5
4,Белгородская область,44.1,43.55,12.35
...,...,...,...,...
80,Ямало-Ненецкий автономный округ,51.0,48.4,0.7
81,Ярославская область,31.9,65.8,2.3
82,г. Москва,38.4,51.333333,13.2
83,г. Санкт-Петербург,26.15,69.0,9.8


#### Теперь когда нам известны все потенциальные признаки и известен целевой год мы можем провести объединение датафреймов преимущественно с данными по 2020 году.

Сведем все признаки, которые потенциально могут быть использованы для дальнейшего анализа.

| Dataframe | Описание | Единица измерения | Период |
| - | - | - | - |
| per_capita | Среднедушевые денежные доходы (в месяц) | руб. / чел. | 2015-2020 |
| real_incomes  | Реальные денежные доходы (покупательная способность: с учетом роста цен) | процент к предыдущему году | 2015-2020 |
| formal_wage |Среднемесячная номинальная начисленная заработная плата | руб. / чел. | 2015-2020 |
| real_pay| Реальная начисленная заработная плата (покупательная способность: с учетом роста цен) | процент к предыдущему году | 2015-2020 |
| child_mortality | Детская смертность (до достижения первого года жизни) | чел. | 1990-2021 |
| disabled_18_60 | Инвалидность среди трудоспособного возраста (18-60 лет) | чел. | 2017-2022 |
| alco, drug | Кол-во алкогольных и наркотических психозов | кол-во. / 100 тыс. населения | 2005-2018 |
| grp | Валовой региональный продукт на душу населения | руб. / чел. | 2011-2020 |
| housing | Характеристика жилищных условий домохозяйств, Оценка домохозяйствами состояния занимаемого ими жилого помещения | кв.м., %, % | 2020 |
| general_morbidity, congenital_malformation, mental_disorders, teenage_pregnancy | Общая заболеваемость, врожденные пороки развития, психические расстройства, подростковая беременность | кол-во. / 100 тыс. населения | 2015-2016 |
| newborn | Число новорождённых по регионам, без учёта мертворождённых | чел. | 2006-2021 |
| population | Численность населения по регионам | чел. | 1999-2022 |
| poverty_percent | Процент людей, живущих за чертой бедности | %  | 1995-2020 |
| poverty_socdem | Распределение малоимущего населения по социально-демографическим группам (дети, трудящиеся,пенсионеры) | % | 2017-2020 |
| reg_prod_total | Общий объём отгруженных товаров собственного производства или работ/услуг, выполненных собственными силами | тыс. руб. | 2017-2020 |
| retail| Оборот розничной торговли на душу населения | руб. / чел. | 2013-2021 |
| workers_percent | Отношение числа занятых в экономике региона к численности населения региона в трудоспособном возрасте | % | 2012-2022 |
| crimes | Зарегистрированные преступления, тяжкие и особо тяжкие преступления, количество погибших и тяжело пострадавших | Кол-во | 2020 |
| incomes | Доходы бюджета | млн руб. | 2020 |
| welfare | Расходы на социальную политику от общих расходов бюджета региона | млн руб. | 2020 |
| children | Количество детей, дети-сироты | чел. | 2020 |
| avg_pension | Средний размер пенсии | руб. / чел. | 2015-2020 |
| retired_percent | Процент пенсионеров | % | 2015-2021 |
| living_wage | Прожиточный минимум для трудоспособного населения на 4-й квартал | руб. / чел.| 2020 |

При собирании единого датафрейма нужно частично пронормировать значения для удобства последующего сравнения (процент населения, показатель на душу населения, показатель на 100 тыс. населения).

Давайте теперь соберем финальный датафрейм.

Перед объединением мы еще должны отобрать данные из некоторых датафреймов только за 2020 год, а из некоторых по крайнему году.

In [1705]:
# Отбираем данные по 2020 году и переименовываем столбец 2020 на нужный признак
per_capita = per_capita[['region', 2020]].rename(columns={2020: 'per_capita'})
real_incomes = real_incomes[['region', 2020]].rename(columns={2020: 'real_incomes'})
formal_wage = formal_wage[['region', 2020]].rename(columns={2020: 'formal_wage'})
real_pay = real_pay[['region', 2020]].rename(columns={2020: 'real_pay'})
child_mortality = child_mortality[['region', 2020]].rename(columns={2020: 'child_mortality'})
disabled_18_60 = disabled_18_60[['region', 2020]].rename(columns={2020: 'disabled_18_60'})
alco = alco[['region', 2018]].rename(columns={2018: 'alco'})
drug = drug[['region', 2018]].rename(columns={2018: 'drug'})
grp = grp[['region', 2020]].rename(columns={2020: 'grp'})
general_morbidity = general_morbidity[['region', 2016]].rename(columns={2016: 'general_morbidity'})
congenital_malformation = congenital_malformation[['region', 2016]].rename(columns={2016: 'congenital_malformation'})
mental_disorders = mental_disorders[['region', 2016]].rename(columns={2016: 'mental_disorders'})
teenage_pregnancy = teenage_pregnancy[['region', 2016]].rename(columns={2016: 'teenage_pregnancy'})
newborn = newborn[['region', 2020]].rename(columns={2020: 'newborn'})
population = population[['region', 2020]].rename(columns={2020: 'population'})
poverty_percent = poverty_percent[['region', 2020]].rename(columns={2020: 'poverty_percent'})
reg_prod_total = reg_prod_total[['region', 2020]].rename(columns={2020: 'reg_prod_total'})
retail = retail[['region', 2020]].rename(columns={2020: 'retail'})
workers_percent = workers[['region', 2020]].rename(columns={2020: 'workers_percent'})
avg_pension = avg_pension[['region', 2020]].rename(columns={2020: 'avg_pension'})
retired_percent = retired_percent[['region', 2020]].rename(columns={2020: 'retired_percent'})

In [1737]:
reg_prod_total = reg_prod_total[['region', 2020]].rename(columns={2020: 'reg_prod_total'})

In [1738]:
# А теперь добавим остальные датафреймы и создадим единый датафрейм
dataframes = [per_capita, real_incomes, formal_wage, real_pay, child_mortality, disabled_18_60, alco, drug, grp, housing, general_morbidity, congenital_malformation, mental_disorders, teenage_pregnancy, newborn, population, poverty_percent, poverty_socdem, reg_prod_total, retail, workers_percent, welfare, crimes, incomes, children, avg_pension, retired_percent, living_wage]

russia_regions = dataframes[0]
for df in dataframes[1:]:
    russia_regions = pd.merge(russia_regions, df, on='region', how='outer')


In [1739]:
display(russia_regions.columns)

Index(['region', 'per_capita', 'real_incomes', 'formal_wage', 'real_pay',
       'child_mortality', 'disabled_18_60', 'alco', 'drug', 'grp',
       'living_area', 'bad_conditions', 'no_funds', 'general_morbidity',
       'congenital_malformation', 'mental_disorders', 'teenage_pregnancy',
       'newborn', 'population', 'poverty_percent', 'the poor: children',
       'the poor: employable', 'the poor: retired', 'reg_prod_total', 'retail',
       'workers_percent', 'welfare', 'registered crimes', 'felonies',
       'misdemeanors', 'killed', 'grievous harm', 'income', 'subsidies',
       'children', 'orphanage', 'adopted_percent', 'avg_pension',
       'retired_percent', 'living_wage'],
      dtype='object')

In [1740]:
# Проверим уникальность регионов в новом датафрейме

unique_regions = russia_regions['region'].unique()

for region in unique_regions:
    print(region)

print("\nВсего уникальных регионов:", len(unique_regions))

Алтайский край
Амурская область
Архангельская область
Астраханская область
Белгородская область
Брянская область
Владимирская область
Волгоградская область
Вологодская область
Воронежская область
Еврейская автономная область
Забайкальский край
Ивановская область
Иркутская область
Кабардино-Балкарская Республика
Калининградская область
Калужская область
Камчатский край
Карачаево-Черкесская Республика
Кемеровская область
Кировская область
Костромская область
Краснодарский край
Красноярский край
Курганская область
Курская область
Ленинградская область
Липецкая область
Магаданская область
Московская область
Мурманская область
Ненецкий автономный округ
Нижегородская область
Новгородская область
Новосибирская область
Омская область
Оренбургская область
Орловская область
Пензенская область
Пермский край
Приморский край
Псковская область
Республика Адыгея
Республика Алтай
Республика Башкортостан
Республика Бурятия
Республика Дагестан
Республика Ингушетия
Республика Калмыкия
Республика Карелия


#### Выгрузим получившийся датафрейм для дальнейшей подгрузки в другой ноутбук

In [1741]:
russia_regions.to_excel(data_path + 'russia_regions.xlsx', index=False)

### Вывод

На основе изученных датафреймов мы сформировали финальный датафрейм приимущественно с данными 2020 года. Данный датафрейм будем использоваться далее в анализе данного проекта.