# <center> Определение уязвимых групп населения

## Постановка задачи

Согласно опросу «инФОМ» от декабря 2021 года, у 27 % россиян хватает
денег только на еду, а ещё 9 % не могут позволить себе полноценное
питание. Эти люди особенно внимательно следят за ценами, а темп роста
цен на продукты обычно превышает средний темп инфляции. При этом
Росстат считает, что расходы на продукты питания должны составлять
примерно 36 % от среднемесячных расходов россиянина (ещё около 10 %
приходится на услуги ЖКХ и жильё, 4 % — на лекарства).
До 2021 года «черта бедности» (жизнь на сумму ниже прожиточного
минимума) в России определялась стоимостью минимальной продуктовой
корзины. В том же году правительство «отвязало» уровень бедности от цен на
базовые продукты: с 2021 года прожиточный минимум рассчитывается как
44.2 % от медианного дохода граждан РФ за прошлый год.

Эти данные указывают на значимость проблемы бедности и недостаточности доходов у значительной части населения страны.

В нашем распоряжении есть данные о доходах, заболеваемости, социально незащищённых слоях населения России и другие экономические и демографические данные.

Цель проекта состоит в том, чтобы предоставить информацию и аналитические результаты, которые могут быть использованы для разработки и реализации эффективных программ и мероприятий по социальной поддержке и снижению уровня бедности в различных регионах России.

**Основные цели, которые нужно будет достигнуть в рамках проекта:**

1. Будем стремиться разделить регионы России на группы, которые имеют схожие характеристики и особенности в социально-экономическом развитии. Это позволит определить регионы с похожими проблемами и потребностями, чтобы улучшить подходы к социальной поддержке и помощи.
2. Проанализируем социально-экономические характеристики населения в каждом кластере, чтобы определить группы, которые испытывают сложности с обеспечением своих базовых потребностей и сталкиваются с бедностью.
3. Будем исследовать связь между уровнем бедности и различными факторами. Например, будет изучено, как число детей, пенсионеров и других социально уязвимых групп влияет на уровень бедности в регионе.
4. Также будем исследовать связь между уровнем бедности и характеристиками экономической деятельности регионов, такими как производство и потребление товаров и услуг.
5. Попробуем рассмотреть и другие возможные зависимости и связи, которые могут быть обнаружены относительно социально незащищённых слоёв населения.

## Данные и их описание

Мы имеем данные состоящие из нескольких таблиц:\
➔ **_child_mortality_rural_1990_2021_** — число умерших на первом году жизни детей за год, по всем регионам, в сельской местности.\
➔ **_child_mortality_urban_1990_2021_** — число умерших на первом году жизни детей за год, по всем регионам, в городской местности.\
➔ **_disabled_total_by_age_2017_2022_** — число людей с инвалидностью по регионам, по месяцам, по возрастным группам.\
➔ **_morbidity_2005_2020_age_disease_** — заболеваемость на 100 тыс. человек населения, по возрастным группам и группам заболеваний.\
➔ **_poverty_percent_by_regions_1992_2020_** — процент людей, живущих за чертой бедности (с денежными доходами ниже величины прожиточного минимума), оценка за год по регионам.\
➔ **_welfare_expense_share_2015_2020_** — расходы на социальную политику от общих расходов бюджета региона, % в год*.\
➔ **_cash_real_income_wages_2015_2020_** — среднедушевые и реальные денежные доходы населения, номинальная и реальная начисленная зарплата, по регионам*.\
➔ **_poverty_socdem_2017_2020_** — распределение малоимущего населения по социально-демографическим группам (дети, трудящиеся, пенсионеры) за 2017–2020 гг., по регионам.\
➔ **_housing_2020_** — характеристика жилищных условий домохозяйств. Оценка домохозяйствами состояния занимаемого ими жилого
помещения, обследование 2020 года.\
➔ **_population_1999_2022_** — численность населения по регионам и федеральным округам на 1 января каждого года за 1999–2022 гг.\
➔ **_gross_regional_product_1996_2020_** — валовой региональный продукт на душу населения, в рублях.\
➔ **_regional_production_2005_2020_** — объём отгруженных товаров собственного производства или работ/услуг, выполненных
собственными силами, по видам деятельности за 2005–2020 гг. (в тысячах рублей, значение показателя за год, полный круг).\
➔ **_retail_turnover_per_capita_2000_2021_** — оборот розничной торговли на душу населения, в рублях.\
➔ **_drug_alco_2005_2018_** — сведения о заболеваемости алкоголизмом и наркоманией, на 100 тыс. населения (2005–2018)\
➔ **_newborn_2006_2022_monthly_** — рождённые в этом месяце, по регионам, без учёта мертворождённых.\
➔ **_workers_2012_2022_** — отношение числа занятых в экономике региона к численности населения региона в трудоспособном возрасте, %, 2012–2022 гг.\
➔ Папка **_crimes_** - сведения о преступлениях, совершённых отдельными категориями лиц за 2016–2022 гг., по месяцам, регионам, категориям лиц, категориям преступлений.

Импорт базовых библиотек:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
from datetime import datetime

import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

from sklearn import preprocessing
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.cluster import AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.cluster import SpectralClustering
from sklearn.cluster import Birch
from sklearn.metrics import silhouette_score
from sklearn.manifold import TSNE

import warnings 

from IPython.display import display, HTML

warnings.filterwarnings("ignore")

plt.rcParams["patch.force_edgecolor"] = True


data_path = 'C:/Users/admin/Desktop/FDSupportBK/my_projects_DST120/edu_projects/Diploma/social_russia_data/'


Загрузим все наши данные для дальнейнего анализа над ними.

In [2]:
# Загрузим данные о числе умерших детей в сельской местности
child_mortality_rural = pd.read_excel(data_path + 'child_mortality_rural_1990_2021.xlsx')

# Загрузим данные о числе умерших детей в городской местности
child_mortality_urban = pd.read_excel(data_path + 'child_mortality_urban_1990_2021.xlsx')

# Загрузим данные о рождаемости по регионам
newborn_data = pd.read_excel(data_path + 'newborn_2006_2022_monthly.xlsx') # тут есть пустые значения

# Загрузим данные о числе людей с инвалидностью по регионам
disabled_data = pd.read_excel(data_path + 'disabled_total_by_age_2017_2022.xlsx') # тут есть пустые значения

# Загрузим данные о заболеваемости на 100 тыс. человек населения по возрастным группам и группам заболеваний
morbidity_data = pd.read_excel(data_path + 'morbidity_2005_2020_age_disease.xlsx') # тут есть пустые значения

# Загрузим данные о заболеваемости алкоголизмом и наркоманией на 100 тыс. населения
drug_alco_data = pd.read_excel(data_path + 'drug_alco_2005_2018.xlsx', sheet_name=None) # тут есть пустые значения

# Загрузим данные о преступлениях
#crime_data = pd.read_excel('crimes/crime_data.xlsx')

# Загрузим данные о численности населения по регионам и федеральным округам
population_data = pd.read_excel(data_path + 'population_1999_2022.xlsx') # тут есть пустые значения

# Загрузим данные о характеристиках жилищных условий домохозяйств
housing_data = pd.read_excel(data_path + 'housing_2020.xlsx', sheet_name=None) # тут есть пустые значения

# Загрузим данные о валовом региональном продукте на душу населения
grp_data = pd.read_excel(data_path + 'gross_regional_product_1996_2020.xlsx') # тут есть пустые значения

# Загрузим данные об объеме отгруженных товаров собственного производства за период с 2005 по 2016
regional_production_1 = pd.read_excel(data_path + 'regional_production_2005_2016.xlsx')

# Загрузим данные об объеме отгруженных товаров собственного производства за период с 2017 по 2020
regional_production_2 = pd.read_excel(data_path + 'regional_production_2017_2020.xlsx')

# Загрузим данные об обороте розничной торговли на душу населения
retail_turnover_data = pd.read_excel(data_path + 'retail_turnover_per_capita_2000_2021.xlsx') # тут есть пустые значения

# Загрузим данные о расходах на социальную политику от общих расходов бюджета региона
welfare_expense_data = pd.read_excel(data_path + 'welfare_expense_share_2015_2020.xlsx')

# Загрузим данные о распределении малоимущего населения по социально-демографическим группам с 2017 по 2020
poverty_data = pd.read_excel(data_path + 'poverty_socdem_2017_2020.xlsx') # тут есть пустые значения

# Загрузим данные об отношении числа занятых к численности населения в трудоспособном возрасте
workers_data = pd.read_excel(data_path + 'workers_2012_2022.xlsx')

# Загрузим данные о среднедушевых и реальных денежных доходах населения
income_data = pd.read_excel(data_path + 'cash_real_income_wages_2015_2020.xlsx', sheet_name=None)

# Загрузим данные о проценте людей, живущих за чертой бедности
poverty_percent_data = pd.read_excel(data_path + 'poverty_percent_by_regions_1992_2020.xlsx') # тут есть пустые значения


## Часть 1. Знакомство с данными и их подготовка

#### Перед тем как работать с данными я их проанализировал и мне удалось немного привести их к стандарту, где я ориентируюсь на регионы и года. В целом вот что было сделано мной перед тем как я приступил к обработке данных:

1. В данных регионов имеется Республика Крым г. Севостополь и Крымский автономный округ. С 2014 года было разделение Крымский автономный округ на Республика Крым и г. Севостополь и данные их соответсвенно суммируются. Поэтому я убрал из всех таблиц значение Крымский край признака region.
2. Я убрал из признака region: Московская обл. в старых границах и Москва в старых границах
3. Выношу в отдельный раздел все округа, такие как: так как их скорее всего не буду использовать. Я буду пользоваться только регионами, поэтому использование округов будет избыточным
4. В таблице drug_alco я объединил данные с 2005 по 2016 и с 2017 по 2018 и оставил только два листа "alco" и "drugs"
5. В некоторых таблицах города Москва, Санкт-Петербург, Севастополь записаны как - город федерального значения. Я это убрал и оставил только г. Москва, г. Санкт-Петербург, г. Севастополь
6. В таблице gross_regional_product у признака region есть дублирующее значение округов, причем данные только по одному году. Они примерно совпадают с основными данными этого значения, поэтому дубль я просто удаляю.
7. В некоторых таблицах присутствуют отдельные округа входящие в состав края или области. Например: "Камчатский край" и отдельно фигурируют значения - "Корякский округ, входящий в состав Камчатского края". Что я заметил, данные таких значений определены до 2002 года или не по всем годам. Убираю такие избыточные данные.
8. У меня есть две области: Архангельская и Тюменская. У этих областей есть округа - Нанецкий АО и Ханты-Мансийский АО, Ямало-Ненецкий АО. В данных эти округа принадлежат областям, но если открыть карту России по регионам, то это отдельно стоящие округа со своими территориальными границами, это можно также найти из Википедии. Поэтому я принял утвердительное решение - эти округа расматривать как отдельно стоящие. На основе этого я оставляю данные для областей без округов и отдельно по округам. Убираю общие данные.
9. Также имеются по тем же областям странные данные, такие как, например: Архангельская область, Ненецкий автономный округ, Архангельская область (кроме Ненецкого автономного округа), Архангельская область (без АО). Данные Архангельская область (кроме Ненецкого автономного округа) есть не по всем годам и они примерно совпадают с данными Архангельская область, поэтому я принимаю решение удалять эти данные. В датасетах: grp_data, poverty_data, retail_turnover_data и workers_data это как раз прослеживается. В датасетах: newborn_data, population_data, regional_production не так, поэтому тут данные мы вычитаем по примеру с датасетами child_mortality для получения значений двух областей.
10. Я объединил четыре таблицы poverty_socdem в одну добавив в нее года.
11. Также я сделал с двумя таблицами regional_production. Для этого я убрал из таблицы regional_production_2005_2016 у признака production_field лишние символы (Раздел, Подраздел) с помощью регулярного выражения: 
regional_production_1['production_field'] = regional_production_1['production_field'].str.replace(r'(РАЗДЕЛ|Подраздел)\s\w+\s', '', regex=True)
12. Так как у нас в таблице morbidity_2005_2020_age_disease имеется разделение для некоторых регионов по годам. То есть есть данные с 2005 по 2013 годы, а далее ниже имеются данные с 2014 по 2016 годы. То мы имеем много пропусков. Я применил группировку данных по 'region', 'Заболеваемость', 'Возраст', а затем применил агрегацию, чтобы получить одну строку для каждой уникальной комбинации 'region', 'Заболеваемость', 'Возраст' с заполненными данными за все годы:
aggregated_data = morbidity_data.groupby(['region', 'Заболеваемость', 'Возраст']).agg('first').reset_index()



## Часть 2. Преобразование, очистка и анализ данных

### Пройдемся по каждому датафрейму для их обработки

### child_mortality_rural и child_mortality_urban

Получение значений Архангельской и Тюменских областей. Тут имеется ввиду, что значения этих областей имеются, но они показаны с учетом округов. Поэтому мы вычитаем значения округов из областей. Но перед этим посмотрим на пропуски.

In [3]:
missing_values = child_mortality_rural.isnull().sum()
print(missing_values)

region    0
1990      2
1991      2
1992      2
1993      2
1994      2
1995      2
1996      2
1997      5
1998      5
1999      5
2000      4
2001      4
2002      4
2003      4
2004      4
2005      4
2006      4
2007      4
2008      4
2009      4
2010      4
2011      4
2012      3
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      1
dtype: int64


In [4]:
missing_values = child_mortality_urban.isnull().sum()
print(missing_values)

region    0
1990      2
1991      2
1992      2
1993      2
1994      2
1995      2
1996      2
1997      3
1998      3
1999      3
2000      2
2001      2
2002      2
2003      2
2004      2
2005      2
2006      2
2007      2
2008      2
2009      2
2010      2
2011      2
2012      2
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      1
dtype: int64


У нас в данных датасетов имеются пустые значения. Давайте их заполнил нулями так как пропусков по отдельным столбцам немного. Это послужит для точного вычисления некоторых значений по годам.

In [5]:
child_mortality_rural.fillna(0, inplace=True)
child_mortality_urban.fillna(0, inplace=True)

Теперь мы можем получить корректные данные областей

In [6]:
# Получим корректные значение для Архангельской области 
child_mortality_rural.loc[child_mortality_rural['region'] == 'Архангельская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ненецкий автономный округ', '1990':'2021'].values

# Получим корректные значение для Тюменской области 
child_mortality_rural.loc[child_mortality_rural['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ханты-Мансийский автономный округ - Югра', '1990':'2021'].values
child_mortality_rural.loc[child_mortality_rural['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_rural.loc[child_mortality_rural['region'] == 'Ямало-Ненецкий автономный округ', '1990':'2021'].values

#print(child_mortality_rural.head(63))

In [7]:
# Получим корректные значение для Архангельской области 
child_mortality_urban.loc[child_mortality_urban['region'] == 'Архангельская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ненецкий автономный округ', '1990':'2021'].values

# Получим корректные значение для Тюменской области 
child_mortality_urban.loc[child_mortality_urban['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ханты-Мансийский автономный округ - Югра', '1990':'2021'].values
child_mortality_urban.loc[child_mortality_urban['region'] == 'Тюменская область', '1990':'2021'] -= child_mortality_urban.loc[child_mortality_urban['region'] == 'Ямало-Ненецкий автономный округ', '1990':'2021'].values


In [10]:
display(child_mortality_urban)

Unnamed: 0,region,1990,1991,1992,1993,1994,1995,1996,1997,1998,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Белгородская область,209.0,198.0,165.0,165.0,153.0,131.0,102.0,100.0,99.0,...,84.0,68.0,62.0,68,72,43,40,23,25,34.0
1,Брянская область,198.0,195.0,200.0,176.0,157.0,125.0,116.0,135.0,107.0,...,81.0,77.0,87.0,67,67,65,33,26,29,14.0
2,Владимирская область,221.0,209.0,179.0,148.0,165.0,146.0,114.0,123.0,130.0,...,97.0,86.0,87.0,76,72,59,45,43,51,52.0
3,Воронежская область,261.0,262.0,262.0,213.0,194.0,184.0,140.0,143.0,177.0,...,134.0,153.0,112.0,101,96,90,77,74,58,73.0
4,Ивановская область,181.0,187.0,174.0,168.0,142.0,141.0,128.0,127.0,110.0,...,58.0,67.0,58.0,48,51,31,28,31,25,20.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Амурская область,201.0,169.0,174.0,136.0,131.0,151.0,145.0,150.0,160.0,...,98.0,69.0,62.0,52,30,28,29,27,29,21.0
81,Магаданская область,76.0,71.0,44.0,39.0,36.0,27.0,35.0,29.0,23.0,...,14.0,17.0,11.0,9,6,6,5,8,4,7.0
82,Сахалинская область,142.0,93.0,101.0,85.0,100.0,122.0,72.0,74.0,88.0,...,27.0,24.0,33.0,33,17,25,12,22,20,14.0
83,Еврейская автономная область,45.0,50.0,46.0,50.0,45.0,37.0,51.0,25.0,34.0,...,27.0,30.0,21.0,17,19,12,9,13,6,12.0


In [11]:
display(child_mortality_rural)

Unnamed: 0,region,1990,1991,1992,1993,1994,1995,1996,1997,1998,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Белгородская область,103.0,92.0,75.0,79.0,80.0,72.0,72.0,67.0,61.0,...,43.0,48.0,41.0,42,36,34,33,16,22,20.0
1,Брянская область,124.0,109.0,83.0,121.0,99.0,104.0,96.0,67.0,75.0,...,46.0,47.0,39.0,44,36,31,12,11,12,13.0
2,Владимирская область,80.0,58.0,60.0,62.0,46.0,50.0,47.0,38.0,39.0,...,30.0,31.0,23.0,31,28,17,22,15,10,14.0
3,Воронежская область,138.0,179.0,156.0,149.0,154.0,137.0,133.0,132.0,125.0,...,32.0,33.0,33.0,25,24,18,22,7,12,10.0
4,Ивановская область,74.0,44.0,40.0,57.0,50.0,41.0,31.0,39.0,27.0,...,13.0,19.0,10.0,16,15,4,7,9,3,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Амурская область,142.0,124.0,106.0,108.0,111.0,99.0,100.0,118.0,86.0,...,63.0,50.0,39.0,31,23,20,17,16,13,15.0
81,Магаданская область,17.0,11.0,11.0,5.0,8.0,5.0,6.0,8.0,3.0,...,2.0,0.0,0.0,0,0,0,0,0,0,0.0
82,Сахалинская область,29.0,22.0,19.0,25.0,18.0,14.0,8.0,17.0,12.0,...,13.0,11.0,8.0,8,9,4,5,3,5,2.0
83,Еврейская автономная область,49.0,44.0,39.0,45.0,31.0,25.0,28.0,24.0,23.0,...,11.0,16.0,14.0,14,16,9,9,3,5,6.0


### newborn_data

In [133]:
newborn_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Columns: 198 entries, region to май 2022 г.
dtypes: int64(3), object(195)
memory usage: 131.6+ KB


In [134]:
#display(newborn_data)
newborn_data.columns

Index(['region', 'январь 2006 г.', 'февраль 2006 г.', 'март 2006 г.',
       'апрель 2006 г.', 'май 2006 г.', 'июнь 2006 г.', 'июль 2006 г.',
       'август 2006 г.', 'сентябрь 2006 г.',
       ...
       'август 2021 г.', 'сентябрь 2021 г.', 'октябрь 2021 г.',
       'ноябрь 2021 г.', 'декабрь 2021 г.', 'январь 2022 г.',
       'февраль 2022 г.', 'март 2022 г.', 'апрель 2022 г.', 'май 2022 г.'],
      dtype='object', length=198)

Преобразуем данные: 
1. Переименуем столбцы год-месяц
2. У большинства столбцов имеется тип данных 'object' (текстовые строки) поэтому их нужно преобразовать в числовой тип


In [135]:
newborn_data.columns = newborn_data.columns.str.replace(' г.', '').str.strip()

months_dict = {
    'январь': '01', 'февраль': '02', 'март': '03', 'апрель': '04',
    'май': '05', 'июнь': '06', 'июль': '07', 'август': '08',
    'сентябрь': '09', 'октябрь': '10', 'ноябрь': '11', 'декабрь': '12'
}

for col in newborn_data.columns[1:]:
    month, year = col.split()
    numerical_month = months_dict.get(month)
    if numerical_month is not None:
        new_col_name = f"{year}-{numerical_month}"
        newborn_data[new_col_name] = newborn_data[col]
        newborn_data.drop(col, axis=1, inplace=True)

In [136]:
newborn_data.columns

Index(['region', '2006-01', '2006-02', '2006-03', '2006-04', '2006-05',
       '2006-06', '2006-07', '2006-08', '2006-09',
       ...
       '2021-08', '2021-09', '2021-10', '2021-11', '2021-12', '2022-01',
       '2022-02', '2022-03', '2022-04', '2022-05'],
      dtype='object', length=198)

In [137]:
# Преобразуем текстовые значения в числовой формат
for column in newborn_data.columns[1:]:
    newborn_data[column] = pd.to_numeric(newborn_data[column], errors='coerce')

In [138]:
#newborn_data.info()
# Посмотрим имеются ли пропуски в данных
missing_values = newborn_data.isnull().sum()
print(missing_values)

region     0
2006-01    7
2006-02    7
2006-03    9
2006-04    5
          ..
2022-01    4
2022-02    5
2022-03    3
2022-04    0
2022-05    2
Length: 198, dtype: int64


In [139]:
# Заполним пропуски нулями
newborn_data.fillna(0, inplace=True)

Я хочу произвести агрегацию данных по годам, но 2022 год у нас заканчивается на мае. Я хочу использовать полноценный год так как при дальнейшем анализе 2022 год будет давать просадку, из-за чего могут возникнуть вопросы.

In [140]:
# Вычислим среднее значение по месяцам 2022 года до мая включительно
months_2022_so_far = [f"2022-{str(month).zfill(2)}" for month in range(1, 6)]
newborn_data["mean_2022_so_far"] = newborn_data[months_2022_so_far].mean(axis=1)

In [141]:
# А теперь заполним недостающие месяца средним значением 2022 года
months_to_fill = [f"2022-{str(month).zfill(2)}" for month in range(6, 13)]
for month in months_to_fill:
    newborn_data[month] = newborn_data["mean_2022_so_far"]

# Удалим вспомогательный столбец 
newborn_data.drop(columns=["mean_2022_so_far"], inplace=True)

In [142]:
# Теперь произведем агрегацию данных по годам, для удаления месячных данных
for year in range(2006, 2023):
    columns_for_year = [f"{year}-{str(month).zfill(2)}" for month in range(1, 13)]
    newborn_data[f'{year}'] = newborn_data[columns_for_year].sum(axis=1)

In [143]:
# Теперь можно удалить месячные данные
columns_to_drop = [f"{year}-{str(month).zfill(2)}" for year in range(2006, 2023) for month in range(1, 13)]
newborn_data.drop(columns=columns_to_drop, inplace=True)

In [144]:
display(newborn_data)

Unnamed: 0,region,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,Белгородская область,14269.0,15666.0,16810.0,16911.0,16669.0,16894.0,17913.0,17883.0,17822.0,17864.0,17261.0,15113.0,14318.0,12204.0,11366.0,12223.0,10627.2
1,Брянская область,12042.0,12265.0,14319.0,14406.0,13773.0,13806.0,14376.0,13855.0,12656.0,14067.0,13379.0,10559.0,11124.0,10028.0,9480.0,9047.0,8078.4
2,Владимирская область,13915.0,14679.0,15699.0,15520.0,15540.0,15644.0,16445.0,15777.0,15817.0,16284.0,15662.0,13395.0,12658.0,11158.0,10120.0,9780.0,8328.0
3,Воронежская область,19208.0,18464.0,20415.0,21398.0,21641.0,17380.0,23351.0,18862.0,23440.0,21176.0,24938.0,22423.0,19351.0,19643.0,19161.0,18593.0,16492.8
4,Ивановская область,9818.0,10617.0,11138.0,9358.0,11131.0,11035.0,11581.0,11769.0,8801.0,11761.0,11184.0,9877.0,9134.0,7951.0,7563.0,7327.0,6705.6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Амурская область,10405.0,9957.0,11233.0,9412.0,11473.0,11188.0,11733.0,10513.0,10189.0,10781.0,10377.0,9430.0,8889.0,7919.0,7853.0,7343.0,6758.4
81,Магаданская область,1835.0,1810.0,1787.0,1974.0,1799.0,1801.0,1917.0,1903.0,1838.0,1753.0,1619.0,1591.0,1410.0,1308.0,1314.0,1195.0,1092.0
82,Сахалинская область,5865.0,4655.0,6333.0,5740.0,5113.0,4857.0,5819.0,5432.0,6675.0,5666.0,6948.0,5799.0,5071.0,5693.0,5591.0,4953.0,4828.8
83,Еврейская автономная область,2242.0,2443.0,2582.0,2457.0,2408.0,2480.0,2445.0,2365.0,2356.0,2349.0,2213.0,1919.0,1879.0,1683.0,1605.0,1551.0,1392.0


А теперь можно вычислить и корректные данные по Архангельской и Тюменской областям вычитая из текущих данных областей данных округов

In [145]:
# Получим корректные значение для Архангельской области 
newborn_data.loc[newborn_data['region'] == 'Архангельская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ненецкий автономный округ', '2006':'2022'].values

# Получим корректные значение для Тюменской области 
newborn_data.loc[newborn_data['region'] == 'Тюменская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ханты-Мансийский автономный округ - Югра', '2006':'2022'].values
newborn_data.loc[newborn_data['region'] == 'Тюменская область', '2006':'2022'] -= newborn_data.loc[newborn_data['region'] == 'Ямало-Ненецкий автономный округ', '2006':'2022'].values


### population_data

In [147]:
population_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 25 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          85 non-null     object 
 1   январь 1999 г.  83 non-null     float64
 2   январь 2000 г.  83 non-null     float64
 3   январь 2001 г.  83 non-null     float64
 4   январь 2002 г.  83 non-null     float64
 5   январь 2003 г.  83 non-null     float64
 6   январь 2004 г.  83 non-null     float64
 7   январь 2005 г.  83 non-null     float64
 8   январь 2006 г.  83 non-null     float64
 9   январь 2007 г.  83 non-null     float64
 10  январь 2008 г.  83 non-null     float64
 11  январь 2009 г.  83 non-null     float64
 12  январь 2010 г.  83 non-null     float64
 13  январь 2011 г.  83 non-null     float64
 14  январь 2012 г.  83 non-null     float64
 15  январь 2013 г.  83 non-null     float64
 16  январь 2014 г.  83 non-null     float64
 17  январь 2015 г.  85 non-null     int64

In [148]:
population_data.columns

Index(['region', 'январь 1999 г.', 'январь 2000 г.', 'январь 2001 г.',
       'январь 2002 г.', 'январь 2003 г.', 'январь 2004 г.', 'январь 2005 г.',
       'январь 2006 г.', 'январь 2007 г.', 'январь 2008 г.', 'январь 2009 г.',
       'январь 2010 г.', 'январь 2011 г.', 'январь 2012 г.', 'январь 2013 г.',
       'январь 2014 г.', 'январь 2015 г.', 'январь 2016 г.', 'январь 2017 г.',
       'январь 2018 г.', 'январь 2019 г.', 'январь 2020 г.', 'январь 2021 г.',
       'январь 2022 г.'],
      dtype='object')

Тут данные о переписи населения подаются каждый январь нового года. Давайте уберем месяц и оставим только год в числовом виде.

In [149]:
population_data.columns = population_data.columns.str.replace(r'январь | г.', '', regex=True)

In [150]:
population_data.columns

Index(['region', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014',
       '2015', '2016', '2017', '2018', '2019', '2020', '2021', '2022'],
      dtype='object')

In [151]:
# Посмотрим имеются ли пропуски в данных
missing_values = population_data.isnull().sum()
print(missing_values)

region    0
1999      2
2000      2
2001      2
2002      2
2003      2
2004      2
2005      2
2006      2
2007      2
2008      2
2009      2
2010      2
2011      2
2012      2
2013      2
2014      2
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
2021      0
2022      0
dtype: int64


In [152]:
# Заполним пропуски нулями
population_data.fillna(0, inplace=True)

А теперь можно вычислить и корректные данные по Архангельской и Тюменской областям вычитая из текущих данных областей данных округов

In [153]:
# Получим корректные значение для Архангельской области
population_data.loc[population_data['region'] == 'Архангельская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ненецкий автономный округ', '1999':'2022'].values

# Получим корректные значение для Тюменской области 
population_data.loc[population_data['region'] == 'Тюменская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ханты-Мансийский автономный округ - Югра', '1999':'2022'].values
population_data.loc[population_data['region'] == 'Тюменская область', '1999':'2022'] -= population_data.loc[population_data['region'] == 'Ямало-Ненецкий автономный округ', '1999':'2022'].values

### disabled_data

Я переделал таблицу disabled_total_by_age_2017_2022. По сути я ее перевернул. Но для этого я убрал группы и оставил только total для всех годов с 2017 по 2022 по месяцам. Убрал из признака data -01 (день). Также я убрал г. Байконур из данных так как этот город относится к другой стране.

In [169]:
 disabled_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86 entries, 0 to 85
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  86 non-null     object 
 1   2017    86 non-null     float64
 2   2018    86 non-null     int64  
 3   2019    86 non-null     int64  
 4   2020    86 non-null     int64  
 5   2021    86 non-null     int64  
 6   2022    86 non-null     float64
dtypes: float64(2), int64(4), object(1)
memory usage: 4.8+ KB


У нас имеются пропуски в столбце 2017-05. Заполним их средним значением.

In [163]:
# Вычислим среднее значение
mean_values = disabled_data.drop(columns='region').mean()

# Заполним пропуски средним значением
disabled_data.fillna(mean_values, inplace=True)

Тут я также хочу произвести агрегацию данных по годам, но 2022 год у нас заканчивается на апреле. Я хочу использовать полноценный год так как при дальнейшем анализе 2022 год будет давать просадку, из-за чего могут возникнуть вопросы.

In [164]:
# Вычислим среднее значение по месяцам 2022 года до мая включительно
months_2022_so_far = [f"2022-{str(month).zfill(2)}" for month in range(1, 5)]
disabled_data["mean_2022_so_far"] = disabled_data[months_2022_so_far].mean(axis=1)

In [165]:
# А теперь заполним недостающие месяца средним значением 2022 года
months_to_fill = [f"2022-{str(month).zfill(2)}" for month in range(5, 13)]
for month in months_to_fill:
    disabled_data[month] = disabled_data["mean_2022_so_far"]

# Удалим вспомогательный столбец 
disabled_data.drop(columns=["mean_2022_so_far"], inplace=True)

In [166]:
# Теперь произведем агрегацию данных по годам, для удаления месячных данных
for year in range(2017, 2023):
    columns_for_year = [f"{year}-{str(month).zfill(2)}" for month in range(1, 13)]
    disabled_data[f'{year}'] = disabled_data[columns_for_year].sum(axis=1)

In [167]:
# Теперь можно удалить месячные данные
columns_to_drop = [f"{year}-{str(month).zfill(2)}" for year in range(2017, 2023) for month in range(1, 13)]
disabled_data.drop(columns=columns_to_drop, inplace=True)

### grp_data

In [177]:
grp_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 26 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   1996    82 non-null     float64
 2   1997    82 non-null     float64
 3   1998    82 non-null     float64
 4   1999    82 non-null     float64
 5   2000    82 non-null     float64
 6   2001    82 non-null     float64
 7   2002    82 non-null     float64
 8   2003    82 non-null     float64
 9   2004    82 non-null     float64
 10  2005    82 non-null     float64
 11  2006    82 non-null     float64
 12  2007    82 non-null     float64
 13  2008    82 non-null     float64
 14  2009    82 non-null     float64
 15  2010    82 non-null     float64
 16  2011    85 non-null     float64
 17  2012    85 non-null     float64
 18  2013    85 non-null     float64
 19  2014    85 non-null     float64
 20  2015    85 non-null     float64
 21  2016    85 non-null     float64
 22  2017

В этом датафрейме у Ненецкого,  Ханты-Мансийского, Ямало-Ненецкого автономных округов отсутствуют данные с 1996 по 2010. Если мы заполним средним значением последующих годов, то у нас будет отсутствовать динамика и это все равно, что их эти данные заполнить нулями. А так как у Чеченкой республики, Республики Крым отсутствуют также данные и они просто заполнены нулями, то давайте заполним нулями и недостающие значения по годам для округов.

In [178]:
# Посмотрим имеются ли пропуски в данных
missing_values = grp_data.isnull().sum()
print(missing_values)

region    0
1996      3
1997      3
1998      3
1999      3
2000      3
2001      3
2002      3
2003      3
2004      3
2005      3
2006      3
2007      3
2008      3
2009      3
2010      3
2011      0
2012      0
2013      0
2014      0
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
dtype: int64


In [180]:
# Заполним пропуски нулями
grp_data.fillna(0, inplace=True)

In [182]:
display(grp_data.head(63))

Unnamed: 0,region,1996,1997,1998,1999,2000,2001,2002,2003,2004,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,Белгородская область,9575.6,10792.2,12242.8,21398.0,27969.5,33126.7,41327.4,50271.4,75629.4,...,331010.0,354570.6,368874.8,400820.8,447619.7,501467.8,539720.5,588641.5,617426.5,646569.0
1,Брянская область,7275.3,7175.7,7659.1,11752.4,17413.5,21511.9,27020.0,31953.4,37719.1,...,137187.1,164726.6,175865.0,196096.7,221080.0,258752.7,280630.1,304547.1,332442.8,347204.5
2,Владимирская область,7620.7,8431.3,9350.2,15457.1,21073.3,27170.0,32923.6,40809.4,49353.4,...,181842.6,200456.4,216320.8,232757.6,262945.5,309713.7,325043.1,349856.4,394560.3,410443.6
3,Воронежская область,7651.9,8686.6,9082.1,14808.3,20365.1,24905.4,34789.6,42237.5,49530.0,...,203575.5,241947.4,262578.3,308004.7,345566.8,354657.9,374125.7,408140.7,431037.0,459629.5
4,Ивановская область,6725.4,6379.3,6804.5,9765.2,14240.0,18947.2,23396.9,29192.4,35732.7,...,121945.5,129448.3,151263.6,146032.6,174687.5,200504.4,208522.0,230325.5,249591.6,273821.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58,Курганская область,7357.7,7940.3,8833.0,13882.1,17758.7,24429.3,29253.3,36759.0,42889.3,...,151046.4,163909.9,189502.7,194978.6,207236.0,235547.8,247093.2,256618.3,280971.3,294464.0
59,Свердловская область,13311.3,14591.8,15825.7,24476.2,34214.7,44119.0,52241.3,63865.6,82546.5,...,300068.8,344382.7,363261.5,383847.2,421100.7,487246.6,522156.2,560977.3,586468.3,588270.0
60,Тюменская область,49237.2,55035.5,58587.7,98130.1,176917.9,232236.3,275622.5,341146.7,467803.8,...,1198186.0,1327227.1,1402915.6,1485863.5,1626160.4,1683993.8,1930537.3,2393355.2,2384622.4,1934463.9
61,Ханты-Мансийский автономный округ - Югра,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1575300.0,1719109.2,1715722.4,1782617.7,1947653.2,1912836.6,2155227.7,2715827.8,2733622.7,1994630.3


### poverty_data

In [251]:
poverty_data.head()

Unnamed: 0,region,Все население,2017,Unnamed: 3,Unnamed: 4,2018,Unnamed: 6,Unnamed: 7,2019,Unnamed: 9,Unnamed: 10,2020,Unnamed: 12,Unnamed: 13
0,,%,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста,Дети в возрасте до 16 лет,Население старше трудоспособного возраста,Население трудоспособного возраста
1,Белгородская область,100,43.4,11.8,44.8,44.8,12.9,42.3,0,0,0,,,
2,Брянская область,100,42.9,4.9,52.2,40.3,1.8,57.9,37.5,5.1,57.4,44.8,3.7,51.6
3,Владимирская область,100,34.8,8.6,56.6,48.9,8.3,42.8,34.8,4.8,60.4,,,
4,Воронежская область,100,38.6,5.9,55.6,32.6,8,59.4,45.2,5.4,49.4,28.5,2.3,69.2


In [252]:
print(poverty_data.columns)

Index([       'region', 'Все население',            2017,    'Unnamed: 3',
          'Unnamed: 4',            2018,    'Unnamed: 6',    'Unnamed: 7',
                  2019,    'Unnamed: 9',   'Unnamed: 10',            2020,
         'Unnamed: 12',   'Unnamed: 13'],
      dtype='object')


Данные не совсем читабельны для дальнейшего анализа. Я хочу перевернуть таблицу и сделать ее в формате представления как в датафрейме morbidity_data.

In [253]:
# Создадим словарь года и его столбцов
year_columns = {
    2017: [2017, 'Unnamed: 3', 'Unnamed: 4'],
    2018: [2018, 'Unnamed: 6', 'Unnamed: 7'],
    2019: [2019, 'Unnamed: 9', 'Unnamed: 10'],
    2020: [2020, 'Unnamed: 12', 'Unnamed: 13']
}

# Инициалиpуем новый датафрейм
new_data = {
    'region': [],
    'Все население': [],
    'Возраст': [],
    2017: [],
    2018: [],
    2019: [],
    2020: []
}

# Заполним новый датафрейм
for idx, row in poverty_data.iterrows():
    for age_idx, age_category in enumerate(age_categories):
        new_data['region'].append(row['region'])
        new_data['Все население'].append(row['Все население'])
        new_data['Возраст'].append(age_category)
        
        for year, columns in year_columns.items():
            new_data[year].append(row[columns[age_idx]])

# Преобразуем словарь в датафрейм
poverty_data = pd.DataFrame(new_data)

display(poverty_data)

Unnamed: 0,region,Все население,Возраст,2017,2018,2019,2020
0,,%,Дети в возрасте до 16 лет,Дети в возрасте до 16 лет,Дети в возрасте до 16 лет,Дети в возрасте до 16 лет,Дети в возрасте до 16 лет
1,,%,Население старше трудоспособного возраста,Население старше трудоспособного возраста,Население старше трудоспособного возраста,Население старше трудоспособного возраста,Население старше трудоспособного возраста
2,,%,Население трудоспособного возраста,Население трудоспособного возраста,Население трудоспособного возраста,Население трудоспособного возраста,Население трудоспособного возраста
3,Белгородская область,100,Дети в возрасте до 16 лет,43.4,44.8,0,
4,Белгородская область,100,Население старше трудоспособного возраста,11.8,12.9,0,
...,...,...,...,...,...,...,...
253,Еврейская автономная область,100,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
254,Еврейская автономная область,100,Население трудоспособного возраста,54.1,58.9,57.5,54.4
255,Чукотский автономный округ,100,Дети в возрасте до 16 лет,46.9,51,0,
256,Чукотский автономный округ,100,Население старше трудоспособного возраста,2.7,0,0,


In [254]:
# Удалим первые три строки из датафрейма
poverty_data = poverty_data.iloc[3:].reset_index(drop=True)

# Объединим каждые три строки региона в одну
poverty_data.set_index(['region', 'Возраст'], inplace=True)

Столбец "Все население" содержит одно и тоже значение 100. 100 получается путем сложения трех возрастных групп и не является необходимым для дальнейшего анализа так как мы итак знаем, что это процентные показатели от общего кол-ва.

In [255]:
poverty_data = poverty_data.drop(columns=['Все население'])

In [256]:
display(poverty_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,2017,2018,2019,2020
region,Возраст,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Белгородская область,Дети в возрасте до 16 лет,43.4,44.8,0,
Белгородская область,Население старше трудоспособного возраста,11.8,12.9,0,
Белгородская область,Население трудоспособного возраста,44.8,42.3,0,
Брянская область,Дети в возрасте до 16 лет,42.9,40.3,37.5,44.8
Брянская область,Население старше трудоспособного возраста,4.9,1.8,5.1,3.7
...,...,...,...,...,...
Еврейская автономная область,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
Еврейская автономная область,Население трудоспособного возраста,54.1,58.9,57.5,54.4
Чукотский автономный округ,Дети в возрасте до 16 лет,46.9,51,0,
Чукотский автономный округ,Население старше трудоспособного возраста,2.7,0,0,


У нас в данных есть явные расхождения, такие как 0% малоимущих в одном году при высоком проценте в другие годы, это может указывать на ошибку в данных или на существенное изменение экономической ситуации в регионе, что является маловероятным.
Я заполню пустые и нулевые значения медианой для каждого года и возрастной группы (исключая нулевые значения, так как считаю их аномалиями). Но сделаю это для 2019 года, а для 2020 года я буду заполнять средним значением.

In [258]:
print("Medians for 2017-2019:")
print(medians)

Medians for 2017-2019:
region                        Возраст                                  
Белгородская область          Дети в возрасте до 16 лет                    44.10
                              Население старше трудоспособного возраста    12.35
                              Население трудоспособного возраста           43.55
Брянская область              Дети в возрасте до 16 лет                    40.30
                              Население старше трудоспособного возраста     4.90
                                                                           ...  
Еврейская автономная область  Население старше трудоспособного возраста     9.90
                              Население трудоспособного возраста           57.50
Чукотский автономный округ    Дети в возрасте до 16 лет                    48.95
                              Население старше трудоспособного возраста     2.70
                              Население трудоспособного возраста           49.70
Length: 255, d

In [257]:
# Замена NaN на 0
poverty_data.fillna(0, inplace=True)

# Расчет медианных значений за 2017-2019 года, исключая 0
medians = poverty_data.loc[:, [2017, 2018, 2019]].replace(0, np.nan).median(axis=1)

# Замена 0 на медианные значения для 2017-2019 годов
for year in [2017, 2018, 2019]:
    mask = poverty_data[year] == 0
    poverty_data.loc[mask, year] = medians[mask]

# Отображение обновленного датафрейма
display(poverty_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,2017,2018,2019,2020
region,Возраст,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Белгородская область,Дети в возрасте до 16 лет,43.4,44.8,44.1,0.0
Белгородская область,Население старше трудоспособного возраста,11.8,12.9,12.35,0.0
Белгородская область,Население трудоспособного возраста,44.8,42.3,43.55,0.0
Брянская область,Дети в возрасте до 16 лет,42.9,40.3,37.5,44.8
Брянская область,Население старше трудоспособного возраста,4.9,1.8,5.1,3.7
...,...,...,...,...,...
Еврейская автономная область,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
Еврейская автономная область,Население трудоспособного возраста,54.1,58.9,57.5,54.4
Чукотский автономный округ,Дети в возрасте до 16 лет,46.9,51,48.95,0.0
Чукотский автономный округ,Население старше трудоспособного возраста,2.7,2.7,2.7,0.0


In [259]:
means = poverty_data.loc[:, [2017, 2018, 2019]].mean(axis=1)
print("\nMeans for 2017-2019:")
print(means)


Means for 2017-2019:
region                        Возраст                                  
Белгородская область          Дети в возрасте до 16 лет                         44.1
                              Население старше трудоспособного возраста        12.35
                              Население трудоспособного возраста               43.55
Брянская область              Дети в возрасте до 16 лет                    40.233333
                              Население старше трудоспособного возраста     3.933333
                                                                             ...    
Еврейская автономная область  Население старше трудоспособного возраста     9.266667
                              Население трудоспособного возраста           56.833333
Чукотский автономный округ    Дети в возрасте до 16 лет                        48.95
                              Население старше трудоспособного возраста          2.7
                              Население трудоспособного 

In [260]:
# Расчет средних значений за 2017-2019 годы
means = poverty_data.loc[:, [2017, 2018, 2019]].mean(axis=1)

# Замена 0 на средние значения для 2020 года
mask_2020 = (poverty_data[2020] == 0) | (poverty_data[2020] == medians)
poverty_data.loc[mask_2020, 2020] = means[mask_2020]

# Отображение обновленного датафрейма
display(poverty_data)

Unnamed: 0_level_0,Unnamed: 1_level_0,2017,2018,2019,2020
region,Возраст,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Белгородская область,Дети в возрасте до 16 лет,43.4,44.8,44.1,44.1
Белгородская область,Население старше трудоспособного возраста,11.8,12.9,12.35,12.35
Белгородская область,Население трудоспособного возраста,44.8,42.3,43.55,43.55
Брянская область,Дети в возрасте до 16 лет,42.9,40.3,37.5,44.8
Брянская область,Население старше трудоспособного возраста,4.9,1.8,5.1,3.7
...,...,...,...,...,...
Еврейская автономная область,Население старше трудоспособного возраста,9.9,7.4,10.5,10.8
Еврейская автономная область,Население трудоспособного возраста,54.1,58.9,57.5,54.4
Чукотский автономный округ,Дети в возрасте до 16 лет,46.9,51,48.95,48.95
Чукотский автономный округ,Население старше трудоспособного возраста,2.7,2.7,2.7,2.7


В целом если посмотреть теперь на заполненные данные можно увидеть что медианное значение и среднее значение у нас совпадает в большинстве случаев. Оставим пока так, возможно придется далее еще с этим поработать.

### morbidity_data

In [474]:
morbidity_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6956 entries, 0 to 6955
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          6956 non-null   object 
 1   Заболеваемость  6956 non-null   object 
 2   Возраст         6956 non-null   object 
 3   2005            5727 non-null   float64
 4   2006            5727 non-null   float64
 5   2007            5727 non-null   float64
 6   2008            5727 non-null   float64
 7   2009            5727 non-null   float64
 8   2010            5727 non-null   float64
 9   2011            5727 non-null   float64
 10  2012            5395 non-null   float64
 11  2013            5727 non-null   float64
 12  2014            5780 non-null   float64
 13  2015            5525 non-null   float64
 14  2016            5525 non-null   float64
dtypes: float64(12), object(3)
memory usage: 815.3+ KB


In [475]:
morbidity_data.head(10)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,Белгородская область,"Беременность, роды и послеродовой период",0-14 лет,21.7,10.3,10.9,2.9,26.9,12.2,46.5,69.5,0.0,3.0,5.9,0.0
1,Белгородская область,"Беременность, роды и послеродовой период",15-17 лет,1181.7,2287.8,2258.2,1704.4,2520.6,1539.2,1362.8,1437.8,980.4,1261.7,1221.4,875.6
2,Белгородская область,"Беременность, роды и послеродовой период",18 лет и старше,5249.8,5976.9,4796.6,4985.9,5791.3,5287.8,5197.0,5469.2,5373.0,5928.4,5551.7,5567.6
3,Белгородская область,"Беременность, роды и послеродовой период",Всего,4452.8,5196.3,4236.4,4392.9,5165.4,4684.9,4585.2,4839.8,4730.8,5215.7,4879.2,4868.6
4,Белгородская область,Болезни глаза и его придаточного аппарата,0-14 лет,5747.6,5576.1,5538.1,5050.5,5117.5,5325.5,4968.6,5347.5,5655.3,5362.9,5841.5,6187.0
5,Белгородская область,Болезни глаза и его придаточного аппарата,15-17 лет,5690.7,6133.4,6607.8,5954.1,6234.0,6653.2,6207.1,6817.2,6891.4,7357.0,7723.9,9498.4
6,Белгородская область,Болезни глаза и его придаточного аппарата,18 лет и старше,5135.9,5164.7,5375.1,4512.3,3849.5,4463.7,4597.2,5039.8,4515.2,3700.9,3074.4,3007.5
7,Белгородская область,Болезни глаза и его придаточного аппарата,Всего,5249.2,5264.4,5447.3,4638.6,4103.2,4653.0,4701.9,5138.5,4748.5,4046.3,3617.4,3665.9
8,Белгородская область,Болезни костно-мышечной системы и соединительн...,0-14 лет,3908.8,4067.8,4215.8,3977.4,3737.9,3587.4,3702.0,3442.2,3432.3,3573.1,3157.2,2924.5
9,Белгородская область,Болезни костно-мышечной системы и соединительн...,15-17 лет,7381.4,6917.4,6539.5,6459.7,7066.3,7550.6,7181.7,7558.5,7219.1,7502.0,7029.3,6951.4


Убираю из столбца "Возраст" значение "Всего" так как оно не относится к возрастной группе.

In [476]:
morbidity_data = morbidity_data[morbidity_data['Возраст'] != 'Всего']

Посмотрим на наши пропуски

In [481]:
morbidity_data.isnull().sum()

region              0
Заболеваемость      0
Возраст             0
2005              353
2006              353
2007              353
2008              353
2009              353
2010              353
2011              353
2012              602
2013              353
2014              249
2015              504
2016              504
dtype: int64

В этом датафрейме много пропущенных значений. Предлагаю над этим поработать.

In [478]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(50)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
48,Белгородская область,Злокачественные новообразования,0-14 лет,,,,,,,12.1,,,,,
49,Белгородская область,Злокачественные новообразования,15-17 лет,,,,,,,14.0,,,,,
50,Белгородская область,Злокачественные новообразования,18 лет и старше,,,,,,,462.0,,,,,
61,Белгородская область,Прочие болезни,0-14 лет,2654.5,3102.4,2508.5,2267.6,2279.1,2070.4,,,1768.9,8425.4,,
62,Белгородская область,Прочие болезни,15-17 лет,1670.2,2295.4,1508.4,1577.7,1562.9,1355.3,,,1219.9,8656.5,,
63,Белгородская область,Прочие болезни,18 лет и старше,87.5,81.4,113.2,92.6,104.0,86.1,,,132.5,4029.2,,
121,Брянская область,Злокачественные новообразования,0-14 лет,,,,,,,18.6,,,,,
122,Брянская область,Злокачественные новообразования,15-17 лет,,,,,,,21.1,,,,,
123,Брянская область,Злокачественные новообразования,18 лет и старше,,,,,,,544.0,,,,,
134,Брянская область,Прочие болезни,0-14 лет,2931.1,2789.5,2899.3,3556.6,3326.9,3415.9,,,3587.7,10892.6,,


В основном у нас есть пропуски в значениях "Злокачественные новообразования" и "Прочие болезни". Но что я еще заметил, что у нас имеется разделение для некоторых регионов по годам. Тоесть есть данные с 2005 по 2013 годы, а далее ниже имеются данные с 2014 по 2016 годы. Из-за этого мы имеем много пропусков. Я решил применить группировку данных по 'region', 'Заболеваемость', 'Возраст', а затем применить агрегацию, чтобы получить одну строку для каждой уникальной комбинации 'region', 'Заболеваемость', 'Возраст' с заполненными данными за все годы. Поэтому это надо сделать в первую очередь, а уже во-вторую взяться за пропуски в значениях "Злокачественные новообразования" и "Прочие болезни".

In [479]:
morbidity_data = morbidity_data.groupby(['region', 'Заболеваемость', 'Возраст']).agg('first').reset_index()

In [480]:
# Теперь снова посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
36,Ханты-Мансийский автономный округ - Югра,Злокачественные новообразования,0-14 лет,,,,,,,5.4,,,,,
37,Ханты-Мансийский автономный округ - Югра,Злокачественные новообразования,15-17 лет,,,,,,,1.9,,,,,
38,Ханты-Мансийский автономный округ - Югра,Злокачественные новообразования,18 лет и старше,,,,,,,273.9,,,,,
46,Ханты-Мансийский автономный округ - Югра,Прочие болезни,0-14 лет,2240.5,2475.0,1632.4,1500.7,1302.4,895.2,,,541.2,9457.8,,
47,Ханты-Мансийский автономный округ - Югра,Прочие болезни,15-17 лет,1081.0,1173.8,738.1,577.8,675.0,319.0,,,186.8,7697.5,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
873,Иркутская область,Прочие болезни,18 лет и старше,822.3,818.1,1031.6,1029.4,1249.0,642.7,,,541.7,4219.7,,
916,Кабардино-Балкарская Республика,Злокачественные новообразования,0-14 лет,,,,,,,10.9,,,,,
917,Кабардино-Балкарская Республика,Злокачественные новообразования,15-17 лет,,,,,,,30.4,,,,,
918,Кабардино-Балкарская Республика,Злокачественные новообразования,18 лет и старше,,,,,,,328.1,,,,,


Так как в значении "Злокачественные новообразования" заполненных значений очень мало, только за 2011 год, то по всем остальным годам будет нереально заполнить другими значениями основываясь только на одном годе. Поэтому тут я заполню нулями пропуски.

In [486]:
morbidity_data.loc[morbidity_data['Заболеваемость'] == 'Злокачественные новообразования'] = morbidity_data.loc[morbidity_data['Заболеваемость'] == 'Злокачественные новообразования'].fillna(0)

У значения "Прочие болезни" у нас пропуски за 2011, 2012, 2015, 2016 года. Давайте попробуем тут заполнить пропуски через метод интерполяции, опираясь на соседние точки.

In [487]:
# Выберем строки, относящиеся к "Прочие болезни"
mask = morbidity_data['Заболеваемость'] == 'Прочие болезни'

# Применим интерполяцию для заполнения пропусков в этих строках
morbidity_data.loc[mask, '2005':'2013'] = morbidity_data.loc[mask, '2005':'2013'].interpolate(axis=1, limit_direction='both').round(1)

# Проверим результат
display(morbidity_data.loc[mask])

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
46,Ханты-Мансийский автономный округ - Югра,Прочие болезни,0-14 лет,2240.5,2475.0,1632.4,1500.7,1302.4,895.2,777.2,659.2,541.2,9457.8,,
47,Ханты-Мансийский автономный округ - Югра,Прочие болезни,15-17 лет,1081.0,1173.8,738.1,577.8,675.0,319.0,274.9,230.9,186.8,7697.5,,
48,Ханты-Мансийский автономный округ - Югра,Прочие болезни,18 лет и старше,207.1,340.7,176.3,292.0,163.1,135.3,140.3,145.2,150.2,4362.1,,
101,Ямало-Ненецкий автономный округ,Прочие болезни,0-14 лет,2734.9,3043.5,2663.2,2622.6,2427.5,1688.8,1604.3,1519.7,1435.2,12128.6,,
102,Ямало-Ненецкий автономный округ,Прочие болезни,15-17 лет,1345.5,1808.6,1512.9,1746.0,1165.5,1249.4,1172.5,1095.6,1018.7,10271.3,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4609,г. Санкт-Петербург,Прочие болезни,15-17 лет,4465.5,4757.1,6872.7,6106.5,5416.8,5603.2,5182.3,4761.3,4340.4,19759.0,,
4610,г. Санкт-Петербург,Прочие болезни,18 лет и старше,207.5,222.6,261.6,280.0,255.3,345.6,300.7,255.9,211.0,4621.1,,
4660,г. Севастополь,Прочие болезни,0-14 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8467.7,,
4661,г. Севастополь,Прочие болезни,15-17 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7592.2,,


2014 год отличается от других годов по значению "Прочие болезни", поэтому я считаю что это будет являться выбросом. Основываясь на этом я заполню 2015 и 2016 год медианой.

In [488]:
# Вычислим медиану для каждой строки, исключая 2014 год
medians = morbidity_data.loc[mask, '2005':'2013'].median(axis=1).astype('float64')

# Заполним пропуски в 2015 и 2016 годах используя посчитанные медианы
morbidity_data.loc[mask, '2015'] = morbidity_data.loc[mask, '2015'].fillna(medians)
morbidity_data.loc[mask, '2016'] = morbidity_data.loc[mask, '2016'].fillna(medians)

# Посмотрим на результат
display(morbidity_data.loc[mask])

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
46,Ханты-Мансийский автономный округ - Югра,Прочие болезни,0-14 лет,2240.5,2475.0,1632.4,1500.7,1302.4,895.2,777.2,659.2,541.2,9457.8,1302.4,1302.4
47,Ханты-Мансийский автономный округ - Югра,Прочие болезни,15-17 лет,1081.0,1173.8,738.1,577.8,675.0,319.0,274.9,230.9,186.8,7697.5,577.8,577.8
48,Ханты-Мансийский автономный округ - Югра,Прочие болезни,18 лет и старше,207.1,340.7,176.3,292.0,163.1,135.3,140.3,145.2,150.2,4362.1,163.1,163.1
101,Ямало-Ненецкий автономный округ,Прочие болезни,0-14 лет,2734.9,3043.5,2663.2,2622.6,2427.5,1688.8,1604.3,1519.7,1435.2,12128.6,2427.5,2427.5
102,Ямало-Ненецкий автономный округ,Прочие болезни,15-17 лет,1345.5,1808.6,1512.9,1746.0,1165.5,1249.4,1172.5,1095.6,1018.7,10271.3,1249.4,1249.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4609,г. Санкт-Петербург,Прочие болезни,15-17 лет,4465.5,4757.1,6872.7,6106.5,5416.8,5603.2,5182.3,4761.3,4340.4,19759.0,5182.3,5182.3
4610,г. Санкт-Петербург,Прочие болезни,18 лет и старше,207.5,222.6,261.6,280.0,255.3,345.6,300.7,255.9,211.0,4621.1,255.9,255.9
4660,г. Севастополь,Прочие болезни,0-14 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,8467.7,0.0,0.0
4661,г. Севастополь,Прочие болезни,15-17 лет,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7592.2,0.0,0.0


Снова посмотрим имеются ли еще пропуски в данных

In [489]:
morbidity_data.isnull().sum()

region            0
Заболеваемость    0
Возраст           0
2005              0
2006              0
2007              0
2008              0
2009              0
2010              0
2011              0
2012              0
2013              0
2014              0
2015              0
2016              0
dtype: int64

In [490]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016


Республика Крым и г. Севастополь у нас имеют данные с 2014 года. Поэтому пропуски мы заполним нулями.

In [484]:
# Отфильтруем строки, относящиеся к Республике Крым
mask1 = morbidity_data['region'] == 'Республика Крым'
mask2 = morbidity_data['region'] == 'г. Севастополь'

# Заполним пропуски нулями
morbidity_data.loc[mask1, '2005':'2013'] = morbidity_data.loc[mask1, '2005':'2013'].fillna(0)
morbidity_data.loc[mask2, '2005':'2013'] = morbidity_data.loc[mask2, '2005':'2013'].fillna(0)

Снова посмотрим имеются ли еще пропуски в данных

In [491]:
morbidity_data.isnull().sum()

region            0
Заболеваемость    0
Возраст           0
2005              0
2006              0
2007              0
2008              0
2009              0
2010              0
2011              0
2012              0
2013              0
2014              0
2015              0
2016              0
dtype: int64

In [492]:
# Посмотрим на строки с пропусками
rows_with_nan = morbidity_data[morbidity_data.isnull().any(axis=1)]
rows_with_nan.head(100)

Unnamed: 0,region,Заболеваемость,Возраст,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016


Отлично, с этим мы справились.

### poverty_percent_data

In [495]:
poverty_percent_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 27 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   1995    82 non-null     float64
 2   1996    82 non-null     float64
 3   1997    82 non-null     float64
 4   1998    82 non-null     float64
 5   1999    82 non-null     float64
 6   2000    82 non-null     float64
 7   2001    82 non-null     float64
 8   2002    82 non-null     float64
 9   2003    83 non-null     float64
 10  2004    83 non-null     float64
 11  2005    83 non-null     float64
 12  2006    83 non-null     float64
 13  2007    83 non-null     float64
 14  2008    83 non-null     float64
 15  2009    83 non-null     float64
 16  2010    83 non-null     float64
 17  2011    83 non-null     float64
 18  2012    83 non-null     float64
 19  2013    83 non-null     float64
 20  2014    83 non-null     float64
 21  2015    85 non-null     float64
 22  2016

In [500]:
poverty_percent_data.head(50)

Unnamed: 0,region,1995,1996,1997,1998,1999,2000,2001,2002,2003,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
0,Белгородская область,19.9,17.6,18.9,20.1,24.2,33.6,29.1,25.4,22.9,...,8.6,6.5,7.6,7.7,8.5,8.1,7.8,7.5,7.8,7.2
1,Брянская область,22.7,19.2,18.4,25.3,39.6,42.3,35.8,31.2,26.7,...,12.6,10.5,12.6,13.2,14.1,14.4,14.2,13.6,13.8,13.6
2,Bладимирская область,27.6,26.7,23.9,27.7,37.5,44.7,40.7,35.3,30.3,...,17.5,15.0,14.1,14.2,14.7,14.6,13.2,13.1,12.6,12.5
3,Bоронежская область,23.1,25.1,20.2,20.1,29.4,41.9,36.6,33.8,28.9,...,17.2,10.3,9.4,9.2,9.5,9.4,9.0,8.9,8.9,8.5
4,Ивановская область,33.3,31.4,26.5,30.0,59.5,68.4,68.2,60.8,53.3,...,19.0,13.8,14.4,14.6,16.0,14.9,14.3,14.7,14.2,13.7
5,Калужская область,26.6,24.5,24.7,24.2,42.3,45.5,40.3,35.0,29.6,...,11.1,8.5,9.4,9.7,10.8,10.3,10.0,10.4,10.2,9.7
6,Костромская область,29.9,21.2,19.3,25.3,38.3,37.5,36.6,35.5,33.1,...,16.5,15.1,14.2,13.6,14.3,13.7,13.4,12.7,12.6,12.5
7,Курская область,19.9,24.9,22.1,25.1,36.6,42.2,39.5,33.7,30.7,...,10.4,8.2,9.6,9.2,10.4,10.5,10.3,9.9,9.9,9.9
8,Липецкая область,18.6,17.3,17.5,19.4,30.7,30.9,24.8,25.8,22.2,...,10.6,8.4,7.9,8.3,9.3,9.2,8.8,8.7,8.6,8.4
9,Московская область,31.7,24.0,20.3,22.3,27.7,35.2,30.9,27.4,26.1,...,9.6,6.9,7.5,7.6,8.3,7.8,7.9,7.3,7.3,6.8


В нашем датасете пропуски есть там, где не логично заполнять каким-то средним значением или медианой. Это Крым, Чечня, Калмыкия. Поэтому я решаю заполнить пропуски нулями.

In [None]:
poverty_percent_data.fillna(0, inplace=True)

In [498]:
poverty_percent_data.isnull().sum()

region    0
1995      0
1996      0
1997      0
1998      0
1999      0
2000      0
2001      0
2002      0
2003      0
2004      0
2005      0
2006      0
2007      0
2008      0
2009      0
2010      0
2011      0
2012      0
2013      0
2014      0
2015      0
2016      0
2017      0
2018      0
2019      0
2020      0
dtype: int64

### regional_production_1 и regional_production_2

Я хочу объединить эти два датафрейма. Думаю как это сделать

In [903]:
regional_production_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 255 entries, 0 to 254
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   region            255 non-null    object 
 1   production_field  255 non-null    object 
 2   2005              246 non-null    float64
 3   2006              246 non-null    float64
 4   2007              249 non-null    float64
 5   2008              249 non-null    float64
 6   2009              249 non-null    float64
 7   2010              249 non-null    float64
 8   2011              249 non-null    float64
 9   2012              249 non-null    float64
 10  2013              249 non-null    float64
 11  2014              255 non-null    float64
 12  2015              255 non-null    float64
 13  2016              255 non-null    float64
dtypes: float64(12), object(2)
memory usage: 28.0+ KB


In [904]:
regional_production_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 421 entries, 0 to 420
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   region            421 non-null    object 
 1   production_field  421 non-null    object 
 2   2017              421 non-null    float64
 3   2018              421 non-null    float64
 4   2019              421 non-null    float64
 5   2020              421 non-null    float64
dtypes: float64(4), object(2)
memory usage: 19.9+ KB


Перед тем, как я соберусь объединять данные мне нужно в датафрейме regional_production_1 посчитать значения Архангельской и Туменской областей с 2005 по 2016 годы. А в датафрейме regional_production_2 посчитать значения Архангельской и Туменской областей с 2017 по 2020 годы. Находим эти значения привычным нам способом.

In [905]:
# Получим корректные значение для Архангельской области 
regional_production_1.loc[regional_production_1['region'] == 'Архангельская область', 2005:2016] -= regional_production_1.loc[regional_production_1['region'] == 'Ненецкий автономный округ', 2005:2016].values

# Получим корректные значение для Тюменской области 
regional_production_1.loc[regional_production_1['region'] == 'Тюменская область', 2005:2016] -= regional_production_1.loc[regional_production_1['region'] == 'Ханты-Мансийский автономный округ - Югра', 2005:2016].values
regional_production_1.loc[regional_production_1['region'] == 'Тюменская область', 2005:2016] -= regional_production_1.loc[regional_production_1['region'] == 'Ямало-Ненецкий автономный округ', 2005:2016].values

In [906]:
# Получим корректные значение для Архангельской области 
regional_production_2.loc[regional_production_2['region'] == 'Архангельская область', 2017:2020] -= regional_production_2.loc[regional_production_2['region'] == 'Ненецкий автономный округ', 2017:2020].values

# Получим корректные значение для Тюменской области 
regional_production_2.loc[regional_production_2['region'] == 'Тюменская область', 2017:2020] -= regional_production_2.loc[regional_production_2['region'] == 'Ханты-Мансийский автономный округ - Югра', 2017:2020].values
regional_production_2.loc[regional_production_2['region'] == 'Тюменская область', 2017:2020] -= regional_production_2.loc[regional_production_2['region'] == 'Ямало-Ненецкий автономный округ', 2017:2020].values

In [907]:
# Получим пересечение колонок обоих датафреймов
common_columns = set(regional_production_1.columns) & set(regional_production_2.columns)

# Преобразуем числовые данные в подходящий формат
for year in map(str, range(2005, 2021)):
    if year in common_columns:
        regional_production_1[year] = regional_production_1[year].apply(lambda x: "{:,.1f}".format(x) if isinstance(x, float) else x)
        regional_production_2[year] = regional_production_2[year].apply(lambda x: "{:,.1f}".format(x) if isinstance(x, float) else x)

# Объединим два датафрейма в один с использованием внешнего объединения (outer join)
regional_production = pd.merge(regional_production_1, regional_production_2, on=['region', 'production_field'], how='outer')

# Заполним пропущенные значения NaN нулями
regional_production.fillna(0, inplace=True)

# Сортируем данные по региону и области производства
regional_production.sort_values(by=['region', 'production_field'], inplace=True)

In [908]:
regional_production.tail(10)

Unnamed: 0,region,production_field,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
84,г. Санкт-Петербург,ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ,1260650.0,1175608.0,1069673.0,1381375.0,800859.6,1721743.0,3164888.0,1768750.0,10019280.0,14725560.0,16797740.0,13233960.0,20016790.0,24035470.0,37276810.0,35897630.0
339,г. Санкт-Петербург,"ОБЕСПЕЧЕНИЕ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИЕЙ, ГАЗОМ И ПА...",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,213937900.0,213389500.0,215548800.0,203617500.0
85,г. Санкт-Петербург,ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА,372490600.0,442213000.0,549995400.0,721113300.0,994090280.5,1318896000.0,1740536000.0,2069394000.0,1976412000.0,2089707000.0,2263057000.0,2062005000.0,2221317000.0,2615910000.0,2679285000.0,2564838000.0
86,г. Санкт-Петербург,"ПРОИЗВОДСТВО И РАСПРЕДЕЛЕНИЕ ЭЛЕКТРОЭНЕРГИИ, Г...",59549380.0,56769430.0,95233160.0,82879710.0,104951012.5,127810800.0,147413600.0,150924600.0,173698100.0,178707800.0,181157400.0,218137000.0,0.0,0.0,0.0,0.0
341,г. Санкт-Петербург,Промышленное производство (промышленность),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2513170000.0,2912870000.0,3007590000.0,2875727000.0
108,г. Севастополь,ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,15967.8,483196.0,874018.0,0.0,0.0,0.0,0.0
362,г. Севастополь,"ОБЕСПЕЧЕНИЕ ЭЛЕКТРИЧЕСКОЙ ЭНЕРГИЕЙ, ГАЗОМ И ПА...",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6492008.0,19102580.0,4259713.0,8877990.0
109,г. Севастополь,ОБРАБАТЫВАЮЩИЕ ПРОИЗВОДСТВА,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3742685.0,11815220.0,13971570.0,13310220.0,11271530.0,15859180.0,15630050.0
110,г. Севастополь,"ПРОИЗВОДСТВО И РАСПРЕДЕЛЕНИЕ ЭЛЕКТРОЭНЕРГИИ, Г...",0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,729166.0,5805266.0,7158745.0,0.0,0.0,0.0,0.0
363,г. Севастополь,Промышленное производство (промышленность),0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,22964920.0,35495170.0,24809810.0,29028250.0


В объединенном датафрейме regional_production у нас появилось много пропусков. Пропуски мы заполнили нулями, но если так оставить для всех регионов то мы породим выбросы в нашем датафрейме. Поэтому предлагается заполнение пропусков таким образом. Мы оставляем нули для Республики Крым и г. Севастополь с 2005 по 2013 годы по понятным причинам. В целом нули по данному региону до 2014-2015 года мы считаем нормальным явлением и не относим это к вабросам. Для всех остальных регионов нули будут заполняться так: там где производства имеют нули с 2005 по 2016 года мы заполняем значениями 2017 года, там где производства имеют нули с 2017 по 2020 года мы заполняем значениями 2016 года.

In [910]:
for index, row in regional_production.iterrows():
    
    # Оставляем нули для Республики Крым и г. Севастополь с 2005 по 2013
    if row['region'] not in ['Республика Крым', 'г. Севастополь']:
    
        # Заполняем нули с 2005 по 2016 значением 2017 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2005, 2017)):
            regional_production.loc[index, range(2005, 2017)] = regional_production.loc[index, 2017]
    
        # Заполняем нули с 2017 по 2020 значением 2016 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2017, 2021)):
            regional_production.loc[index, range(2017, 2021)] = regional_production.loc[index, 2016]
    
    else:
        # Заполняем нули с 2005 по 2016 значением 2017 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2014, 2017)):
            regional_production.loc[index, range(2014, 2017)] = regional_production.loc[index, 2017]
        
        # Заполняем нули с 2017 по 2020 значением 2016 года, если все значения нули
        if all(row[year] == 0.0 for year in range(2017, 2021)):
            regional_production.loc[index, range(2017, 2021)] = regional_production.loc[index, 2016]

### income_data

In [524]:
income_data['real_pay'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2015    83 non-null     float64
 2   2016    85 non-null     float64
 3   2017    85 non-null     float64
 4   2018    85 non-null     float64
 5   2019    85 non-null     float64
 6   2020    85 non-null     float64
dtypes: float64(6), object(1)
memory usage: 4.8+ KB


In [525]:
income_data['real_incomes'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2015    83 non-null     float64
 2   2016    85 non-null     float64
 3   2017    85 non-null     float64
 4   2018    85 non-null     float64
 5   2019    85 non-null     float64
 6   2020    85 non-null     float64
dtypes: float64(6), object(1)
memory usage: 4.8+ KB


Разделы(листы) **real_pay** и **real_incomes** содержат пропуски в 2015 году для республики Крым и г. Севастополь. Я заполняю их средним значением.

In [527]:
mean_value_real_pay = income_data['real_pay'].loc[income_data['real_pay']['region'].isin(['Республика Крым', 'г. Севастополь']), 2016:2020].mean(axis=1)

income_data['real_pay'].loc[income_data['real_pay']['region'].isin(['Республика Крым', 'г. Севастополь']), 2015] = income_data['real_pay'].loc[income_data['real_pay']['region'].isin(['Республика Крым', 'г. Севастополь']), 2015].fillna(mean_value_real_pay)


mean_value_real_incomes = income_data['real_incomes'].loc[income_data['real_incomes']['region'].isin(['Республика Крым', 'г. Севастополь']), 2016:2020].mean(axis=1)

income_data['real_incomes'].loc[income_data['real_incomes']['region'].isin(['Республика Крым', 'г. Севастополь']), 2015] = income_data['real_incomes'].loc[income_data['real_incomes']['region'].isin(['Республика Крым', 'г. Севастополь']), 2015].fillna(mean_value_real_incomes)

### drug_alco_data

In [571]:
drug_alco_data['alco'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2005    83 non-null     float64
 2   2006    83 non-null     float64
 3   2007    83 non-null     float64
 4   2008    83 non-null     float64
 5   2009    83 non-null     float64
 6   2010    83 non-null     float64
 7   2011    83 non-null     float64
 8   2012    83 non-null     float64
 9   2013    83 non-null     float64
 10  2014    68 non-null     float64
 11  2015    68 non-null     float64
 12  2016    68 non-null     float64
 13  2017    85 non-null     float64
 14  2018    85 non-null     float64
dtypes: float64(14), object(1)
memory usage: 10.1+ KB


In [572]:
drug_alco_data['drugs'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   region  85 non-null     object 
 1   2005    83 non-null     float64
 2   2006    83 non-null     float64
 3   2007    83 non-null     float64
 4   2008    83 non-null     float64
 5   2009    83 non-null     float64
 6   2010    83 non-null     float64
 7   2011    83 non-null     float64
 8   2012    83 non-null     float64
 9   2013    83 non-null     float64
 10  2014    68 non-null     float64
 11  2015    68 non-null     float64
 12  2016    68 non-null     float64
 13  2017    85 non-null     float64
 14  2018    85 non-null     float64
dtypes: float64(14), object(1)
memory usage: 10.1+ KB


Разделы(листы) **alco** и  **drugs** содержат пропуски с 2005 по 2016 года для республики Крым и г. Севастополь. Также датафрейм содержит пропуски с 2014 по 2016 года для регионов от Республики Адыгея до Ставропольского края в обоих разделах(листах).

Я заполню пропуски нулями с 2005 по 2014 год для республики Крым и г. Севастополь. С 2015 по 2016 года для заполнения пропусков я попробую использовать линейную интерполяцию чтобы найти значение, идущее по нарастающей. 

In [573]:
regions_to_fill = ['Республика Крым', 'г. Севастополь']
years_to_fill = list(range(2005, 2015))

for region in regions_to_fill:
    for df in [drug_alco_data['alco'], drug_alco_data['drugs']]:
        # Заполним пропуски нулями для годов с 2005 по 2014
        df.loc[df['region'] == region, years_to_fill] = df.loc[df['region'] == region, years_to_fill].fillna(0)
        
        # Получим значения для 2017 и 2018 годов
        value_2017 = df.loc[df['region'] == region, 2017].values[0]
        value_2018 = df.loc[df['region'] == region, 2018].values[0]
        
        # Создадим линейно нарастающую последовательность для заполнения 2015 и 2016 годов
        filled_values = np.linspace(start=value_2017, stop=value_2018, num=4)
        
        # Заполним пропуски сгенерированными значениями
        df.loc[df['region'] == region, [2015, 2016]] = np.round(filled_values[:2], 1)

Теперь надо заполнить пропуски для регионов с 2014 по 2016 года для регионов от Республики Адыгея до Ставропольского края, а также отдельно по Архангельской и Тюменской областям. Давайте здесь также ипользуем интерполяцию.  

In [586]:
regions_to_interpolate = [
    "Архангельская область", "Республика Адыгея", "Республика Калмыкия", "Краснодарский край", 
    "Астраханская область", "Волгоградская область", "Ростовская область", 
    "Республика Дагестан", "Республика Ингушетия", "Кабардино-Балкарская Республика", 
    "Карачаево-Черкесская Республика", "Республика Северная Осетия - Алания", 
    "Чеченская Республика", "Ставропольский край", "Тюменская область"
]

years_to_interpolate = list(range(2005, 2019))

for region in regions_to_interpolate:
    for df in [drug_alco_data['alco'], drug_alco_data['drugs']]:
        # Получаем индекс строки для текущего региона
        idx = df['region'] == region

        # Применяем интерполяцию только к строке с текущим регионом
        df.loc[idx, years_to_interpolate] = df.loc[idx, years_to_interpolate].interpolate(axis=1).round(1)

Посмотрим, заполнились ли пропуски

In [587]:
print(df.loc[df['region'].isin(regions_to_interpolate), [2014, 2015, 2016]])


    2014  2015  2016
20   4.4   4.7   5.1
29   5.6   5.4   5.2
30   0.3   0.2   0.1
32   4.3   4.2   4.2
33   1.9   1.5   1.1
34   6.6   7.2   7.7
35  11.6  11.0  10.4
37  13.5  12.4  11.2
38   1.3   1.3   1.2
39  12.2  11.7  11.2
40   5.2   5.4   5.7
41   2.8   3.6   4.3
42   1.1   1.0   0.9
43   5.4   4.9   4.4
60  13.0  12.9  12.8


### housing_data

In [644]:
housing_data['housing_cond'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 9 columns):
 #   Column                                                                                         Non-Null Count  Dtype  
---  ------                                                                                         --------------  -----  
 0   region                                                                                         85 non-null     object 
 1   Число домохозяйств, проживающих во всех типах жилых помещений                                  85 non-null     int64  
 2   в том числе домохозяйства, указавшие, что при проживании не испытывают стесненности            85 non-null     float64
 3   в том числе домохозяйства, указавшие, что при проживании испытывают определенную стесненность  85 non-null     float64
 4   в том числе домохозяйства, указавшие, что при проживании испытывают большую стесненность       85 non-null     float64
 5   затруднились ответить    

In [645]:
housing_data['housing_intent'].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 14 columns):
 #   Column                                                                                                                                                                       Non-Null Count  Dtype  
---  ------                                                                                                                                                                       --------------  -----  
 0   region                                                                                                                                                                       85 non-null     object 
 1   Все домохозяйства                                                                                                                                                            85 non-null     int64  
 2   из них домохозяйства, собирающиеся улучшить свои жилищные условия                   

В разделе(листе) **housing_intent** есть пропущенные значения в виде троеточия. Это пропуски и с ними надо что-то делать. Применить медиану, моду и тд будет не правильным решением. Я решаю заполнить отдельной 'None' категорией.

In [646]:
columns_to_fill = [
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: планируют вселиться в жилое помещение, строительство которого ведут (участвуют в долевом строительстве)",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются подать документы для постановки на очередь (и/или ожидают прохождения очереди)",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: рассчитывают на получение нового жилья в связи со сносом дома",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются купить (построить) другое жилье",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются снимать жилье",
    "из числа домохозяйств, собирающихся улучшить свои жилищные условия: собираются улучшить  свои  жилищные условия  другим способом",
    "затруднились ответить"
]

for col in columns_to_fill:
    housing_data['housing_intent'][col].replace('...', 'None', inplace=True)
    housing_data['housing_intent'][col].fillna('None', inplace=True)

#### Теперь когда все данные у нас прошли очистку и предобработку нужно перейти к анализу данных для сравнения трендов и выявления наиболее релевантных годов. 