Гармаш Михаил Юрьевич
# "Визуализация Медицинской Статистики"
## Цели и задачи проекта

Цель: превращение разрозненных таблиц статистики в простой и наглядный дашборд.

Для осуществления цели нужно будет решить задачи:
1.	Изучить таблицы - 1 день.
2.	Выбрать тему для построения дашборда - 1 день.
3.	Сделать предобработку данных: чистку, переименование столбцов, объединение таблиц - 3 дня.
4.	Построить дашборд, используя любой инструмент по выбору студента - 7 дней.
5.	Подготовить описание: какие таблицы использовали и почему - 1 день.

## Данные
Данные были получены путем парсинга сайта Росстата. Данные являются общедоступными, их использование в любых коммерческих и не коммерческих проектах разрешено. К сожалению, данные представляют собой огромное количество файлов разных форматов и не всегда согласующихся между собой (пример - разные заголовки столбцов у одного вида статистике в разных годах). При этом данные относительно чистые - поэтому усилия по предобработке меньше, чем обычно.

## тема дашборда "Условия жизни населения"

*   Для предобработки данных используется библиотека Pandas
*   Для визуализации - Яндекс Даталенс

## Дашборд
На обработанных данных был построен дашборд https://datalens.yandex/cxijj4apkyds0

## Гипотезы

Были проверены следующие гипотезы:

1. Cброс загрязненных сточных вод в водоемы имеет достоверную устойчивую тенденцию к снижению.
2. В питьевом водоснабжении число проб, не соответствующих санитарно-эпидемиологическим требованиям продолжает оставаться стабильно высоким из года в год и составляет около четверти всех случаев исследования.
3. Количество людей в России проживающих в населенных пунктах с некачественным питьевым водоснабжением исчисляется миллионами и не имеет тенденции к снижению, А количество людей проживающих в населенных пунктах, в которых питьевая вода вообще никак не исследовалась также исчисляется миллионами, но имеет достоверную тенденцию к снижению.
4. При санитарно- эпидемиологическом исследовании продуктов питания и пищевого сырья наибольшее количество недоброкачественных проб из года в год выявляется среди мясной продукции и продукции пчеловодства.
5. Среди ввозимых в Россию пищевых продуктов из года в год наибольший процент недоброкачественных проб выявляется среди рыбной продукции, которые составляют до четверти всех исследованных проб.
6. Затраты Россиян на платные услуги в здравоохранении выросли в исследуемом периде более чем в два раза.

## Выводы
Гипотеза 1 подтверждается данными. Объем загрязненных сточных вод действительно снизился. Но за этот период снизился и общий объем сброса сточных вод. И этот объем снизился гораздо сильнее, чем первый. Следовательно процент загрязнений в сточных водах вырос, хотя их и стало меньше и это очень тревожные данные.

Гипотеза 2 верна только в части проб по санитарно-химическим показателям. Количество проб, не соответствующих нормативам по микробиологическим показателям, гораздо меньше и имеет устойчивую тенденцию к снижению.

Гипотезу 3 проверить не удалось т.к. в данных нет привязки обследованных объектов к населенным пунктам РФ. Также нет данных о количестве людей, пользующихся тем или иным обследованным источником водоснабжения.

Гипотеза 4 неверна. Первое место по проценту недоброкачественных проб суммарно по обоим показателям занимает "рыба, рыбные продукты и другие продукты моря". Второе место делят между собой "молоко и молочные продукты", "птица и птицеводческие продукты".

Гипотезу 5 проверить не удалось. Во-первых, на графиках мы можем увидеть, что хоть рыбная продукция и занимает верхние строчки чаще других, но нельзя сказать, что она является несомненным лидером по плохому качеству. Во-вторых, мы не можем посчитать отношение исследованных проб рыбы ко всем исследованиям, поскольку в данных не имеется абсолютных значений. Приводятся лишь проценты, а количество взятых проб по каждой категории нам неизвестно.

Гипотеза 6 верна. Затраты на плаьтные услуги в здравоохранении выросли в несколько раз. Но, для правильного понимания ситуации, необходимо дополнить раздел графиком инфляции по годам, чтобы понимать, в какой мере рост расходов является инфляционным.

In [None]:
# импорт библиотек
import pandas as pd
import numpy as np
from numpy import nan

## 	Сброс загрязненных сточных вод в поверхностные водные объекты по субъектам Российской Федерации

Здесь мы объединяем таблицы с данными по годам в одну сводную таблицу.

Названия регионов в разных таблицах указаны по разному, некоторые регионы были преобразованы или переименованы. Для удобства приводим их к одному названию.

Удаляем дублирующиеся столбцы и переименовываем оставшиеся.

In [None]:


df = pd.read_csv("2001_region.csv")

df.loc[df['0'] == 'Ханты-Мансийский автономный округ', '0'] = 'Ханты-Мансийский автономный округ - Югра'

df1 = pd.read_csv("2005_region.csv")
df = df.merge(df1, on='0', how='outer')

df.loc[df['0'] == 'Пермская область', '0'] = 'Пермский край'

df1 = pd.read_csv("2007_region.csv")
df = df.merge(df1, on='0', how='outer')

df = df.drop(['1_y', '2_y', '1', '2'], axis=1)
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']

df.loc[df['0'] == 'Читинская область', '0'] = 'Забайкальский край'
df.loc[df['0'] == 'Камчатская область', '0'] = 'Камчатский край'

df1 = pd.read_csv("2009_region.csv")
df = df.merge(df1, on='0', how='outer')

df1 = pd.read_csv("2011_region.csv")
df = df.merge(df1, on='0', how='outer')

df = df.drop(['1_y', '2_y', '3_y', '1', '2', '3'], axis=1)
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16']

df1 = pd.read_csv("2013_region.csv")
df = df.merge(df1, on='0', how='outer')

df.loc[df['0'] == 'Забайкальский край', '0'] = 'Читинская область/Забайкальский край'
df = df.drop(['1_y', '2_y', '3_y'], axis=1)
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18']





Удаляем лишние строки (которые не содержат значений, либо это данные по территориям, которые уже включены в субъекты Федерации в предыдущей строке - т.н. "в том числе").

Пробелы в данных заменяем на NaN, приводим данные к правильному типу

In [None]:
df = df.drop([25,59,67,68,69,70,71,72,73,74,85,86,88,94,101])
df = df.replace('...', np.NaN)
df['17'] = df['17'].str.replace(',', '.') # замена запятой на десятичную точку
df['18'] = df['18'].str.replace(',', '.')
df['16'] = df['16'].astype(float)
df['17'] = df['17'].astype(float)
df['18'] = df['18'].astype(float)

In [None]:
# делаем правильные названия столбцов
df.columns = ['region',	'1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012']
df = df.drop([0])

#pd.set_option('display.max_rows', None)

# сохраняем промежуточный вариант таблицы
df.to_csv('waste_water_regions.csv', index=False)


# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df = pd.melt(df, id_vars=['region'], value_vars=['1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006','2007','2008','2009','2010','2011','2012'],
              var_name ='year', value_name ='value')
df.to_csv('waste_water_regions_df.csv', index=False)

df

Unnamed: 0,region,year,value
0,Российская Федерация,1995,24478.0
1,Центральный федеральный округ,1995,5271.0
2,Белгородская область,1995,32.0
3,Брянская область,1995,116.0
4,Владимирская область,1995,208.0
...,...,...,...
1633,Магаданская область,2012,17.0
1634,Сахалинская область,2012,44.0
1635,Еврейская автономная область,2012,15.0
1636,Чукотский автономный округ,2012,5.0


## 	Сброс основных загрязняющих веществ со сточными водами в водоемы Российской Федерации

In [None]:
# объединение таблиц разных лет в одну сводную
df = pd.read_csv("2001_vol.csv")
df1 = pd.read_csv("2005_vol.csv")
df = df.merge(df1, on='0', how='outer')
df = df.drop(['1_y', '2_y', '3_y'], axis=1) # удаление дублирующихся столбцов
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11']

df1 = pd.read_csv("2007_vol.csv")
df = df.merge(df1, on='0', how='outer')
df = df.drop(['1_y', '2_y', '3_y'], axis=1) # удаление дублирующихся столбцов
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11','12','13']

df1 = pd.read_csv("2009_vol.csv")
df = df.merge(df1, on='0', how='outer')
df = df.drop(['1_y', '2_y', '3_y'], axis=1) # удаление дублирующихся столбцов
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11','12','13','14','15']

df1 = pd.read_csv("2011_vol.csv")
df = df.merge(df1, on='0', how='outer')
df = df.drop(['1_y', '2_y', '3_y'], axis=1) # удаление дублирующихся столбцов
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11','12','13','14','15','16']

df1 = pd.read_csv("2013_vol.csv")
df1 = df1.drop(['1', '2'], axis=1) # удаление дублирующихся столбцов

# приведение названий к одному виду
df1.loc[df1['0'] == 'нитратов2),, тыс. т', '0'] = 'нитратов, тыс. т'
df1.loc[df1['0'] == 'жиров и масел3), тыс. т', '0'] = 'жиров и масел, тыс. т'
df1.loc[2,'0'] = 'Объем сброса сточных вод, требующих очистки *'
df.loc[2,'0'] = 'Объем сброса сточных вод, требующих очистки *'

# замена запятой на десятичную точку
df1['3'] = df1['3'].str.replace(',', '.')
df1['4'] = df1['4'].str.replace(',', '.')
df1['5'] = df1['5'].str.replace(',', '.')

df = df.merge(df1, on='0', how='outer')
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11','12','13','14','15','16','17','18','19']

df1 = pd.read_csv("2015_vol.csv")
df1 = df1.drop(['1', '2','3','4'], axis=1)
df1.loc[2,'0'] = 'Объем сброса сточных вод, требующих очистки *'
df1['5'] = df1['5'].str.replace(',', '.')
df1['6'] = df1['6'].str.replace(',', '.')
# замена типа данных столбца
df['5'] = df['5'].astype(float)
df['6'] = df['6'].astype(float)
df = df.merge(df1, on='0', how='outer')
df.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11','12','13','14','15','16','17','18','19','20','21']

#добавляем данные по ртути за прошлые годы из таблиц за 2013 и 2015 годы (ртуть присутствует только там)
df.loc[14,'7'] = 0.2
df.loc[14,'12'] = 0.1
df.loc[14,'17'] = 0.2
df.loc[14,'18'] = 0.1
df.loc[14,'19'] = 0.1


In [None]:
# делаем правильные названия столбцов
df.columns = ['indicator', '1990',	'1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014']
df = df.drop([0,3])

In [None]:
#меняем тип данных в столбцах
df['2010'] = df['2010'].astype(float)
df['2011'] = df['2011'].astype(float)
df['2012'] = df['2012'].astype(float)
df['2013'] = df['2013'].astype(float)
df['2014'] = df['2014'].astype(float)

In [None]:
# в последней таблице строка "жиров и масел" имеет другие ед.изм. Приводим в соответствие
df.loc[9,'2013'] = round(df.loc[9,'2013'] / 1000, 2)
df.loc[9,'2014'] = round(df.loc[9,'2014'] / 1000, 2)

In [None]:
# разделим таблицу на две, поместив отдельно данные по сбросам воды в кубометрах
# чтобы не выводить их на одном графике с загрязнениями в тоннах
df1 = df.iloc[0:2]
df = df.drop([1,2]).reset_index(drop=True)


Сохраняем файлы для дальнейшей работы с DataLens.

In [None]:
# сохраняем промежуточный вариант таблицы
df.to_csv('pollutants_in_water.csv', index=False)
df1.to_csv('pollutants_in_water_1.csv', index=False)

In [None]:
# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df = pd.melt(df, id_vars=['indicator'], value_vars=['1990',	'1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014'],
              var_name ='year', value_name ='value')

df1 = pd.melt(df1, id_vars=['indicator'], value_vars=['1990',	'1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014'],
              var_name ='year', value_name ='value')

df.to_csv('pollutants_in_water_df.csv', index=False)
df1.to_csv('pollutants_in_water_1_df.csv', index=False)

In [None]:
df1

Unnamed: 0,indicator,year,value
0,"Объем сброса сточных вод, млрд. м3",1990,75.2
1,"Объем сброса сточных вод, требующих очистки *",1990,41.3
2,"Объем сброса сточных вод, млрд. м3",1995,59.9
3,"Объем сброса сточных вод, требующих очистки *",1995,44.8
4,"Объем сброса сточных вод, млрд. м3",1996,58.9
5,"Объем сброса сточных вод, требующих очистки *",1996,42.6
6,"Объем сброса сточных вод, млрд. м3",1997,59.3
7,"Объем сброса сточных вод, требующих очистки *",1997,43.3
8,"Объем сброса сточных вод, млрд. м3",1998,55.7
9,"Объем сброса сточных вод, требующих очистки *",1998,44.0


## Санитарное состояние питьевого водоснабжения
Разобьем исходную таблицу на три, в соответствии с группировкой показателей.

А - Число обследованных объектов;

В - Число проб, не отвечающих гигиеническим нормативам, в процентах от общего числа исследованных проб по санитарно-химическим показателям;

С - Число проб, не отвечающих гигиеническим нормативам, в процентах от общего числа исследованных проб по микробиологическим показателям.

Поскольку здесь данных не очень много, то проще объединение таблиц было сделать руками в google-sheets. Сюда  загрузим уже готовые сводные таблицы и преобразуем их в датафреймы.

In [None]:
df_A = pd.read_csv("san_cond_A.csv")
df_B = pd.read_csv("san_cond_B.csv")
df_C = pd.read_csv("san_cond_C.csv")

In [None]:
# делаем правильные названия столбцов
df_A.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_A = df_A.drop([0])
df_B.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_B = df_B.drop([0])
df_C.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_C = df_C.drop([0])

In [None]:
# Исправляем названия показателей
df_A.loc[2,'indicator'] = 'Источники ЦВС в сельских поселениях'
df_A.loc[4,'indicator'] = 'Водопроводы в сельских поселениях'
df_B.loc[2,'indicator'] = 'Источники ЦВС в сельских поселениях'
df_B.loc[4,'indicator'] = 'Водопроводы в сельских поселениях'
df_C.loc[2,'indicator'] = 'Источники ЦВС в сельских поселениях'
df_C.loc[4,'indicator'] = 'Водопроводы в сельских поселениях'

In [None]:
# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df_A = pd.melt(df_A, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_B = pd.melt(df_B, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_C = pd.melt(df_C, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')

# добаваляем столбцы с признаком группировки в каждую таблицу
df_A.insert(2, "param", 'examine')
df_B.insert(2, "param", 'sanit')
df_C.insert(2, "param", 'bio')

# объединяем три датафрейма в один по строкам
df_summ = pd.concat([df_A, df_B, df_C])

# замена запятой на десятичную точку
df_summ.value.replace(',', '.', regex=True, inplace = True)

df_summ.to_csv('san_cond_df.csv', index=False)
df_summ

Unnamed: 0,indicator,year,param,value
0,источники централизованного водоснабжения,1995,examine,104.8
1,Источники ЦВС в сельских поселениях,1995,examine,82.5
2,водопроводы,1995,examine,62.2
3,Водопроводы в сельских поселениях,1995,examine,51.8
4,источники централизованного водоснабжения,1996,examine,107.2
...,...,...,...,...
135,источники централизованного водоснабжения,2022,bio,3.8
136,Источники ЦВС в сельских поселениях,2022,bio,
137,водопроводы,2022,bio,1.9
138,Водопроводы в сельских поселениях,2022,bio,2.5


## САНИТАРНОЕ СОСТОЯНИЕ ИМПОРТИРУЕМОГО ПРОДОВОЛЬСТВЕННОГО СЫРЬЯ И ПИЩЕВЫХ ПРОДУКТОВ
(в процентах от общего числа исследованных проб)

Разобьем исходную таблицу на две, в соответствии с группировкой показателей

А - Число исследованных проб, не отвечающих медико-биологическим требованиям и гигиеническим нормативам по санитарно-химическим показателям;

В - Число исследованных проб, не отвечающих медико-биологическим требованиям и гигиеническим нормативам по микробиологическим показателям.

In [None]:
# Чтение таблицы из csv-файла
df = pd.read_csv("2001_import_food.csv")
# Разбиение на А и В
df_A = df.iloc[0:18].drop([1,2]).reset_index(drop=True)
df_B = df.drop(df.index[1:19]).reset_index(drop=True)

df1 = pd.read_csv("2005_import_food.csv")
df1.drop(['1','2'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

# Объединяем таблицы по первому столбцу с названиями показателей.
df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

df1 = pd.read_csv("2007_import_food.csv")
df1.drop(['1','2'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

# Названия показателей в таблицах разных лет отличаются.
# Для правильного объединения, нужно сделать их одинаковыми
df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']

df1 = pd.read_csv("2009_import_food.csv")
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:19].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:20]).reset_index(drop=True)

df_A.loc[10,'0'] = 'безалкогольные напитки'
df_B.loc[10,'0'] = 'безалкогольные напитки'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'алкогольные напитки'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14']

df1 = pd.read_csv("2011_import_food.csv")
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:19].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:20]).reset_index(drop=True)

df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'алкогольные напитки'
df_B.loc[16,'0'] = 'хлебобулочные и кондитерские изделия'
df_A.loc[16,'0'] = 'хлебобулочные и кондитерские изделия'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16']

df1 = pd.read_csv("2013_import_food.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[8,'0'] = 'сахар'
df1_A.loc[10,'0'] = 'жировые растительные продукты'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[7,'0'] = 'мукомольно-крупяные изделия'
df1_B.loc[8,'0'] = 'сахар'
df1_B.loc[10,'0'] = 'жировые растительные продукты'
df1_B.loc[12,'0'] = 'алкогольные напитки'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18']

df1 = pd.read_csv("2015_import_food.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.loc[0,'5'] = '2013'
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20']

df1 = pd.read_csv("2017_import_food.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22']

df1 = pd.read_csv("2019_import_food.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24']

df1 = pd.read_csv("2021_import_food.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = None
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26']

df1 = pd.read_excel("2023_import_food.xlsx")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'

df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26','27','28']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26','27','28']

# В таблицах разных лет отсутствующие данные обозначались по разному.
# Все эти обозначения нужно убрать.
df_A = df_A.replace('...', np.NaN)
df_A = df_A.replace('…', np.NaN)
df_A = df_A.replace('-', np.NaN)
df_A = df_A.replace('–', np.NaN)
df_B = df_B.replace('...', np.NaN)
df_B = df_B.replace('…', np.NaN)
df_B = df_B.replace('-', np.NaN)
df_B = df_B.replace('–', np.NaN)

# замена запятой на десятичную точку
df_A.replace(',', '.', regex=True, inplace = True)
df_B.replace(',', '.', regex=True, inplace = True)

# Некоторые таблицы содержат странные значения, похожие на розыгрыши из спортлото,
# типа "5 из 36" или "6 из 49". Попытаемся их  найти:
mask = df_A.applymap(lambda x: ' из ' in str(x))
dfM = df_A[mask.any(axis=1)]

pd.set_option('display.max_rows', None)
dfM
#display(df_A.T)
#display(df_B.T)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
12,мед и продукты пчеловодства,,6.5,7.6,7.6,9.6,1.1,3 из 39,2 из 27,0 из 16,...,,,,,,,,,,


In [None]:
# Сделаем предположение, что это количество плохих проб из числа произведенных.
# Пересчитаем такие значения в проценты.
df_A.loc[12,'7'] = round(3/39*100, 1)
df_A.loc[12,'8'] = round(2/27*100, 1)
df_A.loc[12,'9'] = 0
df_A.loc[12,'10'] = 0

# Повторим эти действия для второй таблицы
mask = df_B.applymap(lambda x: ' из ' in str(x))
dfM = df_B[mask.any(axis=1)]
dfM

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
11,алкогольные напитки,2.5,1.8,4.3,,,,0 из 5,0 из 1,,...,2.5,6.1,3.4,3.1,2.9,3.4,0.4,5.3,6.2,
12,мед и продукты пчеловодства,,,,,,,,,0 из 1,...,,,,,,,,,,
15,зерно и зернопродукты,10.3,1.3,10.0,9.9,9.5,6.7,19 из 89,13 из 88,4 из 45,...,,,,,,,,14.3,,


In [None]:
df_B.loc[11,'7'] = 0
df_B.loc[11,'8'] = 0
df_B.loc[11,'10'] = 0
df_B.loc[12,'9'] = 0
df_B.loc[12,'10'] = 0
df_B.loc[15,'7'] = round(19/89*100, 1)
df_B.loc[15,'8'] = round(13/88*100, 1)
df_B.loc[15,'9'] = round(4/45*100, 1)
df_B.loc[15,'10'] = round(4/40*100, 1)

In [None]:
# делаем правильные названия столбцов
df_A.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_A = df_A.drop([0])
df_B.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_B = df_B.drop([0])

In [None]:
# сохраняем промежуточный вариант таблиц
df_A.to_csv('import_food_A.csv', index=False)
df_B.to_csv('import_food_B.csv', index=False)

In [None]:
# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df_am = pd.melt(df_A, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_bm = pd.melt(df_B, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')

In [None]:
# добаваляем столбцы с признаком группировки в каждую таблицу
df_am.insert(2, "param", 'sanit')
df_bm.insert(2, "param", 'bio')

# объединяем два датафрейма в один по строкам
df_m = pd.concat([df_am, df_bm])

# сохраняем датафрейм
df_m.to_csv('import_food_df.csv', index=False)

## Правка названий регионов для отображения карты

In [None]:
df = pd.read_csv('regions_coords.csv')
df1 = pd.read_csv('regions_table.csv')

df.loc[40,'region'] = 'Архангельская область'
df.loc[52,'region'] = 'Кабардино-Балкарская Республика'
df.loc[53,'region'] = 'Карачаево-Черкесская Республика'
df.loc[19,'region'] = 'Республика Северная Осетия - Алания'
df.loc[45,'region'] = 'Чеченская Республика'
df.loc[14,'region'] = 'Удмуртская Республика'
df.loc[47,'region'] = 'Чувашская Республика'
df.loc[13,'region'] = 'Тюменская область'
df.loc[57,'region'] = 'Ханты-Мансийский автономный округ - Югра'
df.loc[32,'region'] = 'Ямало-Ненецкий автономный округ'
df.loc[33,'region'] = 'Читинская область/Забайкальский край'
df.loc[80,'region'] = 'Еврейская автономная область'
df.loc[84,'region'] = 'Чукотский автономный округ'
#df.loc[40,'region'] = ''

df_out = df.merge(df1, on='region', how='left')
#pd.set_option('display.max_rows', None)
df_out.drop('federal', axis=1, inplace=True)
#df_out
df_out.to_csv('regions_coords_for_medstat2.csv', index=False)

## САНИТАРНОЕ СОСТОЯНИЕ ПРОДОВОЛЬСТВЕННОГО СЫРЬЯ И ПИЩЕВЫХ ПРОДУКТОВ
(в процентах от общего числа исследованных проб)

Разобьем исходную таблицу на две, в соответствии с группировкой показателей

А - Число исследованных проб, не отвечающих медико-биологическим требованиям и гигиеническим нормативам по санитарно-химическим показателям;

В - Число исследованных проб, не отвечающих медико-биологическим требованиям и гигиеническим нормативам по микробиологическим показателям.

In [None]:
# Чтение таблицы из csv-файла
df = pd.read_csv("2001_food_probe.csv")
# Разбиение на А и В
df_A = df.iloc[0:18].drop([1,2]).reset_index(drop=True)
df_B = df.drop(df.index[1:19]).reset_index(drop=True)

df1 = pd.read_csv("2005_food_probe.csv")
df1.drop(['1','2'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

# Объединяем таблицы по первому столбцу с названиями показателей.
df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10']

df1 = pd.read_csv("2007_food_probe.csv")
df1.drop(['1','2'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

# Названия показателей в таблицах разных лет отличаются.
# Для правильного объединения, нужно сделать их одинаковыми
df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[9,'0'] = 'жировые растительные продукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12']

df1 = pd.read_csv("2009_food_probe.csv")
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:19].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:20]).reset_index(drop=True)

df_A.loc[10,'0'] = 'безалкогольные напитки'
df_B.loc[10,'0'] = 'безалкогольные напитки'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'алкогольные напитки'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14']

df1 = pd.read_csv("2011_food_probe.csv")
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:19].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:20]).reset_index(drop=True)

df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'алкогольные напитки'
df_B.loc[16,'0'] = 'хлебобулочные и кондитерские изделия'
df_A.loc[16,'0'] = 'хлебобулочные и кондитерские изделия'
df1_A.loc[7,'0'] = 'мукомольно - крупяные изделия'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16']

df1 = pd.read_csv("2013_food_probe.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[7,'0'] = 'мукомольно - крупяные изделия'
df1_A.loc[8,'0'] = 'сахар'
df1_A.loc[10,'0'] = 'жировые растительные продукты'
df1_A.loc[12,'0'] = 'алкогольные напитки'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df_B.loc[17,'0'] = 'мукомольно - крупяные изделия'
df1_B.loc[7,'0'] = 'мукомольно - крупяные изделия'
df1_B.loc[8,'0'] = 'сахар'
df1_B.loc[10,'0'] = 'жировые растительные продукты'
df1_B.loc[12,'0'] = 'алкогольные напитки'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18']

df1 = pd.read_csv("2015_food_probe.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.loc[0,'5'] = '2013'
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'мукомольно - крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'мукомольно - крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20']

df1 = pd.read_csv("2017_food_probe.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22']

df1 = pd.read_csv("2019_food_probe.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
#df1_A.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
#df1_B.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24']

df1 = pd.read_csv("2021_food_probe.csv")
df1.iloc[0] = df1.columns
df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = None
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:17].drop([1]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:18]).reset_index(drop=True)

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[4,'0'] = 'молоко и молочные продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_A.loc[13,'0'] = 'продукты детского питания'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'
df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[4,'0'] = 'молоко и молочные продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[12,'0'] = 'мед и продукты пчеловодства'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'


df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26']

df1 = pd.read_excel("2023_food_probe.xlsx")
#df1.iloc[0] = df1.columns

df1.columns = ['0','1','2','3','4','5','6']
df1.loc[0,'0'] = np.NaN
df1.drop(['1','2','3','4'], axis=1, inplace=True)
df1_A = df1.iloc[0:18].drop([1,2]).reset_index(drop=True)
df1_B = df1.drop(df1.index[1:19]).reset_index(drop=True)
df1_B = df1_B.drop([16])

df1_A.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_A.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_A.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_A.loc[7,'0'] = 'сахар'
df1_A.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_A.loc[9,'0'] = 'жировые растительные продукты'
df1_A.loc[11,'0'] = 'алкогольные напитки'
df1_A.loc[15,'0'] = 'зерно и зернопродукты'

df1_B.loc[3,'0'] = 'птица и птицеводческие продукты'
df1_B.loc[5,'0'] = 'рыба, рыбные продукты и другие продукты моря'
df1_B.loc[6,'0'] = 'хлебобулочные и мукомольно-крупяные изделия'
df1_B.loc[7,'0'] = 'сахар'
df1_B.loc[8,'0'] = 'овощи и бахчевые культуры'
df1_B.loc[9,'0'] = 'жировые растительные продукты'
df1_B.loc[11,'0'] = 'алкогольные напитки'
df1_B.loc[15,'0'] = 'зерно и зернопродукты'

df_A = df_A.merge(df1_A, on='0', how='outer')
df_B = df_B.merge(df1_B, on='0', how='outer')
df_A.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26','27','28']
df_B.columns = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18','19','20','21','22','23','24','25','26','27','28']

# В таблицах разных лет отсутствующие данные обозначались по разному.
# Все эти обозначения нужно убрать.
df_A = df_A.replace('...', np.NaN)
df_A = df_A.replace('…', np.NaN)
df_A = df_A.replace('-', np.NaN)
df_A = df_A.replace('–', np.NaN)
df_B = df_B.replace('...', np.NaN)
df_B = df_B.replace('…', np.NaN)
df_B = df_B.replace('-', np.NaN)
df_B = df_B.replace('–', np.NaN)

# замена запятой на десятичную точку
df_A.replace(',', '.', regex=True, inplace = True)
df_B.replace(',', '.', regex=True, inplace = True)

# Некоторые таблицы содержат странные значения, похожие на розыгрыши из спортлото,
# типа "5 из 36" или "6 из 49". Попытаемся их  найти:
mask = df_B.applymap(lambda x: ' из ' in str(x))
dfM = df_B[mask.any(axis=1)]

pd.set_option('display.max_rows', None)
dfM

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
12,мед и продукты пчеловодства,3.6,6.0,2.4,2.1,2.7,2.4,2 из 61,2 из 45,5 из 46,...,0.9,1.1,11.3,2.8,2.5,5.5,1.4,2.4,,


In [None]:
df_A.loc[12,'7'] = round(2/61*100, 1)
df_A.loc[12,'8'] = round(2/45*100, 1)
df_A.loc[12,'9'] = round(5/46*100, 1)
df_A.loc[12,'10'] = 0

# делаем правильные названия столбцов
df_A.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_A = df_A.drop([0])
df_B.columns = ['indicator', '1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022']
df_B = df_B.drop([0])


In [None]:
# сохраняем промежуточный вариант таблиц
#df_A.to_csv('food_probe_A.csv', index=False)
#df_B.to_csv('food_probe_B.csv', index=False)

# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df_am = pd.melt(df_A, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_bm = pd.melt(df_B, id_vars=['indicator'], value_vars=['1995',	'1996',	'1997',	'1998',	'1999',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')

# добаваляем столбцы с признаком группировки в каждую таблицу
df_am.insert(2, "param", 'sanit')
df_bm.insert(2, "param", 'bio')

# объединяем два датафрейма в один по строкам
df_m = pd.concat([df_am, df_bm])

# сохраняем датафрейм
df_m.to_csv('food_probe_df.csv', index=False)
#df_am.to_csv('food_probe_A_df.csv', index=False)
#df_bm.to_csv('food_probe_B_df.csv', index=False)

## ДЕНЕЖНЫЕ РАСХОДЫ ДОМАШНИХ ХОЗЯЙСТВ НА ПЛАТНЫЕ УСЛУГИ В ОБЛАСТИ ЗДРАВООХРАНЕНИЯ И ОТДЫХА
(по материалам выборочного обследования бюджетов домашних хозяйств; в среднем на одного члена домашнего хозяйства; рублей; 1995 г. - тыс. руб.)

Формат данных в таблице 2001 года не совпадает с таблицами последующих годов. Поэтому таблицу за 2001 год мы исключаем.

Остальные разобьем на три части и соединим по годам.

А - все домашние хозяйства

В - в городской местности

С - в сельской местности

In [None]:
df = pd.read_csv('2005.csv')
# меняем названия столбцов
df.columns = ['indicator', '1995',	'2000',	'2001',	'2002',	'2003',	'2004']
df = df.drop([0]).reset_index(drop=True)
# делим таблицу на три части
df_A = df.iloc[1:7].drop([2]).reset_index(drop=True)
df_B = df.iloc[8:14].drop([9]).reset_index(drop=True)
df_C = df.iloc[15:21].drop([16]).reset_index(drop=True)
# заменим значения со скобкой на числовые, а многоточия на NaN
df_A.loc[3,'1995'] = np.NaN
df_A.loc[4,'1995'] = 5.4
df_B.loc[3,'1995'] = np.NaN
df_B.loc[4,'1995'] = 6.4
df_C.loc[3,'1995'] = np.NaN
df_C.loc[4,'1995'] = 2.4

In [None]:
df1 = pd.read_csv('2007.csv')
# удаляем повторяющиеся столбцы
df1.drop(['1','2'], axis=1, inplace=True)
# меняем названия столбцов
df1.columns = ['indicator',	'2005',	'2006']
df1 = df1.drop([0]).reset_index(drop=True)
# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

df_sum_A7 = df_A.merge(df1_A, on='indicator', how='outer')
df_sum_B7 = df_B.merge(df1_B, on='indicator', how='outer')
df_sum_C7 = df_C.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2009.csv')
# удаляем повторяющиеся столбцы
df1.drop(['1','2','3'], axis=1, inplace=True)
# меняем названия столбцов
df1.columns = ['indicator',	'2007',	'2008']
df1 = df1.drop([0]).reset_index(drop=True)
# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[2, 'indicator'] = 'санаторно-оздоровительные'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'
df1_A.loc[4, 'indicator'] = 'по организации отдыха и культурных мероприятий'

df1_B.loc[2, 'indicator'] = 'санаторно-оздоровительные'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'
df1_B.loc[4, 'indicator'] = 'по организации отдыха и культурных мероприятий'

df1_C.loc[2, 'indicator'] = 'санаторно-оздоровительные'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'
df1_C.loc[4, 'indicator'] = 'по организации отдыха и культурных мероприятий'

df_sum_A9 = df_sum_A7.merge(df1_A, on='indicator', how='outer')
df_sum_B9 = df_sum_B7.merge(df1_B, on='indicator', how='outer')
df_sum_C9 = df_sum_C7.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2011.csv')
# удаляем повторяющиеся столбцы
df1.drop(['1','2','3'], axis=1, inplace=True)
# меняем названия столбцов
df1.columns = ['indicator',	'2009',	'2010']
df1 = df1.drop([0]).reset_index(drop=True)
# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

df_sum_A11 = df_sum_A9.merge(df1_A, on='indicator', how='outer')
df_sum_B11 = df_sum_B9.merge(df1_B, on='indicator', how='outer')
df_sum_C11 = df_sum_C9.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2013.csv')

# удаляем повторяющиеся столбцы
df1.drop(['2000','2005','2010'], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2011',	'2012']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'


df_sum_A13 = df_sum_A11.merge(df1_A, on='indicator', how='outer')
df_sum_B13 = df_sum_B11.merge(df1_B, on='indicator', how='outer')
df_sum_C13 = df_sum_C11.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2015.csv')

# удаляем повторяющиеся столбцы
df1.drop(['2005','2010','2011', '2012'], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2013',	'2014']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'


df_sum_A15 = df_sum_A13.merge(df1_A, on='indicator', how='outer')
df_sum_B15 = df_sum_B13.merge(df1_B, on='indicator', how='outer')
df_sum_C15 = df_sum_C13.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2017.csv')

# удаляем повторяющиеся столбцы
df1.drop(['2005','2010','2013', '2014'], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2015',	'2016']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'


df_sum_A17 = df_sum_A15.merge(df1_A, on='indicator', how='outer')
df_sum_B17 = df_sum_B15.merge(df1_B, on='indicator', how='outer')
df_sum_C17 = df_sum_C15.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2019.csv')

# удаляем повторяющиеся столбцы
df1.drop(['2005','2010','2015', '2016'], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2017',	'2018']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'


df_sum_A19 = df_sum_A17.merge(df1_A, on='indicator', how='outer')
df_sum_B19 = df_sum_B17.merge(df1_B, on='indicator', how='outer')
df_sum_C19 = df_sum_C17.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_csv('2021.csv')

# удаляем повторяющиеся столбцы
df1.drop(['2005','2010','2015', '2018'], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2019',	'2020']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'
df1_C.loc[4, 'indicator'] = 'по организации отдыха и культурных мероприятий'

df_sum_A21 = df_sum_A19.merge(df1_A, on='indicator', how='outer')
df_sum_B21 = df_sum_B19.merge(df1_B, on='indicator', how='outer')
df_sum_C21 = df_sum_C19.merge(df1_C, on='indicator', how='outer')

In [None]:
df1 = pd.read_excel('2023.xlsx')

# удаляем повторяющиеся столбцы
df1.drop([2010,2015, 2019, 2020], axis=1, inplace=True)

# меняем названия столбцов
df1.columns = ['indicator',	'2021',	'2022']

# делим таблицу на три части
df1_A = df1.iloc[1:7].drop([2]).reset_index(drop=True)
df1_B = df1.iloc[8:14].drop([9]).reset_index(drop=True)
df1_C = df1.iloc[15:21].drop([16]).reset_index(drop=True)

# приведем написание показателей в таблицах разных годов к одинаковому виду
df1_A.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_A.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_B.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_B.loc[3, 'indicator'] = 'в области физкультуры и спорта'

df1_C.loc[0, 'indicator'] = 'Расходы на оплату услуг - всего'
df1_C.loc[3, 'indicator'] = 'в области физкультуры и спорта'


df_sum_A23 = df_sum_A21.merge(df1_A, on='indicator', how='outer')
df_sum_B23 = df_sum_B21.merge(df1_B, on='indicator', how='outer')
df_sum_C23 = df_sum_C21.merge(df1_C, on='indicator', how='outer')

In [None]:
# преобразуем получившуюся у нас сводную таблицу в датафрейм, с которым можно будет работать в DataLens
df_sum_A = pd.melt(df_sum_A23, id_vars=['indicator'], value_vars=['1995',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_sum_B = pd.melt(df_sum_B23, id_vars=['indicator'], value_vars=['1995', '2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')
df_sum_C = pd.melt(df_sum_C23, id_vars=['indicator'], value_vars=['1995',	'2000',	'2001',	'2002',	'2003',	'2004',	'2005',	'2006',	'2007',	'2008',	'2009',	'2010',	'2011',	'2012', '2013',	'2014', '2015',	'2016',	'2017',	'2018',	'2019',	'2020',	'2021',	'2022'],
              var_name ='year', value_name ='value')

# добаваляем столбцы с признаком группировки в каждую таблицу
df_sum_A.insert(2, "param", 'all')
df_sum_B.insert(2, "param", 'city')
df_sum_C.insert(2, "param", 'country')

# объединяем три датафрейма в один по строкам
df_sum = pd.concat([df_sum_A, df_sum_B, df_sum_C])

# замена запятой на десятичную точку
df_sum.value.replace(',', '.', regex=True, inplace = True)

# сохраняем датафрейм
df_sum.to_csv('paid_healthcare_df.csv', index=False)

## ЧИСЛЕННОСТЬ МУЖЧИН И ЖЕНЩИН, ЗАНЯТЫХ ВО ВРЕДНЫХ УСЛОВИЯХ ТРУДА, ПО ВИДАМ ВОЗДЕЙСТВУЮЩИХ ПРОИЗВОДСТВЕННЫХ ФАКТОРОВ.
(в пpоцентах от общей численности pаботников соответствующего пола в отpасли)

* не вошло в дашборд

In [None]:
#df.columns = ['ind', 'nm', 'nw', 'vm', 'vw', 'dm', 'dw', 'gm', 'gw']

# читаем таблицу, убираем незначащие строки, присваиваем название столбцам согласно легенде:
# n-noise, v-vibration, d-dust, g-gas, m-man, w-woman. Число отображает порядковый номер года.
df1 = pd.read_csv('2005_stats.csv').drop([0,1,2,4,8,26]).reset_index(drop=True)
df1.columns = ['ind', 'nm1', 'nw1', 'vm1', 'vw1', 'dm1', 'dw1', 'gm1', 'gw1']

df2 = pd.read_csv('2007_stats.csv').drop([0,1,2,4,8,26]).reset_index(drop=True)
df2.columns = ['ind', 'nm2', 'nw2', 'vm2', 'vw2', 'dm2', 'dw2', 'gm2', 'gw2']
dfm = df1.merge(df2, on='ind', how='outer')

df3 = pd.read_csv('2009_stats.csv').drop([0,1,2,4,8,26]).reset_index(drop=True)
df3.columns = ['ind', 'nm3', 'nw3', 'vm3', 'vw3', 'dm3', 'dw3', 'gm3', 'gw3']
df3.loc[8,'ind'] = dfm.loc[8,'ind']
df3.loc[13,'ind'] = dfm.loc[13,'ind']
df3.loc[18,'ind'] = dfm.loc[18,'ind']
df3.loc[19,'ind'] = dfm.loc[19,'ind']
df3.loc[20,'ind'] = dfm.loc[20,'ind']
dfm = dfm.merge(df3, on='ind', how='outer')

df4 = pd.read_csv('2011_stats.csv').drop([0,1,2,4,8,26]).reset_index(drop=True)
df4.columns = ['ind', 'nm4', 'nw4', 'vm4', 'vw4', 'dm4', 'dw4', 'gm4', 'gw4']
df4.ind = dfm.ind
dfm = dfm.merge(df4, on='ind', how='outer')

df5 = pd.read_excel('2013_stats.xlsx').drop([0,1,3,7,25]).reset_index(drop=True)
df5.columns = ['ind', 'nm5', 'nw5', 'vm5', 'vw5', 'dm5', 'dw5', 'gm5', 'gw5']
df5.ind = dfm.ind
dfm = dfm.merge(df5, on='ind', how='outer')

df6 = pd.read_excel('2015_stats.xlsx').drop([0,1,2,3,5,9,27]).reset_index(drop=True)
df6.columns = ['ind', 'nm6', 'nw6', 'vm6', 'vw6', 'dm6', 'dw6', 'gm6', 'gw6']
df6.ind = dfm.ind
dfm = dfm.merge(df6, on='ind', how='outer')

df7 = pd.read_excel('2017_stats.xlsx').drop([0,1,2,3,6,10,28]).reset_index(drop=True)
df7.columns = ['ind', 'nm7', 'nw7', 'vm7', 'vw7', 'dm7', 'dw7', 'gm7', 'gw7']
# с этого года появился новый показатель. Добавляем его в список
b = pd.Series(df7.loc[0,'ind'])
df7.ind = pd.concat([b,dfm.ind]).reset_index(drop=True)
dfm = dfm.merge(df7, on='ind', how='outer')

df = pd.read_excel('2019_stats.xlsx')
df.columns = ['ind', 'nm', 'nw', 'vm', 'vw', 'dm', 'dw', 'gm', 'gw']
df = df.drop([0,1,2,3])
# формируем столбец с названиями показателей
df_ind = df.drop(df.index[df['ind']==2017]).drop(df.index[df['ind']==2018]).reset_index(drop=True)
#формируем таблицы по годам
df_17 = df[df.ind == 2017].reset_index(drop=True)
df_18 = df[df.ind == 2018].reset_index(drop=True)

#приводим названия показателей к одному виду
dfm.loc[23,'ind'] = df_ind.loc[0, 'ind']
df_ind.loc[4, 'ind'] = dfm.loc[18,'ind']
df_ind.loc[6, 'ind'] = dfm.loc[19,'ind']
df_ind.loc[7, 'ind'] = dfm.loc[21,'ind']
df_ind.loc[8, 'ind'] = dfm.loc[22,'ind']
df_17.ind = df_18.ind =  df_ind.ind

df_17.columns = ['ind', 'nm8', 'nw8', 'vm8', 'vw8', 'dm8', 'dw8', 'gm8', 'gw8']
df_18.columns = ['ind', 'nm9', 'nw9', 'vm9', 'vw9', 'dm9', 'dw9', 'gm9', 'gw9']

dfm = dfm.merge(df_17, on='ind', how='outer').merge(df_18, on='ind', how='outer')

df = pd.read_excel('2021_stats.xlsx')
df.columns = ['ind', 'nm', 'nw', 'vm', 'vw', 'dm', 'dw', 'gm', 'gw']
df = df.drop([0,1,2,3])
# формируем столбец с названиями показателей
df_ind = df.drop(df.index[df['ind']==2019]).drop(df.index[df['ind']==2020]).reset_index(drop=True)
#формируем таблицы по годам
df_19 = df[df.ind == 2019].reset_index(drop=True)
df_20 = df[df.ind == 2020].reset_index(drop=True)

#приводим названия показателей к одному виду
df_ind.loc[1, 'ind'] = dfm.loc[24,'ind']
df_ind.loc[4, 'ind'] = dfm.loc[18,'ind']
df_ind.loc[5, 'ind'] = dfm.loc[25,'ind']
df_ind.loc[6, 'ind'] = dfm.loc[19,'ind']
df_ind.loc[7, 'ind'] = dfm.loc[21,'ind']
df_ind.loc[8, 'ind'] = dfm.loc[22,'ind']
df_19.ind = df_20.ind =  df_ind.ind

df_19.columns = ['ind', 'nm10', 'nw10', 'vm10', 'vw10', 'dm10', 'dw10', 'gm10', 'gw10']
df_20.columns = ['ind', 'nm11', 'nw11', 'vm11', 'vw11', 'dm11', 'dw11', 'gm11', 'gw11']

dfm = dfm.merge(df_19, on='ind', how='outer').merge(df_20, on='ind', how='outer')

# 2023 год
df = pd.read_excel('2023_stats.xlsx')
df.columns = ['ind', 'nm', 'nw', 'vm', 'vw', 'dm', 'dw', 'gm', 'gw']
df = df.drop([0,1,2])
# формируем столбец с названиями показателей
df_ind = df.drop(df.index[df['ind']==2021]).drop(df.index[df['ind']==2022]).reset_index(drop=True)
#формируем таблицы по годам
df_21 = df[df.ind == 2021].reset_index(drop=True)
df_22 = df[df.ind == 2022].reset_index(drop=True)

#приводим названия показателей к одному виду
df_ind.loc[1, 'ind'] = dfm.loc[24,'ind']
df_ind.loc[4, 'ind'] = dfm.loc[18,'ind']
df_ind.loc[5, 'ind'] = dfm.loc[25,'ind']
df_ind.loc[6, 'ind'] = dfm.loc[19,'ind']
df_ind.loc[7, 'ind'] = dfm.loc[21,'ind']
df_ind.loc[8, 'ind'] = dfm.loc[22,'ind']
df_21.ind = df_22.ind =  df_ind.ind

df_21.columns = ['ind', 'nm12', 'nw12', 'vm12', 'vw12', 'dm12', 'dw12', 'gm12', 'gw12']
df_22.columns = ['ind', 'nm13', 'nw13', 'vm13', 'vw13', 'dm13', 'dw13', 'gm13', 'gw13']

dfm = dfm.merge(df_21, on='ind', how='outer').merge(df_22, on='ind', how='outer')

In [None]:
# перед преобразованием pivot в dataframe создадим список значений из заголовков столбцов получившейся сводной таблицы
x = dfm.columns
x = x.drop('ind')

# преобразовываем...
df_blank = pd.melt(dfm, id_vars=['ind'], value_vars= x, var_name ='code', value_name ='value')

In [None]:
# добавляем столбцы gender, factor и year и наполняем их значениями согласно нашей легенде (см. выше)
df_blank['gender'] = 'женщины'
df_blank.loc[df_blank['code'].str.contains('m'), 'gender'] = 'мужчины'

df_blank['factor'] = 'уpовня шума, ультpа- и инфpазвуков'
df_blank.loc[df_blank['code'].str.contains('v'), 'factor'] = 'уpовня вибpации'
df_blank.loc[df_blank['code'].str.contains('d'), 'factor'] = 'запыленности воздуха pабочей зоны'
df_blank.loc[df_blank['code'].str.contains('g'), 'factor'] = 'загазованности воздуха pабочей зоны'

years = [2004,2006,2008,2010,2012,2014,2016,2017,2018,2019,2020,2021,2022]
for index, x in enumerate(years, start=1):
  df_blank.loc[df_blank['code'].str.contains(str(index)), 'year'] = x
df_blank.value = df_blank.value.astype('float')
df_blank.year = df_blank.year.astype('int')

# убираем столбец с кодами, который уже не нужен
df_blank.drop('code', axis=1, inplace=True)
# переименуем столбец штоб было красиво
df_blank.rename(columns={"ind": "indicator"}, inplace=True)

# сохраняем датафрейм
df_blank.to_csv('harmful_industry_df.csv', index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2704 entries, 0 to 2703
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   indicator  2704 non-null   object 
 1   value      1728 non-null   float64
 2   gender     2704 non-null   object 
 3   factor     2704 non-null   object 
 4   year       2704 non-null   int64  
dtypes: float64(1), int64(1), object(3)
memory usage: 105.8+ KB


## ПРОИЗВОДСТВЕННЫЙ ТРАВМАТИЗМ

здесь необходимо разделить данные по трем таблицам.
- численность пострадавших и погибших при несчастных случаях на производстве; мужчин и женщин в абсолютном выражении
- то же самое в пересчете на тысячу работающих;
- число человеко-дней нетрудоспособности у пострадавших на производстве.

In [None]:
# 2001
df1 = pd.read_csv('2001_trauma.csv')
# делаем заголовками столбцов годы
df1.columns = df1.iloc[0].fillna(0).astype('int')
df1.rename(columns={0: "indicator"}, inplace=True)
df1.drop(0, inplace=True)
# Разбиение таблицы на три
df1_1 = df1.iloc[2:8].drop([5,6]).reset_index(drop=True)
df1_2 = df1.iloc[9:16].drop(13).reset_index(drop=True)
df1_3 = df1.drop(df1.index[0:17]).reset_index(drop=True)

# 2005
df2 = pd.read_csv('2005_trauma.csv')
# делаем заголовками столбцов годы
df2.columns = df2.iloc[0].fillna(0).astype('int')
df2.drop(0, inplace=True)
df2.drop([0,1990,1995,2000], axis=1, inplace=True)
# Разбиение таблицы на три
df2_1 = df2.iloc[2:8].drop([5,6]).reset_index(drop=True)
df2_2 = df2.iloc[9:16].drop(13).reset_index(drop=True)
df2_3 = df2.drop(df2.index[0:17]).reset_index(drop=True)

# 2007
df3 = pd.read_csv('2007_trauma.csv')
# делаем заголовками столбцов годы
df3.columns = df3.iloc[0].fillna(0).astype('int')
df3.drop(0, inplace=True)
df3.drop([0,1990,1995,2000], axis=1, inplace=True)
# Разбиение таблицы на три
df3_1 = df3.iloc[2:8].drop([5,6]).reset_index(drop=True)
df3_2 = df3.iloc[9:16].drop(13).reset_index(drop=True)
df3_3 = df3.drop(df3.index[0:17]).reset_index(drop=True)

# 2009
df4 = pd.read_csv('2009_trauma.csv')
# делаем заголовками столбцов годы
df4.columns = df4.iloc[0].fillna(0).astype('int')
df4.drop(0, inplace=True)
df4.drop([0,1995,2000,2005], axis=1, inplace=True)
# Разбиение таблицы на три
df4_1 = df4.iloc[2:8].drop([5,6]).reset_index(drop=True)
df4_2 = df4.iloc[9:16].drop(13).reset_index(drop=True)
df4_3 = df4.drop(df4.index[0:17]).reset_index(drop=True)

# 2011
df5 = pd.read_csv('2011_trauma.csv')
# делаем заголовками столбцов годы
df5.columns = df5.iloc[0].fillna(0).astype('int')
df5.drop(0, inplace=True)
df5.drop([0,1995,2000,2005], axis=1, inplace=True)
# Разбиение таблицы на три
df5_1 = df5.iloc[2:8].drop([5,6]).reset_index(drop=True)
df5_2 = df5.iloc[9:16].drop(13).reset_index(drop=True)
df5_3 = df5.drop(df5.index[0:17]).reset_index(drop=True)

# 2013
df6 = pd.read_csv('2013_trauma.csv')
df6.drop(['Unnamed: 0','2000','2005','2010'], axis=1, inplace=True)
# замена запятой на десятичную точку
df6.replace(',', '.', regex=True, inplace = True)
# Разбиение таблицы на три
df6_1 = df6.iloc[2:8].drop([4,5]).reset_index(drop=True)
df6_2 = df6.iloc[9:16].drop(12).reset_index(drop=True)
df6_3 = df6.drop(df6.index[0:17]).reset_index(drop=True)

# 2015
df7 = pd.read_csv('2015_trauma.csv')
df7.drop(['Unnamed: 0','2005','2010','2011','2012'], axis=1, inplace=True)
# замена запятой на десятичную точку
df7.replace(',', '.', regex=True, inplace = True)
# Разбиение таблицы на три
df7_1 = df7.iloc[2:8].drop([4,5]).reset_index(drop=True)
df7_2 = df7.iloc[9:16].drop(12).reset_index(drop=True)
df7_3 = df7.drop(df7.index[0:17]).reset_index(drop=True)

# 2017
df8 = pd.read_csv('2017_trauma.csv')
df8.drop(['Unnamed: 0','2005','2010','2013','2014'], axis=1, inplace=True)
# замена запятой на десятичную точку
df8.replace(',', '.', regex=True, inplace = True)
# Разбиение таблицы на три
df8_1 = df8.iloc[2:8].drop([4,5]).reset_index(drop=True)
df8_2 = df8.iloc[9:16].drop(12).reset_index(drop=True)
df8_3 = df8.drop(df8.index[0:17]).reset_index(drop=True)

# 2019
df9 = pd.read_csv('2019_trauma.csv')
df9.drop(['Unnamed: 0','2005','2010','2015','2016'], axis=1, inplace=True)
# замена запятой на десятичную точку
df9.replace(',', '.', regex=True, inplace = True)
# Разбиение таблицы на три
df9_1 = df9.iloc[2:8].drop([4,5]).reset_index(drop=True)
df9_2 = df9.iloc[9:16].drop(12).reset_index(drop=True)
df9_3 = df9.drop(df9.index[0:17]).reset_index(drop=True)

# 2021
df10 = pd.read_csv('2021_trauma.csv')
df10.drop(['Unnamed: 0','2005','2010','2015','2018'], axis=1, inplace=True)
# в  исходной таблице обнаружилась опечатка - два столбца с годом 2019. При парсинге остался только один, последний
# данных немного, добавим столбец вручную
df10['2020'] = df10['2019']
df10['2019'] = [0,23.3,16.3,7.0,0,1.06,1.00,0.06,0,1.2,1.4,0.8,0,0.053,0.087,0.007,0,1.2,50.6]
# замена запятой на десятичную точку
df10.replace(',', '.', regex=True, inplace = True)
# Разбиение таблицы на три
df10_1 = df10.iloc[2:8].drop([4,5]).reset_index(drop=True)
df10_2 = df10.iloc[9:16].drop(12).reset_index(drop=True)
df10_3 = df10.drop(df10.index[0:17]).reset_index(drop=True)

# 2023
df11 = pd.read_excel('2023_trauma.xlsx')
df11.drop([0,2010,2015,2019,2020], axis=1, inplace=True)
# Разбиение таблицы на три
df11_1 = df11.iloc[2:8].drop([4,5]).reset_index(drop=True)
df11_2 = df11.iloc[9:16].drop(12).reset_index(drop=True)
df11_3 = df11.drop(df11.index[0:17]).reset_index(drop=True)

# присоединение таблиц по годам
df_1 = pd.concat([df1_1,df2_1,df3_1,df4_1,df5_1,df6_1,df7_1,df8_1,df9_1,df10_1,df11_1], axis=1)
df_2 = pd.concat([df1_2,df2_2,df3_2,df4_2,df5_2,df6_2,df7_2,df8_2,df9_2,df10_2,df11_2], axis=1)
df_3 = pd.concat([df1_3,df2_3,df3_3,df4_3,df5_3,df6_3,df7_3,df8_3,df9_3,df10_3,df11_3], axis=1)

# переименуем названия параметров согласно легенде:
# a - absolute; r - relative; i - injured; d - died; m - man; w - woman; b - both
df_1['indicator'] = ['aim', 'aiw', 'adm', 'adw']
df_2['indicator'] = ['rib', 'rim', 'rib', 'rdb', 'rdm', 'rdw']

In [None]:
display(df_1)
display(df_2)
display(df_3)

Unnamed: 0,indicator,1990,1995,1996,1997,1998,1999,2000,2001,2002,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,aim,335.2,209.5,168.3,144.3,122.8,119.2,116.7,110.5,96.0,...,24.9,21.9,19.7,18.7,17.7,16.6,16.3,14.4,15.1,14.4
1,aiw,97.2,61.2,44.2,40.9,35.7,33.9,35.1,34.2,31.7,...,10.7,9.4,8.5,8.1,7.8,7.0,7.0,6.1,6.5,5.9
2,adm,7.83,6.36,5.11,4.44,4.03,4.0,4.15,4.09,3.66,...,1.57,1.35,1.2,1.21,1.07,1.0,1.0,0.85,1.12,1.0
3,adw,0.56,0.43,0.27,0.29,0.27,0.26,0.25,0.28,0.26,...,0.13,0.11,0.09,0.08,0.07,0.07,0.06,0.07,0.09,0.07


Unnamed: 0,indicator,1990,1995,1996,1997,1998,1999,2000,2001,2002,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,rib,6.6,5.5,6.1,5.8,5.3,5.2,5.1,5.0,4.5,...,1.7,1.4,1.3,1.3,1.3,1.2,1.2,1.0,1.1,1.0
1,rim,10.6,8.5,8.7,8.0,7.2,7.2,7.0,6.8,6.1,...,2.1,1.8,1.7,1.6,1.6,1.5,1.4,1.2,1.3,1.2
2,riv,2.9,2.5,2.9,2.9,2.7,2.6,2.7,2.7,2.5,...,1.1,1.0,0.9,0.9,0.9,0.8,0.8,0.7,0.8,0.7
3,rdb,0.129,0.138,0.155,0.148,0.142,0.144,0.149,0.15,0.138,...,0.08,0.067,0.062,0.062,0.056,0.054,0.053,0.045,0.06,0.053
4,rdm,0.247,0.277,0.264,0.247,0.236,0.242,0.25,0.25,0.232,...,0.132,0.11,0.103,0.103,0.094,0.089,0.087,0.072,0.096,0.085
5,rdw,0.017,0.017,0.018,0.021,0.02,0.02,0.02,0.022,0.02,...,0.013,0.011,0.01,0.009,0.008,0.008,0.007,0.008,0.01,0.008


Unnamed: 0,indicator,1990,1995,1996,1997,1998,1999,2000,2001,2002,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,2022
0,"всего, млн.",10.2,7.2,5.7,5.1,4.4,4.3,4.3,4.1,3.7,...,1.7,1.5,1.4,1.3,1.2,1.2,1.2,1.0,1.0,1.0
1,на одного пострадавшего,23.4,26.7,27.0,27.5,27.9,27.9,28.3,28.4,28.8,...,47.4,48.7,48.6,49.0,48.7,49.3,50.6,49.9,46.3,48.4


In [None]:
pd.read_excel('2023_trauma.xlsx')


Unnamed: 0,0,2010,2015,2019,2020,2021,2022
0,Численность пострадавших при несчастных случая...,,,,,,
1,всего,47.7,28.2,23.3,20.5,21.6,20.3
2,мужчины,33.4,19.7,16.3,14.4,15.1,14.4
3,женщины,14.3,8.5,7.0,6.1,6.5,5.9
4,из них со смертельным исходом:,,,,,,
5,всего,2.0,1.29,1.06,0.91,1.21,1.07
6,мужчины,1.88,1.2,1.0,0.85,1.12,1.0
7,женщины,0.12,0.09,0.06,0.07,0.09,0.07
8,Численность пострадавших при несчастных случая...,,,,,,
9,всего,2.2,1.3,1.2,1.0,1.1,1.0
