# Визуализация отчетов главного онколога страны за 2011-2021 годы в России

<div style="border:solid green 2px; padding: 20px">

**Цель проекта:** визуализация данных годовых отчетов главного онколога Минздрава России Андрея Дмитриевича Каприна.  
**Заказчик:** руководитель информационной службы Медицинского объединения специализированного лечения онкологических заболеваний «Санрайз клиник» Андрей Валериевич Иванов.  
**Формат отчета:** [дашборд в DataLens.](https://datalens.yandex/kx754azn0z7i9?tab=MY&state=d1303e7f149)  
**Причина обращения:** желание заказчика видеть "юзабельный" интерфейс восприятия годовых отчетов.  
**Результат будет использоваться для:** изучения данных профильными специалистами, демонстрации возможностей визуальной отчетности для должностных лиц в сфере здравохранения.

<div style="border:solid yellow 2px; padding: 20px">

**Задача:** отобразить основные показатели состояния онкологической помощи различных локализаций в различных возрастных группах.


<div style="border:solid blue 2px; padding: 20px">

**Описание от заказчика:**
    
Этот отчет ежегодно публикуется. Последний опубликованный отчет это два PDF файла 491 страница больше двух сотен таблиц (многие многостраничные). Все это практически невозможно оценить ни в отношении долгосрочной динамики изменений, ни в смысле сравнения показателей различных регионов России между собой. Эти таблицы конвертированы в Эксель и теперь осуществляется попытка дать предметным специалистам (онкологам и организаторам здравоохранения) современный, технологичный, наглядный инструмент для анализа и сравнения. 

В перспективе этот проект видится как рейтинг онкологического благополучия регионов России. Хотя, вполне возможно, когда мы увидим цифры из годового отчета главного онколога России в виде современного, "юзабельного", удобно воспринимаемого дашборда, откроются самые неожиданные горизонты и возможности использования этих данных (заболеваемости, смертности, распространенности различных нозологических форм злокачественных новообразований в различных регионах России. А также сравнение эффективности диагностики и лечения) в различных регионах России.

Для данной работы получена только часть документов, а именно 15 Эксель файлов, которые требуется предобработать для дальнейшей загрузки в DataLens.


<div style="border:solid black 2px; padding: 20px">

**Описание данных:**

**Таблица 5:** Распространенность злокачественных новообразований в России в 2011-2021 гг.
(численность контингента больных на 100 тыс. населения)  

**Таблица 6:** Доля больных, состоявших на учете в онкологических учреждениях России 5 лет и более
с момента установления диагноза злокачественного новообразования, от числа состоявших на учете на конец отчетного года в 2011-2021 гг., %  

**Таблица 7:** 
Доля больных, состоявших на учете в онкологических учреждениях России 5 лет и более
с момента становления диагноза злокачественного новообразования, от числа состоявших на учете на конец отчетного года  5 лет назад  в 2011-2021 гг., %

**Таблица 8:** Индекс накопления контингента больных со злокачественными новообразованиями различных нозологических групп в России в 2011-2021 гг.

**Таблица 9:** Удельный вес больных с диагнозом, подтвержденным морфологически, от числа больных с впервые в жизни установленным диагнозом злокачественного новообразования в России в 2011-2021 гг., %

**Таблица 10:** Удельный вес больных со злокачественными новообразованиями, выявленных активно, от числа больных с впервые в жизни установленным диагнозом злокачественного новообразования в России в 2011-2021 гг., %

**Таблица 11:** Показатели активного выявления злокачественных новообразований в России в 2011-2021 гг.

**Таблица 12:** Выявление рака шейки матки в стадии in situ в России в 2011-2021 гг.

**Таблица 13:** Удельный вес злокачественных новообразований, выявленных в I-II стадии, из числе впервые выявленных злокачественных новообразований в России в 2011-2021 гг., %

**Таблица 14:** Удельный вес злокачественных новообразований, выявленных в III стадии, из числа впервые выявленных злокачественных новообразований  в России в 2011-2021 гг., %

**Таблица 15:** Удельный вес злокачественных новообразований, выявленных в запущенной стадии (IV стадия), из числа впервые выявленных злокачественных новообразований в России в 2011-2021 гг., %

**Таблица 16:** Летальность больных в течение года с момента установления диагноза злокачественного новообразования (из числа больных, впервые взятых на учет в предыдущем году) в России в 2011-2021 гг.,  %

**Таблица 17:** Основные показатели состояния онкологической помощи детскому населению (0-14 лет) России в 2011-2021 гг.

**Таблица 55:** Сведения о злокачественных новообразованиях, лечение которых не проводилось по причине отказа пациента и противопоказаний к проведению лечения в России в 2011-2021 гг.

**Таблица 56:** Сведения о лечении детей (0-14 лет) со злокачественными новообразованиями в России в 2011-2021 г.

In [297]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

## 1 Загрузка данных

In [298]:
home_folder = '/Users/User/Desktop/med_project' # зададим папку с исходными файлами

In [299]:
os.chdir(home_folder) # изменим рабочую директорию
os.getcwd() # отображение пути к рабочей директории

'C:\\Users\\User\\Desktop\\med_project'

In [300]:
list_of_files = [file for file in os.listdir() if file.endswith('.xlsx')] # создадим список файлов

In [301]:
list_of_files # проверим названия файлов

['2021_Таблица_005_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_006_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_007_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_008_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_009_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_010_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_011_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_012_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_013_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_014_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_015_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_016_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_017_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_055_Состояние_онко_помощи_в_РФ.xlsx',
 '2021_Таблица_056_Состояние_онко_помощи_в_РФ.xlsx']

In [302]:
# прочитаем файлы по отдельности
try:
    data5 = pd.read_excel(list_of_files[0], header = [3])
    data6 = pd.read_excel(list_of_files[1], header = [3])
    data7 = pd.read_excel(list_of_files[2], header = [3])
    data8 = pd.read_excel(list_of_files[3], header = [3])
    data9 = pd.read_excel(list_of_files[4], header = [3])
    data10 = pd.read_excel(list_of_files[5], header = [3])
    data11 = pd.read_excel(list_of_files[6], header = [2])
    data12 = pd.read_excel(list_of_files[7], header = [2])
    data13 = pd.read_excel(list_of_files[8], header = [3])
    data14 = pd.read_excel(list_of_files[9], header = [2])
    data15 = pd.read_excel(list_of_files[10], header = [2])
    data16 = pd.read_excel(list_of_files[11], header = [2])
    data17 = pd.read_excel(list_of_files[12], header = [5])
    data55 = pd.read_excel(list_of_files[13], header = [2])
    data56 = pd.read_excel(list_of_files[14], header = [2])
except:
    print('Ошибка чтения данных!')

## 2 Предобратобка данных

### Таблица 5

Будем работать с таблицами последовательно, чтобы не упустить важные моменты в их предобработке, таблицы не все одинаковые.

In [303]:
# переименуем колонки, удалим ненужную информацию
data5 = data5.rename(columns = {'Unnamed: 0':'name','Unnamed: 1':'mkb-10','2021*':2021})
data5 = data5.drop(index=25)
data5.head()

Unnamed: 0,name,mkb-10,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Все злокачествен. новообразования,С00-96,2029.0,2091.9,2159.4,2252.4,2325.2,2399.1,2472.4,2562.3,2676.6,2712.9,2690.5
1,Губа,С00,41.9,40.2,37.7,36.8,34.9,32.9,30.5,29.1,27.5,26.1,22.5
2,Полость рта,С01-09,23.1,23.3,24.4,25.2,25.9,26.6,27.2,28.5,29.7,30.8,30.8
3,Глотка,С10-13,10.1,10.2,10.7,11.2,11.5,11.7,11.9,12.3,12.7,13.2,12.8
4,Пищевод,С15,8.2,8.2,8.4,8.7,8.7,9.2,9.2,9.4,9.8,10.2,9.5


In [304]:
# проверим показатель всего данный с расчетным
rok = [2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021]
total = []
for i in rok:
    total.append((sum(data5[i]) - (2 * data5.loc[0,i])) / data5.loc[0,i] * 100)
print(total) # на сколько % отличается данный параметр всего от расчетного по годам 2011-2021

[-4.381468703794978, -4.259285816721679, -4.357691951468017, -4.302077783697373, -4.236194735936655, -4.314117794172777, -4.230707005338993, -4.316434453420733, -4.587910035119222, -4.312728076965642, -3.887753205723823]


На 4,4% есть отличия в расчетах показателя всего от данного (Все злокачествен. новообразования), пренебрежем этими отклонениями, удалим данный показатель (впоследствии всего будет рассчитываться по сумме показателей).

In [305]:
data5 = data5.drop(index=0).reset_index(drop=True)

In [306]:
data5.head()

Unnamed: 0,name,mkb-10,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Губа,С00,41.9,40.2,37.7,36.8,34.9,32.9,30.5,29.1,27.5,26.1,22.5
1,Полость рта,С01-09,23.1,23.3,24.4,25.2,25.9,26.6,27.2,28.5,29.7,30.8,30.8
2,Глотка,С10-13,10.1,10.2,10.7,11.2,11.5,11.7,11.9,12.3,12.7,13.2,12.8
3,Пищевод,С15,8.2,8.2,8.4,8.7,8.7,9.2,9.2,9.4,9.8,10.2,9.5
4,Желудок,С16,94.1,94.1,94.1,95.0,94.8,95.3,95.3,95.1,96.0,94.9,91.2


In [307]:
# создадим функцию модификации таблицы типа одна строка - одно значение (для первых двух колонок object)
def modify_2(table):    
    list_x = [] # создадим список для мини таблиц одной из таблицы исходников
    list_years = [2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021]
    for x in range(2,13): # перечислим все колонки с датой последовательно
        y = table[['name', 'mkb-10']] # выберем первые 2 поля с названиями
        y1 = y.copy()
        y1['year'] = table.columns[x] # добавим колонку год
        y1['result'] = table.iloc[:,x] # добавим колонку со значением и сохраним в переменной у
        list_x.append(y1) # добавим в список наш татасет у
    table_full = pd.concat(list_x, axis=0, ignore_index=True) # склеим мини таблицы в один датасет
                                                              # (данные ровно одной исходной таблицы)
    return table_full

In [308]:
# применим эту функцию к датасету data5 и заменим его
data5 = modify_2(data5)
data5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    264 non-null    object 
 1   mkb-10  264 non-null    object 
 2   year    264 non-null    int64  
 3   result  264 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 8.4+ KB


In [309]:
# добавим код МКБ-10 в название, т.к. заказчик предпочел видеть его рядом с наименованием класса онкологического заболевания
data5['name'] = data5['name'] + ', ' + data5['mkb-10']

In [310]:
data5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    264 non-null    object 
 1   mkb-10  264 non-null    object 
 2   year    264 non-null    int64  
 3   result  264 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 8.4+ KB


<div style="border:solid black 2px; padding: 20px">

Таблица 5 готова, типы данных в порядке,  
**2021 год рассчитан понаселению 2020 года!**

### Таблица 6

In [311]:
# напишем функцию переименования колонок
def rename_function(data):
    data = data.rename(columns = {'Unnamed: 0':'name','Unnamed: 1':'mkb-10'})
    return data

In [312]:
# заменим названия в колонках
data6 = rename_function(data6)
#data6 # Доля больных, состоявших на учете в онкологических учреждениях России 5 лет и более
#с момента установления диагноза злокачественного новообразования, от числа состоявших на учете на конец отчетного года
#в 2011-2021 гг., %

In [313]:
data6.head()

Unnamed: 0,name,mkb-10,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Все злокачествен. новообразования,С00-96,51.3,51.1,51.7,52.4,52.9,53.3,53.9,54.5,55.3,56.6,57.4
1,Губа,С00,75.1,74.7,74.9,75.1,75.6,76.1,76.3,76.3,76.8,74.4,75.9
2,Полость рта,С01-09,49.6,48.9,48.2,49.0,50.5,50.8,51.8,51.9,52.2,52.0,52.3
3,Глотка,С10-13,41.2,39.9,39.8,40.2,40.4,40.4,41.9,42.6,43.6,43.2,43.4
4,Пищевод,С15,32.4,31.8,31.9,32.3,33.0,34.6,35.8,37.5,38.2,38.5,38.3


In [314]:
# применим функцию модификации датасета под ДатаЛенс
data6 = modify_2(data6)

In [315]:
data6['name'] = data6['name'] + ', ' + data6['mkb-10'] # добавим в название мкб-10

In [316]:
data6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    264 non-null    object 
 1   mkb-10  264 non-null    object 
 2   year    264 non-null    int64  
 3   result  264 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 8.4+ KB


<div style="border:solid black 2px; padding: 20px">

Таблица 6 готова!
    
**C 2014 года в статистику вошли Крым и Севастополь!**

### Таблица 7

In [317]:
# редактируем имена колонок
data7 = data7.rename(columns = {'Unnamed: 0':'name','Unnamed: 1':'mkb-10','2014*':2014,'2015*':2015,'2016*':2016,'2017*':2017,'2018*':2018})
# удаляем ненужную строку описания и применяем к датасету изменения
data7.drop(index=19, inplace=True)

In [318]:
data7.head()

Unnamed: 0,name,mkb-10,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Все злокачественные новообразования (за исключ...,С00-96,64.7,64.5,65.5,66.7,67.1,67.4,68.0,68.8,69.9,69.6,67.5
1,Губа,С00,61.1,61.7,60.4,60.6,60.0,59.8,58.0,58.7,57.8,55.6,51.8
2,Полость рта и глотка,С01-14,54.3,52.5,53.0,53.4,54.3,55.3,57.2,57.3,57.9,57.9,56.5
3,Пищевод,С15,36.2,35.2,35.6,36.7,36.2,39.3,40.8,42.3,43.4,45.4,39.5
4,Желудок,С16,54.3,54.0,55.1,56.2,56.4,57.5,57.7,58.6,59.5,58.6,55.9


In [319]:
# модифицируем датасет известной функцией
data7 = modify_2(data7)

In [320]:
data7['name'] = data7['name'] + ', ' + data7['mkb-10']

In [321]:
data7.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    209 non-null    object 
 1   mkb-10  209 non-null    object 
 2   year    209 non-null    int64  
 3   result  209 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 6.7+ KB


<div style="border:solid black 2px; padding: 20px">

Таблица 7 готова!
    
**C 2019 года в статистику вошли Крым и Севастополь!**

### Таблицы 8-10, 16

In [322]:
# применим функцию переименования колонок
data8, data9, data10, data16 = rename_function(data8), rename_function(data9), rename_function(data10), \
rename_function(data16)

In [323]:
# заменим "," на "." и изменим тип данных
data16[2018] = data16[2018].astype('str')
data16.loc[0,2018] = data16.loc[0,2018].replace(',', '.')
data16[2018] = pd.to_numeric(data16[2018])

In [324]:
# пропущенные значения не являются нулевыми, заменим их на NaN,
# впоследствии ДатаЛенс будет их игнорировать при построении графиков
data16.loc[data16[2011] == '-', 2011] = np.nan
# изменим тип данных колонки 2011
data16[2011] = pd.to_numeric(data16[2011])

In [325]:
# применим последовательно функцию модификации датасета
data8, data9, data10, data16 = modify_2(data8), modify_2(data9), modify_2(data10), modify_2(data16)

# добавим мкб-10 в название
for n in data8, data9, data10, data16:
    n['name'] = n['name'] + ', ' + n['mkb-10']

In [326]:
# уберем строки с отсутствующими значениями и скинем индексы перезаписав их
data16 = data16[data16['result'].notnull()].reset_index(drop=True)

In [327]:
data16.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 268 entries, 0 to 267
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    268 non-null    object 
 1   mkb-10  268 non-null    object 
 2   year    268 non-null    int64  
 3   result  268 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 8.5+ KB


<div style="border:solid black 2px; padding: 20px">

Таблицы 8-10, 16 готовы!

### Таблицы 13-15

In [328]:
# изменим названия колонок
data13, data14, data15 = rename_function(data13), rename_function(data14), rename_function(data15)

Создадим функцию для совмещения трех таблиц в одну по диагнозам поставленным на разных стадиях заболевания:

In [329]:
list_table = [] # список для нескольких преобразованных исходных таблиц
i = 0 # создадим счетчик по которому определим с какой таблицей работает цикл

for table in data13, data14, data15: # создадим цикл для совмещения нескольких таблиц
    table_full = modify_2(table)
    if i == 0:
        table_full['class'] = 'I-II'
    elif i == 1:
        table_full['class'] = 'III'
    elif i == 2:
        table_full['class'] = 'IV'
    i += 1
    list_table.append(table_full) # добавляем несколько исходных таблиц в список
df_1234 = pd.concat(list_table, axis=0, ignore_index=True) # склеиваем несколько исходных таблиц в один датасет

In [330]:
# добавим мкб-10
df_1234['name'] = df_1234['name'] + ', ' + df_1234['mkb-10']

In [331]:
df_1234.info() # собранные таблицы 13-15

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 825 entries, 0 to 824
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    825 non-null    object 
 1   mkb-10  825 non-null    object 
 2   year    825 non-null    int64  
 3   result  825 non-null    float64
 4   class   825 non-null    object 
dtypes: float64(1), int64(1), object(3)
memory usage: 32.4+ KB


<div style="border:solid black 2px; padding: 20px">

Датасет df_1234 из таблиц 13-15 готов!

### Таблицы 11-12

In [332]:
# переименуем первую колонку
data11 = data11.rename(columns = {'Unnamed: 0':'name'})
data12 = data12.rename(columns = {'Unnamed: 0':'name'})

In [333]:
# уберем переносы в тексте
data11.iloc[:,0] = data11.iloc[:,0].str.replace('- ','')

In [334]:
# создадим функцию модификации таблицы типа одна строка - одно значение (для одной колонки object)
def modify_1(table):    
    list_x = [] # создадим список для мини таблиц одной из таблицы исходников
    for x in range(1,12): # перечислим все колонки с датой последовательно
        y = table[['name']] # выберем поле с названием
        y1 = y.copy()
        y1['year'] = table.columns[x] # добавим колонку год
        y1['result'] = table.iloc[:,x] # добавим колонку со значением и сохраним в переменной у
        list_x.append(y1) # добавим в список наш татасет у
    table_full = pd.concat(list_x, axis=0, ignore_index=True) # склеим мини таблицы в один датасет
                                                              # (данные ровно одной исходной таблицы)
    return table_full

In [335]:
# применим выше написанную функцию
data11 = modify_1(data11)
data12 = modify_1(data12)

In [336]:
print(data11.head())
print(data12.head())

                                                name  year  result
0  Доля больных с I-II стадией заболевания, выявл...  2011    19.2
1  Доля больных с I-II стадией заболевания, выявл...  2011    67.2
2  Доля больных с ЗНО визуальных локализаций от ч...  2011    64.8
3  Доля больных с I-II стадией заболевания, выявл...  2012    21.3
4  Доля больных с I-II стадией заболевания, выявл...  2012    73.1
                                                name  year   result
0  Абсолютное число ЗНО шейки матки (С53) (без вы...  2011  14617.0
1  Абсолютное число новообразований in situ\nшейк...  2011   3144.0
2                       на 100 ЗНО шейки матки (С53)  2011     21.3
3  Абсолютное число ЗНО шейки матки (С53) (без вы...  2012  14865.0
4  Абсолютное число новообразований in situ\nшейк...  2012   3585.0


<div style="border:solid black 2px; padding: 20px">

Таблицы 11-12 готовы!

### Таблица 17

In [337]:
data17

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,I-II,III,IV,не ус- танов- лена,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14
0,2011,2621.0,3.7,92.4,27.0,11.8,8.1,43.0,11.2,4.2,14083.0,64,5054.0,35.9,5.4
1,2012,2682.0,3.0,93.2,22.9,11.4,9.0,56.7,10.8,3.9,14858.0,66,5400.0,36.3,5.5
2,2013,2819.0,5.4,89.6,23.1,10.5,9.3,57.1,12.2,3.8,15360.0,66.5,5536.0,36.0,5.5
3,2014,3003.0,4.5,89.6,22.9,10.4,8.6,58.2,9.5,3.4,16540.0,68.7,6143.0,37.1,5.5
4,2015,3102.0,4.9,92.6,21.1,9.0,8.6,61.3,9.3,3.4,17515.0,70.9,6648.0,38.0,5.6
5,2016,3220.0,5.0,93.4,22.7,9.7,9.7,58.0,8.8,3.0,19136.0,75.7,7532.0,39.4,5.9
6,2017,3279.0,5.2,95.5,23.5,9.7,8.5,58.3,9.3,2.7,20370.0,79.3,8488.0,41.7,6.2
7,2018,3214.0,5.6,95.1,23.9,8.1,9.0,59.1,8.4,2.6,21248.0,82.1,8751.0,41.2,6.6
8,2019,3115.0,4.0,95.5,23.7,9.6,9.1,57.6,7.6,2.3,21855.0,84.4,9373.0,42.9,7.0
9,2020,3110.0,5.9,95.2,21.4,6.8,9.6,62.2,7.7,2.5,22566.0,87.1,9893.0,43.8,7.3


In [338]:
# удалим лишнюю стороку и применим изменение
data17.drop(index=11, inplace=True)

In [339]:
# переименуем колонки
data17 = data17.rename(columns = {'Unnamed: 0':'year','Unnamed: 1':\
                         'Абсолютное число больных с впервые в жизни установленным диагнозом',\
                         'Unnamed: 2':'Выявлено АКТИВНО',\
                         'Unnamed: 3':'Подтверждено МОРФОЛОГИЧЕСКИ',\
                         'не  ус- танов- лена':'не установлена',\
                         'Unnamed: 8':'Летальность на первом году с момента установления диагноза, %',\
                         'Unnamed: 9':'Летальность, %',\
                         'Unnamed: 10': 'Количество под наблюдением на конец года','Unnamed: 11':'Численность контингента \
                         больных на 100 тыс. детского населения','Unnamed: 12':'5 лет и более \
                         находились под наблюдением','Unnamed: 13':\
                         '5 лет и более находились под наблюдением, %','Unnamed: 14':\
                         'Индекс накопления контингента больных'
                        })

In [340]:
# просмотрим 12-ую колонку
data17.iloc[:,11]

0        64
1        66
2      66.5
3      68.7
4      70.9
5      75.7
6      79.3
7      82.1
8      84.4
9      87.1
10    88,4*
Name: Численность контингента                          больных на 100 тыс. детского населения, dtype: object

In [341]:
# переназначим символы в строках
data17.iloc[10,11] = data17.iloc[10,11].replace(',','.')
data17.iloc[10,11] = data17.iloc[10,11].replace('*','')

In [342]:
# изменим тип данных
data17.iloc[:,11] = pd.to_numeric(data17.iloc[:,11])

In [343]:
data17.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 15 columns):
 #   Column                                                                                   Non-Null Count  Dtype  
---  ------                                                                                   --------------  -----  
 0   year                                                                                     11 non-null     object 
 1   Абсолютное число больных с впервые в жизни установленным диагнозом                       11 non-null     float64
 2   Выявлено АКТИВНО                                                                         11 non-null     float64
 3   Подтверждено МОРФОЛОГИЧЕСКИ                                                              11 non-null     float64
 4   I-II                                                                                     11 non-null     float64
 5   III                                                               

In [344]:
data17.head()

Unnamed: 0,year,Абсолютное число больных с впервые в жизни установленным диагнозом,Выявлено АКТИВНО,Подтверждено МОРФОЛОГИЧЕСКИ,I-II,III,IV,не установлена,"Летальность на первом году с момента установления диагноза, %","Летальность, %",Количество под наблюдением на конец года,Численность контингента больных на 100 тыс. детского населения,5 лет и более находились под наблюдением,"5 лет и более находились под наблюдением, %",Индекс накопления контингента больных
0,2011,2621.0,3.7,92.4,27.0,11.8,8.1,43.0,11.2,4.2,14083.0,64.0,5054.0,35.9,5.4
1,2012,2682.0,3.0,93.2,22.9,11.4,9.0,56.7,10.8,3.9,14858.0,66.0,5400.0,36.3,5.5
2,2013,2819.0,5.4,89.6,23.1,10.5,9.3,57.1,12.2,3.8,15360.0,66.5,5536.0,36.0,5.5
3,2014,3003.0,4.5,89.6,22.9,10.4,8.6,58.2,9.5,3.4,16540.0,68.7,6143.0,37.1,5.5
4,2015,3102.0,4.9,92.6,21.1,9.0,8.6,61.3,9.3,3.4,17515.0,70.9,6648.0,38.0,5.6


In [345]:
# переделаем data17 в датасет типа одна сторока - одно значение

list_x = [] # создадим список для мини таблиц одной из таблицы исходников

for x in range(1,15): # перечислим все колонки с датой последовательно
    y = data17[['year']] # выберем поле с названием
    y1 = y.copy()
    y1['name'] = data17.columns[x] # добавим колонку год
    y1['result'] = data17.iloc[:,x] # добавим колонку со значением и сохраним в переменной у
    list_x.append(y1) # добавим в список наш татасет у
    
data17 = pd.concat(list_x, axis=0, ignore_index=True) # склеим мини таблицы в один датасет
                                                              # (данные ровно одной исходной таблицы)

In [346]:
data17.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 154 entries, 0 to 153
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    154 non-null    object 
 1   name    154 non-null    object 
 2   result  154 non-null    float64
dtypes: float64(1), object(2)
memory usage: 3.7+ KB


<div style="border:solid black 2px; padding: 20px">
    
Таблица 17 готова!  
    
**Использована численность населения 2020 года для 2021 года, где необходимо было!**

### Таблица 55

In [347]:
data55

Unnamed: 0.1,Unnamed: 0,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,"Доля злокачественных новообразований, лечение ...",2.9,2.6,2.4,2.2,2.2,2.0,1.8,1.8,1.6,1.5,1.4
1,Доля злокачественных новообразований в I-II ст...,40.9,42.2,44.3,46.0,42.1,46.8,50.3,48.5,53.0,49.3,51.3
2,"Доля злокачественных новообразований, лечение ...",8.8,9.3,8.6,7.4,7.1,6.7,6.8,6.9,6.4,6.0,6.1
3,Доля злокачественных новообразований в I-II ст...,31.9,30.3,30.6,34.3,34.0,35.9,36.3,38.8,43.0,43.3,44.5


In [348]:
# переименуем колонку
data55 = data55.rename(columns = {'Unnamed: 0':'name'})

In [349]:
# изменим названия в строках первой колонки
data55.iloc[0,0] = 'По причине отказа пациента от числа впервые выявленных'

In [350]:
data55.iloc[1,0] = 'По причине отказа пациента только I-II стадии'

In [351]:
data55.iloc[2,0] = 'По причине противопоказаний от числа впервые выявленных'

In [352]:
data55.iloc[3,0] = 'По причине противопоказаний только I-II стадии'

In [353]:
# стандартизируем датасет для ДатаЛенс
data55 = modify_1(data55)

In [354]:
data55.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44 entries, 0 to 43
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    44 non-null     object 
 1   year    44 non-null     int64  
 2   result  44 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 1.2+ KB


<div style="border:solid black 2px; padding: 20px">
    
Таблица 55 готова!

### Таблица 56

In [355]:
data56

Unnamed: 0.1,Unnamed: 0,абсолютное число,на 100 впервые взятых на учет,"только хирургического, %","только лучевого, %","только лекарственного, %","комбинированного или комплексного, %","химиолучевого, %"
0,2011,1325,50.3,23.2,1.3,37.6,32.9,5.1
1,2012,1283,47.8,25.1,0.3,40.6,29.1,4.9
2,2013,1316,46.4,24.5,0.5,41.3,29.3,4.4
3,2014,1343,44.5,24.7,1.5,39.0,30.5,4.3
4,2015,1410,45.1,27.1,0.6,42.6,27.2,2.5
5,2016,1402,43.3,24.8,0.6,42.4,28.9,3.2
6,2017,1434,43.5,25.7,0.3,44.1,27.5,2.3
7,2018,1304,40.3,24.5,1.0,40.6,31.1,2.8
8,2019,1255,40.2,31.3,1.0,38.4,26.6,2.6
9,2020,1220,39.2,27.8,1.2,42.1,26.6,2.4


In [356]:
# переименуем колонки
data56 = data56.rename(columns = {'Unnamed: 0':'year','абсолютное число':'Количество больных закончивших \
радикальное лечение','на 100 впервые взятых на учет':'Количество больных закончивших радикальное лечение \
на 100 впервые взятых на учет','только хирургического, %':'Хирургический метод, %',\
'только лучевого, %':'Лучевой метод, %','только лекарственного, %':'Лекарственный метод, %',\
'комбинированного или комплексного, %':'Комбинированный или комплексный \
метод, %','химиолучевого, %':'Химиолучевой метод, %'})

In [357]:
# стандартизируем датасет data56

list_x = [] # создадим список для мини таблиц одной из таблицы исходников

for x in range(1,8): # перечислим все колонки с датой последовательно
    y = data56[['year']] # выберем поле с названием
    y1 = y.copy()
    y1['name'] = data56.columns[x] # добавим колонку год
    y1['result'] = data56.iloc[:,x] # добавим колонку со значением и сохраним в переменной у
    list_x.append(y1) # добавим в список наш татасет у
    
data56 = pd.concat(list_x, axis=0, ignore_index=True) # склеим мини таблицы в один датасет
                                                              # (данные ровно одной исходной таблицы)

In [358]:
data56.head()

Unnamed: 0,year,name,result
0,2011,Количество больных закончивших радикальное леч...,1325.0
1,2012,Количество больных закончивших радикальное леч...,1283.0
2,2013,Количество больных закончивших радикальное леч...,1316.0
3,2014,Количество больных закончивших радикальное леч...,1343.0
4,2015,Количество больных закончивших радикальное леч...,1410.0


In [359]:
data56.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   year    77 non-null     int64  
 1   name    77 non-null     object 
 2   result  77 non-null     float64
dtypes: float64(1), int64(1), object(1)
memory usage: 1.9+ KB


<div style="border:solid black 2px; padding: 20px">
    
Таблица 56 готова!  

## 3 Выгрузка данных

In [360]:
directory = r'C:\Users\User\Desktop\med_project\csv' # укажите директорию для сохранения
print('Измените тип нижней ячейки!')

Измените тип нижней ячейки!


data5.to_csv(f'{directory}\data5.csv', sep=',')
data6.to_csv(f'{directory}\data6.csv', sep=',')
data7.to_csv(f'{directory}\data7.csv', sep=',')
data8.to_csv(f'{directory}\data8.csv', sep=',')
data9.to_csv(f'{directory}\data9.csv', sep=',')
data10.to_csv(f'{directory}\data10.csv', sep=',')
data11.to_csv(f'{directory}\data11.csv', sep=',')
data12.to_csv(f'{directory}\data12.csv', sep=',')
df_1234.to_csv(f'{directory}\df_1234.csv', sep=',')
data16.to_csv(f'{directory}\data16.csv', sep=',')
data17.to_csv(f'{directory}\data17.csv', sep=',')
data55.to_csv(f'{directory}\data55.csv', sep=',')
data56.to_csv(f'{directory}\data56.csv', sep=',')