# Лечение злокачественных новообразований в России в 2021 году

Выполнила: Изъюрова Юлия \
@yulia_izyurova \
Ссылка на дашборд: https://datalens.yandex.ru/1ebyefkl68ykq-lechenie-zlokachestvennyh-novoobrazovaniy-v-rossii-v-2

**Цель работы:**
создать дашборд в DataLens, который поможет медицинским работникам быстро оценивать состояние онкологической помощи в России.

**Задачи работы:**
1. Изучить данные о лечении ЗНО в России в 2021 году.
2. Осуществить предобработку данных с помощью Python.
3. Создать дашборд в DataLens.

**Исходные данные:**
Ежегодный отчет главного онколога РФ опубликованного за 2021 год.
Справочник "Состояние онкологической помощи населению России в 2021 году", таблицы 54, 57-85.

Таблица 54 содержит сведения о лечении ЗНО, впервые зарегистрированных в 2021 г., подлежавших радикальному лечению. В таблице предтавлены суммарные сведения по всей России для всех ЗНО, суммарные сведения для двух возрастных групп детей и суммарные сведения для отдельных локализаций ЗНО (без деления на регионы России). В таблице представлены сведения о количестве ЗНО, радикальное лечения которых закончено или будет продолжено, а также о методах радикального лечения ЗНО.
Таблица 57 содержит дополительные сведения о лечении больных с ЗНО в 2021 г. по регионам России, без деления на локализации ЗНО. В таблице представлены сведения о количестве отказов от лечения, противопоказаний к лечению, амбулаторном радикальном лечении и видах получаемого лечения.
Таблицы 58-85 детализируют сведения, представленные в таблице 54, для кажого региона России.
В таблице 58 представлены сведения для всех ЗНО, в таблицах 59-60 - сведении о лечении детей в двух возрастных категориях, в таблицах 61-85 - сведения о лечении ЗНО различных локализаций.

**План работы:**
1. Записать файлы с таблицами в датафреймы.
2. Обработать заголовки таблиц.
3. Добавить/удалить столбцы при необходимости.
4. Разделить/объединить датафреймы при необходимости.
5. Записать полученные датафреймы в файлы csv.
6. Создать подключение в DataLens с полученными файлами, создать датасеты.
7. Создать чарты на основе датасетов.
8. Создать дашборд.


Загрузим необходимые для работы библиотеки

In [1]:
import pandas as pd
import re
from google.colab import drive
import warnings
warnings.filterwarnings("ignore")

Запишем url-адреса нужных таблиц в список

In [2]:

urls = ['https://docs.google.com/spreadsheets/d/1gzlX2gm5Zxaz7mDTx-6KcU9S53szzhJf/edit#gid=1398109345',
        'https://docs.google.com/spreadsheets/d/1veomR9hOaHBaX1GUio4oivMFAf6GwJUb/edit#gid=1504143008',
        'https://docs.google.com/spreadsheets/d/1tYJcgqFOXtTp5l2O-QEJuMayKjZ4I7Up/edit#gid=1561341872',
        'https://docs.google.com/spreadsheets/d/1rPBdrPI5YiVFJ-XYu6DIYpYRe6YixB4H/edit#gid=397533175',
        'https://docs.google.com/spreadsheets/d/1uJcNCJC1-e6mPmOkGaE4oRiLwtv_CKAY/edit#gid=879364898',
        'https://docs.google.com/spreadsheets/d/1ySxpFXGF_s5WWLC5sjUiPz6ksXWUa3K2/edit#gid=1679834351',
        'https://docs.google.com/spreadsheets/d/1Hnx9LZJQKvyjaIllOq6g-47rEAq3b2bT/edit#gid=989420553',
        'https://docs.google.com/spreadsheets/d/14L9v3QbZXm3vt-v4_kauDiA37VsZGsOE/edit#gid=2042173847',
        'https://docs.google.com/spreadsheets/d/1X3_ENrZGbCeb-2yFq3l7ORPCQYGuqeI-/edit#gid=398841154',
        'https://docs.google.com/spreadsheets/d/1vuvgG1Rt9WTjTI4-lumwTiCQWd0EdwMD/edit#gid=130352292',
        'https://docs.google.com/spreadsheets/d/1ts1Rj45VkzHsZvs-_ld-dO0AT3RNoZFF/edit#gid=159999314',
        'https://docs.google.com/spreadsheets/d/1o4P8FYq-7H-ww9JWaK3i2_oIaBcODlFl/edit#gid=483056603',
        'https://docs.google.com/spreadsheets/d/19urfkItHYKgMSyPW1ri-Lqi0LYm_8FiX/edit#gid=436800286',
        'https://docs.google.com/spreadsheets/d/1a1hsjM-MmA6TUwIS3EHuRlhMHZJU3-ML/edit#gid=1513017534',
        'https://docs.google.com/spreadsheets/d/18fhV1blTcfED1ic_Rtxa-cUR5Cc_06OT/edit#gid=2125343112',
        'https://docs.google.com/spreadsheets/d/1DzeDNC0U7MCb_y618ojyozfL6emGKPG4/edit#gid=339736916',
        'https://docs.google.com/spreadsheets/d/1hRP1TlRE23h2uVy08vBQllTL2xcfkZUO/edit#gid=8025642',
        'https://docs.google.com/spreadsheets/d/1sI8Ml7rbVVl4287nj6eIBv3N8lZtPLQd/edit#gid=1598205175',
        'https://docs.google.com/spreadsheets/d/1QdC2oDvVO5iFg_xMHuZbIKv_fjNV0NyK/edit#gid=1219328523',
        'https://docs.google.com/spreadsheets/d/14C5xQVaMzHAg4uoU7TzshORcgY7M_WV_/edit#gid=480890451',
        'https://docs.google.com/spreadsheets/d/1ghd9eMVkMIxEy-bnSTa2volF0QZp7xG6/edit#gid=1681021506',
        'https://docs.google.com/spreadsheets/d/1rLASNIhwgSwD1Et9Romnnr7eSN-_nec1/edit#gid=715172875',
        'https://docs.google.com/spreadsheets/d/1JAOJI1UbtKWa_fMTZl4bAHHaCgGmp_LX/edit#gid=548015351',
        'https://docs.google.com/spreadsheets/d/1GobjArXrt8-t7QAmLp8_PSzmWun8nIVY/edit#gid=1090400024',
        'https://docs.google.com/spreadsheets/d/13SXKRnCUWrwMfi2UXMO719IREaDbVqLj/edit#gid=1375327062',
        'https://docs.google.com/spreadsheets/d/12i1fcyARMJxqN_lgaFVHlMhPiRhI1uor/edit#gid=1236463338',
        'https://docs.google.com/spreadsheets/d/1lOLLS-h9HpA0c6cp34voyJMHR2fFLKnH/edit#gid=117561696',
        'https://docs.google.com/spreadsheets/d/1hTza_2nkMHYOb69P861to3DYaIHZ-LhE/edit#gid=1598494537',
        'https://docs.google.com/spreadsheets/d/1buxEkrueJlbyqWePMgGq7JeHLJ_VxtjR/edit#gid=2007147949',
        'https://docs.google.com/spreadsheets/d/1Vfppv0DwM5exEpR_VM3Cal1aJY6tDcwy/edit#gid=2142140794']

Преобразуем адреса в URL-адрес экспорта в формате CSV

In [3]:
new_urls = list(map(lambda url: str.replace(url, '/edit#gid=', '/export?format=csv&gid='), urls))

In [4]:
new_urls

['https://docs.google.com/spreadsheets/d/1gzlX2gm5Zxaz7mDTx-6KcU9S53szzhJf/export?format=csv&gid=1398109345',
 'https://docs.google.com/spreadsheets/d/1veomR9hOaHBaX1GUio4oivMFAf6GwJUb/export?format=csv&gid=1504143008',
 'https://docs.google.com/spreadsheets/d/1tYJcgqFOXtTp5l2O-QEJuMayKjZ4I7Up/export?format=csv&gid=1561341872',
 'https://docs.google.com/spreadsheets/d/1rPBdrPI5YiVFJ-XYu6DIYpYRe6YixB4H/export?format=csv&gid=397533175',
 'https://docs.google.com/spreadsheets/d/1uJcNCJC1-e6mPmOkGaE4oRiLwtv_CKAY/export?format=csv&gid=879364898',
 'https://docs.google.com/spreadsheets/d/1ySxpFXGF_s5WWLC5sjUiPz6ksXWUa3K2/export?format=csv&gid=1679834351',
 'https://docs.google.com/spreadsheets/d/1Hnx9LZJQKvyjaIllOq6g-47rEAq3b2bT/export?format=csv&gid=989420553',
 'https://docs.google.com/spreadsheets/d/14L9v3QbZXm3vt-v4_kauDiA37VsZGsOE/export?format=csv&gid=2042173847',
 'https://docs.google.com/spreadsheets/d/1X3_ENrZGbCeb-2yFq3l7ORPCQYGuqeI-/export?format=csv&gid=398841154',
 'https://docs

Загрузим таблицу 54. Передаём преобразованный адрес в pd.read_csv, который может принимать URL-адрес, и записываем результат в датасет table_54. Не будем считывать строки заголовков.

In [5]:
table_54 = pd.read_csv(new_urls[0], skiprows=4, header=None)

Посмотрим, как выглядит полученный датасет table_54

In [6]:
table_54

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,Злокачественные новообразования - всего,С00-96,271086,502,94295,175,587,69,30,293,21
1,У детей в возрасте 0-14 лет,С00-96,1214,409,1205,406,290,11,396,279,24
2,У детей в возрасте 0-17 лет,С00-96,1536,424,1428,394,314,12,367,281,27
3,Губа,С00,1472,783,178,95,586,275,0,124,15
4,Полость рта,C01-09,3376,366,1635,177,382,123,0,369,126
5,Глотка,С10-13,1194,219,907,166,173,173,0,372,281
6,Пищевод,С15,1693,239,1403,198,419,15,0,437,129
7,Желудок,С16,8652,300,4572,159,578,0,0,420,2
8,Ободочная кишка,С18,17945,481,5950,159,649,0,0,351,0
9,"Прямая кишка, ректосиг. соединение, анус",С19-21,12325,437,6312,224,447,41,0,451,61


Выведем общую информацию о датасете `table_54`

In [7]:
table_54.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 0 to 27
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       28 non-null     object
 1   1       28 non-null     object
 2   2       28 non-null     int64 
 3   3       28 non-null     object
 4   4       28 non-null     int64 
 5   5       28 non-null     object
 6   6       28 non-null     object
 7   7       28 non-null     object
 8   8       28 non-null     object
 9   9       28 non-null     object
 10  10      28 non-null     object
dtypes: int64(2), object(9)
memory usage: 2.5+ KB


Поменяем тип данных object на float, там где это нужно

In [8]:
for k in [3, 5, 6, 7, 8, 9, 10]:
    table_54.loc[:, k] = table_54.loc[:, k].str.replace(',', '.').astype('float')

Дадим названия столбцам датасета `table_54`

In [9]:
table_54.columns = ['Локализация опухоли',
                    'Код МКБ-10',
                    'Радикальное лечение закончено в отчетном году, абс.',
                    'Радикальное лечение закончено в отчетном году, %',
                    'Лечение будет продолжено, абс.',
                    'Лечение будет продолжено, %',
                    'Хирургический метод, %',
                    'Лучевой метод, %',
                    'Лекарственный метод, %',
                    'Комбинированный метод (кроме химио-лучевого), %',
                    'Химио-лучевой метод, %']

В столбцах `Код МКБ-10` таблиц 54, 58-85, по-видимому, встречаются 'C' в кириллице и латинице. Объявим функцию, которая будет заменять их на латиницу

In [10]:
def c_mkb(table):
    table['Код МКБ-10'] = table['Код МКБ-10'].str.replace('С', 'C')
    return table

Применим функцию c_mkb к датасету `table_54`

In [11]:
table_54 = c_mkb(table_54)

In [12]:
table_54.head()

Unnamed: 0,Локализация опухоли,Код МКБ-10,"Радикальное лечение закончено в отчетном году, абс.","Радикальное лечение закончено в отчетном году, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
0,Злокачественные новообразования - всего,C00-96,271086,50.2,94295,17.5,58.7,6.9,3.0,29.3,2.1
1,У детей в возрасте 0-14 лет,C00-96,1214,40.9,1205,40.6,29.0,1.1,39.6,27.9,2.4
2,У детей в возрасте 0-17 лет,C00-96,1536,42.4,1428,39.4,31.4,1.2,36.7,28.1,2.7
3,Губа,C00,1472,78.3,178,9.5,58.6,27.5,0.0,12.4,1.5
4,Полость рта,C01-09,3376,36.6,1635,17.7,38.2,12.3,0.0,36.9,12.6


Создадим отдельный небольшой датасет с методами радикального лечения по всей России на основе данных из таблицы 54. Это понадобится для построения круговой диаграммы в DataLens с целью оценки распределения методов лечения в среднем по  стране.

In [13]:
methods = {'Лечение': ['Хирургическое', 'Лучевое', 'Лекарственное', 'Комбинированное',  'Химио-Лучевое'], 'Доля': [58.7, 6.9, 3.0, 29.3, 2.1]}
rus_methods = pd.DataFrame.from_dict(methods)
rus_methods

Unnamed: 0,Лечение,Доля
0,Хирургическое,58.7
1,Лучевое,6.9
2,Лекарственное,3.0
3,Комбинированное,29.3
4,Химио-Лучевое,2.1


Загрузим таблицу 57. Передаём преобразованный адрес в pd.read_csv, который может принимать URL-адрес, и записываем результат в датасет table_57. Не будем считывать строки заголовков.

In [14]:
table_57 = pd.read_csv(new_urls[1], skiprows=7, header=None)

Посмотрим, как выглядит полученный датасет table_57

In [15]:

table_57

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,13,14,15,16,17,18,19,20,21,22
0,ЦЕНТРАЛЬНЫЙ ФО,1810,13,1017,562,8352,59,4337,519,9175,...,34412,133000,123736,930,36690,34412,938,51253,45348,885
1,Белгородская область,90,13,30,333,132,19,22,167,713,...,1991,4631,4560,985,2044,1991,974,2437,2394,982
2,Брянская область,20,04,9,450,97,17,12,124,515,...,1420,5716,5700,997,1438,1420,987,1587,1570,989
3,Владимирская область,107,19,71,664,245,45,100,408,304,...,1257,7443,6949,934,1347,1257,933,3187,2270,712
4,Воронежская область,111,12,41,369,335,37,82,245,648,...,2637,9896,9839,994,2653,2637,994,3912,3878,991
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
88,Забайкальский край,190,56,101,532,325,96,164,505,144,...,805,4263,3757,881,917,805,878,1982,1519,766
89,Чукотский авт.округ,3,27,2,667,2,18,0,00,0,...,6,63,53,841,7,6,857,13,11,846
90,Республика Бурятия,88,26,39,443,234,69,40,171,275,...,981,6269,6145,980,986,981,995,7458,7386,990
91,Республика Саха (Якутия),22,10,9,409,187,81,37,198,0,...,412,1797,1624,904,414,412,995,573,530,925


Выведем общую информацию о датасете `table_57`

In [16]:
table_57.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 23 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       93 non-null     object
 1   1       93 non-null     int64 
 2   2       93 non-null     object
 3   3       93 non-null     int64 
 4   4       93 non-null     object
 5   5       93 non-null     int64 
 6   6       93 non-null     object
 7   7       93 non-null     int64 
 8   8       93 non-null     object
 9   9       93 non-null     int64 
 10  10      93 non-null     object
 11  11      93 non-null     int64 
 12  12      93 non-null     int64 
 13  13      93 non-null     int64 
 14  14      93 non-null     int64 
 15  15      93 non-null     int64 
 16  16      93 non-null     object
 17  17      93 non-null     int64 
 18  18      93 non-null     int64 
 19  19      93 non-null     object
 20  20      93 non-null     int64 
 21  21      93 non-null     int64 
 22  22      93 non-null     obje

Поменяем тип данных object на float, там где это нужно

In [17]:
for k in [2, 4, 6, 8, 10, 16, 19, 22]:
    table_57.loc[:, k] = table_57.loc[:, k].str.replace(',', '.').astype('float')

Дадим названия всем столбцам датасета table_57

In [18]:
table_57.columns = ['Регион',
                    'Отказы от лечения, абс.',
                    'Отказы от лечения, %',
                    'Отказы от лечения I-II ст., абс.',
                    'Отказы от лечения I-II ст., %',
                    'Противопоказания  к лечению, абс.',
                    'Противопоказания  к лечению, %',
                    'Противопоказания  к лечению I-II ст., абс.',
                    'Противопоказания  к лечению I-II ст., %',
                    'Амбулаторное радикальное лечение, абс.',
                    'Амбулаторное радикальное лечение, %',
                    'Число больных, закончивших лекарственное лечение, абс.',
                    'Число больных гемобластозами, закончивших лекарственное лечение, абс.',
                    'Число больных, закончивших лучевое лечение, абс.',
                    'Число больных, подлежащих лекарственному лечению, абс.',
                    'Число больных, получавших лекарственное лечение, абс.',
                    'Число больных, получавших лекарственное лечение, %',
                    'Число больных, подлежащих лучевому лечению, абс.',
                    'Число больных, получавших лучевое лечение, абс.',
                    'Число больных, получавших лучевое лечение, %',
                    'Число больных, подлежащих комбинированному лечению, абс.',
                    'Число больных, получавших комбинированное лечение, абс.',
                    'Число больных, получавших комбинированное лечение, %']

In [19]:
table_57.head()

Unnamed: 0,Регион,"Отказы от лечения, абс.","Отказы от лечения, %","Отказы от лечения I-II ст., абс.","Отказы от лечения I-II ст., %","Противопоказания к лечению, абс.","Противопоказания к лечению, %","Противопоказания к лечению I-II ст., абс.","Противопоказания к лечению I-II ст., %","Амбулаторное радикальное лечение, абс.",...,"Число больных, закончивших лучевое лечение, абс.","Число больных, подлежащих лекарственному лечению, абс.","Число больных, получавших лекарственное лечение, абс.","Число больных, получавших лекарственное лечение, %","Число больных, подлежащих лучевому лечению, абс.","Число больных, получавших лучевое лечение, абс.","Число больных, получавших лучевое лечение, %","Число больных, подлежащих комбинированному лечению, абс.","Число больных, получавших комбинированное лечение, абс.","Число больных, получавших комбинированное лечение, %"
0,ЦЕНТРАЛЬНЫЙ ФО,1810,1.3,1017,56.2,8352,5.9,4337,51.9,9175,...,34412,133000,123736,93.0,36690,34412,93.8,51253,45348,88.5
1,Белгородская область,90,1.3,30,33.3,132,1.9,22,16.7,713,...,1991,4631,4560,98.5,2044,1991,97.4,2437,2394,98.2
2,Брянская область,20,0.4,9,45.0,97,1.7,12,12.4,515,...,1420,5716,5700,99.7,1438,1420,98.7,1587,1570,98.9
3,Владимирская область,107,1.9,71,66.4,245,4.5,100,40.8,304,...,1257,7443,6949,93.4,1347,1257,93.3,3187,2270,71.2
4,Воронежская область,111,1.2,41,36.9,335,3.7,82,24.5,648,...,2637,9896,9839,99.4,2653,2637,99.4,3912,3878,99.1


Объявим функцию, которая будет добавлять в датасет столбец 'Федеральный округ' и заполнять его соответствующими названиями.

In [20]:
def fo_column_creation(table):
    #Вставляем новый столбец
    table.insert(0,'Федеральный округ', '')
    #Проходим по столбцу 'Республика, край, область'
    for i in range(len(table['Регион'])):
        #Ищем названия, написанные заглавными буквами - это страна и федеральные округа
        if table['Регион'][i].isupper():
            #Разбиваем название федеральных округов на два слова (название и ФО)
            fo = table['Регион'][i].split()
            #Название федерального округа записываем с заглавной буквы
            fo[0] = fo[0].capitalize()
            #Учтём случаи двойных названий ФО
            if re.search(r'-', fo[0]):
                fo2 = fo[0].split('-')
                fo2[1] = fo2[1].capitalize()
                fo[0] = '-'.join(fo2)
            #Заносим название федрального округа в соответствующий столбец, начиная со строки, где название встречается в столбце 'Республика, край, область'
            table.loc[i:, 'Федеральный округ'] = ' '.join(fo)
            #Удаляем лишние строки, содержащие данные по федеральным округам
            table = table.drop(index=i, axis=0)
    return table

Применим функцию `fo_column_creation` к датасету `table_57`

In [21]:
table_57 = fo_column_creation(table_57)

In [22]:
table_57.head(20)

Unnamed: 0,Федеральный округ,Регион,"Отказы от лечения, абс.","Отказы от лечения, %","Отказы от лечения I-II ст., абс.","Отказы от лечения I-II ст., %","Противопоказания к лечению, абс.","Противопоказания к лечению, %","Противопоказания к лечению I-II ст., абс.","Противопоказания к лечению I-II ст., %",...,"Число больных, закончивших лучевое лечение, абс.","Число больных, подлежащих лекарственному лечению, абс.","Число больных, получавших лекарственное лечение, абс.","Число больных, получавших лекарственное лечение, %","Число больных, подлежащих лучевому лечению, абс.","Число больных, получавших лучевое лечение, абс.","Число больных, получавших лучевое лечение, %","Число больных, подлежащих комбинированному лечению, абс.","Число больных, получавших комбинированное лечение, абс.","Число больных, получавших комбинированное лечение, %"
1,Центральный ФО,Белгородская область,90,1.3,30,33.3,132,1.9,22,16.7,...,1991,4631,4560,98.5,2044,1991,97.4,2437,2394,98.2
2,Центральный ФО,Брянская область,20,0.4,9,45.0,97,1.7,12,12.4,...,1420,5716,5700,99.7,1438,1420,98.7,1587,1570,98.9
3,Центральный ФО,Владимирская область,107,1.9,71,66.4,245,4.5,100,40.8,...,1257,7443,6949,93.4,1347,1257,93.3,3187,2270,71.2
4,Центральный ФО,Воронежская область,111,1.2,41,36.9,335,3.7,82,24.5,...,2637,9896,9839,99.4,2653,2637,99.4,3912,3878,99.1
5,Центральный ФО,Ивановская область,43,0.9,26,60.5,118,2.6,25,21.2,...,1462,5103,5051,99.0,1478,1462,98.9,3373,3341,99.1
6,Центральный ФО,Тверская область,79,1.5,38,48.1,331,6.1,139,42.0,...,1042,4243,4174,98.4,1069,1042,97.5,1552,1481,95.4
7,Центральный ФО,Калужская область,11,0.3,7,63.6,45,1.0,18,40.0,...,849,3088,2060,66.7,849,849,100.0,570,570,100.0
8,Центральный ФО,Костромская область,20,0.8,4,20.0,25,1.0,3,12.0,...,512,1584,1550,97.9,528,512,97.0,483,472,97.7
9,Центральный ФО,Курская область,35,0.7,6,17.1,29,0.6,6,20.7,...,2026,3749,3710,99.0,2051,2026,98.8,5794,5730,98.9
10,Центральный ФО,Липецкая область,30,0.6,21,70.0,132,2.8,60,45.5,...,2138,5636,5473,97.1,2317,2138,92.3,2872,2731,95.1


Добавим в датасет `table_57` три столбца с градациями по долям получивших разные виды лечения (это понадобится для построения линейчатой диаграммы в DataLens с целью оценки разных регионов)

In [23]:
 table_57['Градация получавших лек. леч.'] = table_57['Число больных, получавших лекарственное лечение, %'] \
                                                  .apply(lambda x: '97-100 %' if x >= 97
                                                                              else ('93-96 %' if x >= 93
                                                                                    else ('88-92 %' if x >= 88
                                                                                          else ('80-89 %' if x >= 80
                                                                                                else ('<80 %'
                                                                                                )
                                                                                          )
                                                                                    )
                                                                              )
                                                  )


In [24]:
table_57['Градация получавших луч. леч.'] = table_57['Число больных, получавших лучевое лечение, %'] \
                                                  .apply(lambda x: '97-100 %' if x >= 97
                                                                              else ('93-96 %' if x >= 93
                                                                                    else ('88-92 %' if x >= 88
                                                                                          else ('80-89 %' if x >= 80
                                                                                                else ('<80 %'
                                                                                                )
                                                                                          )
                                                                                    )
                                                                              )
                                                  )

In [25]:
table_57['Градация получавших комб. леч.'] = table_57['Число больных, получавших комбинированное лечение, %'] \
                                                  .apply(lambda x: '97-100 %' if x >= 97
                                                                              else ('93-96 %' if x >= 93
                                                                                    else ('88-92 %' if x >= 88
                                                                                          else ('80-89 %' if x >= 80
                                                                                                else ('<80 %'
                                                                                                )
                                                                                          )
                                                                                    )
                                                                              )
                                                  )

In [26]:
table_57.head()

Unnamed: 0,Федеральный округ,Регион,"Отказы от лечения, абс.","Отказы от лечения, %","Отказы от лечения I-II ст., абс.","Отказы от лечения I-II ст., %","Противопоказания к лечению, абс.","Противопоказания к лечению, %","Противопоказания к лечению I-II ст., абс.","Противопоказания к лечению I-II ст., %",...,"Число больных, получавших лекарственное лечение, %","Число больных, подлежащих лучевому лечению, абс.","Число больных, получавших лучевое лечение, абс.","Число больных, получавших лучевое лечение, %","Число больных, подлежащих комбинированному лечению, абс.","Число больных, получавших комбинированное лечение, абс.","Число больных, получавших комбинированное лечение, %",Градация получавших лек. леч.,Градация получавших луч. леч.,Градация получавших комб. леч.
1,Центральный ФО,Белгородская область,90,1.3,30,33.3,132,1.9,22,16.7,...,98.5,2044,1991,97.4,2437,2394,98.2,97-100 %,97-100 %,97-100 %
2,Центральный ФО,Брянская область,20,0.4,9,45.0,97,1.7,12,12.4,...,99.7,1438,1420,98.7,1587,1570,98.9,97-100 %,97-100 %,97-100 %
3,Центральный ФО,Владимирская область,107,1.9,71,66.4,245,4.5,100,40.8,...,93.4,1347,1257,93.3,3187,2270,71.2,93-96 %,93-96 %,<80 %
4,Центральный ФО,Воронежская область,111,1.2,41,36.9,335,3.7,82,24.5,...,99.4,2653,2637,99.4,3912,3878,99.1,97-100 %,97-100 %,97-100 %
5,Центральный ФО,Ивановская область,43,0.9,26,60.5,118,2.6,25,21.2,...,99.0,1478,1462,98.9,3373,3341,99.1,97-100 %,97-100 %,97-100 %


Получим названия локализаций опухолей и возрастных групп, а также кодов МКБ-10  из таблиц с 58 по 80 с помощью регулярных выражений

In [27]:
localization = []
pattern=r'[А-Я](?:\s[а-я]|[а-я]).+\(.+\)'
for j in range(2, len(new_urls)):
    localization.append(re.search(pattern, pd.read_csv(new_urls[j], nrows=1, header=None)[0][0]).group(0))

In [28]:
for n in localization:
    print(n)

Злокачественные новообразования - всего (С00-96)
У детей в возрасте 0-14 лет (С00-96)
У детей в возрасте 0-17 лет (С00-96)
Губа (С00)
Полость рта (C01-09)
Глотка (С10-13)
Пищевод (С15)
Желудок (С16)
Ободочная кишка (С18)
Прямая кишка, ректосиг. соединение, анус (С19-21)
Печень и внутрипеченочные желчные протоки (С22)
Поджелудочная железа (С25)
Гортань (С32)
Трахея, бронхи, легкое (С33,34)
Кости и суставные хрящи (С40,41)
Меланома кожи (С43)
Кожа (кроме меланомы) (С44)
Соединительная и другие мягкие ткани (С47,49)
Молочная железа (С50)
Шейка матки (С53)
Тело матки (С54)
Яичник (С56)
Предстательная железа (С61)
Почка (С64)
Мочевой пузырь (С67)
Щитовидная железа (С73)
Злокачественные лимфомы (С81-86;88,90,96)
Лейкемии (С91-95)


Таблицы с 58 по 80 однотипны. Воспользуемся циклом для генерации имён датасетов и запишем в них таблицы.

In [29]:
#Создадим пустой список, в который будем заносить сгенерированные имена таблиц
tables = []
#Зададим счётчик url-адреса таблицы в списке `new_urls`
j = 2
#Пройдём циклом по номерам таблиц
for i in range(58, 86):
    #Загрузим таблицы без заголовков
    vars()['table_'+ str(i)]= pd.read_csv(new_urls[j], skiprows=4, header=None)
    #Поменяем тип данных object на float, там где это нужно
    for k in [2, 4, 5, 6, 7, 8, 9]:
        vars()['table_'+ str(i)].loc[:, k] = vars()['table_'+ str(i)].loc[:, k].str.replace(',', '.').astype('float')
    #Дадим имена столбцам датасетов
    vars()['table_'+ str(i)].columns = ['Регион',
                                        'Радикальное лечение закончено, абс.',
                                        'Радикальное лечение закончено, %',
                                        'Лечение будет продолжено, абс.',
                                        'Лечение будет продолжено, %',
                                        'Хирургический метод, %',
                                        'Лучевой метод, %',
                                        'Лекарственный метод, %',
                                        'Комбинированный метод (кроме химио-лучевого), %',
                                        'Химио-лучевой метод, %']
    #Применим к датасетам функцию `fo_column_creation` для добавления столбца с федеральными округами
    vars()['table_'+ str(i)] = fo_column_creation(vars()['table_'+ str(i)])
    #Добавим столбец с локализацией опухоли. Для этого разобьём очередное значение из списка localization по разделителю '(C', учтя при этом русскую и английскую раскладку
    #В таблицы 59 и 60 добавим столбец не с локализацией, а с возрастной группой
    if i == 59 or i == 60:
        vars()['table_'+ str(i)].insert(0,'Возрастная группа', re.split('\(C|\(С', localization[j-2])[0].strip())
    else:
        vars()['table_'+ str(i)].insert(0,'Локализация опухоли', re.split('\(C|\(С', localization[j-2])[0].strip())
    #Добавим столбец с кодом по МКБ-10. Для этого возьмём код из второй части разбитого сначения из списка localization, выбросив закрывающую скобку, и добавим к коду 'C'
    vars()['table_'+ str(i)].insert(1,'Код МКБ-10', 'C' + re.search(r'[^)]+', re.split('\(C|\(С', localization[j-2])[1]).group(0))
    #Применим к датасетам функцию `c_mkb` для замены всех С на латиницу
    vars()['table_'+ str(i)] = c_mkb(vars()['table_'+ str(i)])
    #Запишем имя таблицы в список tables
    tables.append(vars()['table_'+ str(i)])
    #Увеличим счётчик url-адреса
    j += 1

Проверим корректность на нескольких таблицах

In [30]:

table_58.head()

Unnamed: 0,Локализация опухоли,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
1,Злокачественные новообразования - всего,C00-96,Центральный ФО,Белгородская область,3952,57.1,1418,20.5,53.6,12.7,2.9,27.9,2.9
2,Злокачественные новообразования - всего,C00-96,Центральный ФО,Брянская область,2673,46.9,1236,21.7,54.0,2.3,7.6,34.3,1.8
3,Злокачественные новообразования - всего,C00-96,Центральный ФО,Владимирская область,2858,51.9,808,14.7,59.0,2.4,0.0,37.5,1.1
4,Злокачественные новообразования - всего,C00-96,Центральный ФО,Воронежская область,5305,58.8,1635,18.1,53.9,9.4,2.3,32.5,1.8
5,Злокачественные новообразования - всего,C00-96,Центральный ФО,Ивановская область,2289,49.9,553,12.1,58.0,10.6,1.8,28.0,1.7


In [31]:
table_65.tail()

Unnamed: 0,Локализация опухоли,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
88,Желудок,C16,Дальневосточный ФО,Забайкальский край,36,18.8,46,24.0,61.1,0.0,0.0,38.9,0.0
89,Желудок,C16,Дальневосточный ФО,Чукотский авт.округ,3,23.1,1,7.7,66.7,0.0,0.0,33.3,0.0
90,Желудок,C16,Дальневосточный ФО,Республика Бурятия,104,40.6,35,13.7,57.7,0.0,0.0,42.3,0.0
91,Желудок,C16,Дальневосточный ФО,Республика Саха (Якутия),49,30.4,14,8.7,55.1,0.0,0.0,44.9,0.0
92,Желудок,C16,Дальневосточный ФО,Еврейская авт. обл.,3,13.0,3,13.0,100.0,0.0,0.0,0.0,0.0


In [32]:
table_59.head()

Unnamed: 0,Возрастная группа,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
1,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Белгородская область,3,11.1,22,81.5,66.7,0.0,33.3,0.0,0.0
2,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Брянская область,23,63.9,9,25.0,21.7,0.0,60.9,8.7,8.7
3,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Владимирская область,2,14.3,12,85.7,50.0,0.0,0.0,50.0,0.0
4,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Воронежская область,5,33.3,10,66.7,0.0,0.0,80.0,20.0,0.0
5,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Ивановская область,9,42.9,2,9.5,22.2,0.0,55.6,22.2,0.0


In [33]:
table_60.tail()

Unnamed: 0,Возрастная группа,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
86,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Забайкальский край,12,41.4,13,44.8,33.3,0.0,33.3,16.7,16.7
87,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Чукотский авт.округ,0,0.0,1,100.0,0.0,0.0,0.0,0.0,0.0
88,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Республика Бурятия,17,58.6,11,37.9,11.8,0.0,70.6,17.6,0.0
89,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Республика Саха (Якутия),17,56.7,13,43.3,35.3,0.0,52.9,11.8,0.0
90,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Еврейская авт. обл.,0,0.0,3,60.0,0.0,0.0,0.0,0.0,0.0


Объединим таблицы 59 и 60 в одну. Это данные о лечении детей

In [34]:
table_59_60 = pd.concat(tables[1:3])

In [35]:
table_59_60

Unnamed: 0,Возрастная группа,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
1,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Белгородская область,3,11.1,22,81.5,66.7,0.0,33.3,0.0,0.0
2,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Брянская область,23,63.9,9,25.0,21.7,0.0,60.9,8.7,8.7
3,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Владимирская область,2,14.3,12,85.7,50.0,0.0,0.0,50.0,0.0
4,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Воронежская область,5,33.3,10,66.7,0.0,0.0,80.0,20.0,0.0
5,У детей в возрасте 0-14 лет,C00-96,Центральный ФО,Ивановская область,9,42.9,2,9.5,22.2,0.0,55.6,22.2,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
86,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Забайкальский край,12,41.4,13,44.8,33.3,0.0,33.3,16.7,16.7
87,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Чукотский авт.округ,0,0.0,1,100.0,0.0,0.0,0.0,0.0,0.0
88,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Республика Бурятия,17,58.6,11,37.9,11.8,0.0,70.6,17.6,0.0
89,У детей в возрасте 0-17 лет,C00-96,Дальневосточный ФО,Республика Саха (Якутия),17,56.7,13,43.3,35.3,0.0,52.9,11.8,0.0


Объединим таблицы с 61 по 85 в одну. Это данные о лечении разных локализаций опухолей

In [103]:

table_61_85 = pd.concat(tables[3:])

In [104]:
table_61_85.head(10)

Unnamed: 0,Локализация опухоли,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
1,Губа,C00,Центральный ФО,Белгородская область,20,87.0,1,4.3,60.0,35.0,0.0,5.0,0.0
2,Губа,C00,Центральный ФО,Брянская область,6,30.0,13,65.0,16.7,50.0,0.0,33.3,0.0
3,Губа,C00,Центральный ФО,Владимирская область,16,88.9,0,0.0,87.5,0.0,0.0,12.5,0.0
4,Губа,C00,Центральный ФО,Воронежская область,40,85.1,5,10.6,50.0,27.5,0.0,22.5,0.0
5,Губа,C00,Центральный ФО,Ивановская область,15,75.0,2,10.0,66.7,20.0,0.0,13.3,0.0
6,Губа,C00,Центральный ФО,Тверская область,17,89.5,1,5.3,70.6,11.8,0.0,11.8,5.9
7,Губа,C00,Центральный ФО,Калужская область,6,75.0,0,0.0,66.7,33.3,0.0,0.0,0.0
8,Губа,C00,Центральный ФО,Костромская область,6,50.0,0,0.0,100.0,0.0,0.0,0.0,0.0
9,Губа,C00,Центральный ФО,Курская область,32,97.0,0,0.0,53.1,31.3,0.0,15.6,0.0
10,Губа,C00,Центральный ФО,Липецкая область,10,71.4,3,21.4,60.0,20.0,0.0,10.0,10.0


Добавим в таблицу новые столбцы - с группами опухолей по их локализации и  диапазонами кодов МКБ-10 для каждой группы. Это нужно для того, чтобы медики могли выбирать для демонстрации на дашборде либо названия ЗНО, либо их коды МКБ-10.

Создадим словарь, ключами в котором будут кортежи, содержащие название группы опухолей и диапазон кодов МКБ-10 в зависимости от локализации опухоли, а значениями - списки кодов МКБ-10 конкретных опухолей.

In [105]:
codes = {('Губы, полости рта и глотки', 'С00-С13'): ['C00', 'C01-09', 'C10-13'],
         ('Органов пищеварения', 'С15-С25'): ['C15', 'C16', 'C17', 'C18', 'C19-21', 'C22', 'C25'],
         ('Органов дыхания и грудной клетки', 'С32-34'): ['C32', 'C33,34'],
         ('Костей и суставных хрящей', 'С40-С41'): 'C40,41',
         ('Кожи', 'С43-44'): ['C43', 'C44'],
         ('Мезотелиальной и мягких тканей', 'С47-С49'): ['C47,49'],
         ('Молочной железы', 'С50'): ['С50'],
         ('Женских половых органов', 'С53-С56'): ['C53', 'C54', 'C56'],
         ('Мужских половых органов', 'С61'): ['С61'],
         ('Мочевых путей', 'С64-С67'): ['C64', 'C67'],
         ('Щитовидной железы', 'С73'): ['С73'],
         ('Лимфоидной и кроветворной тканей', 'С81-С95'): ['C81-86;88,90,96', 'C91-95']}

Объявим функцию, которая будет принимать на вход содержимое ячейки и условный номер столбца (1 - столбец с названиями опухолей, 2 - столбец с кодами МКБ-10) и искать содержимое ячейки в значениях словаря для каждого ключа. Возвращает функция первое или второе значения кортежа из ключей словаря.

In [106]:
def make_code(cell, col):
    for key, value in codes.items():
        if cell in value and col == 1:
            return key[0]
        elif cell in value and col == 2:
            return key[1]

Объявим функцию, которая будет добавлять в таблицу новые столбцы с группами опухолей по их локализации и диапазонами кодов МКБ-10.

In [107]:
def group_of_tumors(table):
    table.insert(0,'Группа опухолей', '')
    table['Группа опухолей'] = table['Код МКБ-10'].apply(lambda x: make_code(x, 1))

    table.insert(2,'Группа кодов МКБ-10', '')
    table['Группа кодов МКБ-10'] = table['Код МКБ-10'].apply(lambda x: make_code(x, 2))

    return(table)



Добавим в датасет `table_61_85` столбцы, куда занесём группы опухолей по их локализации и группы по МКБ-10.

In [108]:
table_61_85 = group_of_tumors(table_61_85)

In [112]:
table_61_85.head()

Unnamed: 0,Группа опухолей,Локализация опухоли,Группа кодов МКБ-10,Код МКБ-10,Федеральный округ,Регион,"Радикальное лечение закончено, абс.","Радикальное лечение закончено, %","Лечение будет продолжено, абс.","Лечение будет продолжено, %","Хирургический метод, %","Лучевой метод, %","Лекарственный метод, %","Комбинированный метод (кроме химио-лучевого), %","Химио-лучевой метод, %"
1,"Губы, полости рта и глотки",Губа,С00-С13,C00,Центральный ФО,Белгородская область,20,87.0,1,4.3,60.0,35.0,0.0,5.0,0.0
2,"Губы, полости рта и глотки",Губа,С00-С13,C00,Центральный ФО,Брянская область,6,30.0,13,65.0,16.7,50.0,0.0,33.3,0.0
3,"Губы, полости рта и глотки",Губа,С00-С13,C00,Центральный ФО,Владимирская область,16,88.9,0,0.0,87.5,0.0,0.0,12.5,0.0
4,"Губы, полости рта и глотки",Губа,С00-С13,C00,Центральный ФО,Воронежская область,40,85.1,5,10.6,50.0,27.5,0.0,22.5,0.0
5,"Губы, полости рта и глотки",Губа,С00-С13,C00,Центральный ФО,Ивановская область,15,75.0,2,10.0,66.7,20.0,0.0,13.3,0.0


Записываем полученные файлы на диск

In [None]:
drive.mount('drive')

#table_54.to_csv('/content/drive/My Drive/oncology_project_tables/table_54.csv', encoding='utf-8', index=False)
#rus_methods.to_csv('/content/drive/My Drive/oncology_project_tables/rus_methods.csv', encoding='utf-8', index=False)
#table_57.to_csv('/content/drive/My Drive/oncology_project_tables/table_57.csv', encoding='utf-8', index=False)
#table_58.to_csv('/content/drive/My Drive/oncology_project_tables/table_58.csv', encoding='utf-8', index=False)
#table_59_60.to_csv('/content/drive/My Drive/oncology_project_tables/table_59_60.csv', encoding='utf-8', index=False)
#table_61_85.to_csv('/content/drive/My Drive/oncology_project_tables/table_61_85.csv', encoding='utf-8', index=False)

Drive already mounted at drive; to attempt to forcibly remount, call drive.mount("drive", force_remount=True).
