# Клінічні випробування в Україні. Ключові факти та інсайти

Датасет, який ми будемо досліджувати, охоплює період з 2002 по 2018 роки. 

У ньому зібрана інформація щодо медичного напряму випробувань, областей, в яких вони проводилися, віку пацієнтів і т.ін. Втім, серед наявних даних немає інформації щодо кількості пацієнтів. Це унеможливлює обчислення левової частки відповідних перфоманс-метрик.

Детальніше з метриками, за якими оцінюється успішність КВ, можна ознайомитися за посиланням: https://gitnux.org/clinical-trial-performance-metrics/

Разом з тим, ми цілком можемо провести exploratory study. Тобто виявити закономірності в даних, пошукати інсайти.

# Орієнтовні питання для дослідження в рамках проекту:

1. За яким медичним напрямом було проведено найбільше клінічних випробувань
2. Скільки в середньому областей були залучені для проведення дослідження у одному напрямку
3. Скільки максимум / мінімум областей залучалися до проведення одного випробування
4. Які саме області найчастіше залучалися до проведення випробувань
5. Розподіл (не)завершених випробувань в Україні. Відсоток завершених випробувань 
6. Яка група пацієнтів (за віком) приймала участь у клінічних випробуваннях частіше за інші

# Висновки, які можна зробити після проведення дослідження:

1. Найчастіше в Україні проводяться клінічні випробування за напрямом "онкологія" (15%). Також поширені напрями неврології, психіатрії та пульмонології (по 8%)
2. У 57% випадках в Україні проводяться випробування на 3 фазі. Це передостання фаза перед випуском ліків у маспродукт. На цьому етапі КВ націлені на виявлення побічних ефектів та протипоказань, а також порівняння результатів лікування з результатами, які дають інші препарати
3. В середньому до проведення одного КВ в Україні залучали 5.7 областей. Були випадки, коли випробування проводили одразу у 22 областях. Хоча були випробування і в одній області
4. Найчастіше до КВ залучалися Київська, Харківська та Дніпропетровська області. Найрідше - Хмельницька, Кіровоградська, Рівненська
5. 70% розпочатих випробувань в Україні успішно завершено. 21% - розпочато. 3% - зняті з розгляду (провалені)
6. Лідер серед компаній-заявників за проваленими випробуваннями (у співвідношенні загальної к-сті розпочатих та проведених досліджень до провалених КВ) - ДП Біокад Україна (дочка російської АТ "Біокад". З 2018 року ДП "Біокад Україна" перейменовано у ДП Юско-Сервіс Груп).
7. Найбільше провалених випробувань зафіксовано за напрямом "неврологія"
8. У розрізі вікових груп, найбільшу залученість у КВ показали пацієнти 18-65 років (45%). Також у КВ активно приймали участь пацієнти + 65 років (31%). Ці дві групи складають абсолютну більшість залучених до випробувань пацієнтів (76%)
9. Вікова група "молодше 18 років" розподілена на ряд дрібніших груп, які залучаються до КВ рівномірно. Сукупно група "менше 18 років" скаладає 22.6% від усіх залучених до випробувань пацієнтів 

Також відмітимо, що станом на 2017 рік в Україні проводилося 3.6 клінічних випробувань на 100 тис. чол. населення (дані - https://life.pravda.com.ua/columns/2017/10/10/226887/). 

Порівняно з іншими країнами, це доволі низький показник:

1. Швейцарія - 62.4
2. США - 31.8
3. Франція - 27.3
4. Румунія - 10.4
5. Росія - 2.5

Безпосередньо сам аналіз:

In [31]:
# імпортуємо бібліотеки pandas та numpy
import pandas as pd
import numpy as np

# відкриваємо датасет
t1 = pd.read_csv('/Ukrainian clinical trials.csv')

In [32]:
# знайомимося з датасетом
t1.head(6)

Unnamed: 0,Код,Медичний напрям,Захворювання,Область,Больница,Заявник,Спонсор,Фази,Стан,Стать,Вік пацієнтів
0,116046,Судинна хірургія,Гостра симптоматична венозна тромбоемболія кін...,Вінницька | Запорізька,"""ОКЛ ім. М.І. Пирогова"", м. Вінниця | КЗ ""ОКЛ""...","ТОВ ""Моні-Док""","Boehringer Ingelheim RCV GmbH & Co KG, Austria...",3,Завершено КВ в Україні,будь-яка,Дорослі (18-65 років)
1,SB-712753/002,Ендокринологія,Діабет другого типу,Дніпропетровська | Київська | Київська | Київс...,"""Державна медична академія"", м. Дніпро | ДЗ ""І...","ТОВ ""Верум Клінікал Рісерч""",,3,Завершено КВ в Україні,-,-
2,BI 248.634,Неврологія,запущені форми хвороби Паркінсона (ХП),Дніпропетровська | Дніпропетровська | Дніпропе...,"ДЗ ""Український ДНДІМСЦПІ МОЗ України"", м. Дні...","ТОВ ""Ворлдвайд Клінікал Траілс Укр""","Boehringer Ingelheim RCV GmbH & Co KG, Austria...",3,Завершено КВ в Україні,будь-яка,Літнього віку (старші 65 років)
3,ЗНЯТО АС-054-102,Гастроентерологія,цироз печінки,Чернівецька,"ТОВ ""Лікарня ""Фарм ПланНет-Україна"", м. Чернівці","ТОВ ""Лікарня Фарм ПланНет- Україна""","Actelion Pharmaceuticals Ltd., Switzerland",1,Знято з розгляду,будь-яка,"Дорослі (18-65 років), Літнього віку (старші 6..."
4,38518168ARA2001,Ревматологія,Ревматоїдний артрит.,Вінницька | Дніпропетровська | Донецька | Доне...,"""ОКЛ ім. М.І. Пирогова"", м. Вінниця | ""ОКЛ іме...",АйЕйчСіСі Інтернешнл Хелскеар Консалтінг АГ,Джонсон & Джонсон Фармасьютікал Рісерч & Дівел...,2,Завершено КВ в Україні,будь-яка,"Дорослі (18-65 років), Літнього віку (старші 6..."
5,Eagle 08-003,Гастроентерологія,Виразковий коліт від легкого до помірного ступ...,Дніпропетровська | Івано-Франківська | Київськ...,"ДЗ ""Інститут гастроентерології НАМН України"", ...","ТОВ ""Ю Сі Ті - Глобал""","Ігл Фармасьютікалс, Інк США",3,Завершено КВ в Україні,будь-яка,"Дорослі (18-65 років), Літнього віку (старші 6..."


Після швидкого знайомства з датасетом, бачимо, що:

1. Колонка "Код" не несе майже ніякого практичного значення, оскільки не всі значення в ній вірні. А ті, які вірні, не підлягають систематизації, оскільни їхній запис не уніфікований
2. В колонці "Область" в деяких клітинках дублюються значення. Для аналізу дублі необхідно буде прибрати
3. В таблиці є null values / пропуски значень. Втім, їхня частка невелика і вони суттєво не вплинуть на результати дослідження
4. Найцікавіші колонки для дослідження - "Медичний напрям", "Захворювання", "Область", "Стан", "Стать" та "Вік пацієнтів". На них сконцентруємо увагу

Складаємо список питань, на які спробуємо дати відповідь в рамках цього дослідження (прописані вище).

Аналіз датасету починаємо з визначення медичних напрямів, за якими в Україні було проведено найбільшу кількість випробувань. 

В колонці "Медичний напрям" є значення, прописані через кому (наприклад: "Пульмологія, Нефрологія"). Щоб врахувати кожне окреме значення, розділимо їх спочатку на окремі колонки. Потім - об'єднаємо результуючі колонки в один датафрейм і порахуємо кількість унікальних значень.

In [48]:
# ділимо об'єднані комою значення в колонці на дві (або більше) колонки
med_dir = t1['Медичний напрям'].str.split(',', expand = True)

# кожну колонку зберігаємо як окрему перемінну
med1 = med_dir.iloc[:, 0]
med2 = med_dir.iloc[:, 1]

# об'єднуємо отримані перемінні і одночано чистимо всі значення від пробілів
med_fin = pd.concat([med1, med2]).str.strip().value_counts()

# виводимо результат у вигляді датафрему
med_fin.reset_index()


Unnamed: 0,index,count
0,Онкологія,383
1,Неврологія,215
2,Психіатрія,213
3,Пульмонологія,210
4,Ревматологія,197
5,Ендокринологія,173
6,Кардіологія,158
7,Гастроентерологія,149
8,Гематологія,90
9,Здорові добровольці,79


Висновки:

1. Найчастіше в Україні проводили клінічні випробування за напрямом "Онкологія"
2. Також у першу "п'ятірку" входять неврологія, психіатрія, пульмонологія та ревматологія

Буквально ті самі дії проводимо з колонкою "Фази". Так ми визначимо, які фази КВ в Україні найбільш розповсюджені

In [49]:
phase = t1['Фази'].str.split(',', expand = True)

ph1 = phase.iloc[:, 0]
ph2 = phase.iloc[:, 1]
ph3 = phase.iloc[:, 2]

phase_fin = pd.concat([ph1, ph2, ph3]).str.strip()

phase_fin.value_counts(normalize = True).reset_index()

Unnamed: 0,index,proportion
0,3,0.571429
1,2,0.242815
2,Інша,0.112037
3,1,0.041233
4,4,0.032486


Як бачимо, в період з 2002 по 2018 роки в Україні проводили переважно треті фази клінічних випробувань. 

ІІІ фаза КВ - це масштабні дослідження з залученням сотень або навіть тисяч хворих. На цьому етапі КВ націлені на виявлення побічних ефектів та протипоказань, а також порівняння результатів лікування з результатами, які дають інші препарати.

Далі працюємо з колонкою "Область". Спробуємо визначити, скільки в середньому областей були залучені до проведення одного випробування.

Для цього спершу маємо очистити від дублікатів деякі комірки датафрейму, а після цього - порахувати в окрему колонку кількість областей. Далі - вирахувати середнє значення за новою колонкою.

In [35]:
# прибираємо дублікати (у тих комірках, де вони є) з колонки "Область" 

# виводимо результат в колонку "no_dup_regions"

t1['no_dup_regions'] = t1['Область'].apply(lambda x: ' | '.join(sorted(set(x.split(' | ')))))
t1[['Область', 'no_dup_regions']]

Unnamed: 0,Область,no_dup_regions
0,Вінницька | Запорізька,Вінницька | Запорізька
1,Дніпропетровська | Київська | Київська | Київс...,Дніпропетровська | Київська | Харківська
2,Дніпропетровська | Дніпропетровська | Дніпропе...,Дніпропетровська | Запорізька | Київська
3,Чернівецька,Чернівецька
4,Вінницька | Дніпропетровська | Донецька | Доне...,Вінницька | Дніпропетровська | Донецька | Київ...
...,...,...
2303,Чернівецька,Чернівецька
2304,Вінницька | Волинська | Закарпатська | Запоріз...,Івано-Франківська | Волинська | Вінницька | За...
2305,Запорізька | Івано-Франківська | Київська | Ки...,Івано-Франківська | Запорізька | Київська | Ха...
2306,Дніпропетровська,Дніпропетровська


In [36]:
# рахуємо кількість символів "|" у колонці "no_dup_regions"

# додаємо до результату кожного рядка "+ 1" (к-сть назв областей завжди буде на 1 більше, ніж к-сть символів "|" в окремому рядку)

# підсумок виводимо в колонку "num_regions" 

t1['num_regions'] = t1[['no_dup_regions']].map(lambda x: str.count(x, '|') + 1)
t1[['no_dup_regions', 'num_regions']]

Unnamed: 0,no_dup_regions,num_regions
0,Вінницька | Запорізька,2
1,Дніпропетровська | Київська | Харківська,3
2,Дніпропетровська | Запорізька | Київська,3
3,Чернівецька,1
4,Вінницька | Дніпропетровська | Донецька | Київ...,6
...,...,...
2303,Чернівецька,1
2304,Івано-Франківська | Волинська | Вінницька | За...,9
2305,Івано-Франківська | Запорізька | Київська | Ха...,5
2306,Дніпропетровська,1


In [37]:
# вираховуємо для колонки "num_regions" середнє, максимальне та мінімальне значення

t1[['num_regions']].agg(['mean', 'max', 'min'])

Unnamed: 0,num_regions
mean,5.679809
max,22.0
min,1.0


Бачимо, що:

1. в середньому до проведення одного випробування в Україні залучалося 5.7 областей
2. також були випадки, коли одне випробування проводилося у 22 областях України
3. але були і інші випадки, коли одне клінічне випробування продилося всього у одній області

Тепер поглянемо, які саме області частіше за інші залучалися до проведення випробувань

In [38]:
# перетворюємо колонку "no_dup_regions" з табулярної форми на pd.series

# відділяємо значення одне від одного пробілами 

# рахуємо кожне окреме значення функцією value.counts

# функцією iloc обираємо всі значення, починаючи з другого, оскільки перше значення - це символ "|"

pd.Series(' '.join(t1['no_dup_regions']).lower().split()).value_counts()[:100].iloc[1:]

київська             1798
харківська           1462
дніпропетровська     1207
львівська             962
вінницька             958
запорізька            842
донецька              774
одеська               757
івано-франківська     656
закарпатська          470
полтавська            436
чернівецька           398
крим                  317
тернопільська         297
черкаська             279
херсонська            226
сумська               221
волинська             206
луганська             166
житомирська           163
чернигівська          148
миколаївська          121
хмельницька           103
кіровоградська        103
рівненська             39
Name: count, dtype: int64

Маємо наступні результати:

1. найчастіше до проведення клінічних випробувань залучали Київську, Харківську та Дніпропетровську області
2. рідше за інші до випробувань долучали Хмельниччину, Кіровоградщину та Рівненщину

Тепер спробуємо знайти відсоток (не)завершених випробувань

In [39]:
# рахуємо кількість значень у колонці "Стан"

# додаємо до функції value_counts умову normalize, щоб вивести відсоткові значення

t1[['Стан']].value_counts(normalize = True)

Стан                   
Завершено КВ в Україні     0.708839
Розпочато КВ в Україні     0.213172
Затверджено наказом МОЗ    0.047660
Знято з розгляду           0.030329
Name: proportion, dtype: float64

Висновки:

1. відсоток завершених КВ - найбільший (70%)
2. також є незначний відсоток (3%) КВ, знятих з розгляду 

Подивимося на ці 3% знятих з розгляду КВ детальніше

In [40]:
# накладаємо фільтр на колонку "Стан"

# формуємо з результату окремий датафрейм

filtered_status = t1[t1["Стан"] == "Знято з розгляду"]
filtered_status[['Медичний напрям', 'no_dup_regions', 'num_regions', 'Вік пацієнтів', 'Стан']]

# виводимо колонку "Медичний напрям" за фільтром "Стан = Знято з розгляду"

filtered_status['Медичний напрям'].value_counts()

Медичний напрям
Неврологія                   11
Ендокринологія                6
Психіатрія                    6
Гастроентерологія             5
Онкологія                     5
Інфекційні хвороби            5
Ревматологія                  4
Дерматологія                  4
Кардіологія                   4
Гематологія                   4
Хірургія                      3
Психіатрія, Педіатрія         2
Ортопедія, Травматологія      1
Пульмонологія, Фтізіатрія     1
Педіатрія                     1
Хірургія, Педіатрія           1
Нефрологія                    1
Онкогематологія               1
Ортопедія, Ревматологія       1
Гематологія, Нефрологія       1
Здорові добровольці           1
Дерматовенерологія            1
Пульмонологія                 1
Name: count, dtype: int64

In [41]:
# виводимо колонку "Кількість регіонів" за фільтром "Стан = Знято з розгляду"

filtered_status['num_regions'].value_counts().reset_index()

Unnamed: 0,num_regions,count
0,1,20
1,4,13
2,5,8
3,6,8
4,2,7
5,3,7
6,8,4
7,9,2
8,7,1


Результати:

1. найчастіше знімалися з розгляду КВ за напрямом "Неврологія"
2. у розрізі кількості регіонів "невдалі" КВ частіше усього проводилися у 1-4 областях

До речі, згідно закону України (https://zakon.rada.gov.ua/laws/show/z1010-09#Text), зняття КВ з розгляду відбувається через непроходження експертизи в Державному експертному центрі МОЗ. Не пройти експертизу можна з таких причин:

1. заявник КВ не надає ДЕЦ відповіді на його зауваження щодо комплектності та повноти заповнення поданих документів (матеріалів) КВ
2. заявник КВ не надає ДЕЦ (у разі зауважень Центру) додаткові матеріали або листа з обґрунтуванням строків, необхідних для їх доопрацювання
3. заявник КВ з тих самих причин, що описані у п.1 та п.2, не проходить експертизу суттєвих поправок, призначену ДЕЦ

Частіше за інших експертизу в ДЕЦ провалював заявник ТОВ "Парексел Україна" (скрипти - нижче). 

Утім, лідером з топ-5 компаній-заявників, які найчастіше провалювали КВ, виявилася українська компанія "Біокад Україна" (з 2018 року - "Юско-Сервіс Груп"). "Біокад Україна" - дочка російської компанії АТ "Біокад". 

Детальніше - за посиланнями:
1. https://opendatabot.ua/c/37450447
2. https://ru.wikipedia.org/wiki/%D0%91%D0%B8%D0%BE%D0%BA%D0%B0%D0%B4

In [42]:
# рахуємо кількість провалених КВ окремими компаніями-замовниками за попередньо накладеним фільтом filtered_status

fail_company = filtered_status[['Заявник']].value_counts().reset_index().iloc[:5]
fail_company


Unnamed: 0,Заявник,count
0,"ТОВ ""Парексел Україна""",9
1,"ТОВ ""КДО ІнноФарм-Україна""",7
2,"ДП ""Біокад Україна""",4
3,"ПІІ ""Квінтайлс Україна""",4
4,"ТОВ ""Інс Ресерч Україна""",3


In [43]:
# рахуємо кількість КВ, які компанії-заявники провели / будуть проводити / провалили

prod_company = t1['Заявник'].value_counts().reset_index().iloc[:5]
prod_company

Unnamed: 0,Заявник,count
0,"ПІІ ""Квінтайлс Україна""",269
1,"ТОВ ""КДО ІнноФарм-Україна""",165
2,"ТОВ ""Парексел Україна""",121
3,"ТОВ ""Пі Ес Ай-Україна""",110
4,"ТОВ ""Клінічні дослідження Айкон""",88


In [44]:
# для зручності і наочності зробимо вручну датафрейм, в якому виведемо коефіцієнт провалених КВ для топ-5 заявників з таблиці fail_company

# коефіцієнт розраховано за формулою "провалені КВ для кожного заявника / загальна к-сть КВ для кожного заявника"

lst = [['Парексел Україна', '0.074'], ['КДО ІнноФарм-Україна', '0.042'], ['Біокад Україна', '0.36'], ['Квінтайлс Україна', '0.014'], ['Інс Ресерч Україна', '0.040']]
fail = pd.DataFrame(lst, columns = ['company_name', 'fail_index'])
fail.sort_values('fail_index', ascending = False)

Unnamed: 0,company_name,fail_index
2,Біокад Україна,0.36
0,Парексел Україна,0.074
1,КДО ІнноФарм-Україна,0.042
4,Інс Ресерч Україна,0.04
3,Квінтайлс Україна,0.014


Перейдемо до останнього відкритого питання в нашому дослідженні. Спробуємо визначити, які вікові групи пацієнтів приймали участь у клінічних випробуваннях частіше за інші.

In [45]:
# для зручності створюємо окремий датафрейм з колонкою "Вік пацієнтів" 

t2 = t1[['Вік пацієнтів']].copy()

# розділяємо всі значення в колонці за комами

t2['Вік пацієнтів'] = t2['Вік пацієнтів'].str.split(',')

# зберігаємо кожне отримане значення в новому рядку

t2 = t2.explode('Вік пацієнтів')

# прибираємо пробіли, де потрібно і рахуємо кількість значень
# переводимо результат у відсотки 

t2['Вік пацієнтів'].str.strip().value_counts(normalize = True)

Вік пацієнтів
Дорослі (18-65 років)                     0.453727
Літнього віку (старші 65 років)           0.308939
Молодші 18 років                          0.053817
Неповнолітні (14-18 років)                0.048413
Малолітні (12-14 років)                   0.047962
Діти (2 роки - 11 років)                  0.039406
Немовлята (з 28-го дня життя - 24 міс)    0.015087
Інший віковий діапазон                    0.013285
-                                         0.011484
Новонароджені (до 27-го дня життя)        0.006080
Недоношені немовлята                      0.001801
Name: proportion, dtype: float64

Висновки:

1. у майже половині випадків у КВ приймали участь люди середньої вікової групи 18-65 років (45%)
2. також доволі розповсюджені випадки залучення до КВ старшої вікової групи (+ 65 років) (31%)
3. разом ці дві групи складають абсолютну більшість (76%) з точки зору залученості до КВ
4. вікова група "менше 18 років" розділена на ряд дрібніших підгруп, які залучаються до КВ біль-менш рівномірно
5. сукупно група "менше 18 років" складає 22.6% від усіх залучених до випробувань пацієнтів