<img src="img/aact-logo.png">

AACT — Aggregate Analysis of Clinical Trials. Это база, содержащая информацию о проводимых клинических испытаниях. Она находится в открытом доступе в виде Postgres базы данных.

Скачать последнюю версию можно с [официального сайта AACT](https://aact.ctti-clinicaltrials.org/snapshots)

В данном интерфейсе уже запущена база с загруженными данными.

<img src="img/aact_schema.png">

Выше представлена полная схема всех таблиц и связей между ними. Многие из них не потребутся, но некоторые проаннатируем:

## studies

Это основная таблица базы, содержащая записи о проводимых клинических испытаниях с основной информацией о них.

Все остальные таблицы имеют поле *nct_id*, которое связывает их с этой основной.

## facilities

База мест проведения клинических испытаний.

## browse_conditions

База заболеваний пациентов, исследующихся в испытаниях.

## eligibilities

База параметрой, которым должны удовлетворять пациенты.

## calculated_values

База с теми же самые параметрами, что и в eligibilities, но в численном виде. А также другие численные параметры испытания.

## interventions

База медицинскиъ вмешательств в рамках испытания. Это могут быть препараты, процедуры и так далее.

Более полную информацию про составление SQL запросов в Postgres можно найти на [официальном сайте Postgres](https://www.postgresql.org/docs/12/sql.html).

In [3]:
import records
# База данных
db = records.Database('postgresql://jovyan:jovyan@localhost:5432/aact')

In [4]:
# Посмотрим, что лежит в studies
db.query("""
SELECT * 
FROM studies 
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,nlm_download_date_description,study_first_submitted_date,results_first_submitted_date,disposition_first_submitted_date,last_update_submitted_date,study_first_submitted_qc_date,study_first_posted_date,study_first_posted_date_type,results_first_submitted_qc_date,...,is_us_export,biospec_retention,biospec_description,ipd_time_frame,ipd_access_criteria,ipd_url,plan_to_share_ipd,plan_to_share_ipd_description,created_at,updated_at
0,NCT04452825,ClinicalTrials.gov processed this data on June...,2020-06-26,,,2020-06-26,2020-06-26,2020-06-30,Estimate,,...,,,,,,,Yes,Memorial Sloan Kettering Cancer Center support...,2020-07-01T05:19:05.116832,2020-07-01T05:19:05.116832
1,NCT04452812,ClinicalTrials.gov processed this data on June...,2020-06-29,,,2020-06-29,2020-06-29,2020-06-30,Estimate,,...,,,,,,,Undecided,,2020-07-01T05:19:05.475004,2020-07-01T05:19:05.475004
2,NCT04452799,ClinicalTrials.gov processed this data on June...,2020-06-29,,,2020-06-29,2020-06-29,2020-06-30,Estimate,,...,,,,,,,No,,2020-07-01T05:19:05.609093,2020-07-01T05:19:05.609093
3,NCT04452786,ClinicalTrials.gov processed this data on June...,2020-06-19,,,2020-06-26,2020-06-26,2020-06-30,Estimate,,...,,,,,,,,,2020-07-01T05:19:05.669271,2020-07-01T05:19:05.669271
4,NCT04452773,ClinicalTrials.gov processed this data on June...,2020-06-25,,,2020-06-29,2020-06-29,2020-06-30,Estimate,,...,,,,,,,No,,2020-07-01T05:19:05.730099,2020-07-01T05:19:05.730099
5,NCT04452760,ClinicalTrials.gov processed this data on June...,2020-06-24,,,2020-06-26,2020-06-26,2020-06-30,Estimate,,...,,,,After the completion of study,The data will be published in a journal,,Yes,The data will be published in a journal,2020-07-01T05:19:05.808704,2020-07-01T05:19:05.808704
6,NCT04452747,ClinicalTrials.gov processed this data on June...,2020-06-23,,,2020-06-26,2020-06-26,2020-06-30,Estimate,,...,,,,,,,No,,2020-07-01T05:19:05.881073,2020-07-01T05:19:05.881073
7,NCT04452734,ClinicalTrials.gov processed this data on June...,2020-04-06,,,2020-06-29,2020-06-29,2020-06-30,Estimate,,...,,,,,,,No,,2020-07-01T05:19:05.949157,2020-07-01T05:19:05.949157
8,NCT04452721,ClinicalTrials.gov processed this data on June...,2020-06-26,,,2020-06-26,2020-06-26,2020-06-30,Estimate,,...,,,,,,,No,,2020-07-01T05:19:06.129141,2020-07-01T05:19:06.129141
9,NCT04452708,ClinicalTrials.gov processed this data on June...,2020-06-29,,,2020-06-29,2020-06-29,2020-06-30,Estimate,,...,,Samples Without DNA,\n NIOSH air samplers are located around ...,,,,Undecided,Depending on the results,2020-07-01T05:19:06.194479,2020-07-01T05:19:06.194479


In [8]:
# Посчитаем общее количество. Для этого используем агрегирующую функцию count, которая считает количество записей
db.query("""
SELECT count(*) 
FROM studies
""").export('df')

Unnamed: 0,count
0,344170


In [9]:
db.query("""
SELECT * 
FROM interventions 
LIMIT 10
""").export('df')

Unnamed: 0,id,nct_id,intervention_type,name,description
0,6813351,NCT04452825,Behavioral,Cancer and Aging: Reflections for Elders (CARE...,Five sessions (45-60 minutes each) will be del...
1,6813352,NCT04452825,Behavioral,Social Work and Supportive Counseling (SWSC) I...,The SWSC will include a social work assessment...
2,6813353,NCT04452812,Biological,Convalescent plasma,Best available treatment + convalescent plasma...
3,6813354,NCT04452799,Drug,Hesperidin and Diosmin mixture,Interventional Clinical Trial
4,6813355,NCT04452786,Procedure,Endoscopic sleeve gastroplasty,Four-hour solid mixed meal test
5,6813356,NCT04452786,Procedure,Laparoscopic sleeve gastrectomy,Four-hour solid mixed meal test
6,6813357,NCT04452773,Dietary Supplement,Manremyc,Manremyc is composed by 10E5 heat-inactivated ...
7,6813358,NCT04452773,Dietary Supplement,Placebo,Same excipients than active arm without bacilli.
8,6813359,NCT04452760,Other,Physical exercise,Physical exercise intervention
9,6813360,NCT04452760,Other,Testing sessions,Testing sessions


In [10]:
db.query("""
SELECT count(*) 
FROM interventions
""").export('df')

Unnamed: 0,count
0,592634


In [11]:
# Найдем только препараты. Для этого использует конструкцию WHERE
db.query("""
SELECT count(*) 
FROM interventions 
WHERE intervention_type = 'Drug'
""").export("df")

Unnamed: 0,count
0,279809


In [12]:
# Возьмем только уникальные препараты. Для этого используем ключевое слово distinct
# Оно выбросит дубликаты, оставив только уникальные значения полей
db.query("""
SELECT distinct name
FROM interventions 
WHERE intervention_type = 'Drug'
LIMIT 10
""").export('df')

Unnamed: 0,name
0,TH-302 and Dexamethasone
1,MEGESTROL
2,1% Steroid Cream
3,[14C]GW642444
4,Amoxicillin powder for oral suspension (Clamox...
5,Chidamide with ICE regimen
6,PD-0325901 oral capsule
7,[14C]AZD0284
8,L-arginine + heme arginate
9,"STW5 (Iberogast®, BAY98-7411)"


In [13]:
# Ключевые слова можно комбинировать. Например, мы можем посчитать количество уникальных препаратов
db.query("""
SELECT count(distinct name)
FROM interventions 
WHERE intervention_type = 'Drug'
""").export('df')

Unnamed: 0,count
0,100440


In [14]:
# Помимо списка уникальных препаратов хочется также подсчитать, сколько раз встречалось каждое наименование
# Для этого нужно использовать агрегирующую функцию в комбинации с конструкцией GROUP BY,
# Она сгруппирует все записи по указанному условию и для каждой группы применит агрегирующую функцию
db.query("""
SELECT
    count(name), name
FROM
    interventions
WHERE
    intervention_type = 'Drug'
GROUP BY name
""").export('df').head(10)

Unnamed: 0,count,name
0,1,"""3D"" regimen"
1,1,"""3D"" regimen with ribavirin"
2,1,"""ACHIM"" as solute (10^9 intestinal microbes/ml..."
3,1,"""Acetaminophen, (paracetamol)"" 500Mg Tab"
4,1,"""Apatinib"" and ""Capecitabine"""
5,1,"""Baricitinib"", ""olumiant®"""
6,1,"""Basel phenotyping cocktail"" capsule"
7,1,"""Basel"" Cocktail"
8,1,"""Bevacizumab"" in combination with ""modified FO..."
9,1,"""Biologics"""


In [15]:
# Здесь явно не хватает сортировки по частоте использования, которую мы подсчитали
# Добавить сортировку можно с использованием конструкции order by
# Она указывает параметр, по которому нужно отсортировать
db.query("""
SELECT
    count(name), name
FROM
    interventions
WHERE
    intervention_type = 'Drug'
GROUP BY name
ORDER BY count(name) DESC
""").export('df').head(10)

Unnamed: 0,count,name
0,17668,Placebo
1,2852,placebo
2,1349,Cyclophosphamide
3,1185,Dexamethasone
4,1065,Paclitaxel
5,1052,Cisplatin
6,1051,Carboplatin
7,944,cyclophosphamide
8,891,Gemcitabine
9,862,Metformin


Для строк в Postgres присутствует большое количество встроенных функций, которые можно использовать в запросах.
Полный список можно посмотреть на [официальном сайте Postgres](https://www.postgresql.org/docs/9.1/functions-string.html).

Сейчас нас интересует `lower`, чтобы слить в один разные наименования в разном регистре (как например с плацебо).

In [19]:
# Применим lower - теперь placebo в одном экземпляре.
db.query("""
SELECT
    count(lower(name)), lower(name) AS name_of_drug
FROM
    interventions
WHERE
    intervention_type = 'Drug'
GROUP BY lower(name)
ORDER BY count(lower(name)) DESC
""").export('df').head(10)

Unnamed: 0,count,name_of_drug
0,20573,placebo
1,2295,cyclophosphamide
2,1814,cisplatin
3,1682,paclitaxel
4,1663,carboplatin
5,1527,dexamethasone
6,1294,docetaxel
7,1074,gemcitabine
8,1034,metformin
9,959,methotrexate


In [20]:
# Сортировать можно не только по численной колонке, но и по текстовой
# По умолчанию будет использоваться сортировка в лексикографическом порядке
# Однако, если мы хотим задать какой-то иной порядок на значениях, можно создать новое числовое поле
# С помощью конструкции case и в явном виде показать отображение в числа
# Например, мы хотим не удалить все интервенции, которые не являются препаратами, а просто убрать их вниз списка

# Посмотрим, какие вообще есть варианты
db.query("""
SELECT distinct intervention_type
FROM interventions
""").export('df')

Unnamed: 0,intervention_type
0,Behavioral
1,Diagnostic Test
2,Other
3,Radiation
4,Procedure
5,Device
6,Dietary Supplement
7,Genetic
8,Combination Product
9,Drug


In [21]:
# Предположим, что мы хотим вначале видеть Drug, потом Biological, затем Radiation и только после все остальные
# в любом порядке. Создадим отдельное поле type_rank, в котором зафиксируем этот порядок,
# и отсортируем с его применением
db.query("""
SELECT
    name,
    intervention_type,
    CASE intervention_type
        WHEN 'Drug' THEN 0
        WHEN 'Biological' THEN 1
        WHEN 'Radiation' THEN 2
        ELSE 3
    END as type_rank
FROM interventions
ORDER BY type_rank
""").export('df')

Unnamed: 0,name,intervention_type,type_rank
0,GK Activator (2),Drug,0
1,Simvastatin,Drug,0
2,catumaxomab,Drug,0
3,Rifalazil,Drug,0
4,Eptifibatide facilitated PCI,Drug,0
5,Irinotecan,Drug,0
6,Thalidomide,Drug,0
7,Sildenafil,Drug,0
8,Dexlansoprazole MR,Drug,0
9,Dexlansoprazole MR,Drug,0


In [22]:
# Посмотрим на все страны, которые есть в базе
db.query("""
SELECT distinct country
FROM facilities
""").export('df').head(10)

Unnamed: 0,country
0,Romania
1,Brazil
2,Austria
3,Guatemala
4,Guinea-Bissau
5,Former Serbia and Montenegro
6,Bolivia
7,Ethiopia
8,Niger
9,Panama


In [23]:
# Ищем исследования, которые проходят только во Франции.
# Для этого склеим основную таблицу с facilities через join, используя nct_id
db.query("""
SELECT s.nct_id, s.brief_title, f.country 
FROM
    studies s
    join facilities f on f.nct_id = s.nct_id
WHERE f.country = 'France'
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,brief_title,country
0,NCT00000655,"A Randomized, Double-Blind Study of 566C80 Ver...",France
1,NCT00000942,A Study of Nevirapine to Prevent HIV Transmiss...,France
2,NCT00000942,A Study of Nevirapine to Prevent HIV Transmiss...,France
3,NCT00001038,A Study of Valacyclovir Hydrochloride in the P...,France
4,NCT00001192,Neuropsychological Evaluation of Psychiatric a...,France
5,NCT00001671,The Classification and Cause of Leukodystrophi...,France
6,NCT00002390,A Study of the Safety and Effectiveness of Dif...,France
7,NCT00002390,A Study of the Safety and Effectiveness of Dif...,France
8,NCT00002390,A Study of the Safety and Effectiveness of Dif...,France
9,NCT00002390,A Study of the Safety and Effectiveness of Dif...,France


In [24]:
# Видно, что в одной стране может быть сразу несколько мест с испытанием. Посчитаем уникальные
db.query("""
SELECT distinct s.nct_id, s.brief_title, f.country 
FROM
    studies s
    join facilities f on f.nct_id = s.nct_id
WHERE f.country = 'France'
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,brief_title,country
0,NCT00000655,"A Randomized, Double-Blind Study of 566C80 Ver...",France
1,NCT00000942,A Study of Nevirapine to Prevent HIV Transmiss...,France
2,NCT00001038,A Study of Valacyclovir Hydrochloride in the P...,France
3,NCT00001192,Neuropsychological Evaluation of Psychiatric a...,France
4,NCT00001671,The Classification and Cause of Leukodystrophi...,France
5,NCT00002390,A Study of the Safety and Effectiveness of Dif...,France
6,NCT00002399,A Comparison of SCH 56592 and Fluconazole in t...,France
7,NCT00002426,A Study on the Safety and Effectiveness of Ade...,France
8,NCT00002459,Radiation Therapy or No Further Treatment Foll...,France
9,NCT00002462,RT or No RT Following Chemotherapy in Treating...,France


In [25]:
# Хотим найти исследования на Британских островах, то есть в Великобритании и Ирландии
# Для этого можем использовать ключевое слово in

db.query("""
SELECT distinct s.nct_id, s.brief_title, f.country 
FROM
    studies s
    join facilities f on f.nct_id = s.nct_id
WHERE 
    f.country in ('United Kingdom', 'Ireland')
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,brief_title,country
0,NCT00000655,"A Randomized, Double-Blind Study of 566C80 Ver...",United Kingdom
1,NCT00000909,A Study to Evaluate the Effects of Giving IL-2...,United Kingdom
2,NCT00001038,A Study of Valacyclovir Hydrochloride in the P...,United Kingdom
3,NCT00001552,Characteristics of Idiopathic Familial Voice D...,United Kingdom
4,NCT00002246,A Study to Evaluate the Use of Stavudine (d4T)...,United Kingdom
5,NCT00002378,A Comparison of Three Anti-HIV Drug Combinatio...,United Kingdom
6,NCT00002426,A Study on the Safety and Effectiveness of Ade...,United Kingdom
7,NCT00002437,The Safety and Effectiveness of Cidofovir in t...,United Kingdom
8,NCT00002459,Radiation Therapy or No Further Treatment Foll...,United Kingdom
9,NCT00002460,Adjuvant Hormone Therapy in Treating Women Wit...,United Kingdom


In [26]:
# Смотрим, какие заболевания вообще бывают
db.query("""
SELECT *
FROM browse_conditions
LIMIT 10
""").export('df')

Unnamed: 0,id,nct_id,mesh_term,downcase_mesh_term
0,6734526,NCT04439019,Obesity,obesity
1,6735915,NCT04427852,Anemia,anemia
2,6738717,NCT04404166,Stroke,stroke
3,6742664,NCT04370366,Edema,edema
4,6743016,NCT04367558,Apnea,apnea
5,6747054,NCT04331821,Apnea,apnea
6,6750015,NCT04309084,Disease,disease
7,6750246,NCT04307394,Suicide,suicide
8,6751759,NCT04294602,Disease,disease
9,6751862,NCT04293731,Obesity,obesity


Mesh term — это унифицированное название заболевания в библиотеке медицинских терминов Medical Subject Headings.
Посмотреть структуру этой библиотеки можно на [официальном сайте](https://meshb.nlm.nih.gov/search).

In [27]:
# Ищем все иследования с определенным заболеванием — с ожирением, например:
db.query("""
SELECT distinct s.nct_id, s.brief_title, bc.downcase_mesh_term 
FROM
    studies s
    join browse_conditions bc on bc.nct_id = s.nct_id
WHERE 
    bc.downcase_mesh_term = 'obesity'
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,brief_title,downcase_mesh_term
0,NCT00000506,Cardiovascular System in Obesity: Effect of Tr...,obesity
1,NCT00001722,Fat Tissue Microperfusion to Measure Leptin Se...,obesity
2,NCT00001723,Safety and Efficacy of Xenical in Children and...,obesity
3,NCT00005210,"Sex Steroids, Obesity and Lipids in Adolescent...",obesity
4,NCT00005345,Genetic Epidemiology of Blood Lipids and Obesi...,obesity
5,NCT00005365,Central Obesity and Disease Risk in Japanese A...,obesity
6,NCT00005386,Biobehavioral Determinants of Obesity in Black...,obesity
7,NCT00005510,Strong Heart Study Analyses Obesity and Lipopr...,obesity
8,NCT00005669,Metformin to Treat Obesity in Children With In...,obesity
9,NCT00005750,School and Family-Based Obesity Prevention for...,obesity


In [28]:
# Попробуем найти исследования, где могут участсовать пациенты от 20 до 40 лет
# Для этого посмотрим на calculated_values
# Если возраст не указан, значит считается, что могут участвовать все
# Также важно, чтобы статус самого испытания был Recruiting, чтобы в него могли записаться новые пациенты
db.query("""
SELECT *
FROM 
    studies s
    join calculated_values cv on cv.nct_id = s.nct_id
WHERE 
    (
        cv.minimum_age_unit = 'Years'
        and cv.minimum_age_num < 20
        or cv.minimum_age_num is Null
    )
    and
    (
        cv.maximum_age_unit = 'Years'
        and cv.maximum_age_num > 40
        or cv.maximum_age_num is Null
    )
    and s.overall_status = 'Recruiting'
LIMIT 10
""").export('df')

Unnamed: 0,nct_id,nlm_download_date_description,study_first_submitted_date,results_first_submitted_date,disposition_first_submitted_date,last_update_submitted_date,study_first_submitted_qc_date,study_first_posted_date,study_first_posted_date_type,results_first_submitted_qc_date,...,months_to_report_results,has_us_facility,has_single_facility,minimum_age_num,maximum_age_num,minimum_age_unit,maximum_age_unit,number_of_primary_outcomes_to_measure,number_of_secondary_outcomes_to_measure,number_of_other_outcomes_to_measure
0,NCT00001154,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-02-27,1999-11-03,1999-11-04,Estimate,,...,,True,True,18.0,80.0,Years,Years,1,,
1,NCT00001159,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-06-27,1999-11-03,1999-11-04,Estimate,,...,,True,True,,,,,1,,
2,NCT00001160,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-06-24,1999-11-03,1999-11-04,Estimate,,...,,True,True,,,,,1,,
3,NCT00001174,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-04-17,1999-11-03,1999-11-04,Estimate,,...,,True,True,18.0,,Years,,1,,
4,NCT00001177,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-06-09,1999-11-03,1999-11-04,Estimate,,...,,True,True,18.0,50.0,Years,Years,1,1.0,
5,NCT00001183,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-05-19,1999-11-03,1999-11-04,Estimate,,...,,True,True,7.0,90.0,Years,Years,1,,
6,NCT00001184,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-04-17,1999-11-03,1999-11-04,Estimate,,...,,True,True,,75.0,,Years,1,,
7,NCT00001205,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-06-04,1999-11-03,1999-11-04,Estimate,,...,,True,True,3.0,75.0,Years,Years,1,,
8,NCT00001208,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-05-01,1999-11-03,1999-11-04,Estimate,,...,,True,True,2.0,,Years,,2,,
9,NCT00001223,ClinicalTrials.gov processed this data on June...,1999-11-03,,,2020-03-20,1999-11-03,1999-11-04,Estimate,,...,,True,True,4.0,,Years,,1,,


In [29]:
# Объединять можно сразу много таблиц между собой
db.query("""
SELECT distinct s.nct_id, s.brief_title, f.country, bc.mesh_term
FROM 
    studies s
    join facilities f on f.nct_id = s.nct_id
    join browse_conditions bc on bc.nct_id = s.nct_id
WHERE 
    f.country = 'Russian Federation'
    and bc.mesh_term = 'Obesity'
LIMIT 10
""").export("df")

Unnamed: 0,nct_id,brief_title,country,mesh_term
0,NCT00485017,Efficacy and Safety of THR-4109 in Obese Subjects,Russian Federation,Obesity
1,NCT00552292,Complications in Hypertension and Obesity,Russian Federation,Obesity
2,NCT00940628,A Study of Xenical (Orlistat) in Overweight an...,Russian Federation,Obesity
3,NCT01272219,Effect of Liraglutide on Body Weight in Non-di...,Russian Federation,Obesity
4,NCT01773733,The PRIMAVERA Study: Reduxine Safety Monitorin...,Russian Federation,Obesity
5,NCT02918279,Effect of Liraglutide for Weight Management in...,Russian Federation,Obesity
6,NCT03006796,Observational Study of Azilsartan/Chlorthalido...,Russian Federation,Obesity
7,NCT03548935,STEP 1: Research Study Investigating How Well ...,Russian Federation,Obesity
8,NCT03552757,Research Study Investigating How Well Semaglut...,Russian Federation,Obesity
9,NCT03574597,Semaglutide Effects on Heart Disease and Strok...,Russian Federation,Obesity
