**Задание**

Есть список пациентов, для которых указаны следующие параметры
* Имя
* Возраст
* Пол
* Диагноз
* Страна проживания

Для каждого пациента необходимо найти список подходящих ему испытаний, в которые он может быть записан (в своей стране). Рассматриваются испытания, где используются только препараты (Drug).

Каждое испытание имеет свою фазу и для пациента лучше всего попасть на более позднюю фазу испытания - это повышает его шансы на выздоровление.

Порядок фаз следующий
* Early Phase 1
* Phase 1
* Phase 1/Phase 2
* Phase 2
* Phase 2/Phase 3
* Phase 3
* Phase 4

То есть вначале должны идти испытания, которые в фазе 4, потом в фазе 3, потом в фазе 2/3 и так далее до фазы 1.

Важные моменты, которые нужно учесть
* Есть испытания, где существуют ограничение по полу, а есть, где принимают всех. Это указано в параметре gender в таблице eligibilities
* Заболевание пациента указано, как MeSH Term - тоже что используется в таблице browse_conditions 
* Фаза испытания должна быть указана (список смотри выше). Если в испытании записано другое значение фазы, то это испытание необходимо выкинуть из рассмотрения
* Рассматриваются только те испытания, где используются препараты (Drug).
* nct_id не должны повторяться - нас интересуют только уникальные значения.
* Пол и возраст должны соответствовать критериям включения в испытание

Ответ должен быть записан в виде файла `result.json` в котором сожержится JSON следующего формата

```
{
    "<patient 1 name>": ["NCT_ID_1", "NCT_ID_2", ...],
    "<patient 2 name>": ...,
    ...
}
```


In [1]:
import records
db = records.Database('postgresql://jovyan:jovyan@localhost:5432/aact')  # база данных

In [2]:
# Пример

import csv
patients = []
with open('patients.csv') as csvfile:
    data = csv.reader(csvfile)
    header = next(data)
    print(header)
    for item in data:
        name, age, sex, diag, country = item
        patients.append({
            'name': name,
            'age': age,
            'sex': sex,
            'diagnosis': diag,
            'country': country
        })

patient_1 = patients[0]
print(patient_1)

['Name', 'Age', 'Sex', 'Diagnosis', 'Country']
{'name': 'Jasper Norton', 'age': '18', 'sex': 'Male', 'diagnosis': 'Lymphoma', 'country': 'Norway'}


In [3]:
# для примера рекомендуем просто первые 10 случайных испытаний
result_df = db.query("""
SELECT nct_id, brief_title
FROM studies
LIMIT 10
""").export('df')
result_df

Unnamed: 0,nct_id,brief_title
0,NCT04452825,A New Psychotherapy Intervention for Older Can...
1,NCT04452812,Statistical and Epidemiological Study Based on...
2,NCT04452799,Hesperidin and Diosmin for Treatment of COVID-19
3,NCT04452786,Hormonal and Metabolic Aspects of Endoscopic S...
4,NCT04452773,Clinical Trial to Evaluate the Efficacy of Foo...
5,NCT04452760,Effects of Ten-Weeks Progressive Resistance Tr...
6,NCT04452747,Artificial Induction of Labour in Full-term Si...
7,NCT04452734,Efficacy of Platelet Rich Plasma (PRP) on Mout...
8,NCT04452721,Prognosis Factors for the Treatment of Pectus ...
9,NCT04452708,HFNC and NIV for COVID-19 Complicated by Respi...


In [4]:
def get_studies(patient):
    age = patient['age']
    sex = patient['sex']
    diagnosis = patient['diagnosis']
    country = patient['country']
    sql = \
    f"""
    select distinct s.nct_id, s.phase
    from studies s
    join interventions i on s.nct_id = i.nct_id
    join facilities f on s.nct_id = f.nct_id
    join browse_conditions bc on s.nct_id = bc.nct_id
    join eligibilities e on s.nct_id = e.nct_id
    join calculated_values cv on s.nct_id = cv.nct_id
    where i.intervention_type = 'Drug' 
    and f.country = '{country}'
    and bc.mesh_term = '{diagnosis}'
    and (e.gender = '{sex}' or e.gender = 'All')
    and ((cv.minimum_age_unit = 'Years' and cv.minimum_age_num <= {age}) or cv.minimum_age_num is Null)
    and ((cv.maximum_age_unit = 'Years' and cv.maximum_age_num >= {age}) or cv.maximum_age_num is Null)
    and s.phase in ('Early Phase 1',
                    'Phase 1',
                    'Phase 1/Phase 2',
                    'Phase 2',
                    'Phase 2/Phase 3',
                    'Phase 3',
                    'Phase 4')
    order by s.phase desc
    """
    return db.query(sql).export('df')['nct_id']

In [5]:
answer = {}
for patient in patients:
    nct_list = list(get_studies(patient))
    answer[patient['name']] = nct_list

In [6]:
nct_list = list(result_df['nct_id'])
print(nct_list)

['NCT04452825', 'NCT04452812', 'NCT04452799', 'NCT04452786', 'NCT04452773', 'NCT04452760', 'NCT04452747', 'NCT04452734', 'NCT04452721', 'NCT04452708']


In [7]:
import json

with open('result.json', 'w') as result_file:
    result_file.write(json.dumps(answer))

In [8]:
! cat result.json

{"Jasper Norton": ["NCT00003578", "NCT00004179", "NCT00646854", "NCT00790036", "NCT01014208", "NCT01461928", "NCT01609010", "NCT01712490", "NCT01855750", "NCT02684708", "NCT02858258", "NCT03206671", "NCT03570892", "NCT04043494", "NCT00455416", "NCT00514475", "NCT00791947", "NCT01016795", "NCT01307605", "NCT01470456", "NCT01502982", "NCT02038946", "NCT02451111", "NCT02460276", "NCT01796171", "NCT02678299", "NCT03109353", "NCT00533728", "NCT00930514", "NCT03806179"], "Guy Doherty": ["NCT03210545", "NCT01063569"], "Reuben Ali": ["NCT03637660", "NCT03980223", "NCT00031499", "NCT03660488"], "Joel Perry": ["NCT00002757", "NCT00003650", "NCT00003728", "NCT00003805", "NCT00006455", "NCT02684708", "NCT02730299", "NCT03194893", "NCT04043494", "NCT00298467", "NCT00848926", "NCT00866047", "NCT00947856", "NCT03407144", "NCT00742495", "NCT01492088", "NCT02625480", "NCT03585465", "NCT03743246", "NCT03769181", "NCT00006340"], "Juan Barton": ["NCT00033904", "NCT00206219", "NCT01009593", "NCT01223027", 