**Задание**

Есть список пациентов, для которых указаны следующие параметры
* Имя
* Возраст
* Пол
* Диагноз
* Страна проживания

Для каждого пациента необходимо найти список подходящих ему испытаний, в которые он может быть записан (в своей стране). Рассматриваются испытания, где используются только препараты (Drug).

Каждое испытание имеет свою фазу и для пациента лучше всего попасть на более позднюю фазу испытания - это повышает его шансы на выздоровление.

Порядок фаз следующий
* Early Phase 1
* Phase 1
* Phase 1/Phase 2
* Phase 2
* Phase 2/Phase 3
* Phase 3
* Phase 4

То есть вначале должны идти испытания, которые в фазе 4, потом в фазе 3, потом в фазе 2/3 и так далее до фазы 1.

Важные моменты, которые нужно учесть
* Есть испытания, где существуют ограничение по полу, а есть, где принимают всех. Это указано в параметре gender в таблице eligibilities
* Заболевание пациента указано, как MeSH Term - тоже что используется в таблице browse_conditions 
* Фаза испытания должна быть указана (список смотри выше). Если в испытании записано другое значение фазы, то это испытание необходимо выкинуть из рассмотрения
* Рассматриваются только те испытания, где используются препараты (Drug).
* nct_id не должны повторяться - нас интересуют только уникальные значения.
* Пол и возраст должны соответствовать критериям включения в испытание

Ответ должен быть записан в виде файла `result.json` в котором сожержится JSON следующего формата

```
{
    "<patient 1 name>": ["NCT_ID_1", "NCT_ID_2", ...],
    "<patient 2 name>": ...,
    ...
}
```


In [1]:
import records
db = records.Database('postgresql://jovyan:jovyan@localhost:5432/aact')  # база данных

In [2]:
import pandas as pd
patients = pd.read_csv('patients.csv')

In [3]:
patients

Unnamed: 0,Name,Age,Sex,Diagnosis,Country
0,Jasper Norton,18,Male,Lymphoma,Norway
1,Guy Doherty,32,Male,Addison Disease,Sweden
2,Reuben Ali,45,Male,Syphilis,United States
3,Joel Perry,13,Male,Lymphoma,France
4,Juan Barton,67,Male,Carcinoma,Norway
5,Hector Baldwin,35,Male,Lymphoma,France
6,Anna Elliott,23,Female,Syphilis,United States
7,Heather Sloan,56,Female,Lymphoma,Switzerland
8,Aiden Blackwell,20,Female,Carcinoma,Australia
9,Ria Kemp,25,Female,Carcinoma,Spain


In [4]:
answer = {}
for i in range(len(patients)):
    result_df = db.query("""
    SELECT  distinct s.nct_id, cv.minimum_age_num, cv.maximum_age_num, e.gender, bc.mesh_term,
        f.country, s.overall_status, i.intervention_type, s.phase,
        CASE s.phase
            WHEN 'Phase 4' THEN 0
            WHEN 'Phase 3' THEN 1
            WHEN 'Phase 2/Phase 3' THEN 2
            WHEN 'Phase 2' THEN 3
            WHEN 'Phase 1/Phase 2' THEN 4
            WHEN 'Phase 1' THEN 5
            WHEN 'Early Phase 1' THEN 6
        END as type_rank
    FROM
        studies s
        join calculated_values cv on cv.nct_id = s.nct_id 
        join browse_conditions bc on bc.nct_id = s.nct_id
        join facilities f on f.nct_id = s.nct_id
        join interventions i on i.nct_id = s.nct_id
        join eligibilities e on e.nct_id = s.nct_id
    WHERE
        (
            cv.minimum_age_unit = 'Years'
            and cv.minimum_age_num <= {patient.Age}
            or cv.minimum_age_num is Null
        )
        and
        (
            cv.maximum_age_unit = 'Years'
            and cv.maximum_age_num >= {patient.Age}
            or cv.maximum_age_num is Null
        )
        and f.country = '{patient.Country}'
        and bc.mesh_term = '{patient.Diagnosis}'
        and i.intervention_type = 'Drug'
        and (e.gender = '{patient.Sex}' or e.gender = 'All')
        and s.phase not in ('None', 'N/A')
    ORDER BY type_rank    
    """.format(patient = patients.iloc[i])).export('df')
    try:
        li = list(result_df['nct_id'])
    except:
        li = []
    answer[patients.iloc[i].Name] = li

In [5]:
answer['Jasper Norton'][:5]

['NCT00003578', 'NCT00004179', 'NCT00646854', 'NCT00790036', 'NCT01014208']

In [6]:
import json

with open('result.json', 'w') as result_file:
    result_file.write(json.dumps(answer))