**Задание**

Есть список пациентов, для которых указаны следующие параметры
* Имя
* Возраст
* Пол
* Диагноз
* Страна проживания

Для каждого пациента необходимо найти список подходящих ему испытаний, в которые он может быть записан (в своей стране). Рассматриваются испытания, где используются только препараты (Drug).

Каждое испытание имеет свою фазу и для пациента лучше всего попасть на более позднюю фазу испытания - это повышает его шансы на выздоровление.

Порядок фаз следующий
* Early Phase 1
* Phase 1
* Phase 1/Phase 2
* Phase 2
* Phase 2/Phase 3
* Phase 3
* Phase 4

То есть вначале должны идти испытания, которые в фазе 4, потом в фазе 3, потом в фазе 2/3 и так далее до фазы 1.

Важные моменты, которые нужно учесть
* Есть испытания, где существуют ограничение по полу, а есть, где принимают всех. Это указано в параметре gender в таблице eligibilities
* Заболевание пациента указано, как MeSH Term - тоже что используется в таблице browse_conditions 
* Фаза испытания должна быть указана (список смотри выше). Если в испытании записано другое значение фазы, то это испытание необходимо выкинуть из рассмотрения
* Рассматриваются только те испытания, где используются препараты (Drug).
* nct_id не должны повторяться - нас интересуют только уникальные значения.
* Пол и возраст должны соответствовать критериям включения в испытание

Ответ должен быть записан в виде файла `result.json` в котором сожержится JSON следующего формата

```
{
    "<patient 1 name>": ["NCT_ID_1", "NCT_ID_2", ...],
    "<patient 2 name>": ...,
    ...
}
```


In [14]:
import records
db = records.Database('postgresql://jovyan:jovyan@localhost:5432/aact')

In [15]:
import csv
patients = []
with open('patients.csv') as csvfile:
    data = csv.reader(csvfile)
    
    header = next(data)
    
    for item in data:
        name, age, sex, diag, country = item
        patients.append({'name': name,
                         'age': age,
                         'sex': sex,
                         'diagnosis': diag,
                         'country': country})

print(patients[0])

{'name': 'Jasper Norton', 'age': '18', 'sex': 'Male', 'diagnosis': 'Lymphoma', 'country': 'Norway'}


In [41]:
res_db = db.query("""
                  SELECT 
                      distinct i.nct_id, 
                      s.phase,
                      CASE s.phase
                          WHEN 'Phase 4' THEN 0
                          WHEN 'Phase 3' THEN 1
                          WHEN 'Phase 2/Phase 3' THEN 2
                          WHEN 'Phase 2' THEN 3
                          WHEN 'Phase 1/Phase 2' THEN 4
                          WHEN 'Phase 1' THEN 5
                          WHEN 'Early Phase 1' THEN 6
                          ELSE 7
                      END as phase_rank,
                      e.gender, 
                      cv.minimum_age_num, 
                      cv.maximum_age_num, 
                      bc.mesh_term, 
                      f.country
                  FROM
                      interventions i
                      join studies s on i.nct_id = s.nct_id 
                      join facilities f on i.nct_id = f.nct_id 
                      join eligibilities e on i.nct_id = e.nct_id
                      join calculated_values cv on i.nct_id = cv.nct_id
                      join browse_conditions bc on i.nct_id = bc.nct_id
                  WHERE
                      i.intervention_type = 'Drug'
                  ORDER BY phase_rank
                  """).export('df')

In [42]:
res_db = res_db[res_db['phase_rank'] != 7]

In [43]:
res_db.head(10)

Unnamed: 0,nct_id,phase,phase_rank,gender,minimum_age_num,maximum_age_num,mesh_term,country
0,NCT00000218,Phase 4,0,Female,18.0,60.0,Cocaine-Related Disorders,United States
1,NCT00000218,Phase 4,0,Female,18.0,60.0,Disease,United States
2,NCT00000218,Phase 4,0,Female,18.0,60.0,Substance-Related Disorders,United States
3,NCT00000270,Phase 4,0,All,18.0,48.0,Cocaine-Related Disorders,United States
4,NCT00000300,Phase 4,0,All,18.0,99.0,Opioid-Related Disorders,United States
5,NCT00000321,Phase 4,0,Male,,,Substance-Related Disorders,United States
6,NCT00000373,Phase 4,0,All,14.0,70.0,Compulsive Personality Disorder,United States
7,NCT00000373,Phase 4,0,All,14.0,70.0,Disease,United States
8,NCT00000373,Phase 4,0,All,14.0,70.0,Obsessive-Compulsive Disorder,United States
9,NCT00000374,Phase 4,0,All,16.0,40.0,Schizophrenia,United States


In [44]:
res_db.tail(10)

Unnamed: 0,nct_id,phase,phase_rank,gender,minimum_age_num,maximum_age_num,mesh_term,country
453294,NCT04430959,Early Phase 1,6,All,18.0,65.0,Depressive Disorder,United States
453295,NCT04436731,Early Phase 1,6,All,18.0,45.0,Obesity,United States
453296,NCT04438265,Early Phase 1,6,All,18.0,85.0,Joint Diseases,Spain
453297,NCT04439721,Early Phase 1,6,All,10.0,65.0,Leukemia,China
453298,NCT04439721,Early Phase 1,6,All,10.0,65.0,"Leukemia, B-Cell",China
453299,NCT04445025,Early Phase 1,6,Female,21.0,42.0,Endometriosis,United States
453300,NCT04445025,Early Phase 1,6,Female,21.0,42.0,Infertility,United States
453301,NCT04449198,Early Phase 1,6,All,18.0,,Diabetes Mellitus,United States
453302,NCT04449198,Early Phase 1,6,All,18.0,,"Diabetes Mellitus, Type 1",United States
453303,NCT04450199,Early Phase 1,6,All,18.0,89.0,Vitamin D Deficiency,United States


In [46]:
res_db['minimum_age_num'] = res_db['minimum_age_num'].fillna(0)
res_db['maximum_age_num'] = res_db['maximum_age_num'].fillna(1000)

In [47]:
res_db['for_female'] = (res_db['gender'] == 'Female') | (res_db['gender'] == 'All')
res_db['for_male'] = (res_db['gender'] == 'Male') | (res_db['gender'] == 'All')

In [50]:
import json

answer = {}

for patient in patients:
    clean_db = res_db[(res_db['country'] == patient['country'])
                      & 
                      (res_db['mesh_term'] == patient['diagnosis'])
                      &
                      (res_db['minimum_age_num'] < int(patient['age']))
                      & 
                      (res_db['maximum_age_num'] > int(patient['age']))]

    if patient['sex'] == 'female':
        clean_db = clean_db[clean_db['for_female'] == True]
    else:
        clean_db = clean_db[clean_db['for_male'] == True]
    
    answer[patient['name']] = list(clean_db['nct_id'].values)

In [51]:
with open('result.json', 'w') as result_file:
    result_file.write(json.dumps(answer))

In [52]:
! cat result.json

{"Jasper Norton": ["NCT00003578", "NCT02684708"], "Guy Doherty": ["NCT03210545", "NCT01063569"], "Reuben Ali": ["NCT03637660", "NCT03980223", "NCT00031499", "NCT03660488"], "Joel Perry": ["NCT00002757", "NCT00003650", "NCT00003728", "NCT00003805", "NCT00006455", "NCT00162656", "NCT01516580", "NCT02684708", "NCT02703272", "NCT02730299", "NCT03194893", "NCT04043494", "NCT00180895", "NCT00298467", "NCT00848926", "NCT00866047", "NCT00947856", "NCT01516567", "NCT02227108", "NCT03384654", "NCT03407144", "NCT03703050", "NCT00742495", "NCT01492088", "NCT02625480", "NCT03585465", "NCT03743246", "NCT03769181", "NCT00006340", "NCT01742286", "NCT03349346"], "Juan Barton": ["NCT00033904", "NCT00206219", "NCT01009593", "NCT01223027", "NCT01265901", "NCT01668784", "NCT02737501", "NCT03260894", "NCT03833167", "NCT03867084", "NCT04128696", "NCT04195750", "NCT01367665", "NCT02248012", "NCT02414139", "NCT02969083", "NCT04220866", "NCT02219893", "NCT00056537", "NCT01061645", "NCT01223209", "NCT03732781"],