In [397]:
# pip install webcolors

# Цель: 
построить интерактивный график исследования вакцинации от энцефалита. Данные являются синтетическими. Задача сгенерирована самостоятельно на примере настоящих.
## Условия задачи: 
Исследуется 5 видов вакцин от Японского энцефалита, которые испытывают на 7805 пациентах, прошедшх скрининг и явившихся на первую прививку. Вакцинирование проходит в три этапа, после каждого могут возникать нежелательные явления, связанные с реакцией организма исследуемого. При наличии н/я, пациент выбывает из исследования и не производятся следующие прививки. Если н/я возникли после третьей (последнего этапа), пациет уже не исключается из исследования. Необходимо отразить распределение исследуемых и н/я. Ошибки в предоставленных данных допустимы (как в реальности), поэтому в качестве основных данных условно выступают конкретные н/я либо их отсутствие.

In [313]:
import pandas as pd
import numpy as np
from webcolors import hex_to_rgb
get_ipython().run_line_magic('matplotlib', 'inline')
import itertools
import plotly.graph_objects as go
import matplotlib.pyplot as plotter
import matplotlib.pyplot as plt


from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

In [414]:
encefalit = pd.read_csv('encefalit.csv', delimiter ='\t')
encefalit.describe().transpose()

Unnamed: 0,count,unique,top,freq
прививка,7805,5,Japanese encephalitis-2,4749
первая вакцинаци от клещевого энцефалита,7805,1,Да,7805
Нежелательные явления после первой прививки от энцефалита,7805,3,н/я отсутствуют,5554
вторая вакцинаци от клещевого энцефалита,7805,2,Да,5554
Нежелательные явления после второй прививки от энцефалита,7805,3,н/я отсутствуют,7657
третья вакцинация от клещевого энцефалита,7805,2,Да,7661
Нежелательные явления после третьей прививки от энцефалита,7805,2,н/я отсутствуют,7744
третья вакцинаци от клещевого энцефалита,2350,2,Да,2202


In [4]:
encefalit.head()

Unnamed: 0,прививка,первая вакцинаци от клещевого энцефалита,Нежелательные явления после первой прививки от энцефалита,вторая вакцинаци от клещевого энцефалита,Нежелательные явления после второй прививки от энцефалита,третья вакцинация от клещевого энцефалита,Нежелательные явления после третьей прививки от энцефалита,третья вакцинаци от клещевого энцефалита
0,Japanese encephalitis-2,Да,н/я отсутствуют,Да,н/я отсутствуют,Да,н/я отсутствуют,
1,Japanese encephalitis-2,Да,н/я отсутствуют,Да,н/я отсутствуют,Да,н/я отсутствуют,
2,Japanese encephalitis-2,Да,небольшое покраснение кожи и локальное повышен...,Нет,н/я отсутствуют,Да,н/я отсутствуют,Да
3,Japanese encephalitis-2,Да,н/я отсутствуют,Да,н/я отсутствуют,Да,н/я отсутствуют,
4,Japanese encephalitis-2,Да,небольшое покраснение кожи и локальное повышен...,Нет,н/я отсутствуют,Да,н/я отсутствуют,Да


In [407]:
data = encefalit[['прививка', 'Нежелательные явления после первой прививки от энцефалита', 
                 'Нежелательные явления после второй прививки от энцефалита']]
data

Unnamed: 0,прививка,Нежелательные явления после первой прививки от энцефалита,Нежелательные явления после второй прививки от энцефалита
0,Japanese encephalitis-2,н/я отсутствуют,н/я отсутствуют
1,Japanese encephalitis-2,н/я отсутствуют,н/я отсутствуют
2,Japanese encephalitis-2,небольшое покраснение кожи и локальное повышен...,н/я отсутствуют
3,Japanese encephalitis-2,н/я отсутствуют,н/я отсутствуют
4,Japanese encephalitis-2,небольшое покраснение кожи и локальное повышен...,н/я отсутствуют
...,...,...,...
7800,Japanese encephalitis-5,н/я отсутствуют,н/я отсутствуют
7801,Japanese encephalitis-5,н/я отсутствуют,н/я отсутствуют
7802,Japanese encephalitis-5,н/я отсутствуют,н/я отсутствуют
7803,Japanese encephalitis-5,н/я отсутствуют,н/я отсутствуют


In [399]:
# 1) пациенты, которые остались в исследовании после первой прививки
source1 = []
source2 = []
value1 = []
value2 = []
target1 = []
target2 = []
vacs = sorted(encefalit['прививка'].unique().tolist())
for vac in vacs:
    
    value1.append(data[data['прививка'] == vac]\
                  ['Нежелательные явления после первой прививки от энцефалита'].value_counts().tolist())
    nyas = data[data['прививка'] == vac]\
                   ['Нежелательные явления после первой прививки от энцефалита'].value_counts().index.tolist()
    target1.append([f'{vac} после 1й прививки', nyas[1:]])
    
    source1.append(f'{vac} исследуемые')

st1 = dict(list(zip(source1, target1)))
sv1 = dict(list(zip(source1, value1)))
# print(sv1)

    
for vac in vacs:
    
    vals = data[data['прививка'] == vac]\
    ['Нежелательные явления после второй прививки от энцефалита'].value_counts().tolist()
    nyas = data[data['прививка'] == vac]\
    ['Нежелательные явления после второй прививки от энцефалита'].value_counts().index.tolist()
    vacin = vac+' после 1й прививки'
    if len(vals) > 2:
        value2.append([sv1[vac+' исследуемые'][0] - vals[1] - vals[2], vals[1], vals[2]])
        target2.append([f'{vac} после 2й прививки', nyas[1:]])
        source2.append([vacin])
    elif len(vals) == 1:
        value2.append([sv1[vac+' исследуемые'][0]])
        target2.append([f'{vac} после 2й прививки'])
        source2.append(vacin)
value2 = list(itertools.chain(*value2)) 
source1 = [source1[0], source1[0], source1[0],
           source1[1], source1[1], source1[1],
           source1[2], source1[2], source1[2],
           source1[3], source1[3], source1[3],
           source1[4], source1[4], source1[4]]
source2 = [source2[0][0], source2[0][0], source2[0][0],\
           source2[1][0], source2[1][0], source2[1][0],source2[2], source2[3], source2[4]]

value1 = list(itertools.chain(*value1)) 
target1 = list(itertools.chain(*target1)) 
target1 = [target1[0], target1[1][0], target1[1][1],\
target1[2], target1[3][0], target1[3][1],\
target1[4], target1[5][0], target1[5][1],\
target1[6], target1[7][0], target1[7][1],\
target1[8], target1[9][0], target1[9][1]]
target2 = [target2[0][0], target2[0][1][0] , target2[0][1][1], \
target2[1][0], target2[1][1][0] , target2[1][1][1], \
target2[2][0], target2[3][0], target2[4][0]]
target = target1+target2
source = source1 + source2
values = value1+value2
len(target), len(source), len(values)

(24, 24, 24)

In [400]:
unique_label = np.unique(source).tolist() + np.unique(target).tolist()
node_label = list(np.unique(unique_label))

In [401]:
node_dict = {y:x for x, y in enumerate(node_label)}

In [402]:
source_node = [node_dict[x] for x in source]
target_node = [node_dict[x] for x in target]

In [403]:
fig = go.Figure(
    data=[go.Sankey(
        node = dict(
            label = node_label
        ),
        link = dict(
            source = source_node,
            target = target_node,
            value = values
        ))])

plot(fig,
     image_filename='sankey_plot_1', 
     image='png', 
     image_width=3000, 
     image_height=2000
)
fig.show()

In [404]:
node_color = ['#F94144', '#F3722C', '#F8961E', '#F9C74F', 
              '#90BE6D', '#43AA8B', '#577590', '#F27420',
              '#4994CE','#FABC13',  '#7FC241','#D3D3D3',
              '#8A5988', '#449E9E','#D3D3D3', '#4994CE',    '#7FC241','#4994CE',
              ]

fig = go.Figure(
    data=[go.Sankey(
        node = dict(
            label = node_label,
            color = node_color
        ),
        link = dict(
            source = source_node,
            target = target_node,
            value = values
        ))])
plot(fig,
     image_filename='sankey_plot_2', 
     image='png', 
     image_width=3000, 
     image_height=2000
)
fig.show()

In [405]:
node_label_color = {x:y for x, y in zip(node_label, node_color)}
link_color = [node_label_color[x] for x in target]

link_color = ['rgba({},{},{}, 0.4)'.format(
    hex_to_rgb(x)[0],
    hex_to_rgb(x)[1],
    hex_to_rgb(x)[2]) for x in link_color] 

In [406]:
fig = go.Figure(
    data=[go.Sankey(
        node = dict(
            label = node_label,
            color = node_color
        ),
        link = dict(
            source = source_node,
            target = target_node,
            value = values, 
            color = link_color,
        ))])
plot(fig,
     image_filename='sankey_plot_2', 
     image='png', 
     image_width=3000, 
     image_height=5000
)
fig.show()