In [1]:
import pandas as pd
import numpy as np
import re
import math
from tqdm import tqdm
from collections import Counter
from datetime import datetime
from bs4 import BeautifulSoup

## Data Preprocessing

#### 1. Из карточки найти пациентов с ожирением (либо по слову "ожирение", либо по коду МКБ)

In [35]:
def extract_ob_code(value):
    '''Поиск по идентификатору МКБ ожирение: E66
    '''
    re_result = re.findall(r'E66.[0,1,2,8,9]', value)
    if len(re_result) == 0:
        return np.nan
    return re_result


def extract_ob_word(value):
    '''Поиск по словам: "ожирение"
    '''
    re_result = re.findall(r'ожирение', value.lower())
    if len(re_result) == 0:
        return np.nan
    return re_result


def merge_lst(lst):
    '''Функция объединяет списки
    '''
    
    for i in range(len(lst)):
        el = lst[i]
        if pd.isna(el) == False:
            lst[i] = int(el[0])
            
    return lst

In [3]:
path = 'Obesity/I10_01012015-20210707_all_records.txt'
CHUNK_SIZE = 1000

df_iterator = pd.read_csv(
    path, 
    sep='\t',
    encoding='cp1251',
    chunksize=CHUNK_SIZE)

data = [chunk for chunk in df_iterator]
for i in tqdm(range(len(data))):
    df = data[i]
    data[i] = df[df['RecordEMC'].notna()]

In [6]:
data[0]

Unnamed: 0,Name,MedicalProcessEventCode,СompletionDate,СompletionTime,SpecialistName,Organization,Department,SpecialistType,EventType,Event,EMCSection,RecordEMC,ExecutionStatus,StartEpizode,EndEpizode,GoalAdmission,TypeAdmission
0,GACAAAY,GACAAAYAAAAbk12:45AAAA,20111206,12:45,Жукова_Ирина_Николаевна,Центр_Алмазова,ООПМУ,Медицинский_регистратор,,Ввод_назначений (Консультация),ИСТОЧНИК_ФИНАНСИРОВАНИЯ,Тип : ДМС Тарифный_план : Все_услуги Плательщи...,выполнено,,20120116.0,,АМБУЛАТОРНО
1,GACAAAY,GACAAAYAAAAbs11:30-cAD,20111214,11:30-12:00,Сапрыкина_Галина_Дмитриевна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ЖАЛОБЫ,"При измерении АД выявил нерегул. ритм с 2008г,...",выполнено,,20120116.0,,АМБУЛАТОРНО
2,GACAAAY,GACAAAYAAAAbs11:30-cAG,20111214,11:30-12:00,Сапрыкина_Галина_Дмитриевна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ЖАЛОБЫ,"АД чаще нормальное-130\60, редко-160\100.",выполнено,,20120116.0,,АМБУЛАТОРНО
3,GACAAAY,GACAAAYAAAAbs11:30-cAJ,20111214,11:30-12:00,Сапрыкина_Галина_Дмитриевна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ЖАЛОБЫ,"Ходит быстро, болей. одышки нет.",выполнено,,20120116.0,,АМБУЛАТОРНО
4,GACAAAY,GACAAAYAAAAbs11:30-cAM,20111214,11:30-12:00,Сапрыкина_Галина_Дмитриевна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ЖАЛОБЫ,"Терапия: конкор 2,5мг, аспирин кардио.",выполнено,,20120116.0,,АМБУЛАТОРНО
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,GACAAAY,GACAAAYAAWAAB09:46AuAJ,20160120,09:46,Рой_Алёна_Леонидовна,Центр_Алмазова,КО_№6,Врач-кардиолог,,Курация_пациента_лечащим_врачом,ДНЕВНИК,<w id='GACQK;' > <c id='AC~3;' > Общее состоян...,выполнено,20160119.0,20160122.0,Оперативное_лечение,СТАЦИОНАРНО
996,GACAAAY,GACAAAYAAWAAB09:46AuAM,20160120,09:46,Рой_Алёна_Леонидовна,Центр_Алмазова,КО_№6,Врач-кардиолог,,Курация_пациента_лечащим_врачом,ДНЕВНИК,<w id='GACQK;' > <b> <c id='AD~4;' > Дыхательн...,выполнено,20160119.0,20160122.0,Оперативное_лечение,СТАЦИОНАРНО
997,GACAAAY,GACAAAYAAWAAB09:46AuAP,20160120,09:46,Рой_Алёна_Леонидовна,Центр_Алмазова,КО_№6,Врач-кардиолог,,Курация_пациента_лечащим_врачом,ДНЕВНИК,<w id='GACQK;' > <b> <c id='AE~9;' > Сердечно-...,выполнено,20160119.0,20160122.0,Оперативное_лечение,СТАЦИОНАРНО
998,GACAAAY,GACAAAYAAWAAB09:46AuAS,20160120,09:46,Рой_Алёна_Леонидовна,Центр_Алмазова,КО_№6,Врач-кардиолог,,Курация_пациента_лечащим_врачом,ДНЕВНИК,<w id='GACQK;' > <b> <c id='AF~15;' > Желудочн...,выполнено,20160119.0,20160122.0,Оперативное_лечение,СТАЦИОНАРНО


Important columns:
- Name
- MedicalProcessEventCode
- CompetitionDate
- CompetitionTime
- RecordEMC
- Start Epizode
- EndEpizode

Поиск производится по полю RecordEMC

In [11]:
data[0].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Name                     1000 non-null   object 
 1   MedicalProcessEventCode  1000 non-null   object 
 2   СompletionDate           1000 non-null   int64  
 3   СompletionTime           1000 non-null   object 
 4   SpecialistName           970 non-null    object 
 5   Organization             1000 non-null   object 
 6   Department               1000 non-null   object 
 7   SpecialistType           970 non-null    object 
 8   EventType                0 non-null      float64
 9   Event                    1000 non-null   object 
 10  EMCSection               1000 non-null   object 
 11  RecordEMC                1000 non-null   object 
 12  ExecutionStatus          1000 non-null   object 
 13  StartEpizode             839 non-null    float64
 14  EndEpizode               

In [19]:
MKB_lst = []

for chunk_id in tqdm(range(len(data))):
    df_tmp = data[chunk_id]
    ind = 0
    for i in df_tmp.index:
        code = extract_ob_code(df_tmp['RecordEMC'][i])
        if code in [np.nan]:
            ind += 1
            continue
        MKB_lst.append(df_tmp.iloc[ind])
        ind += 1

MKB_df = pd.DataFrame(MKB_lst)
MKB_df.to_csv('MKB_list.csv')

100%|████████████████████████████████████| 11329/11329 [01:05<00:00, 173.07it/s]


In [37]:
ob_word_lst = []

for chunk_id in tqdm(range(len(data))):
    df_tmp = data[chunk_id]
    ind = 0
    for i in df_tmp.index:
        code = extract_ob_word(df_tmp['RecordEMC'][i])
        if code in [np.nan]:
            ind += 1
            continue
        ob_word_lst.append(df_tmp.iloc[ind])
        ind += 1

ob_word_df = pd.DataFrame(ob_word_lst)
ob_word_df.to_csv('ob_word_list.csv')

100%|████████████████████████████████████| 11329/11329 [01:20<00:00, 141.55it/s]


In [42]:
ob_word_df

Unnamed: 0,Name,MedicalProcessEventCode,СompletionDate,СompletionTime,SpecialistName,Organization,Department,SpecialistType,EventType,Event,EMCSection,RecordEMC,ExecutionStatus,StartEpizode,EndEpizode,GoalAdmission,TypeAdmission
4120,GACAACH,GACAACHABDAAA11:16BmAP,20160113,11:16,Орлова_Ольга_Владимировна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ОБЩИЙ_ОСМОТР,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,выполнено,,20160113.0,,АМБУЛАТОРНО
4215,GACAACH,GACAACHABFAAANABИaAkAS,20180206,10:28,Герасименко_Ольга_Владимировна,Центр_Алмазова,Кар,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ОБЩИЙ_ОСМОТР,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,выполнено,,20180219.0,,АМБУЛАТОРНО
4255,GACAACH,GACAACHABHAAA12:52AeAD,20180206,12:52,Глебовская_Татьяна_Дмитриевна,Центр_Алмазова,ОА-Р_№6_(КПК),Заведующий_отделением_анестезиологии_и_реанима...,,Суточное_наблюдение_врача-реаниматолога,АНАМНЕЗ_ЖИЗНИ,<w id='GACAB;' > <b> <c id='Ah~25;' > Хроничес...,выполнено,20180206.0,20180220.0,Лечебно-диагностическая,СТАЦИОНАРНО
4667,GACAACH,GACAACHABHAAG12:10AgAD,20180212,12:10,Калачева_Анастасия_Павловна,Центр_Алмазова,КО_№5_(Пархоменко),Клинический_ординатор,,Осмотр_клиническим_ординатором,АНАМНЕЗ_ЖИЗНИ,<w id='GACAu;' > <b> <c id='AG~25;' > Хроничес...,выполнено,20180206.0,20180220.0,Лечебно-диагностическая,СТАЦИОНАРНО
4678,GACAACH,GACAACHABHAAG12:10AkAS,20180212,12:10,Калачева_Анастасия_Павловна,Центр_Алмазова,КО_№5_(Пархоменко),Клинический_ординатор,,Осмотр_клиническим_ординатором,ОБЩИЙ_ОСМОТР,<w id='GACRI;' > <c id='AH~10;' > Состояние пи...,выполнено,20180206.0,20180220.0,Лечебно-диагностическая,СТАЦИОНАРНО
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11323425,GACBB6F,GACBB6FAAJAAA18:22A!AE,20210426,18:22,Дикарева_Елена_Леонтьевна,Центр_Алмазова,ОПБ,Врач-акушер-гинеколог,,Курация_пациента_лечащим_врачом,ПЕРВИЧНЫЙ_ОСМОТР_АКУШЕРА-ГИНЕКОЛОГА_,<w id='GACMT;' > <p style='text-align:center;'...,выполнено,20210426.0,20210428.0,Оперативное_лечение,СТАЦИОНАРНО
11323719,GACBB6F,GACBB6FAAQAAB20:26A!AB,20210513,20:26,Гаджиева_Жавгарат_Ахмедовна,Центр_Алмазова,ОПБ,Клинический_ординатор,,Осмотр_клиническим_ординатором,ПЕРВИЧНЫЙ_ОСМОТР_АКУШЕРА-ГИНЕКОЛОГА_,<w id='GACMT;' > <v id='AAAA~166;' > с_заведую...,выполнено,20210512.0,20210526.0,Оперативное_лечение,СТАЦИОНАРНО
11323798,GACBB6F,GACBB6FAAQAAFNAAзYA%AB,20210517,09:44,Володичева_Наталия_Сергеевна,Центр_Алмазова,ОКП,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",АНАМНЕЗ_ЖИЗНИ,<w id='GACAu;' > <b> <c id='AG~25;' > Хроничес...,выполнено,20210512.0,20210526.0,Оперативное_лечение,СТАЦИОНАРНО
11323804,GACBB6F,GACBB6FAAQAAFNAAзYA'AF,20210517,09:44,Володичева_Наталия_Сергеевна,Центр_Алмазова,ОКП,Врач-кардиолог,,"Прием_(осмотр,_консультация)_врача-кардиолога_...",ОБЩИЙ_ОСМОТР,<w id='GACAI;' > <c id='AJ~11;' > Состояние пи...,выполнено,20210512.0,20210526.0,Оперативное_лечение,СТАЦИОНАРНО


Read data from files: MKB_list.csv and ob_word_list.csv

Merge them

In [48]:
data_MKB = pd.read_csv('MKB_list.csv', index_col=0)
data_ob_word = pd.read_csv('ob_word_list.csv', index_col=0)

ind1 = data_MKB.index
ind2 = data_ob_word.index

duplicates = list(set(ind1).intersection(ind2))
data_ob_word = data_ob_word.drop(duplicates)
data = pd.concat([data_ob_word, data_MKB])

data.to_csv("dataset.csv")

#### 2. Извлечем из dataset взвешивания 

Important columns:
- Name
- MedicalProcessEventCode (в датасете с анализами аналогичный столбец называется "epizod")
- RecordEMC
- StartEpizode
- EndEpizode

In [18]:
dataset = pd.read_csv("dataset.csv", index_col=0)
col = ["Name", "MedicalProcessEventCode", "RecordEMC", "StartEpizode"]
dataset = dataset[col]
dataset

Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode
4120,GACAACH,GACAACHABDAAA11:16BmAP,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,
4215,GACAACH,GACAACHABFAAANABИaAkAS,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,
4255,GACAACH,GACAACHABHAAA12:52AeAD,<w id='GACAB;' > <b> <c id='Ah~25;' > Хроничес...,20180206.0
4667,GACAACH,GACAACHABHAAG12:10AgAD,<w id='GACAu;' > <b> <c id='AG~25;' > Хроничес...,20180206.0
4678,GACAACH,GACAACHABHAAG12:10AkAS,<w id='GACRI;' > <c id='AH~10;' > Состояние пи...,20180206.0
...,...,...,...,...
11309984,GACBAкЪ,GACBAкЪAAWAAP17:38A!AA,<b>КЛИНИЧЕСКИЙ ДИАГНОЗ:</b><br/><br/><b>_ОСНОВ...,20201013.0
11309990,GACBAкЪ,GACBAкЪAAWAAP17:38A#AG,<w id='#ABVw;' > <c id='AO~34;' > Данные о МЭС...,20201013.0
11310216,GACBAкЪ,GACBAкЪAAaAAA12:40A!AA,<b>КЛИНИЧЕСКИЙ ДИАГНОЗ:</b><br/><b>Основной:</...,
11317277,GACBAэы,GACBAэыAAEAAG10:58A(AB,<b>_СОПУТСТВУЮЩИЙ КЛИНИЧЕСКИЙ_ : </b><b>Код по...,20210407.0


Найдем пациентов, у которых есть измерения веса, сохраним данные записи в датасет time_weight_df

Столбцы:  Name, MedicalProcessEventCode, StartEpizode, EndEpizode


In [19]:
time_weight_lst = []
tmp_ind = dataset.columns.tolist().index("RecordEMC")

for i in tqdm(range(len(dataset))):
    record = dataset.iloc[i, tmp_ind]
    
    if re.search(r"Вес", record):
        time_weight_lst.append(dataset.iloc[i, :])
        
time_weight_col = ["Name", "MedicalProcessEventCode", "RecordEMC", "StartEpizode"]        
time_weight_df = pd.DataFrame(time_weight_lst, columns=time_weight_col)
time_weight_df

100%|██████████████████████████████████| 48284/48284 [00:03<00:00, 14329.58it/s]


Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode
4120,GACAACH,GACAACHABDAAA11:16BmAP,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,
4215,GACAACH,GACAACHABFAAANABИaAkAS,<w id='GACAI;' > <c id='AI~11;' > Состояние пи...,
4678,GACAACH,GACAACHABHAAG12:10AkAS,<w id='GACRI;' > <c id='AH~10;' > Состояние пи...,20180206.0
5477,GACAACH,GACAACHABVAAA12:47A%AP,<w id='GACAI;' > <c id='AJ~11;' > Состояние пи...,
5843,GACAACh,GACAAChAABAKo11:30-kAV,Состояние питания удовлетворительное : Вес 82 ...,20110412.0
...,...,...,...,...
11323719,GACBB6F,GACBB6FAAQAAB20:26A!AB,<w id='GACMT;' > <v id='AAAA~166;' > с_заведую...,20210512.0
11323804,GACBB6F,GACBB6FAAQAAFNAAзYA'AF,<w id='GACAI;' > <c id='AJ~11;' > Состояние пи...,20210512.0
8288631,GACAYтЫ,GACAYтЫAANAFm160016cAD,<w id='GACAh;' > <v id='AA~1;' val=' Пациент н...,20170407.0
9658930,GACAar@,GACAar@AADAAN17:28A&AA,"Черкашин Никита Владимирович, дата рождения 13...",20180221.0


In [20]:
# удалим записи, у которых Startepizode == NaN
time_weight_df.dropna(subset = ["StartEpizode"], inplace=True)

In [21]:
# удалим пациентов с одним измерением веса
patient_ids = time_weight_df["Name"].unique()

for patient in tqdm(patient_ids):
    # indexes of rows with the value of the column Name = patient
    tmp_ind = time_weight_df.index[time_weight_df['Name'] == patient].tolist()
    if len(tmp_ind) == 1:
        time_weight_df = time_weight_df.drop(tmp_ind)

100%|██████████████████████████████████████| 6129/6129 [00:09<00:00, 624.87it/s]


In [22]:
# преборазуем дату float->date()
for i in time_weight_df.index:
    date = re.findall(r"(\d{4})(\d{2})(\d{2})", str(int(time_weight_df["StartEpizode"][i])))
    date = '-'.join(date[0])
    date = datetime.strptime(date, "%Y-%m-%d").date()
    
    time_weight_df["StartEpizode"][i] = date
    

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  time_weight_df["StartEpizode"][i] = date


In [23]:
time_weight_df

Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode
9544,GACAAHY,GACAAHYAACAAC11:30-kAP,Состояние питания удовлетворительное : Вес 75 ...,2012-09-08
9612,GACAAHY,GACAAHYAAFAAA13:47AkAY,Состояние питания удовлетворительное : Вес 78 ...,2012-11-02
9964,GACAAHe,GACAAHeAACABhN20739iAD,"Телосложение: гиперстеник Вес, кг : 110 Рост...",2011-04-19
10066,GACAAHe,GACAAHeAADAFU11:30-kAV,Состояние питания удовлетворительное : Вес 105...,2011-09-22
10162,GACAAHe,GACAAHeAAFAAC09:00-kAV,Состояние питания удовлетворительное : Вес 102...,2013-04-09
...,...,...,...,...
11323719,GACBB6F,GACBB6FAAQAAB20:26A!AB,<w id='GACMT;' > <v id='AAAA~166;' > с_заведую...,2021-05-12
11323804,GACBB6F,GACBB6FAAQAAFNAAзYA'AF,<w id='GACAI;' > <c id='AJ~11;' > Состояние пи...,2021-05-12
8288631,GACAYтЫ,GACAYтЫAANAFm160016cAD,<w id='GACAh;' > <v id='AA~1;' val=' Пациент н...,2017-04-07
9658930,GACAar@,GACAar@AADAAN17:28A&AA,"Черкашин Никита Владимирович, дата рождения 13...",2018-02-21


1. Для каждого пациента найти первое взвешивание и взвешивание, расстояние между которым и первоначальным больше месяца, но меньше года, промежуточные удалить


2. Посчитать разность между взвешиваниями (не меньше месяца, не больше года), удалить тех пациентов, 
которые не удовлетворяют условию

3. Извлечь первоначальный и конечный веc

1-3 сохранять в weight_time_df (далее пригодится)

В новый датасет извлечь Name, MedicalProcessEventCode, Weight (init), период между взвешиваниями

Определить пациент набрал или сбросил вес, записать в новый датасет (predictor)

По Name извлечь из анализов всех инфу + проверить по датам (все индикаторы, ближайщие к первому взвешиванию,
либо до него)


In [24]:
# разберем алгоритм для одного пациента
patient_ids_lst = []

patient_df = time_weight_df[time_weight_df["Name"]=="GACBAкЪ"]
patient_df = patient_df.sort_values(by=['StartEpizode'])

time_lst = patient_df["StartEpizode"].tolist()
print(time_lst)
# условие: запустить цикл, пока разница между первой датой и текущей меньше года (365),
# как только достигли конца цикла, приравниваем текущее значение ко второму измерению
# проверяем, больше ли разница месяца (30)
date_start = time_lst[0]
date_next = time_lst[1]

diff = date_next - date_start
print(diff)
print(diff.days > 30)
print(diff.days < 365)

for i in range(len(time_lst)):
    diff = time_lst[i] - date_start
    
    if diff.days > 365:
        date_next = time_lst[i-1]
        break
    
    date_next = time_lst[i]
    
diff = date_next - date_start
print(diff)
if diff.days >= 30:
    # берем id пациента
    # сохраняем в отдельный датасет имя, date_init, date_next
    patient_ids_lst.append(["GACBAкЪ", date_start, date_next])

print(patient_ids_lst)

patient_ids_df = pd.DataFrame(patient_ids_lst, columns=["Name", "DateStart", "DateNext"])
patient_ids_df

[datetime.date(2019, 11, 22), datetime.date(2019, 12, 6), datetime.date(2020, 2, 6), datetime.date(2020, 7, 30), datetime.date(2020, 10, 13), datetime.date(2020, 10, 13), datetime.date(2020, 10, 13), datetime.date(2020, 10, 13), datetime.date(2020, 10, 13), datetime.date(2020, 10, 13)]
14 days, 0:00:00
False
True
326 days, 0:00:00
[['GACBAкЪ', datetime.date(2019, 11, 22), datetime.date(2020, 10, 13)]]


Unnamed: 0,Name,DateStart,DateNext
0,GACBAкЪ,2019-11-22,2020-10-13


In [25]:
# реализуем алгоритм для всех пациентов
patient_ids = time_weight_df["Name"].unique()
patient_ids_lst = []
start_epizode_lst = []

for name in patient_ids:
    patient_df = time_weight_df[time_weight_df["Name"]==name]
    patient_df = patient_df.sort_values(by=['StartEpizode'])
    
    time_lst = patient_df["StartEpizode"].tolist()
    date_start = time_lst[0]
    # условие: запустить цикл, пока разница между первой датой и текущей меньше года (365),
    # как только достигли конца цикла, приравниваем текущее значение ко второму измерению
    # проверяем, больше ли разница месяца (30)
    for i in range(len(time_lst)):
        diff = time_lst[i] - date_start
    
        if diff.days > 365:
            date_next = time_lst[i-1]
            break
        
        date_next = time_lst[i]

    diff = date_next - date_start

    if diff.days >= 30:
        # берем id пациента
        # сохраняем в отдельный датасет имя, date_init, date_next
        start_id = patient_df[patient_df["StartEpizode"]==date_start].index
        
        tmp_lst = []
        for i in start_id:
            tmp_lst.append(patient_df.loc[i, "MedicalProcessEventCode"])
        
        start_epizode_lst.append(tmp_lst)
        
        start_id = patient_df[patient_df["StartEpizode"]==date_start].index[0]
        next_id = patient_df[patient_df["StartEpizode"]==date_next].index[0]
       
        patient_ids_lst.append(patient_df.loc[start_id].values.flatten().tolist())
        patient_ids_lst.append(patient_df.loc[next_id].values.flatten().tolist())

In [26]:
patient_ids_df = pd.DataFrame(patient_ids_lst, columns=patient_df.columns)
patient_ids_df

Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode
0,GACAAHY,GACAAHYAACAAC11:30-kAP,Состояние питания удовлетворительное : Вес 75 ...,2012-09-08
1,GACAAHY,GACAAHYAAFAAA13:47AkAY,Состояние питания удовлетворительное : Вес 78 ...,2012-11-02
2,GACAAHe,GACAAHeAACABhN20739iAD,"Телосложение: гиперстеник Вес, кг : 110 Рост...",2011-04-19
3,GACAAHe,GACAAHeAADAFU11:30-kAV,Состояние питания удовлетворительное : Вес 105...,2011-09-22
4,GACAAKt,GACAAKtAABAAIN21675kAP,Состояние питания ожирение : Вес 100 <sub> кг ...,2013-05-20
...,...,...,...,...
1613,GACBAкЪ,GACBAкЪAAWAAA16:41A'AH,<w id='GACAI;' red='AJ;' > Состояние питания у...,2020-10-13
1614,GACBAэы,GACBAэыAADAAA152016&AH,<w id='GACCi;' > <c id='AG~7;' > Состояние пит...,2020-11-16
1615,GACBAэы,GACBAэыAAEAAA13:52A'AG,<w id='GACAI;' > <c id='AJ~11;' > Состояние пи...,2021-04-07
1616,GACBB6F,GACBB6FAAEAAC09:52A!AD,<w id='GACMT;' > <p style='text-align:center;'...,2021-03-13


In [27]:
patient_ids = patient_ids_df["Name"].unique()
event_code_lst = [list(tup) for tup in zip(patient_ids, start_epizode_lst)]
event_code_df = pd.DataFrame(event_code_lst, columns=["Name", "MedicalProcessEventCode"])
event_code_df.to_csv("event_code.csv")

Выделить вес:

- очистить данные 

- выделить вес и рост

- найти разницу между измерениями веса

In [28]:
# Очистим текст: теги, единицы измерения, знаки препинания
tmp_ind = patient_ids_df.columns.tolist().index("RecordEMC")

marks = '''!()-[]{};?@#$%:'"\,/^&amp;*_'''
units = ['кг', 'см']

for i in patient_ids_df.index:
    record = patient_ids_df.iloc[i, tmp_ind]
    
    # удаление HTML-тегов
    soup = BeautifulSoup(record)
    text = soup.get_text()
    
    # удаление знаков препинания
    for x in text:  
        if x in marks:  
            text = text.replace(x, "")  
    
    # удаление единиц измерения
    text = re.sub(re.compile(
            r"(\s+(кг|см))"), ' ', text)
    
    # удаление лишних пробелов
    text = re.sub(r'\s+', ' ', text)
    
    patient_ids_df.iloc[i, tmp_ind] = text.lower()


In [32]:
patient_ids_df["RecordEMC"]

0       состояние питания удовлетворительное вес 75 ро...
1       состояние питания удовлетворительное вес 78 ро...
2       телосложение гиперстеник вес 110 рост 153 инде...
3       состояние питания удовлетворительное вес 105 р...
4       состояние питания ожирение вес 100 рост 176 ин...
                              ...                        
1613     состояние питания удовлетворительное вес 102....
1614     состояние питания удовлетворительное вес 130....
1615     состояние питания ожирение вес 134.3 рост 188...
1616     объективный статус общее состояние удовлетвор...
1617     сзаведующимотделениемпатологиибеременностиа.б...
Name: RecordEMC, Length: 1618, dtype: object

In [33]:
# Извлечем вес и рост

records = patient_ids_df["RecordEMC"].tolist()

weight_lst = []
height_lst = []
tmp_ind = patient_ids_df.columns.tolist().index("RecordEMC")

for i in range(len(patient_ids_df)):
    record = patient_ids_df.iloc[i, tmp_ind]
    
    weight = re.findall(r"вес\s(\d{3}).*рост", record)
    if len(weight) == 0:
        weight = re.findall(r"вес\s(\d{2}).*рост", record)
        
    height = re.findall(r"рост\s(\d{3})[\.\s]", record)
    if len(height) == 0:
        height = re.findall(r"рост\s(\d{2})[\.\s]", record)
        
    if weight:
        weight_lst.append(weight)
    else:
        weight_lst.append(np.nan)
    
    if height:
        height_lst.append(height)
    else:
        height_lst.append(np.nan)

In [37]:
weight_lst = merge_lst(weight_lst)
height_lst = merge_lst(height_lst)
patient_ids_df["Weight"], patient_ids_df["Height"] = weight_lst, height_lst

In [38]:
patient_ids_df

Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode,Weight,Height
0,GACAAHY,GACAAHYAACAAC11:30-kAP,состояние питания удовлетворительное вес 75 ро...,2012-09-08,75.0,150.0
1,GACAAHY,GACAAHYAAFAAA13:47AkAY,состояние питания удовлетворительное вес 78 ро...,2012-11-02,78.0,150.0
2,GACAAHe,GACAAHeAACABhN20739iAD,телосложение гиперстеник вес 110 рост 153 инде...,2011-04-19,110.0,153.0
3,GACAAHe,GACAAHeAADAFU11:30-kAV,состояние питания удовлетворительное вес 105 р...,2011-09-22,105.0,163.0
4,GACAAKt,GACAAKtAABAAIN21675kAP,состояние питания ожирение вес 100 рост 176 ин...,2013-05-20,100.0,176.0
...,...,...,...,...,...,...
1613,GACBAкЪ,GACBAкЪAAWAAA16:41A'AH,состояние питания удовлетворительное вес 102....,2020-10-13,102.0,181.0
1614,GACBAэы,GACBAэыAADAAA152016&AH,состояние питания удовлетворительное вес 130....,2020-11-16,130.0,190.0
1615,GACBAэы,GACBAэыAAEAAA13:52A'AG,состояние питания ожирение вес 134.3 рост 188...,2021-04-07,134.0,188.0
1616,GACBB6F,GACBB6FAAEAAC09:52A!AD,объективный статус общее состояние удовлетвор...,2021-03-13,120.0,158.0


In [39]:
# remove nan
# удалить пациентов с одним измерением веса

patient_ids_df = patient_ids_df.dropna(axis='index', how='any', subset=['Weight'])
patient_ids_df.reset_index(drop=True, inplace=True)

# удалим пациентов с одним измерением веса
patient_ids = patient_ids_df["Name"].unique()

for patient in tqdm(patient_ids):
    # indexes of rows with the value of the column Name = patient
    tmp_ind = patient_ids_df.index[patient_ids_df['Name'] == patient].tolist()
    if len(tmp_ind) == 1:
        patient_ids_df = patient_ids_df.drop(tmp_ind)

patient_ids_df.reset_index(drop=True, inplace=True)

100%|███████████████████████████████████████| 802/802 [00:00<00:00, 4523.47it/s]


In [40]:
patient_ids_df

Unnamed: 0,Name,MedicalProcessEventCode,RecordEMC,StartEpizode,Weight,Height
0,GACAAHY,GACAAHYAACAAC11:30-kAP,состояние питания удовлетворительное вес 75 ро...,2012-09-08,75.0,150.0
1,GACAAHY,GACAAHYAAFAAA13:47AkAY,состояние питания удовлетворительное вес 78 ро...,2012-11-02,78.0,150.0
2,GACAAHe,GACAAHeAACABhN20739iAD,телосложение гиперстеник вес 110 рост 153 инде...,2011-04-19,110.0,153.0
3,GACAAHe,GACAAHeAADAFU11:30-kAV,состояние питания удовлетворительное вес 105 р...,2011-09-22,105.0,163.0
4,GACAAKt,GACAAKtAABAAIN21675kAP,состояние питания ожирение вес 100 рост 176 ин...,2013-05-20,100.0,176.0
...,...,...,...,...,...,...
1581,GACBAкЪ,GACBAкЪAAWAAA16:41A'AH,состояние питания удовлетворительное вес 102....,2020-10-13,102.0,181.0
1582,GACBAэы,GACBAэыAADAAA152016&AH,состояние питания удовлетворительное вес 130....,2020-11-16,130.0,190.0
1583,GACBAэы,GACBAэыAAEAAA13:52A'AG,состояние питания ожирение вес 134.3 рост 188...,2021-04-07,134.0,188.0
1584,GACBB6F,GACBB6FAAEAAC09:52A!AD,объективный статус общее состояние удовлетвор...,2021-03-13,120.0,158.0


#### 3. Сформируем target (потеря, либо набор веса)

В датасет добавляем name, weight_init, height (в начальной точке), date_diff, target, weight_diff, target_weight, StartEpizode

Считаем: 
- разницу в весе - target (-1 - потеря, 0 - сохранение веса, 1 - набор), сохранить разницу 
- разницу в дате (date diff)


In [69]:
patient_ids = patient_ids_df["Name"].unique()
index = 0
weight_init_lst = []
diff_weight_lst = []
diff_date_lst = []
target = []
height_lst = []
target_weight = []
start_epizode_lst = []

for patient in patient_ids:
    tmp_df = patient_ids_df[patient_ids_df["Name"]==patient]
    weight_init, weight_next = tmp_df["Weight"][index], tmp_df["Weight"][index+1]
    weight_diff = weight_next - weight_init
    date_diff = tmp_df["StartEpizode"][index+1]-tmp_df["StartEpizode"][index]
    start_epizode = tmp_df["StartEpizode"][index]
    
    if weight_diff < 0:
        t = -1
    elif weight_diff > 0:
        t = 1
    else:
        t = 0
    
    target.append(t)
    height_lst.append((tmp_df["Height"][index]+tmp_df["Height"][index+1])/2)
    diff_date_lst.append(date_diff.days)
    diff_weight_lst.append(weight_diff)
    weight_init_lst.append(weight_init)
    target_weight.append(weight_next)
    start_epizode_lst.append(start_epizode)
    
    index += 2

In [72]:
dataset_target = pd.DataFrame(columns = ["Name", "WeightInit", "Height", "DateDiff", 
                                         "WeightDiff", "Target", "TargetWeight", "StartEpizode"])

dataset_target["Name"] = patient_ids
dataset_target["WeightInit"] = weight_init_lst
dataset_target["Height"] = height_lst
dataset_target["DateDiff"] = diff_date_lst
dataset_target["WeightDiff"] = diff_weight_lst
dataset_target["Target"] = target
dataset_target["TargetWeight"] = target_weight
dataset_target["StartEpizode"] = start_epizode_lst

In [73]:
dataset_target

Unnamed: 0,Name,WeightInit,Height,DateDiff,WeightDiff,Target,TargetWeight,StartEpizode
0,GACAAHY,75.0,150.0,55,3.0,1,78.0,2012-09-08
1,GACAAHe,110.0,158.0,156,-5.0,-1,105.0,2011-04-19
2,GACAAKt,100.0,176.0,32,0.0,0,100.0,2013-05-20
3,GACAAVB,97.0,168.5,292,1.0,1,98.0,2015-01-24
4,GACAAXQ,100.0,172.5,358,0.0,0,100.0,2018-01-23
...,...,...,...,...,...,...,...,...
788,GACBAНg,100.0,168.0,317,2.0,1,102.0,2017-06-20
789,GACBAХH,98.0,174.0,233,-6.0,-1,92.0,2019-04-24
790,GACBAкЪ,116.0,182.0,326,-14.0,-1,102.0,2019-11-22
791,GACBAэы,130.0,189.0,142,4.0,1,134.0,2020-11-16


In [74]:
dataset_target.to_csv("dataset_target.csv")

## Extract data from ChangedWeightObesity.csv

In [15]:
data = pd.read_csv("Obesity/ChangedWeightObesity.csv", index_col=0)

In [16]:
data

Unnamed: 0_level_0,Рост,Вес,сибутрамин,АГ,i10,ХСН,ИМ,Анемия,Острые_легочные_осложнения,Метформин,...,Диабет,витамин,Антигипоксанты и антиоксиданты,Sex,atherosclerosis,Age,ИМТ,ППТ,target_Вес,степень_ожирения
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2,169.0,71.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,1.0,69.731507,24.86,1.83,72.0,0
21,178.0,95.0,0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,1.0,1.0,0.0,0.0,60.491482,29.98,2.17,82.0,0
40,160.0,90.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,60.712329,35.16,2.00,80.0,2
41,165.0,75.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,60.712329,27.55,1.85,90.0,0
42,160.0,85.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,60.712329,33.20,1.94,75.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
68209,158.0,75.0,0,1.0,0.0,1.0,0.0,0.0,1.0,0.0,...,1.0,1.0,1.0,0.0,0.0,60.491482,30.04,1.81,72.0,1
68279,164.0,90.0,0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,...,0.0,1.0,1.0,0.0,0.0,60.491482,33.46,2.02,86.0,1
68393,166.0,81.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,60.491482,29.39,1.93,80.0,0
68414,166.0,82.0,0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,60.491482,29.76,1.94,81.0,0


In [45]:
data.columns

Index(['Рост', 'Вес', 'сибутрамин', 'АГ', 'i10', 'ХСН', 'ИМ', 'Анемия',
       'Острые_легочные_осложнения', 'Метформин', 'Кортикостероиды', 'ИБС',
       'Вредный_образ_жизни', 'ФП', 'НТГ', 'Ожирение', 'Cтенокардия',
       'Расстройства_сна', 'Нарушения_обмена_липопротеидов', 'Гипергликемия',
       'нейропатия', 'диабетическая_ангиопатия', 'инсульт', 'Курение',
       'Алкоголь', 'Гиподинамия', 'Депрессия', 'Тахикардия', 'Ангиография',
       'Нитрат', 'Желудочковая_аритмия', 'Диабет', 'витамин',
       'Антигипоксанты и антиоксиданты', 'Sex', 'atherosclerosis', 'Age',
       'ИМТ', 'ППТ', 'target_Вес', 'степень_ожирения'],
      dtype='object')

## Extract data from AllPatientInformation20210707.txt

In [54]:
path = "Obesity/Analisis/AllPatientInformation20210707.txt"

data = pd.read_csv(path, sep='\t', encoding='cp1251')
data

  data = pd.read_csv(path, sep='\t', encoding='cp1251')


Unnamed: 0,PatientName,Bithday,Gender,BloodGroup,Rezus,InvGroup,NumberContract,Department0,Department1,Department2,Department3,FIOUl,TypeHospital,SendingOrganization
0,#AAAAAA,19510409,Женский,,,,1/09,,,,Центр_Алмазова,,,
1,#AAAAAB,,Женский,,,,1/A11,,,,СП.АРМ,,,
2,#AAAAAC,,Женский,,,,4/A10,,,,СП.АРМ,,,
3,#AAAAAD,,Женский,,,,3/A12,,,,СП.АРМ,,,
4,#AAAAAE,,Женский,,,,4/A12,,,,СП.АРМ,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1065832,yAAlAC=,,,,,,l305,,,l307,МИАЦ_СПб,ХА ХА,ХА ХА,
1065833,yAraAAA,,,,,,ayAr,,Организация_МИАЦ_(ОДЛИ),МИАЦ_(ОДЛИ),МИАЦ_(ОДЛИ),ОРГАНИЗАЦИЯ МИАЦ ОДЛИ,ОРГАНИЗАЦИЯ МИАЦ ОДЛИ,
1065834,яяя~GAC,,,,,,/212,,,,,,,
1065835,яяяАМБУ,,Мужской,,,,1/А13,,,,,,,


In [61]:
dataset = pd.read_csv("dataset_target.csv", index_col=0)
patient_ids_target = dataset["Name"]
patient_lst = []

for patient in tqdm(patient_ids_target):
    patient_lst.append(data[data["PatientName"]==patient].values.tolist()[0])
#     if patient not in patient_ids_target:
#         tmp_ind = data.index[data['PatientName'] == patient].tolist()
#         data = data.drop(tmp_ind)
        
# data.reset_index(drop=True, inplace=True)

100%|█████████████████████████████████████████| 793/793 [00:46<00:00, 16.96it/s]


In [66]:
col = data.columns
data = pd.DataFrame(patient_lst, columns=col)
data

Unnamed: 0,PatientName,Bithday,Gender,BloodGroup,Rezus,InvGroup,NumberContract,Department0,Department1,Department2,Department3,FIOUl,TypeHospital,SendingOrganization
0,GACAAHY,19470129,Женский,,,,400/A07,,,,Центр_Алмазова,,,
1,GACAAHe,19461001,Женский,,,,406/A07,,,,Центр_Алмазова,,,
2,GACAAKt,19490409,Мужской,,,,577/A07,,,,Центр_Алмазова,,,
3,GACAAVB,19650323,Мужской,,,,491/A08,,,,Центр_Алмазова,,,
4,GACAAXQ,19510224,Мужской,,,,610/A08,,,,Центр_Алмазова,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
788,GACBAНg,19731118.0,Женский,,,,90266/B18,,,,Центр_Алмазова,,,
789,GACBAХH,19580416.0,Женский,,,,16503/B19,,,,Центр_Алмазова,,,
790,GACBAкЪ,20030724.0,Мужской,,,,91027/B19,,,,Центр_Алмазова,,,
791,GACBAэы,19970805.0,Мужской,,,,47002/B20,,,2636-20,Центр_Алмазова,,,


In [67]:
# Закодируем пол
data["Gender"].value_counts()

Женский    546
Мужской    247
Name: Gender, dtype: int64

In [68]:
gender_replace = {"Gender": {"Женский": 1, "Мужской": -1}}
data = data.replace(gender_replace)
data

Unnamed: 0,PatientName,Bithday,Gender,BloodGroup,Rezus,InvGroup,NumberContract,Department0,Department1,Department2,Department3,FIOUl,TypeHospital,SendingOrganization
0,GACAAHY,19470129,1,,,,400/A07,,,,Центр_Алмазова,,,
1,GACAAHe,19461001,1,,,,406/A07,,,,Центр_Алмазова,,,
2,GACAAKt,19490409,-1,,,,577/A07,,,,Центр_Алмазова,,,
3,GACAAVB,19650323,-1,,,,491/A08,,,,Центр_Алмазова,,,
4,GACAAXQ,19510224,-1,,,,610/A08,,,,Центр_Алмазова,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
788,GACBAНg,19731118.0,1,,,,90266/B18,,,,Центр_Алмазова,,,
789,GACBAХH,19580416.0,1,,,,16503/B19,,,,Центр_Алмазова,,,
790,GACBAкЪ,20030724.0,-1,,,,91027/B19,,,,Центр_Алмазова,,,
791,GACBAэы,19970805.0,-1,,,,47002/B20,,,2636-20,Центр_Алмазова,,,


In [None]:
# Вычислить возраст Age
# Алгоритм: из data берем Birthday (переводим в timestamp)
# Из dataset берем StartEpizode
# Считаем разницу, выделяем года, сохраняем

# преборазуем дату float->date()
for i in data.index:
    date = re.findall(r"(\d{4})(\d{2})(\d{2})", str(int(data["Bithday"][i])))
    date = '-'.join(date[0])
    date = datetime.strptime(date, "%Y-%m-%d").date()
    
    data["Bithday"][i] = date

In [91]:
birthday_lst = data["Bithday"].tolist()
start_epizode_lst = dataset["StartEpizode"].tolist()

age_lst = []

for i in range(len(birthday_lst)):
    start_epizode_lst[i] = datetime.strptime(start_epizode_lst[i], "%Y-%m-%d").date()
    age_lst.append((start_epizode_lst[i] - birthday_lst[i]).days / 365)

In [96]:
# добавление новых столбцов в dataset_target.csv
dataset["Age"] = age_lst
dataset["Gender"] = data["Gender"].tolist()
dataset.to_csv("dataet_target")
dataset

Unnamed: 0,Name,WeightInit,Height,DateDiff,WeightDiff,Target,TargetWeight,StartEpizode,Age,Gender
0,GACAAHY,75.0,150.0,55,3.0,1,78.0,2012-09-08,65.654795,1
1,GACAAHe,110.0,158.0,156,-5.0,-1,105.0,2011-04-19,64.591781,1
2,GACAAKt,100.0,176.0,32,0.0,0,100.0,2013-05-20,64.156164,-1
3,GACAAVB,97.0,168.5,292,1.0,1,98.0,2015-01-24,49.873973,-1
4,GACAAXQ,100.0,172.5,358,0.0,0,100.0,2018-01-23,66.958904,-1
...,...,...,...,...,...,...,...,...,...,...
788,GACBAНg,100.0,168.0,317,2.0,1,102.0,2017-06-20,43.616438,1
789,GACBAХH,98.0,174.0,233,-6.0,-1,92.0,2019-04-24,61.063014,1
790,GACBAкЪ,116.0,182.0,326,-14.0,-1,102.0,2019-11-22,16.342466,-1
791,GACBAэы,130.0,189.0,142,4.0,1,134.0,2020-11-16,23.298630,-1


### Extract data from AllEpizodes20210707.txt (?)

In [97]:
path = 'Obesity/Analisis/AllEpizodes20210707.txt'
CHUNK_SIZE = 1000

df_iterator = pd.read_csv(
    path, 
    sep='\t',
    encoding='cp1251',
    chunksize=CHUNK_SIZE)

data = [chunk for chunk in df_iterator]

ParserError: Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine='python'.

### Extract data from TotalAnalisis

Исследовать датасеты с анализами

dataset.csv - все пациенты с диагнозом "ожирение"

analysis_weight_df.csv - пациенты, у которых есть запись в колонке "Вес"

analisis_ids_df.csv - записи пациентов с диагнозом "ожирение"

In [3]:
# dataset for all patients with obesity diagnosis
data = pd.read_csv("dataset.csv", index_col=0)
patient_ids = data["Name"].unique()
print(f"Number of names: {len(patient_ids)}")

Number of names: 8092


In [None]:
path = 'Data/TotalAnalisis_20210707.txt'

CHUNK_SIZE = 2000

df_iterator = pd.read_csv(
    path, 
    sep='\t',
    encoding='cp1251',
    chunksize=CHUNK_SIZE)

In [None]:
path = "/home/alexandra/ITMO/MedStat/Data for all nosologes 070721/"
file = "ColumnsTotalAnalisisAllPatientsNewBase_eng.txt"
analisis_name_en = pd.read_csv(path+file, sep='\t', encoding='cp1251')

In [None]:
analisis_data = []
for chunk in tqdm(df_iterator):
    for i in range(len(chunk)):
        if (chunk.iloc[i]["Name"] in patient_ids):
            analisis_data.append(chunk.iloc[i])

In [None]:
analisis_df = pd.DataFrame(analisis_data)
analisis_df.to_csv("analisis_ids_df.csv")

# Rename columns
analisis_ids = pd.read_csv("analisis_ids_df.csv", index_col=0)
analisis_ids.columns = tmp_col
analisis_ids.to_csv("analisis_ids_df.csv")

In [4]:
data_analisis = pd.read_csv("analisis_ids_df.csv", index_col=0)
# extract only patients from dataset with target
data = pd.read_csv("dataset_target.csv", index_col=0)
patient_ids = data["Name"].unique()
analisis_lst = []

for patient in tqdm(patient_ids):
    tmp_df = data_analisis[data_analisis["Name"]==patient]
    tmp_lst = tmp_df.values.tolist()
    for i in range(len(tmp_lst)):
        analisis_lst.append(tmp_lst[i])

  data_analisis = pd.read_csv("analisis_ids_df.csv", index_col=0)
100%|█████████████████████████████████████████| 793/793 [00:10<00:00, 75.32it/s]


In [5]:
col = data_analisis.columns
data_analisis = pd.DataFrame(analisis_lst, columns=col)

In [7]:
data_analisis

Unnamed: 0,epizod,Name,Data_processing_type,Prothrombin time,Prothrombin (according to Quick),Protein S in the blood,Protein C in the blood,Urea,Bilirubin total,Bilirubin straight,...,Troponin,Troponin I,Calcium total. 4,Thyroid-stimulating hormone,Total cholesterol. 1,HDL cholesterol. 3,Triglycerides. 4,VLDL cholesterol. 2,LDL cholesterol (calculated),E0083epizod
0,GACAAKtAAGAAB12:48AAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
1,GACAAKtAAGAAD11:08AAAA,GACAAKt,,,,,,"6.50 63004,40139 КМЛ MIF||ARCH",,,...,,,,,,,,,,
2,GACAAKtAAGAAD11:08BAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
3,GACAAKtAAGAAD11:09AAAA,GACAAKt,,,,,,,"8.90 63004,40140 КМЛ MIF||ARCH",,...,,,,,,,,,,
4,GACAAKtAAGAAD11:09BAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48753,GACBB6FAAaAAA06:33ABAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48754,GACBB6FAAbAAA08:20ABAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48755,GACBB6FAAcAAA08:20BBAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48756,GACBB6FAAcAAA08:20CBAA,GACBB6F,,,,,,,,,...,,,,,,,,,,


In [9]:
data_analisis[data_analisis["Name"]=="GACBB6F"]

Unnamed: 0,epizod,Name,Data_processing_type,Prothrombin time,Prothrombin (according to Quick),Protein S in the blood,Protein C in the blood,Urea,Bilirubin total,Bilirubin straight,...,Troponin,Troponin I,Calcium total. 4,Thyroid-stimulating hormone,Total cholesterol. 1,HDL cholesterol. 3,Triglycerides. 4,VLDL cholesterol. 2,LDL cholesterol (calculated),E0083epizod
48699,GACBB6FAAJAAB10:43AAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48700,GACBB6FAAJAAB11:07BAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48701,GACBB6FAAJAAB11:07DAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48702,GACBB6FAAJAAB11:07EAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48703,GACBB6FAAJAAB11:07FAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48704,GACBB6FAAJAAB11:07GAAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48705,GACBB6FAAJAAB19:08A'AK,GACBB6F,,,,,,,,,...,,,,,,,,,,
48706,GACBB6FAAJAAB19:08A'AQ,GACBB6F,,,,,,,,,...,,,,,,,,,,
48707,GACBB6FAAJAAB19:08A'AS,GACBB6F,,,,,,,,,...,,,,,,,,,,
48708,GACBB6FAAJAAB19:08A'AU,GACBB6F,,,,,,,,,...,,,,,,,,,,


In [6]:
data_event_code = pd.read_csv("event_code.csv", index_col=0)
data_event_code

Unnamed: 0,Name,MedicalProcessEventCode
0,GACAAHY,['GACAAHYAACAAC11:30-kAP']
1,GACAAHe,['GACAAHeAACABhN20739iAD']
2,GACAAKt,['GACAAKtAABAAIN21675kAP']
3,GACAAVB,['GACAAVBAABAAB16:30-kAP']
4,GACAAXQ,"['GACAAXQAAVAAA14:09AiAP', 'GACAAXQAAWAAA15:58..."
...,...,...
804,GACBAНg,"['GACBAНgAAIAAj10:00-mAS', 'GACBAНgAAIAEC17001..."
805,GACBAХH,"[""GACBAХHAACAAA12:54A'AP"", 'GACBAХHAACAAA14:03..."
806,GACBAкЪ,['GACBAкЪAAAAAB103011)AJ']
807,GACBAэы,['GACBAэыAADAAA152016&AH']


In [14]:
tmp = data_event_code[data_event_code["Name"]=="GACBB6F"]["MedicalProcessEventCode"]
for i in tmp:
    print(i)

['GACBB6FAAEAAC09:52A!AD', 'GACBB6FAAEAACNAAШЙA&AF']


In [None]:
# Извлечем анализы из датасета

In [None]:
col_name = data_analisis.columns.tolist()
patient_ids = data_analisis["Name"].unique()

for patient in patient_ids:
    tmp_df = data_analisis[data_analisis["Name"]==patient]
    tmp_lst = tmp_df["Urea"].tolist()
    tmp_lst = [item for item in tmp_lst if not(pd.isnull(item)) == True]
    
    print(tmp_lst)

In [58]:
tmp_df = data_analisis[data_analisis["Name"]=="GACBAНg"]
tmp_lst = tmp_df["Prothrombin (according to Quick)"]
tmp = [item for item in tmp_lst if not(pd.isnull(item)) == True]

In [59]:
tmp

[' 91 64772,37019  Smozhenkova_EV MIF||STACOM2         N',
 ' 91 64772,37019  Smozhenkova_EV MIF||STACOM2         N',
 ' 91 64772,37019  Smozhenkova_EV MIF||STACOM2         N']

In [46]:
tmp_df = data_analisis[data_analisis["Name"]=="GACBAНg"]
tmp_col = tmp_df["epizod"].tolist()

for el in tmp_col:
    if "GACBAНgAAIAEC" in el:
        print(el)

In [28]:
data_analisis = pd.DataFrame(analisis_lst, columns=data_analisis.columns)

In [29]:
data_analisis_tmp

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,162,163,164,165,166,167,168,169,170,171
0,GACAAKtAAGAAB12:48AAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
1,GACAAKtAAGAAD11:08AAAA,GACAAKt,,,,,,"6.50 63004,40139 КМЛ MIF||ARCH",,,...,,,,,,,,,,
2,GACAAKtAAGAAD11:08BAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
3,GACAAKtAAGAAD11:09AAAA,GACAAKt,,,,,,,"8.90 63004,40140 КМЛ MIF||ARCH",,...,,,,,,,,,,
4,GACAAKtAAGAAD11:09BAAA,GACAAKt,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
48753,GACBB6FAAaAAA06:33ABAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48754,GACBB6FAAbAAA08:20ABAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48755,GACBB6FAAcAAA08:20BBAA,GACBB6F,,,,,,,,,...,,,,,,,,,,
48756,GACBB6FAAcAAA08:20CBAA,GACBB6F,,,,,,,,,...,,,,,,,,,,


Данные необходимо извлечь:
- AllEpizodes20210707.txt - sex


In [79]:
patient_info

Unnamed: 0,PatientName,Bithday,Gender,BloodGroup,Rezus,InvGroup,NumberContract,Department0,Department1,Department2,Department3,FIOUl,TypeHospital,SendingOrganization
0,#AAAAAA,19510409,Женский,,,,1/09,,,,Центр_Алмазова,,,
1,#AAAAAB,,Женский,,,,1/A11,,,,СП.АРМ,,,
2,#AAAAAC,,Женский,,,,4/A10,,,,СП.АРМ,,,
3,#AAAAAD,,Женский,,,,3/A12,,,,СП.АРМ,,,
4,#AAAAAE,,Женский,,,,4/A12,,,,СП.АРМ,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1065832,yAAlAC=,,,,,,l305,,,l307,МИАЦ_СПб,ХА ХА,ХА ХА,
1065833,yAraAAA,,,,,,ayAr,,Организация_МИАЦ_(ОДЛИ),МИАЦ_(ОДЛИ),МИАЦ_(ОДЛИ),ОРГАНИЗАЦИЯ МИАЦ ОДЛИ,ОРГАНИЗАЦИЯ МИАЦ ОДЛИ,
1065834,яяя~GAC,,,,,,/212,,,,,,,
1065835,яяяАМБУ,,Мужской,,,,1/А13,,,,,,,


In [81]:
path = "/home/alexandra/ITMO/MedStat/Data for all nosologes 070721/AllPatientInformation20210707.txt"

patient_info = pd.read_csv(path, sep='\t', encoding='cp1251')
patient_ids = data["Name"].unique()
patient_lst = []

for patient in tqdm(patient_ids):
    tmp_df = patient_info[patient_info["PatientName"]==patient]
    tmp_lst = tmp_df.values.tolist()
    for i in range(len(tmp_lst)):
        patient_lst.append(tmp_lst[i])    

  patient_info = pd.read_csv(path, sep='\t', encoding='cp1251')
100%|█████████████████████████████████████████| 793/793 [00:49<00:00, 15.95it/s]


In [88]:
tmp_df = pd.DataFrame(patient_lst)
tmp_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,GACAAHY,19470129,Женский,,,,400/A07,,,,Центр_Алмазова,,,
1,GACAAHe,19461001,Женский,,,,406/A07,,,,Центр_Алмазова,,,
2,GACAAKt,19490409,Мужской,,,,577/A07,,,,Центр_Алмазова,,,
3,GACAAVB,19650323,Мужской,,,,491/A08,,,,Центр_Алмазова,,,
4,GACAAXQ,19510224,Мужской,,,,610/A08,,,,Центр_Алмазова,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
788,GACBAНg,19731118.0,Женский,,,,90266/B18,,,,Центр_Алмазова,,,
789,GACBAХH,19580416.0,Женский,,,,16503/B19,,,,Центр_Алмазова,,,
790,GACBAкЪ,20030724.0,Мужской,,,,91027/B19,,,,Центр_Алмазова,,,
791,GACBAэы,19970805.0,Мужской,,,,47002/B20,,,2636-20,Центр_Алмазова,,,


In [None]:
col = patient_info.columns
patient_info = pd.DataFrame(patient_lst, col)
patient_info