In [1]:
import warnings
warnings.filterwarnings(action='ignore')

## DB connection and view table_name

In [2]:
%load_ext sql

In [27]:
%env DATABASE_URL=postgresql://username:password@host:port/database

env: DATABASE_URL=postgresql://username:password@host:port/database


In [4]:
%sql select * from information_schema.tables where table_schema = 'de'

8 rows affected.


table_catalog,table_schema,table_name,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
synthea_1000,de,visit_occurrence,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,drug_exposure,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,concept,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,person,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,drug_pair,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,clinical_note,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,death,BASE TABLE,,,,,,YES,NO,
synthea_1000,de,condition_occurrence,BASE TABLE,,,,,,YES,NO,


In [5]:
%%sql person << 

select * from person;

 * postgresql://walker101:***@49.50.167.136:5432/synthea_1000
1000 rows affected.
Returning data to local variable person


In [6]:
%%sql tables << 

select table_name from information_schema.tables where table_schema = 'de'

 * postgresql://walker101:***@49.50.167.136:5432/synthea_1000
8 rows affected.
Returning data to local variable tables


In [7]:
table_list = [x[0] for x in tables.DataFrame().values]
table_list

['visit_occurrence',
 'drug_exposure',
 'concept',
 'person',
 'drug_pair',
 'clinical_note',
 'death',
 'condition_occurrence']

## Tables to DataFrame and Save pickle by psycopg2

In [8]:
import pandas.io.sql as psql
import psycopg2 as pg

database = 'database'
user = 'username'
password = 'password'
host = 'host'
port = port

table_dict = {}

with pg.connect(database=database,
                user=user,
                password=password,
                host=host,
                port=port) as conn:
    
    for table in table_list:
        sql = f'select * from {table}'
        df = psql.read_sql(sql, conn)
        table_dict[table] = df

In [9]:
import pickle
import os

data_path = './data/'

for df in table_dict:
    if not os.path.exists(data_path):
        os.makedirs(data_path)
    pickle.dump(table_dict[df], open(f'./data/{df}.p', 'wb'))

In [10]:
def search_path_walk(path):
    """
    * path : 문자열로 상대 혹은 절대경로/ 를 입력하면 하위 폴더 및 존재하는 파일들을 탐색합니다.
     - ex> search_path_walk('./data/')
    """
    return [ os.path.join(dirs, file) for dirs, _,files in os.walk(path) for file in files]

In [11]:
search_path_walk('./data/')

['./data/clinical_note.p',
 './data/concept.p',
 './data/condition_occurrence.p',
 './data/death.p',
 './data/drug_exposure.p',
 './data/drug_pair.p',
 './data/person.p',
 './data/visit_occurrence.p']

## Load_Local_DataFrame

In [12]:
import numpy as np
import pandas as pd

In [13]:
data_path_list = search_path_walk('./data/')

In [14]:
filename_list = [data_path.split('/')[-1].split('.')[0] for data_path in data_path_list]
print(f"* pickle filename list : \n{filename_list}")

* pickle filename list : 
['clinical_note', 'concept', 'condition_occurrence', 'death', 'drug_exposure', 'drug_pair', 'person', 'visit_occurrence']


In [15]:
clinical_note = pickle.load(open(data_path_list[0], 'rb'))
concept = pickle.load(open(data_path_list[1], 'rb'))
condition_occurrence = pickle.load(open(data_path_list[2], 'rb'))
death = pickle.load(open(data_path_list[3], 'rb'))
drug_exposure = pickle.load(open(data_path_list[4], 'rb'))
drug_pair = pickle.load(open(data_path_list[5], 'rb'))
person = pickle.load(open(data_path_list[6], 'rb'))
visit_occurrence = pickle.load(open(data_path_list[7], 'rb'))

## View Each Tables

In [16]:
from IPython.core.display import HTML

def show(df):
    display(HTML(df.to_html()))

In [17]:
# for df in [clinical_note, concept, condition_occurrence, death, drug_exposure, drug_pair, person, visit_occurrence]:
#     print(df.shape)
#     print(df.columns)
#     show(df.head())

## Q1. visit_occurrence에서 환자별 총 내원일수 

In [18]:
# 내원 정보가 있는 환자 수를 확인. person 테이블과 마찬가지의 1000명
visit_occurrence['person_id'].nunique()
# date칼럼이 datetime형식이 datetime타입이 아니므로 날짜 계산을 위해 변환 필요
visit_occurrence['visit_start_date'].dtypes
# 내원시작/종료일자의 dtypes변환
visit_occurrence[['visit_start_date', 'visit_end_date']] = visit_occurrence[['visit_start_date', 'visit_end_date']].apply( pd.to_datetime )
# 데이터마다 내원종료일 - 내원시작일 + 1을 계산하여
# 총 내원일수를 계산해놓는다.
visit_occurrence['visit_total_days'] = \
visit_occurrence['visit_end_date'] - visit_occurrence['visit_start_date'] \
+ pd.to_timedelta(1, unit='d')
# 환자별 총 내원일수 합을 구하기 위해
# 환자별로 groupby한 데이터의 샘플을 뽑아서 확인한다.
grouped = dict(list(visit_occurrence.groupby(['person_id'])))
grouped.keys()
# 환자 1명에 대해 내원시작일순으로 정렬한 뒤, 총 내원일자를 계산해본다.
one_person = grouped[2955].sort_values(by=['visit_start_date'])
one_person['visit_total_days'].sum()
# 이제 그룹별로 환자의 총 내원일수를 계산하고,
person_to_visit_total_count = \
visit_occurrence.groupby(['person_id']).apply(lambda agg_df:agg_df['visit_total_days'].sum())
# 총 내원일수 최대인, 최소인 환자의 index(person_id)를 확인한다.
max_visit_ids = person_to_visit_total_count[person_to_visit_total_count == person_to_visit_total_count.max()].index.values
min_visit_ids = person_to_visit_total_count[person_to_visit_total_count == person_to_visit_total_count.min()].index.values
max_visit_ids, min_visit_ids
# 환자별로 총 내원일자 표를 확인한다.
# print("환자별 총 내원일자")
show(person_to_visit_total_count.sort_values(ascending=False).to_frame('총 내원일자')[:5])
# 최대값 최소값을 가지는 환자의 person_id와 그 값을 출력한다.
print("총 내원일수 최대값과 최소값을 가지는 환자")
print(f"""
최대값 : {str(person_to_visit_total_count.max()).split('days')[0]}일, 환자 id:{max_visit_ids}, 환자 수:{len(max_visit_ids)}
최소값 : {str(person_to_visit_total_count.min()).split('days')[0]}일,, 환자 id:{min_visit_ids}, 환자 수:{len(min_visit_ids)}
""")


Unnamed: 0_level_0,총 내원일자
person_id,Unnamed: 1_level_1
1059760,18873 days
426322,3772 days
537096,3499 days
1891866,1610 days
2833968,658 days


총 내원일수 최대값과 최소값을 가지는 환자

최대값 : 18873 일, 환자 id:[1059760], 환자 수:1
최소값 : 2 일,, 환자 id:[ 215966  709963 1638422 1737987], 환자 수:4



## Q2. condition_occurrence에서 ^[abcde]시작, heart를 포함하는 진단명

In [19]:
# 진단 테이블에 concept테이블을 join하여 진단명을 얻는다.
# unique한 진단수는 151개로 확인된다.
condition_with_concept = \
pd.merge(condition_occurrence, concept,
         left_on="condition_concept_id", right_on='concept_id', how='left')
condition_with_concept['concept_name'].nunique()
# 검색을 위해 진단명을 소문자로 매핑한 칼럼을 생성한다.
condition_with_concept['concept_name(lower)'] = condition_with_concept['concept_name'].map(str.lower)
# 진단명 중 abcde 시작하며, heart라는 단어를 포함하는 데이터를 필터링 하기 위해 mask를 만든다.
# 첫글자는 abcde로 시작하고 & heart를 포함시킨 데이터는 48개로 확인도니다.
condition_mask = \
(condition_with_concept['concept_name(lower)'].str[0].isin(list('abcde')))\
& \
(condition_with_concept['concept_name(lower)'].str.contains('heart'))
condition_mask.sum()
# 필터링 후 중복제거해서 확인한다.
wanted_condition = condition_with_concept['concept_name(lower)'].loc[condition_mask].unique()
print(f"* abcde로 시작하고 heart를 포함하는 진단명(들) : \n{list(wanted_condition)}")

* abcde로 시작하고 heart를 포함하는 진단명(들) : 
['chronic congestive heart failure']


## Q3. drug_exposure에서 특정환자의 처방약의 종류와 복용일 긴 순으로 배열

In [20]:
# 날짜칼럼들의 dtypes가 object로 되어있어 계산용이를 위해 datetime형태로 변환해야한다.
drug_exposure['drug_exposure_start_date'].dtypes
drug_exposure[['drug_exposure_start_date','drug_exposure_end_date']] = \
drug_exposure[['drug_exposure_start_date','drug_exposure_end_date']].apply( pd.to_datetime)
# 각 데이터마다 복용종료일 - 복용시작일 + 1일로 총 복용기간을 계산한다.
drug_exposure['drug_exposure_total_days'] = \
drug_exposure['drug_exposure_end_date'] - drug_exposure['drug_exposure_start_date'] \
+ pd.to_timedelta(1, unit='d')
# 문제에서 제시한 특정 환자 데이터만 추출한다.
patient_1891866 = drug_exposure.loc[drug_exposure['person_id'] ==1891866 ]
print(patient_1891866.shape)
patient_1891866.head()
# 해당환자의 약 종류(drug_cept_id)별 데이터를 처리하기 위해
# 해당환자의 특정약에 대한 데이터를 뽑아서 확인해본다.
grouped = dict(list(patient_1891866.groupby(['drug_concept_id'])))
grouped.keys()
sample_drug = grouped[1539463]
sample_drug.head()
# 처방약별 복용시작일 순으로 정렬한다.
sample_drug = sample_drug.sort_values(by=['drug_exposure_start_date'])
sample_drug.head()
# 최초복용시작일 / 마지막 복용일 / 각 데이터당 총 복용일을 확인한다.
sample_drug['drug_exposure_start_date'].min()
sample_drug['drug_exposure_end_date'].max()
sample_drug['drug_exposure_total_days'].sum()
# 각 처방약별 집계시
# 위에서 확인한 3개의 데이터가 반환되도록 함수를 작성한다.
def get_start_end_total_exposure(agg_df):
    temp_df = agg_df.sort_values(by=['drug_exposure_start_date'])
    start_ = temp_df['drug_exposure_start_date'].min()
    end_ = temp_df['drug_exposure_end_date'].max()
    total_ = temp_df['drug_exposure_total_days'].sum()
    return pd.DataFrame({
        '처음_시작일':start_,
        '마지막_종료일':end_,
        '총_복용일':total_
    }, index=temp_df.index).iloc[0]
# 특정환자의 처방약별로 3개의 데이터를 추출한 뒤, 복용일이 긴 순으로 내림차순 정렬한다.
patient_1891866 = patient_1891866.groupby(['drug_concept_id']).apply(lambda agg_df : get_start_end_total_exposure(agg_df))
patient_1891866 = patient_1891866.sort_values(by=['총_복용일'], ascending=False)
show(patient_1891866)

(1469, 24)


Unnamed: 0_level_0,처음_시작일,마지막_종료일,총_복용일
drug_concept_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
19009384,1959-12-01,1998-10-06,14424 days
1539463,1990-03-13,1998-03-11,5484 days
19030765,1988-10-18,1998-10-05,1214 days
40213154,1989-09-12,1998-07-07,10 days
40213227,1993-01-05,1993-01-05,1 days


## Q4. drugs, prescription_count + drug_pair에서 짝지어진 두번째 약의 처방 건수가 첫번째 약의 처방 건수보다 더 많은 첫번째 약의 약품명을 처방건수 순으로 출력

In [21]:
# hint에서 주어진 쿼리를 활용하여 drug_list 테이블 생성
# 이후 drug_list테이블 -> drugs, prescription_count 테이블이 생성된다.

In [22]:
%%sql drug_list <<

select distinct drug_concept_id, concept_name, count(*) as cnt from
drug_exposure de
join concept
on drug_concept_id = concept_id
where concept_id in (
40213154,19078106,19009384,40224172,19127663,1511248,40169216,1539463,
19126352,1539411,1332419,40163924,19030765,19106768,19075601)
group by drug_concept_id,concept_name
order by count(*) desc

 * postgresql://walker101:***@49.50.167.136:5432/synthea_1000
15 rows affected.
Returning data to local variable drug_list


In [23]:
drug_list = drug_list.DataFrame()
# 총 164개의 drug_concept_id중에 15개만 추출됨.
drug_exposure['drug_concept_id'].nunique()
drug_list['drug_concept_id'].nunique()
# drug_list에서 필요한 칼럼만 각각 추출시
# drugs테이블과 prescription_count테이블이 생성된다.
drugs = drug_list[['drug_concept_id', 'concept_name']]
prescription_count = drug_list[['drug_concept_id', 'cnt']]
# 분석에 활용될 또다른 테이블 drug_pair는 원래 주어진 테이블이다.
drug_pair.head()
# drug_pari테이블에 prescription_count의 정보를 left join으로 붙인다.
# drug_concept_id1와 drug_concept_id2의 count가 row별로 각각 표기되어야하므로
# 2번의 join(merge)를 거쳐야 한다.
drug_pair_count_df = \
pd.merge(drug_pair, prescription_count,
         left_on='drug_concept_id1',right_on='drug_concept_id',
         how='left').drop(['drug_concept_id'],axis=1)\
        .rename(columns={'cnt':'id1_count'})\
    .merge(prescription_count,
          left_on='drug_concept_id2', right_on='drug_concept_id')\
        .rename(columns={'cnt':'id2_count'}).drop(['drug_concept_id'],axis=1)
# 2번째 약의 처방건수가 많은 경우만 필터링한다.
id2_win_df = \
drug_pair_count_df.loc[drug_pair_count_df['id2_count'] > drug_pair_count_df['id1_count']]
# 여기서 필요한 것은 첫번째약의 이름과 처방건수다. 해당 칼럼만 필터링 이후 정렬한다.
id2_win_id1_count_df = \
id2_win_df.merge(drugs,
                left_on='drug_concept_id1', right_on='drug_concept_id')\
                .drop(['drug_concept_id2', 'id2_count', 'drug_concept_id'],axis=1)

id2_win_id1_count_df.columns=['첫번째약_번호', '처방건수', '약품명']
id2_win_id1_count_df = id2_win_id1_count_df[['약품명', '처방건수']].sort_values(by=['처방건수'], ascending=False)
show(id2_win_id1_count_df)

Unnamed: 0,약품명,처방건수
1,hydrochlorothiazide 25 MG Oral Tablet,3669
2,amlodipine 5 MG / hydrochlorothiazide 12.5 MG / olmesartan medoxomil 20 MG Oral Tablet,2814
4,atenolol 50 MG / chlorthalidone 25 MG Oral Tablet [Tenoretic],2729
6,120 ACTUAT fluticasone propionate 0.044 MG/ACTUAT Metered Dose Inhaler,1716
7,simvastatin 20 MG Oral Tablet,1318
8,amlodipine 5 MG Oral Tablet,1247
0,24 HR metformin hydrochloride 500 MG Extended Release Oral Tablet,1235
5,1 ML epoetin alfa 4000 UNT/ML Injection [Epogen],1214
3,hydrochlorothiazide 12.5 MG Oral Tablet,1199
9,clopidogrel 75 MG Oral Tablet,1164


## Q5.제 2형 당뇨병 진단 후 Metformin 90일 이상 복용 환자 추출

In [24]:
# 전체 환자 1000명 중 진단 테이블에 얼마나 존재하는지 확인
# -> 7명은 진단이 없었음.
# 전체 환자 1000명 중 7명은 진단이 없었다.
print("전체 진단 데이터 환자 수 :",condition_occurrence['person_id'].nunique())
# 진단이 없는 환자 목록
print("전체 환자(1000) 중 진단명이 없는 환자(7)의 person_id:",list(set(person['person_id']) - set(condition_occurrence['person_id'])))
# 전체 진단은 151종류이며, 제 2형당뇨병 진단은 주어진데로 17종류의 진다명을 사용한다.
print("전체 진단명 수 :",condition_occurrence['condition_concept_id'].nunique())
# 이 가운데 제2형 당뇨병 진단명은 17가지
diabetes_concept_ids = [3191208,36684827,3194332,3193274,43531010,4130162,45766052,45757474,4099651,4129519,4063043,4230254,4193704,4304377,201826,3194082,3192767]
print("제 2형 당뇨병 진단명 :",len(diabetes_concept_ids))
# 진단 데이터 중 제 2형 당뇨병 진단받은 데이터는 56가지이다.
diabetes_occurrence = condition_occurrence.loc[condition_occurrence['condition_concept_id'].isin(diabetes_concept_ids)]
print("제 2형 당뇨병 진단 데이터 수:",diabetes_occurrence.shape[0])
# 제 2형 당뇨병 진단받은 환자수도 56명이다.(중복 진단 데이터는 없음)
print("제 2형 당뇨병 진단 환자 수:",diabetes_occurrence['person_id'].nunique())
# 진단 정보에 person_id를 이용해 person테이블의 나이정보를 붙인다.
diabetes_with_person_data = \
pd.merge(diabetes_occurrence, person,
         on='person_id')
# 출생년원일을 이용해서 만 나이를 계산(만18세이상)하기 위해, datetime의 타입을 바꾼다.
diabetes_with_person_data['birth_datetime'] = diabetes_with_person_data['birth_datetime'].apply(pd.to_datetime)
# 만나이 = 올해년도 - 출생년도  (-1 if 월,일 안지났으면)
def calculate_age(born):
    today = pd.Timestamp('today')
    age = today.year - born.year - ((today.month, today.day) < (born.month, born.day))
    return age
# 만 나이의 정보가 담긴 age칼럼을 생성한다.
diabetes_with_person_data['age'] = diabetes_with_person_data['birth_datetime'].apply( calculate_age ) 
# 18세 이상의 환자만 필터링한다.
# 제외되는 환자없이 56명 그대로 유지 확인됨.
diabetes_with_person_higher_18 = diabetes_with_person_data.loc [ diabetes_with_person_data['age']>=18]
# 진단받은 이후의 drug_concept_id=40163924(Metformin)복용기록이 90일 이상 찾아야한다.
# 진단일 정보에 drug_exposure의 복용정보를 join한다.
diabetes_and_drugs = \
diabetes_with_person_higher_18.merge( drug_exposure,
    on=['person_id'], how='left'
)
# 당뇨병 진단환자들마다 복용기록이 붙어 데이터가 늘어난다. 12748 rows
print("당뇨병환자 복약 데이터 수:", diabetes_and_drugs.shape[0])
# 먼저, Metformin 복용기록이 있는 데이터만 필터링한다.
# 그 수는 1235 rows로 줄어든다.
metformin_mask = diabetes_and_drugs['drug_concept_id'].isin([40163924])
diabetes_and_metformin = diabetes_and_drugs.loc[metformin_mask]
print("당뇨병환자 중 Metformin 복용 데이터 수:",diabetes_and_metformin.shape[0])
# 진단일이후로 복약시작하여 총 복약일수가 90일이 넘어야한다.
# 진단일 <= 복용시작일로 진단이후 복용한 날짜를 필터링해야한다.
# 이 때, 복용시작 ~ 복용종료일 사이에 진단이 내려질 수 있으니 그것도 고려해야한다.
#    1) 진단일 < 복용시작일
#    2) 복용시작일 <= 진단일 <= 복용종료일 : 진단일~복용종료일로 복용일수를 세야한다.
# 날짜칼럼들을 계산을 위해 type을 변경하고,
diabetes_and_metformin[['condition_start_date', 'drug_exposure_start_date', 'drug_exposure_end_date']] = \
diabetes_and_metformin[['condition_start_date', 'drug_exposure_start_date', 'drug_exposure_end_date']].apply(pd.to_datetime)
# 2가지 mask를 만든 뒤
metformin_after_condition_mask = \
(diabetes_and_metformin['condition_start_date'] < diabetes_and_metformin['drug_exposure_start_date']) \

metformin_in_condition_mask = \
((diabetes_and_metformin['condition_start_date'] >= diabetes_and_metformin['drug_exposure_start_date'])
&    
(diabetes_and_metformin['condition_start_date'] <= diabetes_and_metformin['drug_exposure_end_date']))
# 데이터를 필터링 한다.
metformin_after_diabetes = \
diabetes_and_metformin.loc[metformin_after_condition_mask|metformin_in_condition_mask]
print("당뇨병 진단후 Metformin 복용 데이터 수 :",metformin_after_diabetes.shape[0])
# 총 복용일 계산에 필요한 칼럼들만 추출한다.
metformin_after_diabetes = metformin_after_diabetes[['person_id','condition_start_date', 'drug_exposure_start_date','drug_exposure_end_date']] 
# 2가지 case마다 총 복용일 계산법이 다르므로 mask로 필터링해서 나눈 뒤,
# 각각 계산한다.
case1_df = metformin_after_diabetes.loc[metformin_after_condition_mask]
print("진단일 이후 복용한 case 데이터 수 :",case1_df.shape[0])
case2_df = metformin_after_diabetes.loc[metformin_in_condition_mask]
print("복용중 진단받은  case 데이터 수 :",case2_df.shape[0])
# case1) 진단일 < 복용시작일인 경우, 복용시작일 ~ 복용종료일을 다 계산한다
case1_df['metformin_복용일']=\
case1_df['drug_exposure_end_date'] - case1_df['drug_exposure_start_date']  + pd.to_timedelta(1, unit='d')
# case2)  복용시작 <= 진단일 <= 복용종료인 경우, 진단일 ~ 복용종료일까지 계산한다.
case2_df['metformin_복용일']=\
case2_df['drug_exposure_end_date'] - case2_df['condition_start_date']  + pd.to_timedelta(1, unit='d')
# 2가지 배반 case df를 합친다.
total_metformin_after_diabetes = pd.concat([case1_df, case2_df])
# 환자별로 metformin_복용일을 총 복용일을 합산한 series를 생성한다.
total_metformin_after_diabetes_count_series = \
total_metformin_after_diabetes.groupby(['person_id'])['metformin_복용일'].sum()
# 90일이상 복용한 환자만 필터링 한다.
total_metformin_after_diabetes_count_than_90_series = \
total_metformin_after_diabetes_count_series.loc[total_metformin_after_diabetes_count_series.dt.days >=90]

# 90일이상 복용한 환자들의 id값들을 list로 변환하여 추출한다.
print("** 제 2형 당뇨병 환자 중 진단일 이후 Metformin을 90일 이상 복용한 환자 수 :",len(total_metformin_after_diabetes_count_than_90_series.index.unique()),"**")
# 90일이상 복용한 환자들의 id값들을 list로 변환하여 추출한다.
total_metformin_after_diabetes_count_than_90_list = total_metformin_after_diabetes_count_than_90_series.index.tolist()
print("Metformin을 90일 이상 복용한 환자의 person_id 리스트 : \n",total_metformin_after_diabetes_count_than_90_list)

전체 진단 데이터 환자 수 : 993
전체 환자(1000) 중 진단명이 없는 환자(7)의 person_id: [470594, 1737987, 218372, 709963, 2813715, 1638422, 215966]
전체 진단명 수 : 151
제 2형 당뇨병 진단명 : 17
제 2형 당뇨병 진단 데이터 수: 56
제 2형 당뇨병 진단 환자 수: 56
당뇨병환자 복약 데이터 수: 12748
당뇨병환자 중 Metformin 복용 데이터 수: 1235
당뇨병 진단후 Metformin 복용 데이터 수 : 1228
진단일 이후 복용한 case 데이터 수 : 1213
복용중 진단받은  case 데이터 수 : 15
** 제 2형 당뇨병 환자 중 진단일 이후 Metformin을 90일 이상 복용한 환자 수 : 30 **
Metformin을 90일 이상 복용한 환자의 person_id 리스트 : 
 [31196, 50663, 67212, 176640, 478532, 487607, 495973, 510173, 531690, 537462, 609120, 843873, 892185, 909084, 1102377, 1134605, 1317600, 1444791, 1578321, 1743075, 1819367, 1821726, 1826955, 2074366, 2143829, 2170146, 2400845, 2452672, 2537704, 2694671]


## Q6.제 2형 당뇨병 환자 의약품 처방 패턴 및 해당 환자수 추출

In [25]:
# 제 2형 당뇨병 환자 데이터에 복용 정보를 join하고, 해당 의약품 4가지 정보만 필터링 한다.
# digoxin: 19018935
# simvastatin: 1539411,1539463
# clopidogrel: 19075601
# naproxen: 1115171
diabetes_with_four_drugs = \
diabetes_occurrence.merge( drug_exposure,
    on=['person_id'], how='left'
)
four_drugs_mask = diabetes_with_four_drugs['drug_concept_id'].isin([19018935, 1539411, 1539463, 19075601, 1115171])
diabetes_with_four_drugs = diabetes_with_four_drugs.loc[four_drugs_mask]
print("4가지 의약품을 처방받은 제 2당뇨병 환자의 데이터 수 :",diabetes_with_four_drugs.shape[0])
# 약품을 concept_id -> a,b,c,d로 매핑한다.
#     digoxin(19018935) -> a  
#     simvastatin(1539411,1539463) -> b
#     clopidogrel(19075601) -> c
#     naproxen(1115171) -> d
four_drug_mapping = {
    19018935 : 'a',
    1539411 : 'b',
    1539463 : 'b',
    19075601 : 'c',
    1115171 : 'd',
}
diabetes_with_four_drugs['drug_concept_id'] = diabetes_with_four_drugs['drug_concept_id'].map( four_drug_mapping )
# 복용시작일 순으로 패턴을 파악해야한다. 
# datetime 형태면 index관리가 어려우므로 복용시작일 칼럼의 type을 string으로 바꿔준다.
diabetes_with_four_drugs['drug_exposure_start_date'] = diabetes_with_four_drugs['drug_exposure_start_date'].astype(str)
# 환자별, 날짜마다 처방약을 찾는다. 
# 처방약이 1개면 그대로 반환하면 된지만, 2개 이상인 경우, 중복제거하고 모아두어야한다.
# one_drug_person = grouped[(31196, '1997-05-14')]
# 환자별, 복용시작일별로 정리된 상태에서 약의 종류가 2가지 이상인 경우, 
# 약물들을 뽑아서 중복을 제거하고 모아서 반환되어야 한다.
# two_more_drug_person = grouped[(2833968, '2019-09-09')]
# set(two_more_drug_person['drug_concept_id'].values)
# 환자별-복용시작일별 같은날에 복용한 의약품은 순서대로 모아두고, 콤마(,)로 묶어서 string으로 반환되도록 한다.
def set_drugs_today(agg_df):
    return ', '.join(sorted(list(set(agg_df['drug_concept_id'].values))))
patterns =diabetes_with_four_drugs.groupby(['person_id', 'drug_exposure_start_date']).apply( set_drugs_today )
# index를 제거하면서 당일 처방받은 의약품들을 시간순으로 연결할 준비를 한다.
patterns = patterns.reset_index().rename(columns={0:'pattern'})
# 순서대로 의약품들을 모을 때, 아래와 같은 함수를 작성한다.
# 1) 앞에 것과 동일한 의약품은 건너띔
# 2) 2개이상의 의약품일 경우 괄호로 묶음
# 3) 1),2)를 만족하면서 화살표(->)로 묶는다.
def sum_no_duplicated(s):
    list_ = s.values
    new_list_ = []
    for i in range(len(list_)):
        if i == 0 or (i>1 and list_[i] != list_[i-1]):
            if len(list_[i]) > 1:
                new_list_.append( '(' + list_[i] + ')' )
            else:
                new_list_.append(list_[i])
    return '->'.join(new_list_)
# 환자_id(index)별로 pattern(column)들이 나타나도록 DataFrame을 만든다.
patterns = patterns.groupby(['person_id'])['pattern'].apply(sum_no_duplicated).to_frame('pattern')
# 패턴별로 환자수를 value_count()를 활용해서 counting후 빈도순으로 내림차순 배열한다.
pattern_count = patterns['pattern'].value_counts().sort_values(ascending=False).to_frame('person_count')
pattern_count.index.name='pattern'
show(pattern_count)

4가지 의약품을 처방받은 제 2당뇨병 환자의 데이터 수 : 1577


Unnamed: 0_level_0,person_count
pattern,Unnamed: 1_level_1
d,10
b,4
b->d->b,4
"(b, c)",2
d->b,1
"(b, c)->(b, c)->b->(b, c)->b->(b, c)->b->(b, c)",1
b->c,1
"d->(a, b)",1
a->d->a,1
"b->c->(b, c)->a->(a, b, c)->c->(a, b, c)->c->(a, b, c)",1


## Q7. clinical note에서 데이터 추출후 DB로 변환
 - 해당 문제를 도전해보았지만, 분석 및 해결과정에서 어려움을 겪었습니다. 이후 DB 생성도 이루어지지 못하였습니다.
    - 정규표현식의 활용 및 데이터 추출에 대한 이해도가 낮은 상태로 판단하고 이에 대한 분석 능력을 기르고 싶습니다.
    
 - clinical_note를 제외할 부분을 제외시키고 3part로 나누어서 각각의 정보를 추출하고 싶었습니다.
    - 마지막 3번째 part인 counter에서의 정보추출이 쉽지 않았습니다.
    - 전체 문자열을 줄바꿈단위(\n)의 line으로 추출한 뒤, 각 주제마다 index를 기억하고, 그 사이에 데이터가 있으면 해당 데이터를 추출한 뒤, class나 dictionary속 dictionary를 활용해서 데이터를 모으고, DataFrame을 생성 후 table로 convert하려는 전략을 세웠습니다.
    - 하지만, 저의 숙련도 부족 및 연습문제 풀이시간 제한을 준수하기 위해 해당 문제를 해결하지 못한체 분석을 마쳤습니다.

In [26]:
# 노트 중 1개의 예시를 가져온다.
sample_note = clinical_note['note'][0]
# 문제에서 제외할 부분을 split을 이용해 버리는 전략을 구성했다.
# 칼럼str.split()을 활용하여, 노트중 필요한 part만 칼럼으로 expand되도록 구성한다.
split_str = '--------------------------------------------------------------------------------\n'
note_df = clinical_note['note'].str.split(split_str, expand=True)
# 제외시킬 노트의 일부를 칼럼에서 삭제한다.
note_df = note_df.drop([3,4],axis=1)
# 노트의 각 부분마다 정보이름을 칼럼명으로 배정한다.
note_df.columns=['person_info', 'allergies_info', 'encounter_info']
show(note_df.head(2))
# 첫번째 노트를 예시로 가져와 정보를 추출해본다.
sample_person_info = note_df.iloc[0].values[0]
# 1) personality 정보는 정규표현식을 활용하여, 보고서 형식의 각 부분에서 데이터를 추출한다.
sample_person_str = [ x for x in sample_person_info.split('\n') if len(x) > 1]
import re
for line in sample_person_str:
    match = re.match( "([A-Z]{1}.*):\s*(\S*)", line )
    if match != None:
        print(match.group(1),' - ', match.group(2))
# 2) allergy 정보는 는 정규표현식 없이 쉽게 추출가능하다.
sample_allergies_info = note_df.iloc[0].values[1]
sample_allergies_str= [ x for x in sample_allergies_info.split('\n') if len(x) > 1]
sample_allergies_data = [ x.replace(':','') for x in sample_allergies_str ]
print('-----')
print(*sample_allergies_data)
# 3) encounter에 대한 자세한 정보는 복잡하게 구성되어있다.
#    전체 문자열을 줄바꿈단위(\n)의 line으로 추출한 뒤, 각 주제마다 index를 기억하고, 그 사이에 데이터가 있으면 해당 데이터를 추출하면 될 것 같다.
#    데이터를 추출후 class나 dictionary속 dictionary를 활용해서 데이터를 모으고
#    DataFrame을 생성후 table로 convert하려는 전략을 세웠다.
sample_encounter_info = note_df.iloc[2].values[2]
sample_encounter_str = [ x.strip() for x in sample_encounter_info.split('\n')  if len(x.strip()) > 1]

first_encounter_index = sample_encounter_str.index('ENCOUNTER')
second_medications_index = sample_encounter_str.index('MEDICATIONS:')
third_conditions_index = sample_encounter_str.index('CONDITIONS:')
fourth_careplans_index = sample_encounter_str.index('CARE PLANS:')
fifth_reports_index = sample_encounter_str.index('REPORTS:')
sixth_observations_index = sample_encounter_str.index('OBSERVATIONS:')
seventh_procedures_index = sample_encounter_str.index('PROCEDURES:')
eighth_immunizations_index = sample_encounter_str.index('IMMUNIZATIONS:')
nineth_imagingstudies_index = sample_encounter_str.index('IMAGING STUDIES:')


# sample_encounter_str[first_encounter_index+1:second_medications_index]
# ['2011-06-20 : Encounter at Cape Cod Vet Center : Encounter for Acute bronchitis (disorder)',
#  'Type: ambulatory']
# ['2015-04-23 : Encounter at Cape Cod Vet Center', 'Type: ambulatory']
# ['2015-04-23 : Encounter at Cape Cod Vet Center : Encounter for Anemia (disorder)',
#  'Type: ambulatory']

# sample_encounter_str[second_medications_index+1:third_conditions_index]
# ['2011-06-20 : Acetaminophen 325 MG Oral Tablet for Acute bronchitis (disorder)'] -> for 뒤로는 condition에서 나오므로. 앞에 것만
# []
# []

# sample_encounter_str[third_conditions_index+1:fourth_careplans_index]
# ['2011-06-20 : Acute bronchitis (disorder)']
# ['2015-04-23 : Anemia (disorder)']
# []


# sample_encounter_str[fourth_careplans_index+1:fifth_reports_index]
# ['2011-06-20 : Respiratory therapy',
#  'Reason: Acute bronchitis (disorder)', -> 3-condition에 나온 정보와 동일하므로 생략
#  'Activity: Recommendation to avoid exercise', 
#  'Activity: Deep breathing and coughing exercises']

# []
# []

# sample_encounter_str[fifth_reports_index+1:sixth_observations_index]
# []
# []
# ['2015-04-23 : Complete blood count (hemogram) panel - Blood by Automated count',
#  '- Hemoglobin [Mass/volume] in Blood        10.1 g/dL',
#  '- Hematocrit [Volume Fraction] of Blood    33.2 %',
#  '- WBC Auto (Bld) [#/Vol]                   8.3 10*3/uL',
#  '- RBC Auto (Bld) [#/Vol]                   4.5 10*6/uL',
#  '- MCV [Entitic volume] by Automated count  80.1 fL',
#  '- MCH [Entitic mass] by Automated count    28.0 pg',
#  '- MCHC [Mass/volume] by Automated count    33.3 g/dL',
#  '- RDW - Erythrocyte distribution width Auto (RBC) [Entitic vol] 40.1 fL',
#  '- Platelets [#/volume] in Blood by Automated count 216.9 10*3/uL',
#  '- Platelet distribution width [Entitic volume] in Blood by Automated count 458.8 fL',
#  '- Platelet mean volume [Entitic volume] in Blood by Automated count 10.6 fL']

# sample_encounter_str[sixth_observations_index+1:seventh_procedures_index]
# []
# ['2015-04-23 : Hemoglobin A1c/Hemoglobin.total in Blood 6.3 %']
# ['2015-04-23 : Platelet mean volume [Entitic volume] in Blood by Automated count 10.6 fL',
#  '2015-04-23 : Platelet distribution width [Entitic volume] in Blood by Automated count 458.8 fL',
#  '2015-04-23 : Platelets [#/volume] in Blood by Automated count 216.9 10*3/uL',
#  '2015-04-23 : RDW - Erythrocyte distribution width Auto (RBC) [Entitic vol] 40.1 fL',
#  '2015-04-23 : MCHC [Mass/volume] by Automated count    33.3 g/dL',
#  '2015-04-23 : MCH [Entitic mass] by Automated count    28.0 pg',
#  '2015-04-23 : MCV [Entitic volume] by Automated count  80.1 fL',
#  '2015-04-23 : RBC Auto (Bld) [#/Vol]                   4.5 10*6/uL',
#  '2015-04-23 : WBC Auto (Bld) [#/Vol]                   8.3 10*3/uL',
#  '2015-04-23 : Hematocrit [Volume Fraction] of Blood    33.2 %',
#  '2015-04-23 : Hemoglobin [Mass/volume] in Blood        10.1 g/dL']

# sample_encounter_str[seventh_procedures_index+1:eighth_immunizations_index]
# ['2011-06-20 : Sputum examination (procedure) for Acute bronchitis (disorder)']

# ['2015-04-23 : Medication Reconciliation (procedure)',
#  '2015-04-23 : Colonoscopy']

# ['2015-04-23 : Brief general examination (procedure)',
#  '2015-04-23 : Medication Reconciliation (procedure)',
#  '2015-04-23 : Review of systems (procedure)',
#  '2015-04-23 : Peripheral blood smear interpretation']


# sample_encounter_str[eighth_immunizations_index+1:nineth_imagingstudies_index]
# []

# sample_encounter_str[nineth_imagingstudies_index+1:]
# []


Unnamed: 0,person_info,allergies_info,encounter_info
0,Andrea7 Wolf938\n===============\nRace: White\nEthnicity: Non-Hispanic\nGender: M\nAge: 55\nBirth Date: 1965-04-22\nMarital Status: M\n,ALLERGIES:\nNo Known Allergies\n,ENCOUNTER\n2011-06-20 : Encounter at Cape Cod Vet Center : Encounter for Acute bronchitis (disorder)\nType: ambulatory\n \n MEDICATIONS:\n 2011-06-20 : Acetaminophen 325 MG Oral Tablet for Acute bronchitis (disorder)\n \n CONDITIONS:\n 2011-06-20 : Acute bronchitis (disorder)\n \n CARE PLANS:\n 2011-06-20 : Respiratory therapy\n Reason: Acute bronchitis (disorder)\n Activity: Recommendation to avoid exercise\n Activity: Deep breathing and coughing exercises\n \n REPORTS:\n \n OBSERVATIONS:\n \n PROCEDURES:\n 2011-06-20 : Sputum examination (procedure) for Acute bronchitis (disorder)\n \n IMMUNIZATIONS:\n \n IMAGING STUDIES:\n \n
1,Andrea7 Wolf938\n===============\nRace: White\nEthnicity: Non-Hispanic\nGender: M\nAge: 55\nBirth Date: 1965-04-22\nMarital Status: M\n,ALLERGIES:\nNo Known Allergies\n,ENCOUNTER\n2015-04-23 : Encounter at Cape Cod Vet Center\nType: ambulatory\n \n MEDICATIONS:\n \n CONDITIONS:\n 2015-04-23 : Anemia (disorder)\n \n CARE PLANS:\n \n REPORTS:\n \n OBSERVATIONS:\n 2015-04-23 : Hemoglobin A1c/Hemoglobin.total in Blood 6.3 %\n \n PROCEDURES:\n 2015-04-23 : Medication Reconciliation (procedure)\n 2015-04-23 : Colonoscopy\n \n IMMUNIZATIONS:\n \n IMAGING STUDIES:\n \n


Race  -  White
Ethnicity  -  Non-Hispanic
Gender  -  M
Age  -  55
Birth Date  -  1965-04-22
Marital Status  -  M
-----
ALLERGIES No Known Allergies
