## 임상시험 데이터 확인
### 목적
임상시험 데이터 및 포맷, 스펙(데이터셋 스키마)를 확인하고 임상시험 데이터의 최종적 형태인 sas7bdat/xport를 다룬다.

### 준비
환경: 64비트 anaconda/conda\
임상시험 데이터: [cafe.naver.com/dmisimportant/104](cafe.naver.com/dmisimportant/104)

### Libraries

In [1]:
import os
import numpy as np
import pandas as pd
import secrets

### Variables
CRF 포맷, LAB 데이터 포맷, 데이터셋 파일 경로, 기타 변수 설정

In [2]:
gen=np.random.default_rng(2330)
ornament="-"*10
hangul="가나다라마바사아자차카파타하"
ext=(".sas7bdat",".xport")
path_crf="C:/code/CUBEDEMO2017/CUBEDEMO_2017_dc_or_fmt.xlsx"
path_lab="C:/code/CUBEDEMO2017/CUBEDEMO_2017_dc_or_lar.xlsx"
path_set="C:/code/CUBEDEMO2017/SASSET/"

### 포맷 파일 로드
CRF 포맷 파일에서 데이터 도메인 확인

In [3]:
form_crf=pd.read_excel(path_crf)
form_lab=pd.read_excel(path_lab)
print(ornament,"domain formats:",os.linesep,form_crf.DOMAIN.unique())

---------- domain formats: 
 ['AE' 'AY' 'CM' 'CT' 'CY' 'DM' 'DS' 'EF' 'EG' 'ES' 'IE' 'IP' 'LB' 'LC'
 'LY' 'MH' 'MY' 'PD' 'PG' 'RN' 'SU' 'SV' 'VS']


### 데이터셋 확인
데이터셋 경로의 sas7bdat / xport 파일을 os.path 오브젝트로 로드하고 불량 파일이 있는지 확인

In [4]:
sasobj=[obj for obj in os.scandir(path_set) if any(map(obj.path.lower().__contains__,ext)) and obj.is_file()]
sasbad=[obj for obj in sasobj if obj.stat().st_size<3]
if len(sasbad)>1:raise Exception("exotic file exists")

sas7bdat / xport os.path 오브젝트를 도메인 이름: 데이터프레임의 딕셔너리로 로드하고 어떤 도메인의 데이터셋이 있는지 확인
- 데이터셋 내 string이 bytes이므로 utf-8로 변환하고, 이 과정에서 누락되는 레코드가 있는지도 확인

In [5]:
def _decode(filepath):
    data=pd.read_sas(filepath)
    nas=data.notna().value_counts().sum()
    bytecol=data.select_dtypes("object").columns
    data[bytecol]=data[bytecol].apply(lambda q:q.str.decode("utf-8"))
    if nas==data.notna().value_counts().sum():
        return data
    else:
        print(ornament,"error:",filepath)
        return None

data={os.path.splitext(obj.name)[0].upper():_decode(obj.path) for obj in sasobj}
print(ornament,"domain:",os.linesep,data.keys(),os.linesep,len(data),"domains")

---------- domain: 
 dict_keys(['AE', 'AY', 'CM', 'CT', 'CY', 'DA', 'DM', 'DS', 'DY', 'EF', 'EG', 'EN', 'ES', 'IE', 'IP', 'LB', 'LC', 'LY', 'MH', 'MY', 'PD', 'PG', 'RN', 'SN', 'SU', 'SV', 'VS']) 
 27 domains


### 도메인별 데이터셋 형태 확인
SN은 PI 이름(서명)과 visit site ID를 포함
- SN.SNNAME은 subject 이름이 아니라 per-site PI 이름

In [6]:
sn=data["SN"]
sn.sample(10)

Unnamed: 0,SUBJID,VISIT,SNNAME,SNDTC
26,S-US-007,5007.0,이상엽,2017-03-27
2,S-2Z-006,5007.0,김민지,2017-02-20
24,S-US-002,5007.0,이상엽,2017-03-23
0,S-1Z-031,5007.0,송민선,2017-02-20
9,S-2Z-028,5007.0,공우석,2017-02-20
8,S-2Z-023,5007.0,송도용,2017-02-20
3,S-2Z-012,5007.0,신서란,2017-02-20
1,S-1Z-034,5007.0,송민선,2017-02-20
18,S-4Z-001,5007.0,원유리,2017-03-07
20,S-MJ-002,5007.0,김민지,2017-06-20


#### SN: SNNAME 가리기
PI 이름 가림

In [7]:
def _aname(name,n=2,chars=hangul):
    suffix="".join([secrets.choice(chars) for q in range(n)])
    return name[:n]+suffix

sn_snname_mapper={name:_aname(name) for name in sn.SNNAME.unique()}
sn.SNNAME.replace(sn_snname_mapper,inplace=True)
data["SN"].sample(10)

Unnamed: 0,SUBJID,VISIT,SNNAME,SNDTC
26,S-US-007,5007.0,이상사바,2017-03-27
24,S-US-002,5007.0,이상사바,2017-03-23
6,S-2Z-017,3006.0,황태파파,2017-02-21
21,S-MJ-009,5007.0,김민자타,2017-06-14
14,S-2Z-035,5007.0,공우자사,2017-02-20
17,S-4Z-001,3006.0,원유자자,2017-03-07
20,S-MJ-002,5007.0,김민자타,2017-06-20
15,S-3Z-013,3006.0,김민자타,2017-03-02
1,S-1Z-034,5007.0,송민차자,2017-02-20
9,S-2Z-028,5007.0,공우자사,2017-02-20


#### SN: SUBJID 추출
SN의 SUBJID를 각 도메인의 인덱스로 씀
- SN.SUBJID 개수를 PI 서명된 subject 수로 가정함

In [8]:
ix=sn.SUBJID.unique()
print(ix)
print(ornament,"total subjects:",len(ix))

['S-1Z-031' 'S-1Z-034' 'S-2Z-006' 'S-2Z-012' 'S-2Z-013' 'S-2Z-016'
 'S-2Z-017' 'S-2Z-023' 'S-2Z-028' 'S-2Z-029' 'S-2Z-032' 'S-2Z-034'
 'S-2Z-035' 'S-3Z-013' 'S-3Z-048' 'S-4Z-001' 'S-MJ-001' 'S-MJ-002'
 'S-MJ-009' 'S-MJ-010' 'S-US-002' 'S-US-003' 'S-US-007']
---------- total subjects: 23


#### DM: 내용 확인
DM은 인구학적 정보를 포함하며, 왜인지 인덱스(SN.SUBJID)에 부합하지 않는 row가 많음
- 인구학적 정보는 시험 초기에 수집되므로 인덱스에 해당하지 않는 row가 있으면 안됨
    - PI 서명이 안된 subjects

In [9]:
dm=data["DM"]
dm
dm[dm.SUBJID.isin(ix)]

Unnamed: 0,SUBJID,BRTHDTC,AGE,SEX,FERTILE
23,S-1Z-031,1984-09,32.0,2.0,1.0
26,S-1Z-034,1977-11,38.0,2.0,1.0
37,S-2Z-006,1975-04,41.0,2.0,2.0
43,S-2Z-012,1977-10,39.0,2.0,1.0
44,S-2Z-013,1991-07,25.0,1.0,
47,S-2Z-016,1987-02,29.0,1.0,
48,S-2Z-017,1983-03,33.0,1.0,
54,S-2Z-023,1998-04,17.0,1.0,
58,S-2Z-028,1989-04,27.0,2.0,2.0
59,S-2Z-029,1975-04,41.0,1.0,


#### AE: 내용 확인
AE는 시험간 subject 별 adverse effect 정보를 포함
- 컬럼(e.g. form)별 숫자 코딩된 categorical data가 있음
- 상기에 따라 MedDRA 코딩된 컬럼이 있음
- 숫자 코딩의 기준은 CRF Format에 정의되어 있음

In [10]:
ae=data["AE"]
print(ae.loc[:,[col for col in ae if col.startswith("AE")]].sample(10))
print(ae[ae.SUBJID.isin(ix)][["SUBJID","INV_PT"]].sample(10))
form_crf[form_crf.DOMAIN=="AE"].sample(10)

               AETERM     AESTDTC  AETEAE  AEOUT     AEENDTC  AESER  AESEV  \
54   Cerebral abscess  2017-02-04     2.0    2.0         NaN    3.0    3.0   
68           Vomiting  2017-02-20     1.0    2.0         NaN    3.0    2.0   
26     Depressed mood  2015-02-13     2.0    5.0         NaN    1.0    1.0   
146        Tooth ache  2017-02-01     2.0    4.0  2017-02-14    4.0    2.0   
122     Tooth abscess  2017-02-01     2.0    4.0  2017-02-03    5.0    2.0   
105   Pain aggravated  2015-04-19     1.0    1.0  2015-04-20    5.0    NaN   
18           Smallpox  2017-02-01     1.0    1.0  2017-02-01    2.0    3.0   
57          Head cold  2017-02-02     1.0    5.0         NaN    1.0    1.0   
32              Fever  2016-10-17     2.0    3.0  2016-10-21    1.0    1.0   
38              TEST1  2017-02-01     2.0    5.0         NaN    1.0    1.0   

     AEREL  AEACN  AEACNOTH  
54     1.0    6.0       2.0  
68     2.0    2.0       1.0  
26     1.0    6.0       1.0  
146    4.0    2.0    

Unnamed: 0,DOMAIN,FMTNAME,VARNAME,START,END,LABEL
30,AE,AESEV,AESEV,3,3,Severe
29,AE,AESEV,AESEV,2,2,Moderate
32,AE,AETEAE,AETEAE,2,2,No
31,AE,AETEAE,AETEAE,1,1,Yes
17,AE,AEREL,AEREL,1,1,Not related
27,AE,AESER,AESER,7,7,Other medically important event
1,AE,AEACN,AEACN,2,2,Dose not changed
28,AE,AESEV,AESEV,1,1,Mild
11,AE,AEOUT,AEOUT,1,1,Fatal
6,AE,AEACN,AEACN,7,7,Unknown


#### AE: AE Code Labeling
AE의 코딩된 categorical AEs이 CRF 상에서 무엇을 의미하는지 확인하고자 함
- DB Specification 또는 CRF Format에서 컬럼별 코드 및 라벨을 컬럼: 코드: 라벨의 딕셔너리로 추출
- 딕셔너리에 따라 컬럼 코드를 라벨링

In [11]:
def _get_label(form,var="VARNAME",kvp=["END","LABEL"]):
    label={}
    for varname in form[var].unique():
        kv=form[form[var]==varname].loc[:,kvp].values
        label[varname]={k:v for k,v in kv}
    return label

ae_label=_get_label(form_crf)
print(ae_label)

{'AEACN': {1: 'Dose increased', 2: 'Dose not changed', 3: 'Dose reduced', 4: 'Drug interrupted', 5: 'Drug withdrawn', 6: 'Not applicable', 7: 'Unknown'}, 'AEACNOTH': {1: 'None', 2: 'Drug treatment', 3: 'Non-drug treatment', 4: 'Drug and non-drug treatment'}, 'AEOUT': {1: 'Fatal', 2: 'Not recovered/Not resolved', 3: 'Recovered/Resolved', 4: 'Recovered/Resolved with sequelae', 5: 'Recovering/Resolving', 6: 'Unknown'}, 'AEREL': {1: 'Not related', 2: 'Unlikely related', 3: 'Possibly related', 4: 'Related'}, 'AESER': {1: 'No', 2: 'Death', 3: 'Hospitalization', 4: 'Life threatening', 5: 'Congenital anomaly or birth defect', 6: 'Significant disability', 7: 'Other medically important event'}, 'AESEV': {1: 'Mild', 2: 'Moderate', 3: 'Severe'}, 'AETEAE': {1: 'Yes', 2: 'No'}, 'AEYN': {1: 'Yes', 2: 'No'}, 'CMINDC': {1: 'Medical history', 2: 'Adverse event', 3: 'Hypertension', 4: 'Prophylaxis', 5: 'Supplement', 6: 'Other'}, 'CMONGO': {1: 'Checked'}, 'CTYN': {1: 'Yes', 2: 'No'}, 'CMYN': {1: 'Yes', 2:

In [12]:
ae_col_ambi=[col for col in ae if col in form_crf[form_crf.DOMAIN=="AE"].VARNAME.values]
ae[ae_col_ambi].replace(ae_label)

Unnamed: 0,AETEAE,AEOUT,AESER,AESEV,AEREL,AEACN,AEACNOTH
0,Yes,Not recovered/Not resolved,Life threatening,Severe,Unlikely related,Dose reduced,Non-drug treatment
1,Yes,Unknown,Death,Mild,Related,Drug interrupted,
2,,Recovering/Resolving,,,,,
3,Yes,Fatal,Life threatening,Moderate,Unlikely related,Dose not changed,Drug treatment
4,Yes,Recovered/Resolved with sequelae,Hospitalization,Moderate,Possibly related,Dose reduced,Drug treatment
...,...,...,...,...,...,...,...
186,No,Unknown,No,Mild,Not related,Dose not changed,Drug treatment
187,Yes,Not recovered/Not resolved,Hospitalization,Mild,Unlikely related,Drug withdrawn,Drug treatment
188,Yes,Fatal,No,Mild,Unlikely related,Unknown,
189,No,Not recovered/Not resolved,Other medically important event,Mild,Possibly related,Drug withdrawn,Drug and non-drug treatment


#### MH: Specification
MH 데이터의 스키마 불러오기
- 위와는 다르게 DB Specification을 사용
    - DB Specification에 데이터셋 스키마, 프론트앤드 디자인 등 CRF의 모든 것이 정의되어 있음

In [13]:
path_spec="C:/code/CUBEDEMO2017/spec.xlsx"
spec=pd.read_excel(path_spec).loc[:,:"VIEW_TYPE"]
spec.CODE.sample(5)

21            NaN
261           NaN
207           1:1
133           NaN
256    1:Yes|2:No
Name: CODE, dtype: object

- DB Spec-sheet의 CODE 컬럼 내용에 NaN과 문자열이 혼재함
- 차후 편한 앤코딩 및 디코딩을 위해 코딩 규칙이 있는 경우 (notna) 딕셔너리로 바꿈

In [14]:
spec["CODE"]=spec.CODE.apply(lambda q:dict(item.split(":") for item in q.split("|")) if pd.notna(q) else q).dropna()
spec.CODE.sample(5)

76            NaN
142           NaN
254           NaN
105           NaN
194    {'1': '1'}
Name: CODE, dtype: object

- MH 데이터셋 불러오기 및 주요 컬럼 확인

In [15]:
mh=data["MH"]
mh[[col for col in mh if col.startswith("MH")]].sample(5)

Unnamed: 0,MHTERM,MHONGO,MHENDTC,MHCONTRT,MHCO
29,Hypertension NOS,1.0,,1.0,MH Comment
30,Insomnia,1.0,,2.0,TEST
82,Spinal pain,2.0,2016-11-UK,1.0,
64,Multiple perforations of tympanic membrane,1.0,,2.0,
85,Itching,2.0,2016-08-17,1.0,


- Spec-sheet에서 데이터 컬럼 스키마를 냄

In [16]:
def _label(series,spec):
    spec=spec[spec.ITEMID==series.name]
    crfname=spec.CRF_LABEL.iat[0]
    name=spec.ITEM_LABEL.iat[0]
    code=spec.CODE.iat[0]
    visit=spec.VISIT.iat[0]
    return crfname,name,code,visit

mh_MHONGO_spec=_label(mh.MHONGO,spec)
print(ornament,"\nCRF Name: ",mh_MHONGO_spec[0],"\nForm Label: ",mh_MHONGO_spec[1],"\nCode: ",mh_MHONGO_spec[2])

---------- 
CRF Name:  Medical History 
Form Label:  Ongoing 
Code:  {'1': 'Yes', '2': 'No'}


- MH의 MHONGO는 CRF의 Medical History 부문에 있고, ongoing 여부를 묻는 binary 질문임

#### LB: 내용 확인
LB는 랩 테스트 결과를 포함
- VISIT, SEQ 등 랩 테스트 회차에 따른 롱 포맷으로 되어 있어 인덱스를 정할 때 유의해야 함
- LB.LBTEST에 해당 랩 테스트 명목이 나와 있음
- LB.LBORRES에 랩 결과 수치가 나와 있음
    - 일부 categorical data 포함 (e.g. Occult Blood)

In [17]:
lb=data["LB"]
lb.sample(10)

Unnamed: 0,SUBJID,VISIT,SEQ,LBTEST,LBORRES,LBNOR,LBCLSIG
1412,S-2Z-021,4.0,3.0,Hematocrit,36.5,1.0,
2322,S-3Z-030,3.0,9.0,Alanine Aminotransferase,40.0,1.0,
2887,S-MJ-001,2.0,1.0,Erythrocytes,5.0,1.0,
1794,S-2Z-034,2.0,8.0,Aspartate Aminotransferase,30.15,1.0,
1100,S-2Z-011,4.0,16.0,pH[U],6.5,1.0,
1865,S-2Z-035,2.0,7.0,Albumin,4.0,1.0,
2538,S-4Z-001,1.0,9.0,Alanine Aminotransferase,5464.417,1.0,1.0
1811,S-2Z-034,3.0,7.0,Albumin,5.27,1.0,
631,S-1Z-033,1.0,17.0,Albumin [U],,1.0,
444,S-1Z-028,5.0,9.0,Alanine Aminotransferase,33.0,1.0,


In [18]:
lb_desc=lb.groupby(["LBTEST"])["LBORRES"].agg(["mean","std"])
lb_desc

Unnamed: 0_level_0,mean,std
LBTEST,Unnamed: 1_level_1,Unnamed: 2_level_1
Alanine Aminotransferase,336.257126,1409.494132
Albumin,335.514705,1577.394172
Albumin [U],,
Aspartate Aminotransferase,325.924723,1415.747206
Bilirubin,215.007593,1165.893477
Creatinine,184.471609,1056.242446
Erythrocytes,245.25126,1130.807728
"Glomerular Filtration Rate, Estimated [Automatical",5003.627111,3658.624184
"Glomerular Filtration Rate, Estimated [Automatically calculated]",82.635866,40.42601
"Glomerular Filtration Rate, Estimated(Cockcroft-Gault)",37.18,24.580435


#### LB: Mockup Data 만들기
Subject Index와 LB를 이용해서 목업 데이터를 만듦
- SN.SUBJID를 기준으로 피험자당 10번의 랩 테스트를 가정
    - 정규분포로 가정
    - Albuminuria 등 bad result 여부는 발생률 10%로 가정
- 편의상 DM을 결합

In [19]:
def _gen_mockup(desc,count):
    print(ornament,"generating values")
    return {q:gen.normal(desc.loc[q]["mean"],desc.loc[q]["std"],count) if pd.notna(desc.loc[q]["std"])
             else gen.binomial(1,.1,count) for q in desc.index}

def gen_mockup(desc,ix,count=10):
    data=_gen_mockup(desc,count=len(ix)*count)
    ix=pd.MultiIndex.from_product([ix,[q for q in range(1,count+1,1)]],names=["SUBJID","VISIT"])
    return pd.DataFrame(data,ix).reset_index()

mockup=gen_mockup(lb_desc,ix).merge(dm,on="SUBJID")
mockup

---------- generating values


Unnamed: 0,SUBJID,VISIT,Alanine Aminotransferase,Albumin,Albumin [U],Aspartate Aminotransferase,Bilirubin,Creatinine,Erythrocytes,"Glomerular Filtration Rate, Estimated [Automatical",...,Occult blood[U],Platelets,Protein,Protein[U],Specific Gravity[U],pH[U],BRTHDTC,AGE,SEX,FERTILE
0,S-1Z-031,1,-2171.898168,-2315.829563,0,628.840336,1791.317556,-424.303084,235.435314,6912.852337,...,0,-570.744280,-260.241399,0,-164.604796,1194.808641,1984-09,32.0,2.0,1.0
1,S-1Z-031,2,-521.283802,-266.246398,1,1294.084719,1672.400175,1698.677898,-628.052458,4178.480843,...,0,-353.384872,1058.125092,0,-655.866141,742.867497,1984-09,32.0,2.0,1.0
2,S-1Z-031,3,961.470721,1187.201969,0,-3059.844721,320.377970,-309.784910,1501.961368,1121.157730,...,0,398.751677,-298.701408,0,372.615826,-974.912615,1984-09,32.0,2.0,1.0
3,S-1Z-031,4,3678.094706,2439.531086,0,2723.178085,-621.917444,285.715381,-986.559439,10304.313676,...,0,2609.545158,1539.519670,0,-639.089720,-1462.899971,1984-09,32.0,2.0,1.0
4,S-1Z-031,5,1187.694973,900.471562,0,1411.026010,926.622400,-1151.720629,1125.702165,5688.301629,...,0,1221.702651,1009.635641,0,-221.794892,212.659897,1984-09,32.0,2.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,S-US-007,6,1867.070574,2814.090320,0,-274.099853,-890.992870,-1081.101208,1012.642820,8973.244590,...,0,543.013518,1259.151674,0,821.837908,923.365235,1981-01,36.0,1.0,
226,S-US-007,7,1873.887993,1403.563770,0,261.341765,855.432967,-62.461104,858.009434,5050.733779,...,0,3097.437797,-180.733562,0,-283.478079,-134.140631,1981-01,36.0,1.0,
227,S-US-007,8,-1102.012375,-134.614428,1,-237.265308,820.639700,-1205.325319,-456.697957,2103.757721,...,0,709.706794,155.488378,0,922.795424,-140.804604,1981-01,36.0,1.0,
228,S-US-007,9,851.464681,-2094.246161,0,234.125296,-164.616644,663.532057,-2521.840783,10864.768350,...,1,2247.155861,671.116248,0,945.208713,1295.550520,1981-01,36.0,1.0,


- Categorical value가 제대로 생성됐는지 확인

In [20]:
mockup[lb_desc[pd.isna(lb_desc["std"])].index]

Unnamed: 0,Albumin [U],Occult blood[U],Protein[U]
0,0,0,0
1,1,0,0
2,0,0,0
3,0,0,0
4,0,0,0
...,...,...,...
225,0,0,0
226,0,0,0
227,1,0,0
228,0,1,0


### 후기
- 하나의 임상시험을 구성하는 데이터셋은 많으며, 각 데이터 연동을 위한 정의와 연동이 일목요연히 되어 있음
    - 수치형, 범주형 값이 혼재함
        - 범주형 데이터인데 숫자로 코딩되고 수치형 값과 기술적으로 구분되지 않는 것을 유의해야 함
    - 일반적이지 않은 범주형 값 (0,1(No,Yes(False,True))가 아닌 1,2(Yes,No))
- 프로토콜 이해를 선행하지 않으면 데이터셋을 정확히 다루기 어려움
    - Visit Number / Window, Endpoint, Inclusion / Exclusion Criteria
    - Longitudinal Study 여부 (endpoint가 time series인지)
- Specsheet는 엔드유저에게 해당 데이터가 어떻게 보이고 수집됐는지를 포함
- 도메인 데이터와 DB Specification 내 각 도메인 정의를 연동할 수 있는 클래스 이용 필요