In [1]:
import xml.etree.ElementTree as ET
import pandas as pd

In [2]:
# XML tree 불러오기
tree = ET.parse("2024 drugbank full database.xml")

In [3]:
# 불러온 파일의 root 태그 찾기
root = tree.getroot()

print(root.tag)
print(root.attrib)

{http://www.drugbank.ca}drugbank
{'{http://www.w3.org/2001/XMLSchema-instance}schemaLocation': 'http://www.drugbank.ca http://www.drugbank.ca/docs/drugbank.xsd', 'version': '5.1', 'exported-on': '2024-03-14'}


In [None]:
# root의 직접적인 자식 요소 출력
for child in root:
    print(child.tag)

In [None]:
# root element 아래의 모든 태그 확인
# 자손 확인 가능 -> 안해도 됨 -> 해봄 -> OOM오류

# for child in root.iter():
#     print(child.tag) #root의 child tag 전부 탐색

In [None]:
# 첫번째 drug element 아래의 자식 요소 확인
first_drug = root.find("{http://www.drugbank.ca}drug")
print(first_drug)

# element는 직접적인 자식요소들을 순회할 수 있도록 구성되어있음
for child in first_drug:
    print(child.tag) # 첫 번째 <drug> 요소의 자식들의 태그 이름을 출력

In [None]:
# 루트 요소 아래에 위치한 모든 <drug> 요소 탐색 -> 모든 <drug>요소를 리스트로 변환
for child in root.findall("{http://www.drugbank.ca}drug"):
    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}name 태그를 가진 첫 번째 요소 탐색
    element = child.find("{http://www.drugbank.ca}name")
    print(element.text) # 자식요소의 값 확인

In [None]:
# 루트 요소 아래에 위치한 모든 <drug> 요소 탐색 -> 모든 <drug>요소를 리스트로 변환
for child in root.findall("{http://www.drugbank.ca}drug"):
    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}classification 태그를 가진 첫 번째 요소 탐색
    classification_element = child.find("{http://www.drugbank.ca}classification")
    print(classification_element) # classficiation의 텍스트 값 확인

In [None]:
for child in root.findall("{http://www.drugbank.ca}drug"):
    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}classification 태그를 가진 첫 번째 요소 탐색
    classification_element = child.find("{http://www.drugbank.ca}classification")
    
    if classification_element is not None:
        print(classification_element.text)  # classification의 텍스트 값 확인
    else:
        print("classification 요소가 없습니다.")


In [None]:
# 비어있는 값이 있기 때문에 find 오류 발생
# drug element 아래 자식요소들의 value 확인
# 자식요소의 자식요소 이름으로 find() 메서드 적용하여 text로 출력

for child in root.findall("{http://www.drugbank.ca}drug"):
    element = child.find("{http://www.drugbank.ca}name")

    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}classification 태그를 가진 첫 번째 요소 탐색
    classification_element = child.find("{http://www.drugbank.ca}classification")
    # print(classification_element)

    # classification 요소의 자식 요소 중 kingdom 태그를 가진 첫 번째 요소를 찾아 텍스트 출력
    kingdom_element = classification_element.find("{http://www.drugbank.ca}kingdom")
    superclass_element = classification_element.find("{http://www.drugbank.ca}superclass")
    class_element = classification_element.find("{http://www.drugbank.ca}class")

    print("-------------------")
    print(element.text) #name
    print(kingdom_element.text) #kingdom
    print(superclass_element.text) #superclass
    print(class_element.text) #class

In [None]:
# 예외처리
for child in root.findall("{http://www.drugbank.ca}drug"):
    element = child.find("{http://www.drugbank.ca}name")

    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}classification 태그를 가진 첫 번째 요소 탐색
    classification_element = child.find("{http://www.drugbank.ca}classification")

    print("-------------------")
    print(element.text) #name

    if classification_element is not None:
        # classification 요소의 자식 요소 중 kingdom 태그를 가진 첫 번째 요소를 찾아 텍스트 출력
        kingdom_element = classification_element.find("{http://www.drugbank.ca}kingdom")
        superclass_element = classification_element.find("{http://www.drugbank.ca}superclass")
        class_element = classification_element.find("{http://www.drugbank.ca}class")

        print(kingdom_element.text if kingdom_element is not None else "None") # kingdom
        print(superclass_element.text if superclass_element is not None else "None") # superclass
        print(class_element.text if class_element is not None else "None") # class
    else:
        print("NULL") # classification이 없는 경우
        print("NULL") # classification이 없는 경우
        print("NULL") # classification이 없는 경우


In [None]:
# 파싱 후 csv 파일로 저장 예시

data0 = []
data1 = []
data2 = []
data3 = []

for child in root.findall("{http://www.drugbank.ca}drug"):
    element = child.find("{http://www.drugbank.ca}name")

    # 각 <drug> 요소의 자식 요소 중에서 {http://www.drugbank.ca}classification 태그를 가진 첫 번째 요소 탐색
    classification_element = child.find("{http://www.drugbank.ca}classification")

    data0.append(element.text) # name 0번 컬럼

    #print("-------------------")
    #print(element.text) #name

    if classification_element is not None:
        # classification 요소의 자식 요소 중 kingdom 태그를 가진 첫 번째 요소를 찾아 텍스트 출력
        kingdom_element = classification_element.find("{http://www.drugbank.ca}kingdom")
        superclass_element = classification_element.find("{http://www.drugbank.ca}superclass")
        class_element = classification_element.find("{http://www.drugbank.ca}class")

        data1.append(kingdom_element.text)
        data2.append(superclass_element.text)
        data3.append(class_element.text)
    else:
        data1.append("None")
        data2.append("None")
        data3.append("None")

# print(data0)

df0 = pd.DataFrame({"name":data0})
df1 = pd.DataFrame({"kingdom":data1})
df2 = pd.DataFrame({"superclass":data2})
df3 = pd.DataFrame({"class":data3})

# print(df0)
# print(df1)
# print(df2)
# print(df3)

df = pd.concat([df0, df1, df2, df3], axis=1)
print(df.head())

df.to_csv("example.csv", index=False)


In [None]:
#patent table
# drug -> patents -> patent -> patent.element
# 두번 탐색 필요. 첫 번째 탐색하면서 patents가 있는지 없는지 여부 판단.
# 존재한다면 순회하면서 리스트에 값 추가.
# 존재하지않는다면 나머지 리스트에 NUll값 추가.
# 다만 테이블을 쪼개지 않고 이렇게 파싱하면 비효율적이지 않나.
# drugbank_id와 patent_number가 튜플 값을 결정하기때문에 table을 나누는게 효율적이라 판단.
# -- erd --
# patent number가 NULL값이 있으므로 PK가 될 수없다.
# 즉 drugbank_id가 PK이자 FK가 된다. 
# drugbank_id -> patent_number
# patent_number -> country, approved, expires, pediatric_extension 으로 정규화 가능

data_patent_number = []
data_p_id = []
data_country = []
data_approved = []
data_expires = []
data_pdiatric_extension = []

for child in root.findall("{http://www.drugbank.ca}drug"):
    id = child.find("{http://www.drugbank.ca}drugbank-id[@primary='true']")
    
    # print("-----------------------")

    patents = child.find("{http://www.drugbank.ca}patents")

    if patents.text is None:
        data_p_id.append(id.text)
        # print(id.text)
        data_patent_number.append(None)
        # print("NULL")
        data_country.append(None)
        # print("NULL")
        data_approved.append(None)
        # print("NULL")
        data_expires.append(None)
        # print("NULL")
        data_pdiatric_extension.append(None)
        # print("NULL")

    if patents is not None:
        for patent in patents.findall("{http://www.drugbank.ca}patent"):
            number = patent.find("{http://www.drugbank.ca}number")
            country = patent.find("{http://www.drugbank.ca}country")
            approved = patent.find("{http://www.drugbank.ca}approved")
            expires = patent.find("{http://www.drugbank.ca}expires")
            pediatric_extension = patent.find("{http://www.drugbank.ca}pediatric-extension")

            data_p_id.append(id.text)
            data_patent_number.append(number.text)
            data_country.append(country.text)
            data_approved.append(approved.text)
            data_expires.append(expires.text)
            data_pdiatric_extension.append(pediatric_extension.text)
            # print(id.text)
            # print(number.text)
            # print(country.text)
            # print(approved.text)
            # print(expires.text)
            # print(pediatric_extension.text)

# Transpose_dataframe 씌우기
df_p_id = pd.DataFrame({"drugbank_id":data_p_id})
df_patent_number = pd.DataFrame({"patent_number":data_patent_number})
df_country = pd.DataFrame({"country":data_country})
df_approved = pd.DataFrame({"approved":data_approved})
df_expires = pd.DataFrame({"expires":data_expires})
df_pediatric_extension = pd.DataFrame({"pediatric_extension":data_pdiatric_extension})

# 컬럼 합치기
Patent = pd.concat([df_p_id, df_patent_number, df_country, df_approved, df_expires, df_pediatric_extension], axis=1)
# print(Patent.head(50))

# 파일 내보내기
Patent.to_csv("patent.csv", index=False)

In [None]:
#calculated_properties
# kind가 value, source를 결정하는게 아님.
# drugbank_id -> kind, value, source

data_c_id = []
data_kind = []
data_value = []
data_source = []

for child in root.findall("{http://www.drugbank.ca}drug"):
    id = child.find("{http://www.drugbank.ca}drugbank-id[@primary='true']")

    calculated_properties = child.find("{http://www.drugbank.ca}calculated-properties")

    # if calculated_properties is None:
    #     data_c_id.append(id.text)
    #     data_kind.append(None)
    #     data_value.append(None)
    #     data_source.append(None)

    if calculated_properties is not None:
        for property in calculated_properties.findall("{http://www.drugbank.ca}property"):
            kind = property.find("{http://www.drugbank.ca}kind")
            value = property.find("{http://www.drugbank.ca}value")
            source = property.find("{http://www.drugbank.ca}source")

            data_c_id.append(id.text)
            data_kind.append(kind.text)
            data_value.append(value.text)
            data_source.append(source.text)
            
df_c_id = pd.DataFrame({"drugbank_id":data_c_id})
df_kind = pd.DataFrame({"kind":data_kind})
df_value = pd.DataFrame({"value":data_value})
df_source = pd.DataFrame({"source":data_source})

cp = pd.concat([df_c_id, df_kind, df_value, df_source], axis=1)
cp.to_csv("calculated_properties.csv", index=False)

# print(cp.head(5))