In [48]:
import pandas as pd
import math

In [2]:
keywords = ['heart rate variability',
            'sympathetic',
            'autonomic',
            'low frequency',
            'high frequency',
            'low frequency /high frequency ratio',
            'the root mean square of successive difference',
            'sd1',
            'child',
            'dog',
            'pediatric',
            'adolescent',
            'athlete',
            'covid',
            'angiotensin converting enzyme inhibitor',
            'caffeine',
            'student',
            'fetal',
            'pregnancy'
            ]

In [3]:
## 處理 Cochrane_Lib_298 檔案

# 讀取 excel 檔案
df = pd.read_excel("Cochrane_Lib_298.xls")

# 針對每個 keyword 去跑 for loop 處理
for keyword in keywords:

    def check_string(row):
    # 把文字變成小寫後，再去跟 keyword 做比對，如果有比對到則記錄 1，反之則紀錄 0
        if keyword in str(row).lower():
            return 1
        else:
            return 0

    # 生成 title 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ti"] = df['Title'].apply(check_string)
    # 生成 abstract 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ab"] = df['Abstract'].apply(check_string)

# 生成處理後的 excel，把 index 拿掉
df.to_excel("Cochrane_Lib_298.xlsx", index=False)

In [4]:
## 處理 Ovid_Medline_1407 檔案

# 讀取 excel 檔案，header=1 代表取第二列當表頭
df = pd.read_excel("Ovid_Medline_1407.xls", sheet_name='citations', header=1)

# 針對每個 keyword 去跑 for loop 處理
for keyword in keywords:

    def check_string(row):
    # 把文字變成小寫後，再去跟 keyword 做比對，如果有比對到則記錄 1，反之則紀錄 0
        if keyword in str(row).lower():
            return 1
        else:
            return 0

    # 生成 title 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ti"] = df['TI'].apply(check_string)
    # 生成 abstract 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ab"] = df['AB'].apply(check_string)

# 生成處理後的 excel，把 index 拿掉
df.to_excel("Ovid_Medline_1407.xlsx", index=False)

In [5]:
## 處理 scopus_606 檔案

# 讀取 excel 檔案
df = pd.read_excel("scopus_606.xls")

# 針對每個 keyword 去跑 for loop 處理
for keyword in keywords:

    def check_string(row):
    # 把文字變成小寫後，再去跟 keyword 做比對，如果有比對到則記錄 1，反之則紀錄 0
        if keyword in str(row).lower():
            return 1
        else:
            return 0

    # 生成 title 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ti"] = df['文獻標題'].apply(check_string)
    # 生成 abstract 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ab"] = df['摘要'].apply(check_string)

# 生成處理後的 excel，把 index 拿掉
df.to_excel("scopus_606.xlsx", index=False)

In [121]:
## 處理 scopus_606 檔案

# 讀取 excel 檔案
df = pd.read_excel("Embase_805.xls", header=None)

# 刪除 DataFrame 中前三行
df = df.drop(df.index[:3])
df = df.reset_index(drop=True)

# 取得所有可能的 columns name
unique_cols = df[0].unique()

# 去除NaN值
unique_cols = [value for value in unique_cols if pd.notnull(value)]

# 創建一個字典，其中鍵是 unique_values 中的每個值，而值是空列表
my_dict = {key: [] for key in unique_cols}

for i in range(len(df)):

    # 抓出欄位
    col = list(df.loc[i,:])[0]
    # 抓出欄位對應的值
    value = list(df.loc[i,:])[1:]
    # 篩掉空值
    value = [x for x in value if isinstance(x, str) or not math.isnan(x)]
    # 以空格合併值
    value = " ".join(value)
    
    if isinstance(col, str) or not math.isnan(col):
        my_dict[col].append(value)
    else:
        # 在遇到空白行時，自動把欄位沒值的地方補上空白
        min_value = min(len(value) for value in my_dict.values())
        keys = [key for key, value in my_dict.items() if len(value) == min_value]

        for key in keys:
            my_dict[key].append('')

# 最後一筆還要再做一次
min_value = min(len(value) for value in my_dict.values())
keys = [key for key, value in my_dict.items() if len(value) == min_value]

for key in keys:
    my_dict[key].append('')
            
# 將字典轉換為數據框            
df = pd.DataFrame(my_dict)

In [101]:
# 針對每個 keyword 去跑 for loop 處理
for keyword in keywords:

    def check_string(row):
    # 把文字變成小寫後，再去跟 keyword 做比對，如果有比對到則記錄 1，反之則紀錄 0
        if keyword in str(row).lower():
            return 1
        else:
            return 0

    # 生成 title 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ti"] = df['TITLE'].apply(check_string)
    # 生成 abstract 比對後為 0 或 1 的欄位
    df[keyword.replace(" ","_")+"_ab"] = df['ABSTRACT'].apply(check_string)

# 生成處理後的 excel，把 index 拿掉
df.to_excel("Embase_805.xlsx", index=False)