In [1]:
# 导入需求包
import openpyxl
import csv
import os
import time
from openpyxl import Workbook
import pandas as pd

In [1]:
# 如果导入需求包出现问题，运行这个模块。（需要等待一段时间）
! pip3 install openpyxl pandas

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple/


In [2]:
# 读取原始数据
wb = openpyxl.load_workbook(os.getcwd()+r"\haiyao_standard.xlsx")
ws = wb.active

In [3]:
def gen_item(raw_ws):
    """
    生成实体信息csv
    """
    types = []
    for type_cell in raw_ws[1]:
        type_ = type_cell.value
        types.append([type_, []])
        
    for line in raw_ws[2:raw_ws.max_row]:
        for i, cell in enumerate(line):
            values = cell.value
            if not values:
                continue
            values = values.replace("\n", "")
            values = values.replace(" ", "")
            values = values.replace("，", ",")
            values = values.replace("、", ",")
            values = values.replace(".", ",")
            values = values.replace("。", ",")
            values = values.strip()
            for value in values.split(','):
                if not value:
                    continue
                if value not in types[i][1]:
                    types[i][1].append(value)
                
    time_ = time.strftime("%m%d_%H%M%S", time.localtime()) 
    folder = str(time_)+'_items'
    for type_msg in types:
        type_ = type_msg[0]
        items = type_msg[1]
        df = pd.DataFrame({type_: items}) 
        print(df)
        if not os.path.exists(folder):
            os.makedirs(folder)
        df.to_csv(folder+'/'+type_+'_items.csv',encoding='utf_8_sig', index=False) 

In [4]:
# 生成实体信息csv
gen_item(ws)

       药名
0      玉屑
1      车渠
2     金线矾
3    波斯白矾
4      金屑
..    ...
126   文林郎
127   无漏子
128   摩厨子
129   君迁子
130    师草

[131 rows x 1 columns]
    部
0  玉石
1   草
2   木
3   兽
4  虫鱼
5  果米
        产地
0       昆仑
1       钟山
2       西国
3      波斯国
4      大秦国
5      大食国
6     蜀中雅州
7       南海
8      新罗国
9       东海
10     昆仑山
11      岭南
12      西海
13      安南
14     昆仑国
15      黔中
16      奚国
17      秦国
18    广南山谷
19    西戎诸地
20      剽地
21      广南
22      源州
23      西域
24      海南
25  东海及昆仑国
26      鄂州
27      岳州
28    南中八郡
29     新平县
30   岭南及诸海
31   西海波斯国
32    山东海水
33      广州
34      云南
35      交趾
36     卑占国
   味
0  咸
1  酸
2  涩
3  甘
4  苦
5  辛
6  温
    性
0   寒
1  大寒
2   温
3   平
4  微温
5  小温
6   冷
7  大温
8  微寒
          毒
0         无
1         有
2  生者有毒熟者无毒
3       有小毒
4       有大毒
    非药用功效
0    鬼气注忤
1    风邪鬼注
2      辟蛀
3      染发
4     辟蚊蚋
5     益颜色
6    鬼魅邪精
7   辟邪恶之气
8      辟恶
9      轻身
10     延年
11     长生
12   鬼疰心气
13     辟谷
14   心气鬼疰
15   令人光泽
16     不老
     内科功效
0      补虚
1      除烦
2      解毒
3   

In [5]:
def gen_relation(raw_ws):
    """
    生成关系信息csv
    """
    relation_names = []
    
    drugs = []
    relations = []
    params = []
    
    tables = {}
    
    for cell in raw_ws[1]:
        relation_names.append(cell.value)
        tables[cell.value] = {
            "drugs": [],
            "relations": [],
            "params": [] 
        }
    print(relation_names)
        
    for line in raw_ws[2:raw_ws.max_row]:
        drug = line[0].value
        if not drug:
            break
        drug = drug.strip()
        for i, cell in enumerate(line):
            if i == 0:
                continue
                
            values = cell.value
            if not values:
                continue
            values = values.replace("\n", "")
            values = values.replace(" ", "")
            values = values.replace("，", ",")
            values = values.replace("、", ",")
            values = values.replace(".", ",")
            values = values.replace("。", ",")
            values = values.strip()
            for value in values.split(','):
                relation = relation_names[i]
                if not value:
                    continue
                tables[relation]["drugs"].append(drug)
                tables[relation]["relations"].append(relation_names[i]+"是")
                tables[relation]["params"].append(value)
                
    folder = str(time.strftime("%m%d_%H%M%S", time.localtime()))+"_relations"
    for relation in relation_names[1:]:
        table = tables[relation]
        df = pd.DataFrame({"药名": table["drugs"], 
                           "关系": table["relations"],
                           "属性": table["params"]}) 
        print(df)
        if not os.path.exists(folder):
            os.makedirs(folder)
        df.to_csv(folder+'/'+relation+'_relations.csv',encoding='utf_8_sig', index=False) 

In [6]:
# 生成关系信息csv
gen_relation(ws)

['药名', '部', '产地', '味', '性', '毒', '非药用功效', '内科功效', '内科主治', '外科主治', '妇科主治', '儿科主治']
       药名  关系  属性
0      玉屑  部是  玉石
1      车渠  部是  玉石
2     金线矾  部是  玉石
3    波斯白矾  部是  玉石
4      金屑  部是  玉石
..    ...  ..  ..
126   文林郎  部是  果米
127   无漏子  部是  果米
128   摩厨子  部是  果米
129   君迁子  部是  果米
130    师草  部是  果米

[131 rows x 3 columns]
       药名   关系   属性
0      玉屑  产地是   昆仑
1      玉屑  产地是   钟山
2      车渠  产地是   西国
3     金线矾  产地是  波斯国
4    波斯白矾  产地是  大秦国
..    ...  ...  ...
107    橄榄  产地是   南海
108   海松子  产地是   云南
109   偏桃仁  产地是  卑占国
110   都角子  产地是   广南
111   摩厨子  产地是   西域

[112 rows x 3 columns]
      药名  关系 属性
0     玉屑  味是  咸
1    金线矾  味是  咸
2    金线矾  味是  酸
3    金线矾  味是  涩
4   波斯白矾  味是  酸
..   ...  .. ..
60    豆蔻  味是  辛
61    荔枝  味是  甘
62    荔枝  味是  酸
63    松子  味是  甘
64   文林郎  味是  酸

[65 rows x 3 columns]
      药名  关系  属性
0     玉屑  性是   寒
1     车渠  性是  大寒
2   波斯白矾  性是   温
3     金屑  性是   寒
4     银屑  性是  大寒
..   ...  ..  ..
68   蚺蛇胆  性是  大寒
69   海蚕沙  性是  大温
70    松子  性是  大温
71   文林郎  性是  微温
72   君迁子  性是