GitHub

中医药自动组方

objective：这是在爬虫基础之上，将爬取的数据进行清洗（预处理）、计算相关性、聚类和关联规则

环境：python3.5 + pandas

样本数据：classical.csv

1. 数据预处理

1.preprocess.py 负责对样本数据进行处理，具体参见注释，最后输出包括药物的集合和频率等文件保存到本地

2. 计算相似度，构建亲友团

2.relatives.py 根据上述保存的药物频率，计算由复杂系统熵构造的相似度（本质为互信息），并由此构建亲友团

（注：亲友团的概念为与某一药物相似度降序排位靠前的组合，例如针对药物a，降序排列相似度得出b,c,d,e，若亲友团个数设为2，则a的亲友团为b,c）

3. 聚类

3.cluster.py互为亲友团的药物我们称之为强相关组合，由此构建最大的强相关组合

4. 计算敏感性

4.validate.py计算敏感性作为验证模型的有效性的标准

其他

apriori.py和hier.py负责构建关联规则和层次聚类； utils.py为工具类

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

1.preprocess.py

1.preprocess.py

2.relatives.py

2.relatives.py

3.cluster.py

3.cluster.py

4.validate.py

4.validate.py

README.md

README.md

apriori.py

apriori.py

classical.csv

classical.csv

hier.py

hier.py

utils.py

utils.py

Repository files navigation

中医药自动组方

1. 数据预处理

2. 计算相似度，构建亲友团

3. 聚类

4. 计算敏感性

其他

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
1.preprocess.py		1.preprocess.py
2.relatives.py		2.relatives.py
3.cluster.py		3.cluster.py
4.validate.py		4.validate.py
README.md		README.md
apriori.py		apriori.py
classical.csv		classical.csv
hier.py		hier.py
utils.py		utils.py

zhangaz1/cluster_2

Folders and files

Latest commit

History

Repository files navigation

中医药自动组方

1. 数据预处理

2. 计算相似度，构建亲友团

3. 聚类

4. 计算敏感性

其他

About

Resources

Stars

Watchers

Forks

Languages