Releases: gitstq/MedTextCN
Releases · gitstq/MedTextCN
MedTextCN v1.0.0 - Initial Release
MedTextCN v1.0.0 - Initial Release
中文医疗文本智能分析工具包的首个正式发布版本。
功能特性
命名实体识别 (NER)
- 医学实体识别:支持疾病、症状、药品、检查检验、手术操作等实体类型
- 基于预训练模型的中文医学 NER 引擎
- 支持自定义实体类型扩展
- 批量文本处理与结果导出
隐私信息脱敏 (PII)
- 患者姓名、身份证号、手机号码、地址等 PII 自动识别
- 支持 PIPL(个人信息保护法)合规脱敏
- 可配置的脱敏策略(掩码、替换、删除)
- 脱敏规则自定义与扩展
病历结构化
- 非结构化病历文本自动解析
- 提取主诉、现病史、既往史、诊断等结构化字段
- 支持多种病历格式(门诊病历、住院病历、出院小结等)
- 结构化结果输出为标准 JSON 格式
核心功能
- 中文医疗文本预处理(分词、标准化、清洗)
- 医学词典管理与查询
- 文本分类与标注工具
- CLI 命令行工具,支持快速调用
工程特性
- MIT 开源许可证
- 完善的类型注解与文档字符串
- 单元测试覆盖
- PEP 8 代码规范
安装
pip install medtextcn快速开始
from medtextcn import MedicalNER, PIIMasker, RecordParser
# 命名实体识别
ner = MedicalNER()
entities = ner.extract("患者因反复发热3天入院,诊断为急性上呼吸道感染。")
# 隐私脱敏
masker = PIIMasker()
text = "患者张三,身份证号110101199001011234,联系电话13800138000"
safe_text = masker.mask(text)
# 病历结构化
parser = RecordParser()
structured = parser.parse(raw_record_text)变更日志
新增 (Added)
- 医学命名实体识别 (NER) 模块
- 隐私信息脱敏 (PII) 模块
- 病历结构化解析模块
- CLI 命令行工具
- 医学词典管理
- 文本预处理工具集
- 完善的项目文档与使用示例
文档 (Docs)
- README.md 项目说明
- CONTRIBUTING.md 贡献指南
- API 参考文档
- 使用示例与教程
完整文档: https://github.com/gitstq/MedTextCN
感谢所有贡献者和用户的关注与支持!