Skip to content

Releases: gitstq/MedTextCN

MedTextCN v1.0.0 - Initial Release

11 Jun 02:17

Choose a tag to compare

MedTextCN v1.0.0 - Initial Release

中文医疗文本智能分析工具包的首个正式发布版本。

功能特性

命名实体识别 (NER)

  • 医学实体识别:支持疾病、症状、药品、检查检验、手术操作等实体类型
  • 基于预训练模型的中文医学 NER 引擎
  • 支持自定义实体类型扩展
  • 批量文本处理与结果导出

隐私信息脱敏 (PII)

  • 患者姓名、身份证号、手机号码、地址等 PII 自动识别
  • 支持 PIPL(个人信息保护法)合规脱敏
  • 可配置的脱敏策略(掩码、替换、删除)
  • 脱敏规则自定义与扩展

病历结构化

  • 非结构化病历文本自动解析
  • 提取主诉、现病史、既往史、诊断等结构化字段
  • 支持多种病历格式(门诊病历、住院病历、出院小结等)
  • 结构化结果输出为标准 JSON 格式

核心功能

  • 中文医疗文本预处理(分词、标准化、清洗)
  • 医学词典管理与查询
  • 文本分类与标注工具
  • CLI 命令行工具,支持快速调用

工程特性

  • MIT 开源许可证
  • 完善的类型注解与文档字符串
  • 单元测试覆盖
  • PEP 8 代码规范

安装

pip install medtextcn

快速开始

from medtextcn import MedicalNER, PIIMasker, RecordParser

# 命名实体识别
ner = MedicalNER()
entities = ner.extract("患者因反复发热3天入院,诊断为急性上呼吸道感染。")

# 隐私脱敏
masker = PIIMasker()
text = "患者张三,身份证号110101199001011234,联系电话13800138000"
safe_text = masker.mask(text)

# 病历结构化
parser = RecordParser()
structured = parser.parse(raw_record_text)

变更日志

新增 (Added)

  • 医学命名实体识别 (NER) 模块
  • 隐私信息脱敏 (PII) 模块
  • 病历结构化解析模块
  • CLI 命令行工具
  • 医学词典管理
  • 文本预处理工具集
  • 完善的项目文档与使用示例

文档 (Docs)

  • README.md 项目说明
  • CONTRIBUTING.md 贡献指南
  • API 参考文档
  • 使用示例与教程

完整文档: https://github.com/gitstq/MedTextCN

感谢所有贡献者和用户的关注与支持!