一个基于 Python 的智能数据质量检测和清洗工具,提供现代化的 Web 界面,支持多种文本质量检测规则。
- 特殊字符检测:识别和处理特殊符号、表情符号等
- 异常字符检测:检测乱码、控制字符等异常内容
- 转义字符处理:智能处理各种转义字符(转换/规范化/标记模式)
- JSON格式验证:验证和格式化JSON/JSONL文件
- 单文件处理:精细化的单文件检测和清洗
- 批量处理:高效的目录批量处理
- 文件预览:实时预览处理结果
- 多格式支持:支持 .txt、.md、.docx、.json 等格式
- 现代化设计:简洁美观的渐变界面
- 智能目录浏览:支持Windows和WSL环境的目录选择
- 实时预览:处理结果的即时预览功能
- 响应式布局:适配不同屏幕尺寸
- Python 3.7+
- 依赖包:
gradio,pyyaml,python-docx
pip install -r requirements.txtpython webui.py访问 http://localhost:7860 即可使用 Web 界面。
shujuqingxi/
├── webui.py # Web界面主程序
├── data_quality_checker.py # 核心检测引擎
├── batch_processor.py # 批量处理器
├── config.yaml # 配置文件
├── requirements.txt # 依赖列表
├── RULES_SUMMARY.md # 规则说明文档
└── results/ # 输出目录
通过 config.yaml 文件可以自定义检测规则:
rules:
special_characters:
enabled: true
action: "mark" # convert/normalize/mark
abnormal_characters:
enabled: true
action: "remove"- 选择处理模式:单文件处理或批量处理
- 选择文件/目录:使用浏览按钮选择要处理的内容
- 配置检测规则:根据需要启用相应的检测规则
- 执行处理:点击处理按钮开始检测
- 查看结果:在结果页面查看处理摘要和详细报告
- 处理摘要:显示检测到的问题统计
- 详细报告:JSON格式的详细检测结果
- 清洗文件:处理后的干净文本文件
- 文件预览:实时预览处理结果
- 现代化的渐变色设计
- 直观的文件选择界面
- 实时的处理结果预览
- 简洁的配置选项
- 🎨 全新的现代化界面设计
- 👁️ 添加文件预览功能
- 🗂️ 优化目录选择体验
- 🔧 简化配置和清理项目结构
MIT License
欢迎提交 Issue 和 Pull Request!