新增功能
1. MCP 服务端
通过 stdio 提供 JSON-RPC 2.0 服务,让 Claude Desktop、Cursor 等 AI 客户端直接查询微信聊天数据。
启动:welive mcp
只读工具集(10 个):list_sessions、list_messages、search_messages、message_count、message_dates、session_pack、get_contact、list_contacts、group_members、sns_timeline
架构:每个工具映射到对应只读 CLI 子命令,经子进程执行返回 JSON;只暴露查询类能力,不开放写操作
安全联动:全局 --sanitize 会自动透传给工具调用,AI 看到的也是脱敏后数据
2. 微调数据集生成器
将 A/B 对话自动转换为主流微调格式,支持 ShareGPT / Alpaca / OpenAI 三种。
导出即转换:welive export-session --format sharegpt
独立构建:welive dataset build --in parsed.jsonl --out train.jsonl --format ...
对话切分:按时间间隔(--gap-min)分段、合并连续同角色为一个 turn、过滤系统消息、可控最小轮次(--min-turns)
角色识别修复:解决了 my_wxid 带账号后缀(如 _1234)而消息体不带导致的角色误判——新增 normalize_wxid 归一化后比对,修复了"输出 0 样本"的问题
3. 内联脱敏管线
内置正则/字符扫描式脱敏引擎,零依赖遮蔽 PII。
全局开关:--sanitize,作用于 导出 / SSE 实时流 / MCP 返回 全链路
覆盖类型:手机号、身份证号、邮箱、银行卡号
独立过滤器:welive sanitize 支持 stdin → stdout 流式脱敏,可对任意已有文本管道处理
改进与重构
Web UI:修复日期选择器的定位与点击事件处理
文档:USAGE.md同步补充全部新命令、参数与 MCP 客户端配置示例