🤖 AI 算法工程 / 多模态系统 / RAG / 数字人
人工智能专业背景,主要做多模态问答、RAG 检索增强、语音交互和数字人系统。 我更关注把模型能力做成完整系统,而不是只停留在单点实验。
- 多模态链路搭建:
KWS/VAD -> ASR -> Vision -> LLM -> TTS -> Live2D - 模型训练与微调:
CPT / SFT / LoRA / task adaptation - RAG 工程落地:
OCR / Layout Analysis / BM25 / FAISS / Embedding - 系统联调与交付:关注稳定性、时延、异常兜底和可复现实现
Python C++ PyTorch MindSpore Transformer CLIP RWKV LoRA LangChain FunASR BM25 FAISS RAG Live2D
- 面向甲骨文场景,打通语音、视觉、问答生成与数字人联动
Top-1: 61.84% -> 83.75%拒识率: 39.72% -> 20.85%- 在线演示:jgw.yh521.top
- 面向建筑规范文档的 RAG 系统
- 完成
OCR + 布局分析 + BM25 + 向量检索 + 本地模型接入 正确率 +15%,F1 +7%- 代码目录:assets/rag
- 基于 FunASR 二次开发
- 支持实时识别、离线转写、纪要生成、热词优化
- 仓库地址:ApolloYH/EchoCore
- 全球人工智能算法精英赛
国三 - 一带一路发展与技术创新大赛
国二 - 河南省物联网设计大赛
省二 - 中国大学生计算机设计大赛
省三
- 在线主页:index.html
- 古籍问答项目:assets/古韵
- 物联网项目:assets/物联网
- 竞赛机器人代码:assets/一带一路