https://huggingface.co/DeepLearning101
手把手帶你一起踩 AI 坑
- 避開 AI Agent 開發陷阱:常見問題、挑戰與解決方案:探討多種 AI 代理人工具的應用經驗與挑戰,分享實用經驗與工具推薦。
- 白話文手把手帶你科普 GenAI:淺顯介紹生成式人工智慧核心概念,強調硬體資源和數據的重要性。
- 大型語言模型直接就打完收工?:回顧 LLM 領域探索歷程,討論硬體升級對 AI 開發的重要性。
- 檢索增強生成(RAG)不是萬靈丹之優化挑戰技巧:探討 RAG 技術應用與挑戰,提供實用經驗分享和工具建議。
- 大型語言模型 (LLM) 入門完整指南:原理、應用與未來:探討多種 LLM 工具的應用與挑戰,強調硬體資源的重要性。
- 解析探索大型語言模型:模型發展歷史、訓練及微調技術的 VRAM 估算:探討 LLM 的發展與應用,強調硬體資源在開發中的關鍵作用。
- Diffusion Model 完全解析:從原理、應用到實作 (AI 圖像生成);深入探討影像生成與分割技術的應用,強調硬體資源的重要性。
- ASR/TTS 開發避坑指南:語音辨識與合成的常見挑戰與對策:探討 ASR 和 TTS 技術應用中的問題,強調數據質量的重要性。
- 那些 NLP 踩的坑:分享 NLP 領域的實踐經驗,強調數據質量對模型效果的影響。
- 那些語音處理踩的坑:分享語音處理領域的實務經驗,強調資料品質對模型效果的影響。
- 手把手學深度學習安裝環境:詳細介紹在 Ubuntu 上安裝深度學習環境的步驟,分享實際操作經驗。
自然語言處理
自然語言處理(英語:Natural Language Processing,縮寫作 NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步驟,基本有認知、理解、生成等部分。 自然語言認知和理解是讓電腦把輸入的語言變成有意思的符號和關係,然後根據目的再處理。自然語言生成系統則是把計算機數據轉化為自然語言。最後,放眼望去想入門 Attention、Transformer、Bert 和 李宏毅老師的教學影片等,絕對不能錯過。 雖然分享這些踩過的坑還有免費DEMO跟API其實我想不到有啥好處,但至少不用為了要營利而去亂喊口號也更不用畫大餅,能做多少就是說多少;如同搞 Deep Learning 101 搞那麼久,搬桌椅、直播場佈其實比想像中麻煩,只希望讓想投入的知道 AI 這個坑其實很深,多分享總是比較好 !
Transformer - Attention is all you need
關於自然語言處理,如果你在臺灣,那你第一時間應該會想到俗稱Chatbot的聊天機器人 (就是要人工維運關鍵字跟正規表示式的機器人)吧?從最早的中英文的情感分析,陸續接觸過文本糾錯(校正)、文本分類、文本相似度、命名實體識別、文本摘要、機器閱讀理解等,當然自然語言處理其實博大精深,還有像是分詞、詞性標註、句法分析、語言生成等,傳說中的知識圖譜 (Ontology?) 更是大魔王了;這邊僅先匯整接觸過的做說明,當然在深度學習還未爆紅前,已經有非常多的演算法,未來也盡量針對各個項目與領域持續更新簡單介紹,就當近幾次專題演講的摘要,也算是這幾年跟小夥伴們奮鬥NLP充滿血與淚的回憶;另外,根據經驗,論文當然要追,更要實作跟實驗,但算法模型其實效果已經都差不多,如果你想將算法實際落地,別懷疑,請好好的處理你的數據,這會是蠻關鍵的地方。另外,你一定也要知道 BERT家族,早在2018年11月,Google 大神釋出 BERT 後,就差不多屌打各種自然語言處理應用 (在這之前,你想搞自然語言處理,勢必用到騰訊所開源需要16GB記憶體的Tencent_ChineseEmbedding),再後來還有像 transformer 跟 huggingface,所以你一定要花點時間瞭解;當然,如果你真的沒太多時間投入去換跟處理數據然後重新訓練,那歡迎聯絡一下,用我們還持續迭代開發的臺灣深度大師啦,不然公開數據都是對岸用語或簡體跟英文還要擠GPU計算資源,你會很頭痛 ! 對啦,你也可以試試 NVIDIA GTC 2021 介紹的Javis等對話式AI等東西,但我想你還是會覺得不容易上手就是,除非你想自己從頭硬幹去瘋狂的標註適合自己場景的數據,然後瞭解怎樣重新訓練模型。
Information/Event Extraction (資訊/事件擷取)
- HugNLP
- DeepKE
- Ningyu Zhang, Xin Xu, Liankuan Tao, Haiyang Yu, Hongbin Ye, Shuofei Qiao, Xin Xie, Xiang Chen, Zhoubo Li, Lei Li, Xiaozhuan Liang, Yunzhi Yao, Shumin Deng, Peng Wang, Wen Zhang, Zhenru Zhang, Chuanqi Tan, Qiang Chen, Feiyu Xiong, Fei Huang, Guozhou Zheng, Huajun Chen, "DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population", arXiv preprint, arXiv:2201.03335, 2022
- 基於深度學習的開源中文知識圖譜抽取框架
- DeepKE-LLM: A Large Language Model Based Knowledge Extraction Toolkit
- 知識增強的開源語言大模型框架
- ERINE-Layout
- UIE @ PaddleNLP
投入約120天,早期想上線需要不少計算資源 (沒有昂貴的GPU想上線簡直是難如登天,好險時代在進步,現在CPU就能搞定)。記得我2018從老闆口中第一次聽到新項目是機器閱讀理解時,一頭霧水不知道是在幹麼,Google後突然發現這還真是它X的超級難的東西,而當時落地場景是要解決機器人在博物館或者展場的Q&A,不想再預先建一堆關鍵字與正規表示式來幫相似度和分類做前處理。 但機器閱讀理解坑真的不小,首先當然是數據,公開數據有SQuAD 1.0和2.0,但這是英文,你想用在中文 ? 你可以自己試試啦,再來有了個中文的CMRC,但用得是對岸用語跟簡體中文,而且數據格式不太一樣;後來台達電放出了DRCD還有科技部辦的科技大擂台,依然有格式不同的問題,數據量真的不太夠,所以想要落地你真的得要自己標註。 為了解決像是多文章還有問非文章內問題,還有公開數據要嘛英文不然就是簡體中文或對岸用語,然後本地化用語的數據實在不足的狀況,小夥伴們真的很給力,我們也用機器翻譯SQuAD 1.0和2.0還有自己手工爬維基百科跟開發了數據標註系統自己標註 ! 不得不說小夥伴們真的是投入超多精神在機器閱讀理解,更在Deep Learning 101做了分享。
Machine Reading Comprehension (機器閱讀理解)
記得前後兩次陸續投入總計約100天。或許有人會發現為何在分享這幾篇自然語言會強調中文數據?最好理解的說法就是中文是基於字表示再加上中文斷詞的效果,比起每個單詞只需空格來表示的英文硬是麻煩點。命名實體識別 (Named Entity Recognition, NER) 是指將語句中的元素分成預先定義的類別 (開放域來說包括實體、時間和數字3個大類,人名、地名、組織名、機構名、時間、日期、數量和名字等7個小類,特定領域就像是藥名、疾病等類別)。要應用在那方面?像是關係抽取、對話意圖理解、輿情分析、對話NLU任務等等都用得上,更廣義的就屬填槽 (Slot-Filling) 了。 最早 (2019/08時) 我們需處理的場景是針對電話助理的對話內容 (就是APP幫你接電話跟對方對話) 在語音識別後跟語音合成前的處理,印像中沒做到非常深入;後來剛好招聘到熟悉NER這部份的小夥伴們,剛好一直想把聊天對話做個流程處理 (多輪對話的概念) ,就再花了點時間當做上手,因為不想依賴大量關鍵字和正規表示式做前處理,中間試了不少數據集,還做了像是用拼音、注音等,或者品牌定義等超多的實驗,甚至還一度想硬整合 RASA 等等的開源套件,也嘗試用了 "改寫" 來修正對話內容,去識別出語句中的重點字。至於這個的數據標據就真的更累人,意外找到一個蠻好用的標註系統 ChineseAnnotator,然後我們就瘋狂開始標註 !
Named Entity Recognition (命名實體識別)
投入約100天,早期上線成本資源頗高,現在就沒這問題;這個項目堪稱是在NLP這個坑裡投入第二多的,記得當時的場景是機器人在商場裡回答問題所顯示出來的文字會有一些ASR的錯字,但是問題一樣卡在數據集,還因此讓小夥伴們花了好長時間辛苦去標註 XD,但看看現在效果,我想這是值得的 ! 記得一開始是先依賴 pycorrector,然後再換 ConvSeq2Seq,當然 bert 也做了相關優化實驗,中間一度被那三番二次很愛嗆我多讀書,從RD轉職覺得自己很懂做產品的PM拿跟百度對幹,從一開始的看實驗結果輸,到後來贏了,卻又自己亂測說還是不夠好之類的叭啦叭啦,說實話,你最後不也人設垮了然後閃人 ~ 攤手 ~ 現在看看這截圖效果,不是蠻勵害的嗎 ? 真的想說這社會真的充滿一堆人設嚇死人的人,無敵愛嘴砲 ! 搞的為了滿足那位人設比天高的需求,真的是想了像是用拼音還兼NER來整合的好幾種方法 ! 那文本糾錯會有什麼坑呢?:數據啊、格式啊 !!! 還有幾個套件所要處理的目標不太一樣,有的可以處理疊字有的可以處理連錯三個字,還有最麻煩的就是斷字了,因為現有公開大家最愛用的仍舊是Jieba,即便它是有繁中版,當然也能試試 pkuseg,但就是差了點感覺。
Correction (糾錯)
最早我們是透過 Hierarchical Attention Networks for Document Classification (HAN) 的實作,來修正並且以自有數據進行訓練;但是這都需要使用到騰訊放出來的近16 GB 的 embedding:Tencent_AILab_ChineseEmbedding_20190926.txt,如果做推論,這會是個非常龐大需載入的檔案,直到後來 Huggingface 橫空出世,解決了 bert 剛出來時,很難將其當做推論時做 embedding 的 service (最早出現的是 bert-as-service);同時再接上 BiLSTM 跟 Attention。CPU (Macbook pro):平均速度:約 0.1 sec/sample,總記憶體消耗:約 954 MB (以 BiLSTM + Attention 為使用模型)。 引用 Huggingface transformers 套件 bert-base-chinese 模型作為模型 word2vec (embedding) 取代騰訊 pre-trained embedding 優點:API 上線時無須保留龐大的 Embedding 辭典,避免消耗大量記憶體空間,但BERT 相較於傳統辭典法能更有效處理同詞異義情況,更簡單且明確的使用 BERT 或其他 Transformers-based 模型 缺點:Embedding後的結果不可控制,BERT Embedding 維度較大,在某些情況下可能造成麻煩
Classification (分類)
投入約45天,那時剛好遇到 albert,但最後還是被蒸溜給幹掉;會做文本相似度主要是要解決當機器人收到ASR識別後的問句,在進到關鍵字或正規表示式甚至閱讀理解前,藉由80/20從已存在的Q&A比對,然後直接解答;簡單來說就是直接比對兩個文句是否雷同,這需要準備一些經典/常見的問題以及其對應的答案,如果有問題和經典/常見問題很相似,需要可以回答其經典/常見問題的答案;畢竟中文博大精深,想要認真探討其實非常難,像是廁所在那裡跟洗手間在那,兩句話的意思真的一樣,但字卻完全不同;至於像是我不喜歡你跟你是個好人,這就是另一種相似度了 ~ xDDD ! 那關於訓練數據資料,需要將相類似的做為集合,這部份就需要依賴文本分類;你可能也聽過 TF-IDF 或者 n-gram 等,這邊就不多加解釋,建議也多查查,現在 github 上可以找到非常的範例程式碼,建議一定要先自己動手試試看 !
Similarity (相似度)
大語言模型 (Large Language Model)
大型語言模型API平台價格比較
平台 | 模型 | 輸入費用 (USD/1M Tokens) | 輸出費用 (USD/1M Tokens) | 上下文窗口 | 免費層級 | 最大速率限制 (RPM / TPM) | 多模態能力 | 特點 / 說明 | 定價連結 |
---|---|---|---|---|---|---|---|---|---|
OpenAI | OpenAI o1 | $15.00 | $60.00 | 200k | ❌ | 不公開 | ✅(文字+圖像) | Frontier 模型,支援 Vision/Tools/結構化輸出 | OpenAI Pricing |
OpenAI | OpenAI o3-mini | $1.10 | $4.40 | 200k | ❌ | 不公開 | ❌ | 成本效益模型,適合編碼與數學 | 同上 |
Gemini 2.5 Pro (Preview) | $1.25(≤200k),$2.50(>200k) | $10.00(≤200k),$15.00(>200k) | >200k | ✅(指定模型) | 150 RPM / 2M TPM(Tier 1) | ✅(文字+圖像) | 高階推理力,企業級用途 | Gemini API / Gemini 網站 | |
Gemini 2.0 Flash | $0.10(圖文影),$0.70(音訊) | $0.40 | 1M | ✅(15 RPM) | 2,000 RPM / 4M TPM | ✅(文字+圖+影+音) | 多模態支援,企業級速率與穩定性 | 同上 | |
Gemini 2.0 Flash Lite | $0.075(全模態) | $0.30 | 1M | ✅(30 RPM) | 4,000 RPM / 4M TPM | ✅(全模態) | 超高速率、經濟型多模態模型 | 同上 | |
DeepSeek | deepseek-chat (V3) | $0.27 | $1.10 | 64K | ❌ | 不公開 | ❌ | 標準價,推理速度佳 | DeepSeek Pricing / DeepSeek Chat |
DeepSeek | deepseek-reasoner (R1) | $0.55 | $2.19 | 64K | ❌ | 不公開 | ❌ | 高階邏輯推理與數據分析能力 | 同上 |
Qwen | Qwen-Max | $1.60 | $6.40 | ~32K | ❌ | 不公開 | ❌ | 強推理型,偏向高品質產出 | Qwen Chat |
Qwen | Qwen-Plus | $0.40 | $1.20 | ~131K | ❌ | 不公開 | ❌ | 均衡型模型,支援較長上下文 | 同上 |
Grok | grok-3 | $3.00 | $15.00 | 131k | ✅ | 不公開 | ❌ | 支援思考模式、有限搜尋功能 | Grok 官網 |
百度 | 文心一言(ERNIE Bot) | 不公開(免費使用) | 不公開(免費使用) | 不公開 | ✅ | 不公開 | ✅(圖像/語音) | 支援中文語境與多模態任務 | 文心一言 |
- 人工智慧大語言模型微調技術:SFT 監督微調、LoRA 微調方法、P-tuning v2 微調方法、Freeze 監督微調方法
- LoRA、完全微調到底有何不同? MIT 21頁論文講懂了
- 大模型微調(Fine-tuning)全解,需要了解的都在這裡
- 初學者必看大模型微調指南:Unsloth官方微調技巧大公開!
- 零代碼!一站式完整資料集準備到模型微調全流程!
- 把你的DeePseek-R1 微調為某個領域的專家?
- 使用 NVIDIA NeMo 框架進行 LLM 模型剪枝和知識蒸餾
- LLaMA Factory:https://huggingface.co/spaces/hiyouga/LLaMA-Board
- torchtune:https://github.com/pytorch/torchtune
- 微調特定領域的大模型,資料集究竟要怎麼搞?
- LLaMA Factory 微調教學:如何建立高品質資料集
- 大模型微調資料集生產工具 Easy Dataset
- 開源DeepWiki版支援根據現有檔案產生微調資料集
- 零一萬物發布COIG-CQIA:高品質且符合人類互動行為的中文指令微調數據
- AI Search Has A Citation Problem
- AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
- OWASP Agentic AI – Threats and Mitigations
Tool 名稱 | 功能範疇 | 集成能力 | 適用場景 | 建議選擇 | 知識庫技術 |
---|---|---|---|---|---|
Flowise | 簡單可視化流程建構 | 支持 LangChain 和 GPT,多平台部署 | 快速構建簡單 LLM 流程應用 | 適合需要快速構建和部署 LLM 應用的用戶 | |
Langflow | 多智能體與 RAG 應用構建 | 外部工具、API 與資料庫集成 | 複雜任務鏈與多智能體應用開發 | 適合構建複雜任務鏈的技術型開發者 | |
Dify | 全面應用開發與管理 | 多模型支持,全面工作流與模型管理 | 全生命周期管理與複雜應用開發 | 適合需要全面管理 LLM 應用的開發者或企業 | 基於 Pinecone 的向量數據庫、Notion API 同步(增量更新)、支持 Rerank 模型(bge-reranker-base)、提供行業模板庫 |
n8n | 通用自動化與流程編排平台 | 支持超過 350 種服務與 API 集成,可視化流程編輯 | 應用整合、自動化工作流程構建、自動回應觸發器 | 適合需要自動處理非 AI 任務或整合各類 SaaS 工具的用戶與開發者 | 可與向量資料庫結合使用,但非內建 |
RAGFlow | 模組化 RAG 管線與知識應用框架 | 支持 LangChain、Chroma、FAISS 等,可用於構建完整 RAG 工作流 | 知識問答、文件檢索、RAG 多階段優化 | 適合需要建構可定製、模組化 RAG 系統的開發者 | 支持多向量資料庫(Chroma、FAISS)、可結合自定義資料源與檢索策略 |
New API | 模型接口統一與分發 | OpenAI 格式統一,支持多支付協議與分發管理 | 多模型接口管理與分發 | 適合需要統一管理多種 AI 模型接口的用戶 | |
XORBITS Inference | 分散式推理與部署 | 與 Hugging Face 等模型相容,支援雲端及本地等多種部署環境 | 大規模模型推理與雲端部署,需快速搭建可擴展的推理服務時 | 適合需要高效擴展能力、進行大規模模型推理的團隊或企業 | |
Ollama | 本地模型推理與管理 | 提供命令列介面,支援多種 Llama 模型於本地運行 | 在有隱私或離線需求的場景下進行本地推理 | 適合想在本地快速配置 Llama 系列模型的個人或中小型團隊 | |
FastGPT | 知識庫問答系統與工作流編排 | 提供開箱即用的數據處理、模型調用,支持可視化工作流編排 | 快速構建智能問答系統與複雜問答場景 | 適合需要快速部署知識庫問答系統的用戶 | 混合索引(Elasticsearch + FAISS)、支援 PDF 表格解析(PyMuPDF 集成)、BM25 權重可調、需人工標註種子數據 |
Coze | AI 智能體開發平台 | 整合插件、長短期記憶、工作流、卡片等功能,支持多平台發布 | 低門檻快速搭建個性化或具備商業價值的智能體 | 適合無需編程即可創建智能體的用戶 | 自研分佈式索引、電商數據結構 |
工具
- MCP
- 2025-04-15:automcp:將任何代理、工具或編排器秒設定 MCP 伺服器
- 2025-04-10:line-bot-mcp-server
- 2025-04-05:GitMCP:GitMCP 太神了!一行URL 讓AI 秒懂你的GitHub 項目
- 2025-03-14:playwright-mcp:MCP-Playwright:AI自動化神器
- Browser-use
- 2025-06-04:workflow-use:基於AI 的瀏覽器自動化工具:一次錄製,永久重複使用
- 2025-04-16:browser-use/web-ui;如何使用
- 2025-03-28:browser-use-webui
- 2025-02-16:browser use webui部署(實現瀏覽器自動化)
- 2025-01-23:Browser Use – 讓AI 像人類一樣使用瀏覽器
- 2025-07-30:langextract;隆重推出 LangExtract:由 Gemini 驅動的資訊擷取庫
- 2025-07-26:presenton;一款可本地部署的開源AI PPT項目,一鍵生成精美PPT
- 2025-06-28:docext:基於Qwen2.5VL的文檔解析工具
- 2025-06-10:Agentic-Doc;LandingAI開源神器,這個Python庫讓百頁文檔秒變結構化資料!
- 2025-06-06:daily-arXiv-ai-enhanced:每日自動爬取arXiv論文並以LLM產生中文摘要
- 2025-05-22:AingDesk;AingDesk:零门槛本地 AI 部署
- 2025-05-20:news-agents
- 2025-05-16:Follow;連續登頂GitHub 的資訊聚合神器:Follow,讓你不再錯過任何重要資訊!
- 2025-05-11:SurfSense:GitHub 開源專案 打通Notion、GitHub、搜尋引擎的AI超腦,如何使用
- 2025-04-28:PaperCoder;Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning;PaperCoder:利用大型語言模型自動產生機器學習論文程式碼的框架
- 2025-04-16:OneFileLLM:這個開源神器終結了AI資料整合的惡夢!一鍵聚合網頁、程式碼、論文到剪貼簿!
- 2025-04-16:ScrapeGraphAI:ScrapeGraphAI -自然語言驅動的智慧爬蟲革命!
- 2025-04-15:stagehand:Stagehand:AI驅動的下一代瀏覽器自動化框架
- 2025-04-11:nanobrowser:AI 驅動的瀏覽器自動化神器
- 2025-04-10:DevDocs:開發者的文檔收割機來了!這個開源工具讓你一小時幹完一週的活!
- 2025-04-06:sqlchat:這款開源神器讓資料庫管理像聊天一樣簡單!
- 2025-03-26:pdf-craft:PDF秒轉Markdown/EPUB
- 2025-03-25:OCRmyPDF;OCRmyPDF 能力分析
- 2025-03-12:AingDesk;零門檻本地AI 部署,DeepSeek、Llama 一鍵直達!
- 2025-03-08:composio:AI助理效率神器! Composio幫你輕鬆整合200+工具
- 2025-02-25:PySpur:拖曳式開發AI工作流程!這款開源神器,讓LangChain也黯然失色!
- 2025-01-13:DocAligner:拍照文件復原:校正扭曲、光照陰暗、版面定位
- 2025-01-13:PPTAgent;中科院開源AI工具,自動將文件轉化為高品質PPT
- 2025-01-07:activepieces:一個開源的AI自動化工作流程工具
- 2024-12-15:markitdown
- 從AI Agent到Agent工作流程,一文詳細了解代理程式工作流程
- 萬字長文,帶你綜觀大模型Agent,涉及研究痛點、應用場景、發展方向
- 什麼是「Agentic 工作流程」?
- 什麼是Agentic AI?什麼是Agentic Workflow?與AI Agent有什麼區別和關聯?
- FinRobot;DeepWiki;可支援 Gemini-2.5-Pro-preview-05-06,基於 AutoGen
- Jupyter-AI;可支援 Gemini-2.5-Pro-preview-05-06
- 2025-07-03:multi-modal-researcher
- 2025-07-03:MultiAgentPPT;A2A+ADK+MCP多智能體並發系統產生(可線上編輯)的PPT(含原始碼)
- 2025-06-25:Gemini CLI:Gemini CLI:你的開源 AI 代理
- 2025-06-23:MultiAgentPPT:整合了 A2A+MCP+ADK架構的動畫簡報產生系統,支援多智能體協作和串流運行機制
- 2025-06-06:PandaWiki;新一代AI 大模型驅動的開源知識庫建立系統
- 2025-06-03:Gemini Fullstack LangGraph;DEMO;以為Google只是簡單放個Demo,哪想到是」開源版”Perplexity!
- 2025-06-03:Perplexica;Perplexity AI,開源替代品
- 2025-06-02:Paper2Poster:自動為論文產生海報
- 2025-06-01:Agent Zero;官網;這個自動AI代理可以做任何事! (產生APP、程式碼、RAG 等)
- 2025-05-30:WebDancer @ Alibaba;DeepWiki
- 2025-05-28:Lemon AI;全球首款全端開源通用AI Agent,讓人可以單機部署超級智慧體
- 2025-05-25:OpenHands;Demo
- 2025-05-18:Agent-Squad;輕量級開源AI多智能體框架!智慧路由+上下文管理,前後端介面支援!
- 2025-05-10:FlowGram:字節跳動把Coze 核心開源了!視覺化工作流程引擎FlowGram 上線;如何使用
- 2025-05-10:DeerFlow:字節跳動DeerFlow深度解析;如何使用
- 2025-05-09:OpenDeepWiki:開源的DeekWiki加入MCP,輕鬆讓AI掌握開源專案使用文件!;如何使用
- 2025-05-07:AI Manus
- 2025-04-24:suna:3週時間,就打造出Manus開源平替!貢獻原始碼,免費用
- 2025-04-22:釦子空間 (Coze Space):字節版Manus 釦子空間來了!實測效果絕佳,但還有3 個問題
- 2025-04-03:AutoAgent:一句話全自動創建AI智能體,港大AutoAgent打造開源最強Deep Research
- 2025-04-03:Agent Development Kit (ADK):谷歌發表「智能體開發工具包」ADK,來嚐個鮮
- 2025-04-03:Deepsite;DeepSite基於DeepSeek的網頁開發智能體,效果非常不錯
- 2025-03-30:DeepGemini:AI界的'搭積木'神器,10分鐘打造你的專屬智慧團隊!
- 2025-03-24:AgenticSeek:又一個“Manus”開源,完全本地化替代品AgenticSeek
- 2025-03-11:autoMate:autoMate:基於OmniParser 所建構的革命性AI自動化助手
- 2025-03-10:OpenManus:一文讀懂:OpenManus
- 2025-02-28:MoneyPrinterTurbo;Al自動生成高清短視頻
- 2024-02-01:MobileAgent:一句指示幫你操作手機,最新多模態手機助理Mobile-Agent來了!
- 2025-01-03:smolagents:新年禮物,Huggingface捲了一個Agent專案開源
- 2024-09-23:STORM;STORM:一个基于LLM的知识整理系统
- 2024-10-26:OmniParser;控制電腦手機的智慧體人人都能造,微軟開源OmniParser
混合專家(Mixture of Experts, MoE)模型
- 2024-12-13:DeepSeek-VL2:DeepSeek-VL2開源,VLM邁入MoE時代,DeepSeek-VL2 先進視覺語言模型,在多模態理解方面取得了顯著進展
- 騰訊混元:騰訊混元又來開源,一出手就是最大MoE大模型
小型語言模型
- 2025-01-07:Smolagents:Hugging Face開源全新AI智能體框架支援工具呼叫與程式碼執行!
- 2024-12-13:Phi-4:以小博大,微軟Phi-4正式發表~
- 2024-11-18:MobileLLM-1.5B:Meta MobileLLM:深度架構與最佳化技術打造的行動裝置超強語言模型
- 2024-11-04:SmolLM2:https://github.com/hiyouga/LLaMA-Factory
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
推理模型
- 2025-08-05:gpt-oss;隆重介紹 gpt-oss;OpenAI重新開源!深夜連發兩個推理模型,o4-mini水平
- 2025-07-29:Llama Nemotron Super v1.5;英偉達全新開源模型:三倍吞吐、單卡可跑,還拿下推理SOTA
- 2025-07-27:OpenReasoning-Nemotron;英偉達突然開源「數學核武」! 1.5B 參數秒殺 o3,OpenReasoning-Nemotron 真有這麼猛?
- 2025-05-06:Llama-Nemotron;DeepWiki;英偉達發布Llama-Nemotron系列大模型,實現高效推理
- 2025-04-16:Video-R1: Reinforcing Video Reasoning in MLLMs ;Github;影片推理R1時刻,7B模型反超GPT-4o,港中文清華推出首款Video-R1
大型語言模型
- 2025-08-05:Claude Opus 4.1
- 2024-11-23:Ai2 Tülu 3:這才是真・開源模型!公開「後訓練」一切,性能超越Llama 3.1 Instruct
- 2024-11-9:Ai2 OpenScholar:https://openscholar.allen.ai/
- 2024-09-25:Llama 3.2 90b, 11b, 3b, 1b: Revolutionizing edge AI and vision with open, customizable models
Embedding & Reranker
- 2025-07-14:gemini-embedding-001
- 2025-06-05:Qwen3 Embedding:新一代文本表徵與排序模型
- 2025-06-03:Qwen3-Embedding
- 2025-06-03:Qwen3-Reranker
語音到語音大模型及工具套件
- ten-agent
- pipecat:OpenAI工程師親自修訂:用ChatGPT即時語音API建立應用
- 2025-07-21:Audio Flamingo 3 @ NVIDIA;NVIDIA 開源多模態音訊模型Audio Flamingo 3
- 2025-05-08:Voila;新型開源端對端AI 語音模型! Voila:195ms 超低延遲引領全雙工對話!
- HuggingFace Speech-to-Speech
視覺大語言模型 (Vision-Language model)
- 2025-05-20:Seed1.5-VL;Seed1.5-VL:具有視覺增強多模態能力的高階語言模型;字節跳動發布Seed1.5-VL視覺-語言多模態大模型,實測效果非常不錯
- 2025-05-12:nanoVLM
多模態大語言模型 (Multimodal)
- InternVL
- 2025-05-24:Dolphin:DeepWiki;開源多模態複雜文件解析模型! Dolphin
- 2025-05-21:Gemma 3n;Preview
- 2025-03-18:Mistral Small 3.1:Mistral開源多模態小模型3.1:128K上下文+超低延遲,效能碾壓GPT-4o Mini
- 2025-03-14:Vision-R1:Vision-R1:激發多模態大模型的推理能力
- 2025-02-28:HumanOmni
- Phi
- MiniCPM
過往資訊
AI Agent 開源框架
- 2025-01-21:UI-TARS:端對端GUI Agent:UI-TARS 如何以純視覺驅動GUI 自動化
- 2025-01-23:Upsonic:5.9K Star!全能高效的AI代理框架,打造企業級AI電腦助手,辦公任務一鍵完成!
- 2025-03-10:OWL:另一個開源版本的“Manus”
- 2025-04-18:cooragent
- 2025-04-14:DroidRun:AI也能操作手機了! DroidRun 讓Agent 實現智慧型手機自動化操作!
- 2025-04-14:MDocAgent:Adobe首發多Agent、跨模態框架MDocAgent:複雜文件理解效能爆炸12%,錯誤率直降21%
- 2025-04-08:CortexON:CortexON:開源通用AI Agent,另一個取代Manus產品 (只支援 Anthropic ?)
- 2025-04-08:oliva:Oliva:一個多智能體,開源語音RAG 助手
- 2025-04-27:Rowboat
- 2025-05-22:Magentic-UI。。。暫不支援使用 Gemini
- 2025-05-20:NLWeb。。。暫不支援使用 Gemini
- 2025-05-20:Qwen Web Dev
- 2025-05-17:Open Agent Platform
- 2025-05-13:LocalSite-ai
大型語言模型
- 2024-09-19:阿里國際發表最新開源多模態模型Ovis,多模態能力再升級:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
- 2024-09-20:Reader-LM:用於清理和將 HTML 轉換為 Markdown 的小型語言模型
- 2024-06-28:谷歌最新Gemma 2 模型來了
語音到語音大模型及工具套件
- bailing
- OmAgent:OmAgent框架強勢開源!業界應用已全面開花
- 2024-12-11:Ultravox
- GLM-4-Voice:嚐鮮評量:智譜AI語音大模型GLM-4-Voice好用不
- 2024-12-06:Freeze-Omni
- weebo
- OpenVoiceChat
多模態大語言模型 (Multimodal)
- 2025-02-21:Magma:微軟發表Magma多模態AI代理基礎模型,單一模型就具UI與機器人操作能力
- 2024-04-11:視覺語言模型詳解
- 2024-09-26:Llama 3.2:開源可自訂視覺模型:Ollama
- 2024-09-20:LLaMA-Omni:Llama 3.1 Omni:顛覆性的文字與語音雙輸出模型
- 2024-09-12:LLaVA-OneVision 震撼登場!字節跳動:https://cloud.tencent.com/developer/article/2444463
- 2024-06-24:微調Florence-2 - 微軟的尖端視覺語言模型
- Mistral AI Pixtral
- 2024-09-14:Pixtral 12B / DEMO:本地部署、映像分析和OCR功能全解析
- 2024-09-12:Mistral AI推出多模態模型Pixtral 12B
- 2024-12-12:InternLM-XComposer-2.5
語音助手工具
- ESP-AI
- xiaozhi-esp32
- xiaozhi-esp32-server:為xiaozhi-esp32提供後台服務,協助您快速建置ESP32設備控制伺服器
- py-xiaozhi:python 版本小智ai,主要幫助那些沒有硬體的人體驗小智功能
- xiaozhi-web-client
- xiaozhi-android-client
- OpenVoiceOS
- fast-voice-assistant
- gptspeaker
-
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks:https://arxiv.org/pdf/2307.16184.pdf
-
Revisiting Relation Extraction in the era of Large Language Models:https://arxiv.org/abs/2305.05003
- LangChain 入門:構建LLM 支持的應用程序的初學者指南
- LangChain中文入門教程
- 大語言模型集成工具LangChain
- LangChain-ChatGLM-Webui
- Langchain-Chatchat/Langchain-ChatGLM
- 基於本地知識的問答機器人langchain-ChatGLM
- LlamaIndex:輕鬆構建索引查詢本地文檔的神器
- LlamaIndex——与LangChain类似但更专注于数据处理的LLM框架
- langchain大模型外掛知識庫問答系統核心部件:如何更好地解析、分割複雜非結構化文本
- 一文詳解最熱的LLM 應用框架LangChain
- LangChain:打造自己的LLM 落地場景實作!
- langchain+xray,好玩起来了
- 利用LangSmith和Lilac微調你的大模型
- AutoGen / AutoGen Studio
- https://microsoft.github.io/autogen/blog/2023/12/01/AutoGenStudio/
- 微軟Agent框架AutoGen論文及原理解讀
- AutoGen Studio 與本機Mistral AI 模型
- AutoGen Studio UI 2.0 : Step By Step Installation Guide
- 體驗AutoGen Studio - 微軟推出的友善多智能體協作框架
- 逐步掌握最佳Ai Agents框架-AutoGen:https://github.com/sugarforever/AutoGen-Tutorials
- 微軟AutoGen框架太火了,智能體聊聊天就把問題解決了
- autogen-ui:https://github.com/victordibia/autogen-ui
- 我打通了Autogen和Bing搜尋| AutoGen系列第二篇
- Streamlit + AutoGen = 基於LLM的多代理網頁應用開發
- 使用Streamlit建立AutoGen使用者介面
- AnythingLLM:https://github.com/Mintplex-Labs/anything-llm
- ollama:https://ollama.ai
- Flowise ——通過拖放界面構建定制的LLM流程
- QAnything, Question and Answer based on Anything:https://github.com/netease-youdao/QAnything
- CrewAI:CrewAI與AutoGen相比
- Phidata:Phidata補齊大模型短板,輕鬆建構RAG AI助理!
- NVIDIA AI Foundation Models
- TensorRT-LLM
- FastGPT
- XAgent:https://github.com/OpenBMB/XAgent
- Dify
- HuggingChat:Powered by Open Assistant's latest model – the best open source chat model right now – and Hugging Face Inference API.
- JittorLLMs:計圖大模型推理庫-沒有顯示卡也能跑大模型:https://github.com/Jittor/JittorLLMs
- PromptFlow — 微軟最新開源的基於LLM的開發工具集:https://github.com/microsoft/promptflow
- 用bitsandbytes、4 位元量化和QLoRA 打造親民的LLM
- 用LLaMA 2.0, FAISS and LangChain實現基於知識問答
- LMDeploy:使用LMDeploy 輕鬆部署Llama-2 系列模型!
- LLMStack:一個用於構建生成式AI 應用、聊天機器人、智能體的無代碼平台
- LLaMA2-Accessory
- AutoChain : LangChain 的替代品
- LangFlow:一款可輕鬆實驗和原型化 LangChain 模擬的 AI 項目
- 大型語言模型綜述全新出爐:從T5到GPT-4最全盤點!
- 現有開源中文LLM整理
- 大模型LLM-微調經驗分享&總結
- Hugging Face 的文本生成和大語言模型的開源生態
- 構建能夠使用CPU 運行的MetaAI LLaMA2 中文大模型
- 復旦NLP團隊發表80頁大模型Agent綜述,一文綜觀AI智能體的現況與未來
- 個人程式設計助理: 訓練你自己的編碼助手
- Code Llama:https://github.com/facebookresearch/codellama
- DeepSeek Coder:https://huggingface.co/deepseek-ai
- CodeShell:https://huggingface.co/WisdomShell
- Gemma: Google 最新推出開放大語言模型
- Mistral
- Xwin-LM
- Zephyr
- neural-chat-7b-v3@INTEL
- Baichuan:https://huggingface.co/baichuan-inc
- 01-ai/Yi
- Fengshenbang-LM(封神榜大模型):https://huggingface.co/IDEA-CCNL
- Chat GLM
- Falcon 180B Demo
- 天工@崑崙萬維
- Meta Llama 2:https://github.com/facebookresearch/llama
- MOSS
- Bloom:
- Dolly
- XVERSE
- MPT-7B:A New Standard for Open-Source, Commercially Usable LLMs
- [OpenBMB]
- Open Assistant
- Cerebras-GPT
- OpenBuddy
- h2oGPT:https://github.com/h2oai/h2ogpt
- 文心@百度:
- 混元@騰訊:
- 通義千問(QWEN)@阿里: