Skip to content

luhengshiwo/LLMForEverybody

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

479 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LearnLLM.AI

微信公众号   知乎   CSDN   掘金

Learning LLM is all you need.

中文 | English | Русский

👉 点击 LearnLLM.AI | 学习大模型,从这里开始

LearnLLM.AI 核心亮点

精选大模型面试题库:覆盖从基础到前沿的实战题目,助您高效备战求职,抓住职业机遇;

系统化论文研读:从2017年Transformer奠基性论文出发,按清晰的知识体系梳理技术演进,适合不同基础的开发者循序渐进地深度提升;

精选实战课程:围绕 AI Agent、RAG 知识库、大模型微调与 LLM 应用开发等核心方向,打磨成体系的中文实战课程,覆盖 LangChain、LlamaIndex、Dify、MCP 等主流工具链,配套项目代码与讲师答疑,支持按主题灵活拆分、按需选学,帮你由点及面搭建完整的大模型知识体系。👉 浏览全部课程

专属优惠码

我们为Github用户准备了限时专属优惠码:GITHUB50 ,期待在 LearnLLM.AI 与您继续同行,共同成长!

配套视频教程(持续更新中)

👉 点击这里 bilibili

👉 点击这里 YouTube

如有疑问,欢迎随时联系我们。

Happy Learning!

LearnLLM.AI 团队


LLM 精选论文

时间 论文 介绍 视频 开始学习
2017-06-12 Transformer 提出自注意力与 Transformer 架构 LearnLLM.AI
2018-06-11 GPT-1 预训练 + 微调的生成式 Transformer LearnLLM.AI
2018-10-11 BERT 双向编码器:MLM + NSP LearnLLM.AI
2019-02-14 GPT-2 大规模无监督文本生成 LearnLLM.AI
2019-10-23 T5 文本到文本统一框架 LearnLLM.AI
2020-05-28 GPT-3 大模型与少样本学习能力 LearnLLM.AI
2020-10 ViT 将 Transformer 主干引入视觉领域 LearnLLM.AI
2021-02 ViLT 极简视觉语言预训练架构 LearnLLM.AI
2021-02 CLIP 用自然语言监督实现零样本视觉学习 LearnLLM.AI
2021-02 DALL·E 1 自回归文本生成图像的开端 LearnLLM.AI
2021-07-07 CodeX 面向代码生成的 GPT 系列模型 LearnLLM.AI
2021-12 Stable Diffusion 潜空间扩散模型推动文生图开源化 LearnLLM.AI
2022-02-08 AlphaCode 竞赛级代码生成系统 LearnLLM.AI
2022-03-04 InstructGPT 人类反馈对齐与指令微调 LearnLLM.AI
2022-04 DALL·E 2 基于 CLIP Latents 的高保真文生图 LearnLLM.AI
2022-12 Whisper 大规模弱监督语音识别基础模型 LearnLLM.AI
2023-02-27 LLaMA-1 高效开源预训练基座模型 LearnLLM.AI
2023-04 LLaVA 开源多模态指令微调的重要起点 LearnLLM.AI
2023-07-18 LLaMA-2 LLaMA 升级版,开放商用 LearnLLM.AI
2023-08 Qwen-VL 通义千问早期视觉语言基座模型 LearnLLM.AI
2023-09-28 Qwen 1 通义千问第一代基座模型 LearnLLM.AI
2023-10-10 Mistral 7B 高效 7B 级开源模型 LearnLLM.AI
2023-12 LVM 纯视觉自回归建模的大视觉模型路线 LearnLLM.AI
2024-02 Mixtral 8x7B 开源稀疏 MoE 的代表作 LearnLLM.AI
2024-03 Gemma 1 Google 轻量开源模型家族首作 LearnLLM.AI
2024-05 DeepSeek-V2 高效 MoE 语言模型,兼顾性能与推理经济性 LearnLLM.AI
2024-06 ChatGLM 从 GLM-130B 演进到 GLM-4 的国产模型家族 LearnLLM.AI
2024-07 Llama 3 Meta 新一代开源旗舰模型 LearnLLM.AI
2024-07 Gemma 2 在实用尺寸上继续提升开源模型性能 LearnLLM.AI
2024-12 DeepSeek-V3 高效 MoE 架构,兼顾训练成本与模型性能 LearnLLM.AI
2025-01 DeepSeek-R1 通过强化学习增强大模型推理能力 LearnLLM.AI
2025-03 Gemma 3 原生多模态与 128K 长上下文的 Gemma LearnLLM.AI
持续更新中...
点击展开/收起 roadmap

AGI 之路

点击展开/收起

目录

序-AGI之路

⬆ 一键返回目录

大模型年度论文总结

2017:Transformer 出现,一切从这里开始

2018:GPT 和 BERT,预训练开始分成两条线

2019:模型开始变大,GPT-2 和 T5

2020:GPT-3 来了,1750 亿参数到底带来了什么

2021:不只是文本,CLIP 让模型开始看图

2022:让模型更听话,InstructGPT 和 RLHF

2023:LLaMA 放出来之后,开源模型开始追上来

2024:开源模型开始重新算训练和推理这笔账

大家都在谈的Scaling_Law是什么

智能涌现和AGI的起源

什么是perplexity

Pre-Training预训练Llama-3.1 405B超大杯,需要多少算力资源?

第一章-大模型之Pre-Training

⬆ 一键返回目录

架构

10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm

混合专家模型MoE详解节选

最简单的方式理解Mamba(中文翻译)

10分钟了解什么是多模态大模型

Optimizer

全网最全的神经网络优化器optimizer总结

神经网络的优化器(一)综述

神经网络的优化器(二)SGD

神经网络的优化器(三)Momentum

神经网络的优化器(四)ASGD

神经网络的优化器(五)Rprop

神经网络的优化器(六)AdaGrad

神经网络的优化器(七)AdaDeleta

神经网络的优化器(八)RMSprop

神经网络的优化器(九)Adam

神经网络的优化器(十)Nadam

神经网络的优化器(十一)AdamW

神经网络的优化器(十二)RAdam

激活函数

为什么大型语言模型都在使用SwiGLU作为激活函数?

神经网络的激活函数(一)概述

神经网络的激活函数(二)Sigmiod、Softmax和Tanh

神经网络的激活函数(三)ReLU和它的变种

神经网络的激活函数(四)ELU和它的变种SELU

神经网络的激活函数(五)门控系列-GLU、Swish和SwiGLU

神经网络的激活函数(六)GELU和Mish

Attention机制

看懂FlashAttention需要的数学储备是?高考数学最后一道大题

FlashAttentionv2相比于v1有哪些更新?

为什么会发展出Multi-Query-Attention和Group-Query-Attention

一文了解Deepseek系列中的MLA技术

位置编码

什么是大模型的位置编码Position-Encoding

复变函数在大模型位置编码中的应用

最美的数学公式-欧拉公式

从欧拉公式的美到旋转位置编码RoPE

Tokenizer

全网最全的大模型分词器(Tokenizer)总结

搞懂大模型的分词器(一)

搞懂大模型的分词器(二)

搞懂大模型的分词器(三)

搞懂大模型的分词器(四)

搞懂大模型的分词器(五)

搞懂大模型的分词器(六)

并行策略

大模型并行策略[中文翻译]

大模型分布式训练并行技术(一)概述

大模型分布式训练并行技术(二)数据并行

大模型分布式训练并行技术(三)流水线并行

大模型分布式训练并行技术(四)张量并行

大模型分布式训练并行技术(五)混合并行

大模型训练框架

大模型训练框架(一)综述

大模型训练框架(二)FSDP

大模型训练框架(三)DeepSpeed

大模型训练框架(四)Megatron-LM

大模型训练框架(五)Accelerate

第二章-大模型之部署与推理

⬆ 一键返回目录

10分钟私有化部署大模型到本地

模型部署不求人!从TTFT到Throughput的性能估算终极公式

大模型output-token为什么比input-token贵

如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?

大模型的latency(延迟)和throughput(吞吐量)有什么区别

vLLM使用PagedAttention轻松、快速且廉价地提供LLM服务(中文版翻译)

DevOps,AIOps,MLOps,LLMOps,这些Ops都是什么?

大模型推理框架(一)综述

大模型推理框架(二)vLLM

大模型推理框架(三)Text generation inference (TGI)

大模型推理框架(四)TensorRT-LLM

大模型推理框架(五)Ollama

第三章-大模型微调

⬆ 一键返回目录

10分钟教你套壳(不是)Llama-3,小白也能上手

大模型的参数高效微调(PEFT),LoRA微调以及其它

大模型微调之Soft prompts(一)概述

大模型微调之Soft prompts(二)Prompt Tuning

大模型微调之Soft prompts(三)Prefix-Tuning

大模型微调之Soft prompts(四)P-Tuning

大模型微调之Soft prompts(五)Multitask prompt tuning

大模型微调之Adapters(一)概述

大模型微调之Adapters(二)LoRA

大模型微调之Adapters(三)QLoRA

大模型微调之Adapters(四)AdaLoRA

大模型微调框架(一)综述

大模型微调框架(二)Huggingface-PEFT

大模型微调框架(三)Llama-Factory

第四章-大模型量化

⬆ 一键返回目录

10分钟理解大模型的量化

大模型量化认知的三重境界

第五章-显卡与大模型并行

⬆ 一键返回目录

AGI时代人人都可以看懂的显卡知识

Transformer架构的GPU并行和之前的NLP算法有什么不同?

大模型部署三要素:显存、计算与通信深度解析

第六章-Prompt-Engineering

⬆ 一键返回目录

过去式就能越狱大模型?一文了解大模型安全攻防战

万字长文Prompt-Engineering-解锁大模型的力量

COT思维链,TOT思维树,GOT思维图,这些都是什么

第七章-Agent

⬆ 一键返回目录

如何设计智能体架构:参考OpenAI还是Anthropic?

MCP:基础概念、快速应用和背后原理

LLM应用落地指南之应用的分类(一)

LLM应用落地之架构设计(二)

LLM应用落地之Text-2-SQL(三)

开发大模型or使用大模型

Agent设计范式与常见框架

langchain向左coze向右

RAG

向量数据库拥抱大模型

搭配Knowledge-Graph的RAG架构

GraphRAG:解锁大模型对叙述性私人数据的检索能力(中文翻译)

干货:落地企业级RAG的实践指南

10分钟了解如何进行多模态RAG

第八章-大模型企业落地

⬆ 一键返回目录

CRUD-ETL工程师的末日从NL2SQL到ChatBI

大模型落地难点之幻觉

大模型落地难点之输出的不确定性

大模型落地难点之结构化输出

大模型应用涌现出的新工作机会-红队测试Red-teaming

大模型复读机问题

第九章-大模型评估指标

大模型有哪些评估指标?

大模型性能评测之大海捞针(Needle In A Haystack)

评估指标/大模型性能评测之数星星

第十章-热点

⬆ 一键返回目录

Llama 3.1 405B 为什么这么大?

9.11大于9.9?大模型怎么又翻车了?

韩国“N 号房”事件因Deep Fake再现,探究背后的技术和应对方法

我是怎么通过2022下半年软考高级:系统架构设计师考试的

用Exploit and Explore解决不知道吃什么的选择困难症

第十一章-数学

⬆ 一键返回目录

线性代数

0基础学习AI大模型必备数学知识之线性代数(一)

0基础学习AI大模型必备数学知识之线性代数(二)

0基础学习AI大模型必备数学知识之线性代数(三)

微积分

0基础学习AI大模型必备数学知识之微积分(一)

0基础学习AI大模型必备数学知识之微积分(二)

概率统计

0基础学习AI大模型必备数学知识之概率统计(一)贝叶斯定理和概率分布

0基础学习AI大模型必备数学知识之概率统计(二)概率分布的描述方法

0基础学习AI大模型必备数学知识之概率统计(三)中心极限定理


🌐 点击 LearnLLM.AI | 学习大模型,从这里开始

Star History Chart

About

每个人都能看懂的大模型知识分享,LLMs春/秋招大模型面试前必看,让你和面试官侃侃而谈

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors