## 01. 算法工程师的职业定位与工作内容

在企业里，算法工程师通常分为两类，一类是业务型算法、另一类是研究型算法

![image.png](attachment:a3fefee0-509e-4a36-b108-f45cd963b2a3.png)![image.png](attachment:1bd157de-3ecf-44d6-bcaf-668b5f6301a3.png)

| **维度**     |  **业务型算法 (Business)**    |  **研究型算法 (Research)**      |
| ------------ | ---------------------------------- | ------------------------------------ |
| **核心目标** | **解决实际业务问题**，提升各项指标 | **探索技术边界**，发表顶会论文       |
| **考核指标** | 点击率(CTR)、转化率(CVR)、用户留存 | 准确率(Accuracy)、SOTA(当前最佳结果) |
| **日常工作** | 优化推荐流、风控模型、搜索排序     | 设计新的网络结构、优化底层数学公式   |
| **技能侧重** | 工程落地能力、业务理解力           | 深厚的数学功底、创新思维             |

就好比厨师分为“做家常菜解决温饱”和“研发分子料理”一样，有着不一样的目标和不一样的职责。

### 开发流程的演变

#### A. 传统算法开发流程 (7步骤)

重点在于**特征工程**，人工参与度高。

1. **数据搜集**：购买、采集、使用开源数据或自行测试产生。
2. **数据处理**：清洗数据，解决缺失值、错误值、异常值，以及内容“去毒”。
3. **特征工程**：**（核心）** 从海量特征中筛选出对结果影响最大的主要特征（例如：教机器识别猫，需人工定义“尖耳朵”、“胡须”等特征）。
4. **模型选择**：选择合适的 Model 架构。
5. **模型训练**：通过计算找到模型中参数的具体取值。
6. **模型测试**：验证模型效果。
7. **部署上线**：应用到生产环境。

- tip：数据：数据是承载信息的符号（数字、文字、图片、视频、音频...）

#### 大模型应用开发流程 (4步骤)

重点在于**预训练模型的适配**，利用大模型的**强泛化能力**。

1. **下载预训练模型**：从 HuggingFace 或其他 Model Zoo 获取基座模型。
2. **任务适配**：针对具体任务设计提示词或流程。
3. **模型微调 (Fine-tuning)**：针对特定领域数据进行“魔鬼训练”，提升垂直能力。
4. **上线部署**：服务化封装与发布。

**💡** **核心概念通俗解**

- **泛化能力**：举一反三的能力。模型在“没见过的考试题（测试集）”上也能得分，说明泛化能力强。
- **过拟合 (Overfitting)**：死记硬背。平时作业全对，一考试就挂。
- **欠拟合 (Underfitting)**：还没学会。平时作业和考试都不会做。

#### 技能图谱
![image.png](attachment:0c1fbe40-dc75-4336-9031-71c1660ed737.png)![image.png](attachment:1e287169-3f96-4cca-8ba0-5d0e7ca377c9.png)

### 开发工作流：算法工程师的一天

一名合格的算法工程师通常遵循以下闭环流程来构建一个靠谱的算法项目：

1. **需求沟通**：与业务方明确目标（Target）与约束条件（Constraints）。

- - 如：提升 1% 的点击率

1. **方案设计**：选择合适的算法框架，制定技术路线。（是用简单的逻辑回归，还是复杂的深度学习？）

- - 是用简单的逻辑回归，还是复杂的深度学习？

1. **数据处理**：**这是最耗时的一步**。数据采集、清洗、标注与特征工程。
2. **模型开发**：算法实现、训练调优、性能评估。

- - *核心指标*：**泛化能力** —— 模型适应新样本的能力（即训练效果与用户实际使用效果的一致性）。

1. **上线优化**：模型部署、监控维护、持续迭代（CI/CD/CT）。
2. **学术辅助**：论文研读、专利申请、参与算法竞赛。（感觉一般人也干不了这活呀😄）

### 常用技术栈 (参考)

- **语言**：Python
- **框架**：PyTorch, TensorFlow
- **平台**：HuggingFace, LangChain

------

## 02. AI 的前世今生（发展历程）

### 关键里程碑

- **1950 图灵测试**：“机器能思考吗？”——图灵提出了人工智能的判断标准。
- **1956 达特茅斯会议**：**AI 的诞生**。第一次提出了“Artificial Intelligence”这个词。
- **2016 AlphaGo**：DeepMind 的围棋 AI 战胜人类冠军，引爆第三次浪潮。
- **2022 ChatGPT**：大模型横空出世，AI 展现出通用的理解和生成能力。

### 三次 AI 浪潮对比

AI 的发展不是一帆风顺的，经历了“三起两落”。

| **维度**     | **第一次浪潮 (1956-1974)**                 | **第二次浪潮 (1980-1987)**                     | **第三次浪潮 (2012-至今)**                       |
| ------------ | ------------------------------------------ | ---------------------------------------------- | ------------------------------------------------ |
| **核心范式** | **符号主义** (Symbolism)                   | **统计学习** (Statistical)                     | **深度学习** (Deep Learning)                     |
| **通俗理解** | **“教条主义”**像查字典，把规则写死给机器。 | **“找规律”**喂给机器一堆数据，让它自己算概率。 | **“仿生学”**模拟人脑神经元，大力出奇迹。         |
| **技术代表** | 逻辑推理、专家系统                         | 支持向量机(SVM)、决策树                        | 神经网络、Transformer、GPT                       |
| **数据依赖** | 不需要大量数据                             | 需要人工标注的数据                             | **需要海量数据 (Big Data)**                      |
| **主要局限** | 无法处理不确定性(稍有变通就死机)           | 泛化能力有限(换个场景就不灵)                   | **“黑箱”问题**、能耗极高(不知道为啥对，但就是对) |

**💡** **关键启示：** AI发展呈现周期性起伏，技术突破往往源于算法、数据、算力的协同进步；同时也遇见多次AI寒冬...

### AI 的分类

- **ANI (Weak AI)**：**弱人工智能**（狭义人工智能）。专注于解决特定领域的单一问题（如围棋、人脸识别）。
- **AGI (Strong AI)**：**强人工智能**（通用人工智能）。具备类似人类的通用智慧，能跨领域解决未知问题。

------

## 03. AI 系统的四大核心要素

一个好的算法工程师要做一个好的 AI 系统，就像厨师要做一道美味的菜，必须凑齐四个要素：

1. **数据 (Data) —— 食材**

- - **定义**：承载信息的载体（文字、图片、语音）。
  - **分类**：

- - - **有标签数据 (Labeled)**：像老师批改过的作业，有标准答案。适合 **有监督学习(Supervised Learning)**。
    - **无标签数据 (Unlabeled)**：像扔给小孩的一本无字天书，没告诉他是什么。适合 **无监督学习(Unsupervised Learning)**。

1. **算力 (Compute Power) —— 火力**

- - 处理海量数据需要的硬件支撑，比如 **GPU (显卡)**、TPU。火力越猛，模型训练越快。

1. **算法 (Algorithm) —— 菜谱/烹饪法**

- - 核心的方法论与解决方案，从数据中提取规律的数学模型（如 CNN、RNN、Transformer）。

1. **场景 (Scenario) —— 客人/餐厅**

- - 技术最终要落地的地方（如：人脸识别门禁、智能客服、自动驾驶）。

------

## 04. AI 系统技术架构

从底层的硬件到顶层的应用，AI 系统通常分为三层结构。

### 架构图示

自下往上看，越往上看越接近人（用户），越往下越接近底层

![image.png](attachment:b36cca23-b935-4edd-9e0e-9929ac43c509.png)![image.png](attachment:40950907-85a4-4a77-a500-e795953c2c8e.png)

### 层次详解

1. **基础设施层 (Infrastructure)**：**地基**。

- - 包括芯片（NVIDIA GPU）、云计算平台、数据存储。没有它们，AI 跑不起来。

1. **技术/算法层 (Algorithm/Model)**：**大脑**。

- - 包括开发框架（PyTorch, TensorFlow）和预训练模型。这是算法工程师的主战场。

1. **应用层 (Application)**：**门面**。

- - 直接面向用户的产品，比如 Siri、抖音特效、ChatGPT 网页版。

❕️大模型是什么❓️

- **定义**：通常指参数量大于等于 10B （100亿）的模型。
- **常用术语 (初学者必知)**：

- - **Token (词元)**：大模型读写的最小单位（约 0.7 个单词或 0.5 个汉字）。
  - **Hallucination (幻觉)**：模型一本正经地胡说八道的现象。
  - **Prompt (提示词)**：用户输入给模型的指令。

------

## 05. 迈入大模型时代 (LLM & AIGC)

### 什么是大模型 (LLM)？

**LLM (Large Language Model)** 指的是参数量巨大、训练数据量巨大的语言模型。

- **涌现能力 (Emergent Ability)**：当模型大到一定程度（比如百亿参数），它突然“顿悟”了，学会了以前没教过的技能（如做数学题、写代码）。
- **本质**：学术上常被称为“**随机鹦鹉**”。它本质上是在预测“下一个字出现的概率”，但因为看过的书太多了，说出来的话非常有逻辑。

### 判别式 AI vs 生成式 AI (AIGC)

- **判别式 AI (Discriminative)**：**它是“考官”**。

- - **任务**：分类、预测。
  - **例子**：这张图是猫还是狗？这封邮件是不是垃圾邮件？

- **生成式 AI (Generative)**：**它是“创作者”**。

- - **任务**：创造新内容。

------

## 06. 自然语言处理 (NLP)

### 解决语义歧义的五种方法

NLP 的核心难点在于语言的歧义性，解决手段经历了以下演进：

1. **上下文理解**：通过前后文语境消除歧义。
2. **知识库引入**：使用外部知识图谱或字典辅助判断。
3. **统计方法**：基于大规模语料的概率统计（如 N-gram）。
4. **深度学习**：使用高级神经网络模型（如 RNN, LSTM, BERT）提取语义特征。
5. **大模型 (LLM)**：利用千亿级参数通过“涌现”能力理解复杂语义。

**💡** **关键结论 (Tip)** 具体情况具体分析。虽然**大模型**能解决绝大部分 NLP 问题，但**效率较低、算力成本极高**。在简单场景下，传统方法可能更具性价比。

### 强化学习 (Reinforcement Learning)

- **核心逻辑**：Agent 在环境中通过“**尝试-反馈**”机制学习。
- **构成**：监督/半监督学习 + 场景 (Environment) + 奖励函数 (Reward)。

![image.png](attachment:4237ab1b-9843-4dbf-811c-4ff9a32dcc49.png)![image.png](attachment:0188a5d1-cf72-442e-8b74-04a79933e49f.png)

------

## 07. 常见实战问题与解决方案 (Tips)

在实际训练模型时，经常会遇到各种“坑”，以下是 PPT 中提到的常见解法：

| **问题现象**       | **可能原因**              | **解决方案**                                                 |
| ------------------ | ------------------------- | ------------------------------------------------------------ |
| **数据缺失** (NaN) | 原始数据采集不全          | • **数值型**：用均值或中位数填充。• **分类型**：用众数填充，或归为“未知”类。• **关键原则**：**缺失比例 >5% 的特征，尽量不要直接删除**，而是要想办法填充或保留。 |
| **异常值**         | 数据录入错误或极端情况    | • **检测**：3σ 原则、箱线图。• **处理**：确认是错误的就删掉/修正；如果是真实的极端情况，则保留并使用稳健模型。 |
| **梯度不收敛**     | 损失函数(Loss)降不下去    | • **调参**：调整学习率（Learning Rate）过大导致震荡，过小导致收敛慢。• **预处理**：**特征标准化**（让数据在同一个量纲下）• **Debug**：检查梯度计算代码是否有误 |
| **类别不平衡**     | 好人样本 99%，坏人样本 1% | • **数据层面**：过采样（复制坏人）、欠采样（减少好人）• **算法层面**：调整权重（让模型更重视坏人） |

------

## 

![image.png](attachment:2d530f44-c0a0-49f2-8be2-9956aa8c79b4.png)![image.png](attachment:3ad63717-af29-44e7-9eb3-842a648dd7aa.png)