# S1W2D1：神经网络的核心理论

**今日目标**：建立对神经网络的宏观认知，理解它的基本组成部分和工作原理

## 1. 核心比喻：神经网络是一个能从数据中学习的“超级函数”

忘掉所有复杂的属于，先把神经网络想象成巨大的、拥有上千万个可调“旋钮”的函数盒子：

$$
f(输入) = 输出
$$

- **输入（Input）**：你为给它的数据，比如一张图片的像素值矩阵。
- **输出（Output）**：它给出的预测结果，比如这张图片是“猫”的概率是0.9。
- **“旋钮”（Knobs）**：这就是神经网络是参数（主要是权重`weights`和偏置`biases`）。
- **学习（Learning）**：“训练”的过程，就是让机器看海量的数据（例如，成千上万张猫的图片），并自动地、一点一点地微调所有这些“旋钮”，知道这个函数盒子的输出越来越接近正确答案


## 2. 神经网络的“解剖学”：基本构成

一个典型的神经网络是由“层（Laters）”构成，信息从左到右单向流动。

- **输入层（Input Layer）**：
  - **职责**：接收原始数据，是网络的入口。
  - **神经元数量**：由输入数据的特征维度决定。
  - **例子**：对于 MNIST 数据集，每张图片是$28\times 28$的灰度图，拉平成一维向量后，输入层就有$784$个神经元。
- **隐藏层 (Hidden Layers)**:
  - **职责**：网络的核心，负责从数据中提取越来越复杂的特征。是“深度学习”中“深”的来源。
  - **例子**：第一层隐藏层可能只学习到边缘、颜色块等简单特征；更深的隐藏层则能将这些简单特征组合成眼睛、鼻子等更复杂的模式。
- **输出层 (Output Layer)**:
  - **职责**: 输出最终的预测结果。
  - **神经元数量**: 由任务目标决定。
  - **回归任务** (预测房价): 1 个神经元。
  - **多分类任务** (识别 0-9 这 10 个数字): 10 个神经元，每个神经元对应一个类别的得分或概率。

## 3. 核心计算单元：神经元（Neuron）

每个神经元的工作都可以简化为两步：

1.  **线性计算 (加权求和):** 将所有输入 $x_i$ 乘以对应的权重 $w_i$，然后加上一个偏置 $b$。
    $$
    z = (x_1w_1 + x_2w_2 + \dots + x_nw_n) + b
    $$

    - **权重 (Weight, $w$):** 代表了某个输入特征的重要性。权重越大，说明该特征对神经元的决策影响越大。
    - **偏置 (Bias, $b$):** 像一个激活的“阀门”或“阈值”，控制神经元被激活的难易程度。

2.  **非线性激活 (Activation):** 将线性计算的结果 $z$ 投入一个**激活函数**，得到神经元的最终输出。
    $$
    \text{output} = \text{ActivationFunction}(z)
    $$

## 4. 网络的灵魂：激活函数 (Activation Function)

这是**面试必考点**。

- **Q: 为什么必须要有激活函数？**

- **A:** 为了给网络引入**非线性**。如果没有激活函数，无论神经网络有多少层，其本质都等同于一个单层的线性模型。它只能解决线性可分的问题（像用一条直线去分类数据点）。而现实世界的绝大多数问题都是非线性的，因此必须通过非线性激活函数来赋予网络拟合复杂函数的能力。

**今日主角**：ReLU (Rectified Linear Unit, 修正线性单元)

- **公式:** $f(x) = \max(0, x)$
- **解释:** 像一个“门卫”，如果输入值大于 0，就放行（原样输出）；如果小于等于 0，就拦住（输出 0）。
- **优点:**
  1.  **计算高效:** 只是一个简单的比较和取值操作。
  2.  **缓解梯度消失:** 在正数区域，其导数恒为 1，这有助于梯度在深层网络中更顺畅地传播，让网络更容易训练。


## S1W2D1 代码实践

我们将用 PyTorch 来模拟上面学到的概念。PyTorch 是我们接下来要深入学习的框架，提前熟悉它的“感觉”很重要。

**目标**： 不构建完整模型，只用代码来理解“神经元”、“层”和“激活函数”是如何工作的。

In [1]:
# 导入 pytorch 库
import torch
import torch.nn as nn

# --- 实践 1: 模拟一个神经元的计算 ---
print("--- 实践 1: 模拟一个神经元 ---")
# 假设我们有3个输入特征
# torch.randn(3) 会创建一个包含3个随机数的一维张量(向量)
input_features = torch.randn(3) 
print(f"输入 (x): {input_features}")

# 每个输入特征都有一个对应的权重
weights = torch.randn(3)
print(f"权重 (w): {weights}")

# 还有一个偏置项
bias = torch.randn(1)
print(f"偏置 (b): {bias}")

# Step 1: 线性计算 (加权求和)
# torch.dot() 计算两个向量的点积
linear_result = torch.dot(input_features, weights) + bias
print(f"线性计算结果 (z = w*x + b): {linear_result}")

# Step 2: 非线性激活 (使用ReLU)
# torch.relu() 就是PyTorch内置的ReLU函数
output = torch.relu(linear_result)
print(f"经过ReLU激活后的输出: {output}")


--- 实践 1: 模拟一个神经元 ---
输入 (x): tensor([1.1607, 1.0556, 2.2617])
权重 (w): tensor([1.0346, 2.1122, 1.0194])
偏置 (b): tensor([-0.3751])
线性计算结果 (z = w*x + b): tensor([5.3609])
经过ReLU激活后的输出: tensor([5.3609])


In [3]:
# --- 实践 2: 使用PyTorch的 nn.Linear 层来抽象一个“层” ---
# nn.Linear 帮我们自动处理了权重和偏置的创建和计算
print("--- 实践 2: 使用 nn.Linear 层 ---")
# 定义一个层：输入特征维度是3，输出特征维度是4 (即该层有4个神经元)
# PyTorch会自动为我们创建 3x4 的权重矩阵和大小为4的偏置向量
a_layer = nn.Linear(in_features=3, out_features=4)

# 假设我们有一个批次(batch)的数据，包含2个样本，每个样本有3个特征
# 形状为 (2, 3)
batch_input = torch.randn(2, 3)
print(f"一个批次的输入数据 (shape: {batch_input.shape}):\n{batch_input}")

# 数据流过这一层
layer_output = a_layer(batch_input)
print(f"数据经过 nn.Linear 层后的输出 (shape: {layer_output.shape}):\n{layer_output}")
# 注意：输出的形状变成了 (2, 4)，因为我们有2个样本，而层有4个神经元输出

--- 实践 2: 使用 nn.Linear 层 ---
一个批次的输入数据 (shape: torch.Size([2, 3])):
tensor([[-1.5703, -0.5439, -0.4459],
        [ 0.7427,  0.6890, -0.0231]])
数据经过 nn.Linear 层后的输出 (shape: torch.Size([2, 4])):
tensor([[ 0.5433, -0.1280,  0.5139, -0.6139],
        [ 0.4668, -0.5509, -0.6062,  0.8006]], grad_fn=<AddmmBackward0>)


In [16]:
# --- 实践 3: 将“层”和“激活函数”串联起来 ---
print("--- 实践 3: 串联层与激活函数 ---")
# 使用 nn.Sequential 可以方便地将多个模块按顺序组合起来
# 这就是一个最简单的单隐藏层神经网络的片段
simple_network_fragment = nn.Sequential(
    nn.Linear(in_features=3, out_features=4), # 线性层
    nn.ReLU()                                # ReLU激活
)

# 让数据流过这个网络片段
final_output = simple_network_fragment(batch_input)
print(f"数据流过 '层 + 激活' 后的输出 (shape: {final_output.shape}):\n{final_output}")
# 观察输出，所有负数都被变成了0，这就是ReLU的作用！

--- 实践 3: 串联层与激活函数 ---
数据流过 '层 + 激活' 后的输出 (shape: torch.Size([2, 4])):
tensor([[0.0000, 0.0000, 0.0000, 0.4935],
        [0.5970, 0.0000, 0.0000, 0.7514]], grad_fn=<ReluBackward0>)


## **W2D1 今日行动清单**

1.  **✅ 运行代码:** 亲手将上面的代码敲一遍或复制到环境中（如 Google Colab）运行一下，观察每一步的输入和输出，确保你理解其形状变化和数值变化。
2.  **✅ 观看视频:** 观看 **3Blue1Brown 深度学习系列** 的 **第一集《神经网络的结构》**。建立直观理解。
3.  **✅ 手绘网络:** 在纸上画一个 **2个输入 -\> 3个神经元的隐藏层 -\> 1个输出** 的网络结构图。
4.  **✅ 思考题 (面试模拟):**
      * **问题:** “如果一个多层神经网络中完全不使用激活函数，会发生什么？它的表达能力和什么模型是等价的？”
      * **你的答案 (请先独立思考):**
      * **参考答案:** 如果没有非线性激活函数，多层神经网络的每一次变换都是线性的（形如 $W \cdot x + b$）。多个线性变换的连续叠加，其结果依然是一个线性变换。因此，无论网络有多少层，它最终都等价于一个**单层的线性模型**（如逻辑回归或线性回归）。它将失去拟合复杂非线性函数的能力，无法解决线性不可分的问题。