#### 一、神经网络是怎么学习的？

###### 背景：感知机、多层感知机（神经网络）中的$w$跟$b$都是人确定的,层数更深的nn上亿参数，你怎么手工设？工作量太大了！
###### 学什么: 所谓“学习”就是从训练数据中自动获取最优权重参数的过程。
###### 怎么学（学习步骤）：
- 步骤1：mini-batch
从训练数据中随机选出一部分数据，这部分数据称为mini-batch，目标就是减小mini-batch的损失函数的值。
- 步骤2：计算梯度
为了减少mini-batch的损失函数的值，需要求出各个权重参数的梯度，梯度表示损失函数的值减少最多的方向。
- 步骤3：更新参数
将权重参数沿梯度方向进行微小更新。
- 步骤4：重复
重复步骤1、2、3

###### 学到什么程度：获得泛化能力是机器学习的最终目标！

#### 二、为什么数据是机器学习的命根子？

###### 人工编程 vs 机器学习 vs 神经网络：![](./attachements/传统编程vs机器学习vs深度学习.png)

###### 什么是特征量？怎么选取合适的特征量？
    - 所谓特征量，指的是可以从输入数据中准确提取本质数据的转换器。比如在手写数字识别中，原始数据是像素组成的图片，而特征量可以是边缘、角点、形状等信息，它们能很好地描述这个数字的特点，从而帮助模型更准确地判断这是什么数字。

###### 为什么说深度学习是end-to-end machine learning？
    - 因为它不考虑特征量。或者说隐层自己“发现”特征量。比如不管是人脸识别还是狗脸识别神经网络都是通过不断地学习所提供的数据，尝试发现待求解问题的模式。NN的求解模板是通用的！

###### 为什么一般把数据划分为Train跟Test？
    - 因为模型的终极目标是泛化能力强！在训练数据中学习找到的最优参数必须要在测试数据中评估下，因为测试数据模型没见过代表了一定的泛化能力！

###### 机器学习的最终目标是什么？
    - 泛化能力强！

#### 三、损失函数

###### 损失函数是损失什么的函数？
    
    - 所有的损失函数目的只有一个：衡量当前的神经网络模型（参数）对监督数据在多大程度上不拟合（不一致）！


###### 均方误差MSE

    - 公式：$\text{MSE} = \frac{1}{\underbrace{N}_{样本的数量}} \sum_{i=1}^{N} (\underbrace{y_i}_{第i个样本的真实值}  - \underbrace{\hat{y}_i}_{第i个样本的预测值})^2$
    - 总结：MSE的名字已经很明显了，均、方。它的本质是衡量每一个真实与预测的差距的平均，肯定差距越小越好，也就是MSE越小越好！

###### 交叉熵误差
    > One-hot编码：衡量的是模型对正确类别的预测有多好！ vs 非One-hot编码：衡量模型对真实类别的预测概率有多高！交叉熵误差越小越好，但接近于 0 而不是完全为 0

    - One-hot 编码形式的交叉熵误差：$\text{Cross Entropy Error} = - \frac{1}{\underbrace{N}_{\text{样本的数量}}} \sum_{i=1}^{N} \sum_{j=1}^{C} \underbrace{t_{ij}}_{\text{第} i \text{个样本的真实标签 (one-hot 编码)}} \cdot \log(\underbrace{y_{ij}}_{\text{模型对第} i \text{个样本的第} j \text{类的预测概率}} + \epsilon)$

    - 非 One-hot 编码形式（使用索引表示真实标签）的交叉熵误差: $\text{Cross Entropy Error} = -\frac{1}{\underbrace{N}_{\text{样本的数量}}} \sum_{i=1}^{N} \log(\underbrace{y_{i, t_i}}_{\text{第} i \text{个样本中真实类别的预测概率}} + \epsilon)$

    - $N$：样本的数量。
    - $C$：类别的数量（在 one-hot 编码形式中）。
    - $t_{ij}$：第 $i$ 个样本的真实标签（如果是 one-hot 编码，只有对应的类别为 1，其余为 0）。
    - $y_{ij}$：模型对第 $i$ 个样本属于第 $j$ 类的预测概率。
    - $t_i$：第 $i$ 个样本的真实类别索引（非 one-hot 表示）。
    - $y_{i, t_i}$：第 $i$ 个样本中真实类别的预测概率。
    - $\epsilon$：为了防止 $\log(0)$ 的情况，通常设置一个非常小的正数。


In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 真实标签的独热编码（假设真实标签是类别 0）
true_label = np.array([1, 0, 0])

# 定义预测概率，p0 表示类别 0 的预测概率
p0 = np.linspace(0.01, 0.99, 100)  # 避免 log(0) 的问题，取值从 0.01 到 0.99
p1 = (1 - p0) / 2
p2 = (1 - p0) / 2

# 计算交叉熵误差
cross_entropy_loss = - (true_label[0] * np.log(p0) + true_label[1] * np.log(p1) + true_label[2] * np.log(p2))

# 绘制交叉熵误差曲线
plt.figure(figsize=(10, 6))
plt.plot(p0, cross_entropy_loss, label='Cross Entropy Loss', color='b')
plt.xlabel('Predicted Probability of True Class (p0)')
plt.ylabel('Cross Entropy Loss')
plt.title('Cross Entropy Loss for Multi-class Classification')
plt.legend()
plt.grid()

# 添加注释来解释真实标签和预测值
plt.axvline(x=1.0, color='g', linestyle='--', label='True Label (Ideal Prediction)')
plt.text(0.5, 2, 'Lower Loss when Prediction is Close to True Label', fontsize=10, color='red')
plt.scatter([1.0], [0.0], color='g', marker='o', label='True Label Point (p0 = 1)')
plt.legend()

plt.show()

###### 为什么不能将识别精度作为指标？
    - 因为如果以识别精度为指标，则参数的导数在绝大多数地方都会变为 0。![](./attachements/为什么神经网络学习中不能以识别精度作为目标.png)


###### mini-batch版本的交叉熵误差怎么实现？

In [None]:
# Stage-01: 单个样本的交叉熵误差计算

import numpy as np

# 根据交叉熵误差公式定义的函数（适用于单个样本）
def cross_entropy_error(y, t):
    if y.ndim == 1:
        # 主要目的是为了统一处理单个样本和批量数据：1维转2维 [0.8, 0.1, 0.1] ==> [[0.8, 0.1, 0.1]]
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    return -np.sum(t * np.log(y + 1e-7))

# 示例：预测概率和真实标签
y = np.array([0.8, 0.1, 0.1])  # 预测概率
t = np.array([1, 0, 0])  # 真实标签（独热编码）

# 计算交叉熵误差
loss = cross_entropy_error(y, t)
print("Cross Entropy Loss:", loss)


# Stage-02: mini-batch版本的交叉熵误差实现，其实mini-batch就是多个样本一起处理
def cross_entropy_error_batch(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

# 示例：mini-batch 的预测概率和真实标签
y_batch = np.array([[0.8, 0.1, 0.1],
                    [0.2, 0.7, 0.1],
                    [0.1, 0.3, 0.6]])  # 预测概率（3 个样本）
t_batch = np.array([[1, 0, 0],
                    [0, 1, 0],
                    [0, 0, 1]])  # 真实标签（独热编码，3 个样本）

# 计算 mini-batch 的交叉熵误差
loss_batch = cross_entropy_error_batch(y_batch, t_batch)
print("Cross Entropy Loss (mini-batch):", loss_batch)


#### 四、数值微分是什么？

###### 中心差分为什么比前向差分好？

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# 定义函数及其导数
def f(x):
    return np.log(x + 2)  # Example function: y = log(x + 2)

def df(x):
    return 1 / (x + 2)  # True derivative of the function

# 设置绘图参数
x = 1  # Point of interest
h = 1  # Step size

x_vals = np.linspace(-1.5, 3, 400)  # Define range of x values

# 计算函数值
y_vals = f(x_vals)

# 创建图形
plt.figure(figsize=(10, 6))

# 绘制函数曲线
plt.plot(x_vals, y_vals, label='$y=f(x)$', color='black', linewidth=2)

# 绘制真实导数的切线
slope_real = df(x)
y_tangent_real = f(x) + slope_real * (x_vals - x)
plt.plot(x_vals, y_tangent_real, label='True Tangent', color='gray', linestyle='-', linewidth=2)

# 绘制前向差分直线（通过点 x 和 x+h）
slope_forward = (f(x + h) - f(x)) / h
intercept_forward = f(x) - slope_forward * x
plt.plot(x_vals, slope_forward * x_vals + intercept_forward, label='Forward Difference (through x and x+h)', color='blue', linestyle='--', linewidth=2)

# 绘制中心差分直线（通过点 x-h 和 x+h）
slope_central = (f(x + h) - f(x - h)) / (2 * h)
intercept_central = (f(x + h) - slope_central * (x + h) + f(x - h) - slope_central * (x - h)) / 2
plt.plot(x_vals, slope_central * x_vals + intercept_central, label='Central Difference (through x-h and x+h)', color='red', linestyle='-.', linewidth=2)

# 标注 x, x+h, 和 x-h 的垂直线
plt.axvline(x, color='gray', linestyle='--', linewidth=1)
plt.axvline(x + h, color='gray', linestyle='--', linewidth=1)
plt.axvline(x - h, color='gray', linestyle='--', linewidth=1)

# 标注点 x, x+h, 和 x-h
plt.text(x, f(x) - 0.5, '$x$', horizontalalignment='right', color='black')
plt.text(x + h, f(x + h) - 0.5, '$x+h$', horizontalalignment='left', color='black')
plt.text(x - h, f(x - h) - 0.5, '$x-h$', horizontalalignment='left', color='black')
plt.text(x + h/2, f(x) + 0.7, f'$h={h}$', horizontalalignment='center', color='green')

# 标注点 (x, f(x))
plt.scatter([x], [f(x)], color='black', zorder=5)

# 图例和标签
plt.legend()
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.title('Comparison of Derivative, Forward Difference, and Central Difference')
plt.grid(True)
plt.show()

###### 数值微分是什么？
> 利用微小的差分求导数的过程被称为`数值微分`numerical differentiation。通过数学式的推导求导数的过程被称为解析解比如$y=x^2$在$x=2$处的导数是$y’ = 2x = 4$。

###### 偏导数是什么？怎么求？
> 有多个变量的函数的导数就被称为偏导数。偏指的是一个自变量一个导数！
> 偏导数求解就是：将多个变量中的某一个变量定为目标变量，并将其他变量固定为某个值。

In [None]:
# 中心差分求导数
def numerical_diff(f, x):
    h = 1e-4 # 0.0001
    return (f(x+h) - f(x-h)) / (2*h)


# 求偏导数的过程：求函数 f(x0, x1) = x0^2 + x1^2 在点x0 = 3 x1 = 4处的偏导数
def function_tmp1(x0):
    return x0 * x0 + 4.0**2.0

def function_tmp2(x1):
    return 3.0**2.0 + x1*x1

print(numerical_diff(function_tmp1, 3.0))
print(numerical_diff(function_tmp2, 4.0))


#### 五、梯度

###### 什么是梯度？
> 梯度就是多变量函数中由全部变量的偏导数汇总而成的向量！比如上面$x_0=3,x_1=4时求偏导数$如果一次性求出就是$(\frac{\partial f}{\partial x_0} ,\frac{\partial f}{\partial x_1})$这就是梯度！

In [None]:
import numpy as np
# 定义二元函数
def function_2(x):
    return x[0]**2 + x[1]**2
    # 或者return np.sum(x**2)


# 定义求梯度的函数
def numerical_gradient(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x) # 生成与x形状相同的数组，好保存每一个偏导数

    for idx in range(x.size):
        tmp_val = x[idx]
        # 计算f(x+h)
        x[idx] = tmp_val + h
        fxh1 = f(x)

        # 计算f(x-h)
        x[idx] = tmp_val - h
        fxh2 = f(x)

        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val 

    return grad


numerical_gradient(function_2, np.array([3.0, 4.0]))
# numerical_gradient(function_2, np.array([0.0, 2.0]))
# numerical_gradient(function_2, np.array([3.0, 0.0]))

###### 什么是鞍点？
> 鞍点是从某个方向上看是极大值，从另一个方向上看则是极小值的点。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# 定义鞍点函数
def saddle_point(x, y):
    return x**2 - y**2  # 示例鞍点函数：z = x^2 - y^2

# 设置 x 和 y 的取值范围
x = np.linspace(-2, 2, 100)
y = np.linspace(-2, 2, 100)
x, y = np.meshgrid(x, y)

# 计算 z 的值
z = saddle_point(x, y)

# 创建图形
fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot(111, projection='3d')

# 绘制鞍点的 3D 曲面
ax.plot_surface(x, y, z, cmap='viridis', alpha=0.8)

# 标注图形
ax.set_xlabel('X axis')
ax.set_ylabel('Y axis')
ax.set_zlabel('Z axis')
ax.set_title('Saddle Point Visualization: $z = x^2 - y^2$')

# 显示图形
plt.show()

###### 怎么实现梯度下降法GD？

很简单就是
$$
\begin{array}{l}
x_{0}=x_{0}-\eta \frac{\partial f}{\partial x_{0}} \\
x_{1}=x_{1}-\eta \frac{\partial f}{\partial x_{1}}
\end{array}
$$

In [None]:
# 梯度下降法实现：原来就是【随便选一个初始点】--> 迭代step_num步 -->每一步都求一下该点的偏导数，然后让原来的点按照梯度的变化方向变化

def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x

    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad

    return x


# 我们试下用梯度法求f(x0 + x1) = x0^2 + x1^2的最小值
def function_2(x):
    return np.sum(x**2)

init_x = np.array([-3, 4], dtype=np.float64) # 随便设置的起始点
# init_x = np.array([-3.0, 4.0], dtype=np.float64)
gradient_descent(function_2, init_x, lr=0.1, step_num=101)


In [None]:
# 可视化
import numpy as np
import matplotlib.pyplot as plt

# 定义二元函数
def function_2(x):
    return x[0]**2 + x[1]**2

# 定义求梯度的函数
def numerical_gradient(f, x):
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)  # 生成与x形状相同的数组，好保存每一个偏导数

    for idx in range(x.size):
        tmp_val = x[idx]
        # 计算f(x+h)
        x[idx] = tmp_val + h
        fxh1 = f(x)

        # 计算f(x-h)
        x[idx] = tmp_val - h
        fxh2 = f(x)

        grad[idx] = (fxh1 - fxh2) / (2 * h)  # 修正为中心差分的正确公式
        x[idx] = tmp_val

    return grad

# 梯度下降法实现
def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x
    x_history = []  # 记录每一步的 x 值

    for i in range(step_num):
        x_history.append(x.copy())  # 保存当前点
        grad = numerical_gradient(f, x)
        x -= lr * grad

    return x, np.array(x_history)

# 我们试下用梯度法求 f(x0 + x1) = x0^2 + x1^2 的最小值
init_x = np.array([-3.0, 4.0])  # 随便设置的初始点
lr = 0.1 # 可以改大改小玩儿玩儿
step_num = 101

# 执行梯度下降
final_x, x_history = gradient_descent(function_2, init_x, lr=lr, step_num=step_num)

# 绘制梯度下降过程的图形
x0_vals = x_history[:, 0]
x1_vals = x_history[:, 1]

# 创建等高线图
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)
x, y = np.meshgrid(x, y)
z = function_2(np.array([x, y]))

plt.figure(figsize=(10, 6))
# 绘制等高线
contour = plt.contour(x, y, z, levels=30, cmap='viridis')
plt.clabel(contour)

# 绘制梯度下降路径
plt.plot(x0_vals, x1_vals, 'o-', color='red', markersize=4, label='Gradient Descent Path')
plt.scatter(0, 0, color='blue', marker='*', s=100, label='Minimum')

# 标注
plt.xlabel('$x_0$')
plt.ylabel('$x_1$')
plt.title('Gradient Descent on $f(x_0, x_1) = x_0^2 + x_1^2$')
plt.legend()
plt.grid(True)
plt.show()

###### 什么是超参数？跟神经网络的参数不一样吗？
    - 超参数：比如学习率，是人工设定的参数。
    - 神经网络的参数：比如权重偏置，是通过训练数据和学习算法自动获得的。

###### 什么是epoch?
> 所有的训练数据都被使用过一次了！比如10000笔训练数据，mini-batch=100那重复GD100次就是一个epoch！

###### 手动实现一个mini-batch的学习算法！


In [None]:
# Story: mini-batch的学习：从训练数据中随机选择一部分数据 ==》以这部分数据（一个mini-batch）为对象，使用GD法跟更新参数

# Stage-01: 定义一个2层的nn

# Stage-02: 获取mini-batch数据进入到NN中训

import numpy as np

# 定义求梯度的函数
def numerical_gradient(f, x):
    h = 1e-4  # 0.0001
    grad = np.zeros_like(x)  # 生成与x形状相同的数组，用于保存每一个偏导数

    # 使用 np.nditer 遍历数组的每个元素
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:
        idx = it.multi_index
        tmp_val = x[idx]
        
        # 计算 f(x+h)
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)

        # 计算 f(x-h)
        x[idx] = tmp_val - h
        fxh2 = f(x)

        # 计算梯度
        grad[idx] = (fxh1 - fxh2) / (2 * h)

        # 还原 x 的值
        x[idx] = tmp_val
        it.iternext()

    return grad

class TwolayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01) -> None:
        # 初始化权重
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))

    def softmax(self, x):
        c = np.max(x)
        exp_x = np.exp(x - c)  # 数值稳定性
        return exp_x / np.sum(exp_x)
    
    def cross_entropy_error_batch(self, y, t):
        if y.ndim == 1:
            t = t.reshape(1, t.size)
            y = y.reshape(1, y.size)
        batch_size = y.shape[0]
        return -np.sum(t * np.log(y + 1e-7)) / batch_size 


    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']

        a1 = np.dot(x, W1) + b1
        z1 = self.sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = self.softmax(a2)

        return y
    

    # x:输入数据， t:监督数据
    def loss(self, x, t):
        y = self.predict(x)
        return self.cross_entropy_error_batch(y, t)
    

    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)

        # 如果 t 是 one-hot 编码，则取 argmax
        if t.ndim != 1:
            t = np.argmax(t, axis=1)

        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy


    
    # x:输入数据， t:监督数据
    def numerical_gradient(self, x, t):

        grads = {}
        grads['W1'] = numerical_gradient(lambda W: self.loss(x, t), self.params['W1'])
        grads['b1'] = numerical_gradient(lambda b: self.loss(x, t), self.params['b1'])
        grads['W2'] = numerical_gradient(lambda W: self.loss(x, t), self.params['W2'])
        grads['b2'] = numerical_gradient(lambda b: self.loss(x, t), self.params['b2'])

        return grads


net = TwolayerNet(input_size=784, hidden_size=100, output_size=10)
net.params['W1'].shape # (784, 100)
net.params['b1'].shape # (100,)
net.params['W2'].shape # (100, 10)
net.params['b2'].shape # (10,)
        

In [None]:
# 实现mini-batch学习
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split


def get_data():
    # 使用 sklearn 的内置函数加载 MNIST 数据集
    mnist = fetch_openml('mnist_784', version=1, as_frame=False)
    x = mnist.data / 255.0  # 归一化处理
    t = mnist.target.astype(int)
    x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=42)
    return x_train, t_train, x_test, t_test

train_lost_list = []
x_train, t_train, x_test, t_test  = get_data()

# 超参数
iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

network = TwolayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 获取mini-batch
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = np.eye(10)[t_train[batch_mask]]  # 将标签转换为one-hot形式

    # 计算梯度
    grad = network.numerical_gradient(x_batch, t_batch)

    # 更新参数
    for key in ('W1', 'W2', 'b1', 'b2'):
        network.params[key] -= learning_rate * grad[key]


    # 记录学习过程
    loss = network.loss(x_batch, t_batch)
    train_lost_list.append(loss)


train_lost_list




In [21]:
# 优化：每经过一个epoch，记录下训练数据和测试数据的识别精度

# 实现mini-batch学习
import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split


def get_data():
    # 使用 sklearn 的内置函数加载 MNIST 数据集
    mnist = fetch_openml('mnist_784', version=1, as_frame=False)
    x = mnist.data / 255.0  # 归一化处理
    t = mnist.target.astype(int)
    x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=42)
    return x_train, t_train, x_test, t_test

train_lost_list = []
x_train, t_train, x_test, t_test  = get_data()

# 看epoch的精度
train_acc_list = []
test_acc_list = []
# 平均每个 epoch 的重复次数
iter_per_epoch = max(train_size / batch_size, 1)

# 超参数
iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

network = TwolayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 获取mini-batch
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = np.eye(10)[t_train[batch_mask]]  # 将标签转换为one-hot形式

    # 计算梯度
    grad = network.numerical_gradient(x_batch, t_batch)

    # 更新参数
    for key in ('W1', 'W2', 'b1', 'b2'):
        network.params[key] -= learning_rate * grad[key]


    # 记录学习过程
    loss = network.loss(x_batch, t_batch)
    train_lost_list.append(loss)

    # 计算每个 epoch 的识别精度
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))


train_lost_list




train acc, test acc | 0.09785714285714285, 0.09971428571428571


KeyboardInterrupt: 