# 人造神经元和向量空间

本小节的内容尝试通过向量空间的讨论更形象地理解人造神经元，基本思路就是把神经元的输入$X$和参数$W$放置到向量空间中，观察它们之间的关系。

## 人造神经元回顾

前文我们讨论过，每个人造神经元接收输入向量 $X$，并通过权重向量 $W$ 和偏置项 $b$ 进行加权求和运算,最后通过激活函数 $f$ 得到输出。数学表达式如下:

\begin{align}

y = f(W^T \cdot X + b)

\end{align}

其中:
- $X$ 是输入向量,维度为 n-1 （使用n-1是为了给偏置项b留一个维度，后面把偏置项算上就是n维）
- $W$ 是权重向量,维度为 n-1 （使用n-1是为了给偏置项b留一个维度，后面把偏置项算上就是n维）
- $b$ 是偏置项,是一个标量
- $f$ 是激活函数,如 sigmoid、ReLU 等

## 点乘的几何意义

在人造神经元中，$W^T \cdot X$是其中一个关键部分，这里的$\cdot$是点乘，我们先尝试理解点乘的几何意义。

简单讲，把两个向量$\vec{A}$，$\vec{B}$做点乘操作，相当于把$\vec{A}$向量在$\vec{B}$向量方向上的cos投影乘于$\vec{B}$向量的长度。

单纯看这句话有点费解，让我们用一个特殊的例子来说明一下，假设有二维向量 $\vec{A} = [1,1]$, 点乘另一个二维向量$\vec{B} = [3, 0]$

按照我们之前讨论的点乘操作，以上的例子对应的具体运算过程如下：（$1 \times 3 + 1 \times 0 = 3$）

从几何意义上来说：

1. $1 \times 3 $ 中的$1$是$\vec{A}$在$\vec{B}$ 方向上（即X轴）的投影长度
2. $1 \times 3 $ 中的$3$是$\vec{B}$的长度



更一般地，两个向量 $\vec{A}$ 和 $\vec{B}$ 的点乘可以表示为：
$\vec{A} \cdot \vec{B} = |\vec{A}||\vec{B}|\cos{\theta}$

其中 $|\vec{A}|$ 和 $|\vec{B}|$ 分别是两个向量的长度，$\theta$ 是它们之间的夹角。





以下通过一个动态展示图来演示：

In [16]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact, FloatSlider

def plot_dot_product(A_angle, A_magnitude, B_angle, B_magnitude, offset_angle=0):
    # 清除当前图形
    
    # plt.figure(figsize=(5, 5))
    
    # 计算向量坐标
    A_x = A_magnitude * np.cos(np.radians(A_angle + offset_angle))
    A_y = A_magnitude * np.sin(np.radians(A_angle + offset_angle))
    B_x = B_magnitude * np.cos(np.radians(B_angle + offset_angle))
    B_y = B_magnitude * np.sin(np.radians(B_angle + offset_angle))
    
    # 计算点乘结果
    dot_product = A_x * B_x + A_y * B_y
    
    # 计算A在B上的投影
    B_unit = np.array([B_x, B_y]) / np.sqrt(B_x**2 + B_y**2)
    projection = dot_product / np.sqrt(B_x**2 + B_y**2)
    proj_vector = projection * B_unit
    
    # 创建图形
    # fig, ax = plt.subplots(figsize=(5, 5))
    
    # 绘制图形
    plt.figure(figsize=(6, 6))
    
    #set the maximum and minimum value of x and y
    
    plt.xlim(-10, 10)
    plt.ylim(-10, 10)
    
    
    # 设置坐标轴范围和网格
    # max_range = max(A_magnitude, B_magnitude) * 1.2
    # plt.xlim(-100, 100)
    # plt.ylim(-100, 100)
    # plt.grid(True)
    plt.axhline(y=0, color='k', linestyle='-', linewidth=0.5)
    plt.axvline(x=0, color='k', linestyle='-', linewidth=0.5)
    
    # 绘制向量A
    plt.quiver(0, 0, A_x, A_y, angles='xy', scale_units='xy', scale=1, color='blue', label='Vector A')
    
    # 绘制向量B
    plt.quiver(0, 0, B_x, B_y, angles='xy', scale_units='xy', scale=1, color='red', label='Vector B')
    
    # 绘制投影线（虚线）
    plt.plot([A_x, proj_vector[0]], [A_y, proj_vector[1]], '--', color='gray')
    
    # 绘制投影向量
    plt.quiver(0, 0, proj_vector[0], proj_vector[1], angles='xy', scale_units='xy', scale=1, 
              color='green', alpha=0.5, label='Projection')
    
    # 将点乘结果当（dot_product_result, 0）的向量绘制在图中
    
    plt.quiver(0, 0, dot_product, 0, angles='xy', scale_units='xy', scale=1, color='purple', label='Dot Product')
    
    # 添加标题和标签
    plt.title(f'Dot Product = {dot_product:.2f}\nProjection Length = {projection:.2f}')
    plt.legend()
    
    # plt.axis('equal')
    plt.show()

# 创建交互式控件
interact(plot_dot_product,
         A_angle=FloatSlider(min=0, max=360, step=1, value=45, description='A angle'),
         A_magnitude=FloatSlider(min=0.1, max=5, step=0.1, value=2, description='A magnitude'),
         B_angle=FloatSlider(min=0, max=360, step=1, value=0, description='B angle'),
         B_magnitude=FloatSlider(min=0.1, max=5, step=0.1, value=3, description='B magnitude'),
         offset_angle=FloatSlider(min=0, max=360, step=1, value=0, description='Offset angle'))


interactive(children=(FloatSlider(value=45.0, description='A angle', max=360.0, step=1.0), FloatSlider(value=2…

<function __main__.plot_dot_product(A_angle, A_magnitude, B_angle, B_magnitude, offset_angle=0)>





## 从向量空间理解神经元

有了这个认识，我们可以从新的角度理解神经元的计算过程：

1. 权重向量 $W$ 定义了一个方向
2. 输入向量 $X$ 在这个方向上的投影大小决定了神经元的激活程度
3. 偏置项 $b$ 可以理解为在这个投影基础上的一个平移

### 二维空间的简单示例

让我们用一个二维空间的例子来说明。假设：
- 输入向量 $X = [x_1, x_2]$
- 权重向量 $W = [w_1, w_2]$
- 偏置项 $b$

那么神经元的输出（在激活函数之前）为：
$z = w_1x_1 + w_2x_2 + b$

这实际上定义了二维平面上的一条分界线：
$w_1x_1 + w_2x_2 + b = 0$

这条线具有以下特点：
1. $W$ 向量垂直于这条线
2. 偏置项 $b$ 决定了这条线与原点的距离
3. 这条线将平面分为两个区域，对应着神经元的激活与非激活状态

### 高维空间的推广

在高维空间中，这个概念可以推广为超平面（hyperplane）：
- $W$ 向量定义了超平面的法向量
- 偏置项 $b$ 决定了超平面与原点的距离
- 超平面将空间分为两个区域

## 小结

通过向量空间的视角，我们可以更直观地理解神经元的工作原理：
1. 神经元本质上是在寻找一个最佳的分割超平面
2. 权重向量决定了这个超平面的方向
3. 偏置项决定了超平面的位置
4. 激活函数则决定了如何处理这个分割的结果

这种理解方式有助于我们：
- 更好地可视化神经网络的决策过程
- 理解为什么神经网络能够进行分类任务
- 解释神经网络的训练过程实际上是在调整这些超平面的位置和方向
