向量是同时拥有大小和方向的量。向量可以表示为排成一排的数字集合，在python中可以处理为一维数组。与此相对，矩阵是排成二维形状的数字集合。

向量：一维数组
矩阵：二维数组
向量的两种表达方式：
1. 列向量：每个向量只有一个列，多个行。
2. 行向量：每个向量只有一个行，多个列。

将向量和数组扩展到N维数据集合，就得到了张量。

在python 实现中，在将向量作为行向量处理的情况下，会将向量明确变形为水平方向上的矩阵。如当向量的元素个数是N时，会将向量明确变形为1行N列的二维数组（矩阵）

In [None]:
import numpy as np
x=np.array([1,2,3])
print(x.__class__)
print(x.shape)        #表示为（3，），3行，1列。
print(x.ndim)   

W=np.array([[1,2,3],[4,5,6]])
print(W.shape)       #表示为（2，3），2行3列。
print(W.ndim)        #表示维数




<class 'numpy.ndarray'>
(3,)
1
(2, 3)
2


In [None]:
#矩阵对应元素的运算
W = np.array([[1,2,3],[4,5,6]])
X = np.array([[0,1,2],[3,4,5]])
print (W+X)
print (W*X)

[[ 1  3  5]
 [ 7  9 11]]
[[ 0  2  6]
 [12 20 30]]


In [None]:
#广播
A=np.array([[1,2],[3,4]])
print(A*10)                   #标量10先被扩展为2*2的每个元素都是10 的矩阵，然后再进行矩阵对应元素的运算

b=np.array([10,20])           #b 被扩展为[10,20] [10,20]
print(A*b)


[[10 20]
 [30 40]]
[[10 40]
 [30 80]]


像这样，因为numpy 有广播功能，所以可以智能地执行不同形状数组之间的运算，为了使广播生效，多维数组的形状需要满足几个规则：
NumPy广播机制需要满足以下规则才能正确执行不同形状数组之间的运算：

1. 形状对齐 ：从数组形状的最右边开始比较，维度大小必须满足以下条件之一：
   
   - 相等
   - 其中一个为1
   - 其中一个不存在
2. 维度扩展 ：如果数组的维度数不同，形状会在较小的数组左边补1
3. 大小匹配 ：在所有维度上，最终广播后的形状大小是各维度上的最大值

A = np.array([[1,2,3]])  # 形状(1,3)
B = np.array([[1],[2]])   # 形状(2,1)

广播后两个数组都变成形状(2,3)
A广播为 [[1,2,3], [1,2,3]]
B广播为 [[1,1,1], [2,2,2]]

In [8]:
#向量内积和矩阵乘积
a=np.array([1,2,3])
b=np.array([4,5,6])
print(np.dot(a,b))

A=np.array([[1,2],[3,4]])
B=np.array([[5,6],[7,8]])
print(np.dot(A,B))

32
[[19 22]
 [43 50]]


#### 神经网络全过程

以权重层为2的3层神经网络为例(输入层2个神经元，隐藏层4个神经元，输出层3个神经元)

In [14]:
#神经元的计算
import numpy as np
w1 = np.random.randn(2,4)
b1 = np.random.randn(4)
x1 = np.random.randn(10,2)
h1 = np.dot(x1,w1)+b1       #NumPy会自动将 b1 广播为(10,4)的形状，使其可以与矩阵相加
print (h1)   

[[ 2.2443906   0.60787232 -0.35772278  0.86966333]
 [ 2.22411258 -1.0597345   1.73337104 -0.67734531]
 [ 1.62262345 -2.41246642  3.5923763  -2.45249976]
 [-0.33644715 -0.27271471  1.4614562  -2.23274136]
 [ 0.35815312  1.91273437 -1.46481901  0.38870481]
 [ 0.33119558  1.67811034 -1.16390698  0.14961328]
 [-1.00682259  1.42346765 -0.47324481 -1.27369954]
 [ 0.33508     0.17912225  0.70959635 -1.22130757]
 [-0.41155363  1.48010315 -0.70966527 -0.69242652]
 [ 0.39596927  0.02598071  0.8841716  -1.30757217]]


以上代码中，10笔样本数据分别由全连接层进行变换，x的第一个维度对应于各笔样本数据。x[0]是第0笔输入，x[1]是第1笔输入数据，h[0]是第0笔数据的隐藏层神经元，h[1]是第1笔数据的隐藏层神经元。
以上代码中，偏执b1 的加法运算会触发广播功能，b1 会被扩展为(10,4)的形状，然后与矩阵h相加。

全连接层的变化换线性变换。激活函数赋予它”非线性“的性质。使用非线性的激活函数，可以增强神经网络的表现力。


以下代码中，x的形状是（10，3），表示10笔数据为一个mini-batch,最终输出的形状是（10，3），每笔数据输出3个类别

In [None]:
import numpy as np 
def sigmoid(x):
    return 1/(1+np.exp(-x))
x = np.random.randn(10,2)
w1 = np.random.randn(2,4)
b1 = np.random.randn(4)
h1 = np.dot(x,w1)+b1
a1 = sigmoid(h1)
w2 = np.random.randn(4,3)
b2 = np.random.randn(3)
h2 = np.dot(a1,w2)+b2



层的类化以及正向传播的实现，将各层实现为pythn类，将主要的变化实现为类的forward()方法

X ---- Affine ---- Sigmoid ---- Affine ---- 输出层

In [None]:
# coding: utf-8
import numpy as np


class Sigmoid:
    def __init__(self):
        self.params = []

    def forward(self, x):
        return 1 / (1 + np.exp(-x))


class Affine:
    def __init__(self, W, b):
        self.params = [W, b]

    def forward(self, x):
        W, b = self.params
        out = np.dot(x, W) + b
        return out


class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size):
        I, H, O = input_size, hidden_size, output_size

        # 初始化权重和偏置
        W1 = np.random.randn(I, H)
        b1 = np.random.randn(H)
        W2 = np.random.randn(H, O)
        b2 = np.random.randn(O)

        # 生成层
        self.layers = [Affine(W1, b1),Sigmoid(),Affine(W2, b2)]

        # 将所有的权重整理到列表中
        self.params = []
        for layer in self.layers:
            self.params += layer.params
    def predict(self, x):
        for layer in self.layers:
            x = layer.forward(x)
        return x


x = np.random.randn(10, 2)
model = TwoLayerNet(2, 4, 3)
s = model.predict(x)
print(s)


[[ 0.1872104  -1.9367686   0.22096956]
 [ 0.12997766 -1.91749131 -0.00493773]
 [ 0.82979008 -1.47656096  0.75801375]
 [ 0.743995   -1.51217622  0.53739081]
 [ 0.39657386 -1.86411432  0.49325479]
 [ 0.30190913 -1.64795461 -0.28443226]
 [ 0.39064313 -1.75284297  0.24394451]
 [ 0.22453274 -1.81618982  0.04355382]
 [ 0.57123394 -1.61003869  0.32408261]
 [ 0.82166332 -1.46155669  0.66668179]]


这样可以求出输入数据x的得分s ,另外要学习的参数汇总在model.params中

X ---- Affine ---- Sigmoid ---- Affine ---- Softmax ---- CrossEntropyError(损失函数：交叉熵误差) ---- L
                                                               |
                                                            监督标签t

softmax层输出的是概率，在有mini-batch 情况下的交叉熵误差将表示单笔数据的损失函数扩展到了N笔，利用公式除以N ,就可以求单笔数据的平均损失，通过这样的平均化，无论mini-batch大小，都始终可以获得一致的指标。

误差反向传播   导数和梯度   链式法则    计算图（加法节点，乘法节点，分支节点:反向传播是上游传来的梯度之和）    