# Mathematical Foundation

## Data Representation

### 张量介绍

一般来说，当前所有机器学习系统使用**张量**(tensor)作为数据结构，它是一个数据容器，包含的数据几乎总是数值类型。矩阵是二维张量，它是矩阵向任意维度的推广，张量的维度(dimension)叫做轴(axis)。

- 标量(`0D`张量)   
仅包含一个数字的张量叫做标量(scalar)，也称之为标量张量、零维张量

- 向量(`1D`张量)
数字组成的数组叫作向量(vector)或者一维张量，如下，

In [2]:
import numpy as np

x = np.array([1, 3, 5, 7])
print("1D tensor:", x)
print("1D axis: ", x.ndim)

1D tensor: [1 3 5 7]
1D axis:  1


- 矩阵(`2D`张量)
向量组成的数组叫做矩阵(matrix)或者二维张量，如下，

In [6]:
import numpy as np

x = np.random.randint(10, size=(2, 3))
print("2D tensor: \n", x)
print("2D axis: ", x.ndim)

2D tensor: 
 [[2 7 4]
 [1 7 2]]
2D axis:  2


- `3D`张量
将多个矩阵组成一个数组便可以得到一个3D张量，如下，

In [7]:
import numpy as np

x = np.random.randint(10, size=(2, 3, 5))
print("3D tensor: \n", x)
print("3D axis: ", x.ndim)

3D tensor: 
 [[[7 7 6 9 4]
  [0 7 4 8 7]
  [9 9 1 1 9]]

 [[4 2 1 5 7]
  [0 0 8 3 4]
  [1 2 5 9 4]]]
3D axis:  3


可以依次类推到更高维度的张量，现实中的数据张量，

- 结构化数据   
2D张量，形状(samples, features)

- 序列数据   
3D张量，形状(samples, timesteps, features)

- 图像数据   
4D张量，形状(samples, channels, height, width)

- 视频数据   
5D张量，形状(samples, frames, channels, height, width)

张量的属性，

- 轴的个数(阶)   
nD张量有n个轴

- 形状   
nD张量的形状为长度为n向量，比如3D张量的形状可以为(1, 2, 4), (2, 5, 7)等等

- 数据类型   
绝大多数情况下张量的类型为数值类型，很少为字符串类型，因为张量存储在预先分配的连续内存中，但是字符串长度是可变的，无法用这种方式存储。

### 张量计算

#### 逐元素运算

逐元素计算(element-wise)，独立的对张量中的每一个元素进行计算，完全可以实现并行

#### 广播
如果两个不同形状的张量进行相加，较小的张量会被广播(broadcast)，来匹配较大张量的形状，通常广播包含两个小步骤，
1）向较小的张量添加轴（广播轴），使其ndim和大的张量相同
2）将较小的张量沿着新的轴重复

In [15]:
import numpy as np 

x1 = np.random.randint(10, size=(2, 4, 6))
x2 = np.random.randint(10, size=(4, 6))
x = x1+x2

print("tensor operation broadcast:")
print("x1:\n", x1)
print("x2:\n", x2)

print("x1 + x2 = \n")
print(x)

print("x1 shape {} x1 ndim {}".format(x1.shape, x1.ndim))
print("x2 shape {} x2 ndim {}".format(x2.shape, x2.ndim))
print("x shape {} x ndim {}".format(x.shape, x.ndim))


tensor operation broadcast:
x1:
 [[[1 0 8 9 6 1]
  [5 7 5 4 2 7]
  [8 5 1 8 4 8]
  [8 7 8 7 8 1]]

 [[2 3 7 9 3 0]
  [2 9 9 5 5 9]
  [0 9 0 1 7 5]
  [0 5 5 6 5 0]]]
x2:
 [[9 4 5 7 9 0]
 [0 5 7 0 8 8]
 [6 8 1 1 5 5]
 [9 9 6 1 7 1]]
x1 + x2 = 

[[[10  4 13 16 15  1]
  [ 5 12 12  4 10 15]
  [14 13  2  9  9 13]
  [17 16 14  8 15  2]]

 [[11  7 12 16 12  0]
  [ 2 14 16  5 13 17]
  [ 6 17  1  2 12 10]
  [ 9 14 11  7 12  1]]]
x1 shape (2, 4, 6) x1 ndim 3
x2 shape (4, 6) x2 ndim 2
x shape (2, 4, 6) x ndim 3


#### 张量点积
一般在Numpy、Keras、Theano和Tensorflow中，使用`*`实现逐元素乘积，在Numpy和Keras中，使用`dot`来实现点积

In [22]:
import numpy as np 

x1 = np.random.randint(10, size=(2, 4, 6))
x2 = np.random.randint(10, size=(6, 2))

x = np.dot(x1, x2)

print("tensor operation product:")
print("x1:\n", x1)
print("x2:\n", x2)

print("x1 + x2 = \n")
print(x)

print("x1 shape {} x1 ndim {}".format(x1.shape, x1.ndim))
print("x2 shape {} x2 ndim {}".format(x2.shape, x2.ndim))
print("x shape {} x ndim {}".format(x.shape, x.ndim))


tensor operation product:
x1:
 [[[9 2 8 6 4 0]
  [6 9 5 1 0 7]
  [0 1 9 4 0 4]
  [5 2 2 5 2 3]]

 [[5 5 7 2 2 0]
  [8 6 4 1 5 1]
  [9 8 9 4 7 5]
  [3 7 7 3 9 9]]]
x2:
 [[9 6]
 [3 6]
 [3 4]
 [3 5]
 [6 6]
 [5 0]]
x1 + x2 = 

[[[153 152]
  [134 115]
  [ 62  62]
  [ 99  87]]

 [[ 99 110]
  [140 135]
  [211 200]
  [177 157]]]
x1 shape (2, 4, 6) x1 ndim 3
x2 shape (6, 2) x2 ndim 2
x shape (2, 4, 2) x ndim 3
