# 张量基础

数据对于AI而言至关重要，为了能够完成各种数据操作，我们需要某种方法来存储和处理数据。

许多AI框架都定义了一种基本的数据结构——张量（[Tensor](https://www.mindspore.cn/docs/zh-CN/r1.7/api_python/mindspore/mindspore.Tensor.html)），它与多维数组的概念非常相似。张量可以将向量和矩阵推广到任意维度，下图中直观地显示了各维度张量及其实际表示的数据。

<div align=center>
    <img src="./images/张量维度示意图.png" width="50%" height="50%" />
</div>

张量也是MindSpore中的基本数据结构，它与Numpy中定义的array数据结构相似，也有很多专为深度学习设计的功能，如支持各种算力芯片（包括CPU、GPU和NPU）以及自动微分等。

## 1、MindSpore中的张量类

`class mindspore.Tensor(input_data=None, dtype=None, shape=None, init=None, internal=False, const_arg=False)`

参数：

+ **input_data**  - 输入数据

+ **dtype** - 设置数据类型

+ **shape** - 设置形状

+ **init** - 数据的初始化

+ **internal** - 设置张量是否由框架创建

+ **const_arg** - 指定张量作为网络输入时是否为常量

详细内容可以参考[MindSpore官方API文档](https://www.mindspore.cn/docs/zh-CN/r1.9/api_python/mindspore/mindspore.Tensor.html#mindspore.Tensor)

In [1]:
from mindspore import Tensor

## 2、创建张量

MindSpore中张量的创建方式有多种，构造张量时，支持传入`Tensor`、`float`、`int`、`bool`、`tuple`、`list`和`numpy.ndarray`类型。

### 2.1 从Python原始数据生成张量

可以根据Python原始数据，如单个数据、列表等，数据类型可以设置或者通过框架自动推断。

In [2]:
from mindspore import Tensor

tensor_0 = Tensor(0.1)
tensor_1 = Tensor([1, 2, 3])
tensor_2 = Tensor([[1, 1], [2, 2], [3, 3]])
print(tensor_0)
print(tensor_1)
print(tensor_2)
print(type(tensor_0))
print(type(tensor_1))
print(type(tensor_2))

0.1
[1 2 3]
[[1 1]
 [2 2]
 [3 3]]
<class 'mindspore.common.tensor.Tensor'>
<class 'mindspore.common.tensor.Tensor'>
<class 'mindspore.common.tensor.Tensor'>


### 2.2 从NumPy数组生成张量

In [3]:
import numpy as np

array = np.array([1, 0, 1, 0])
tensor_arr = Tensor(array)
print(type(array))
print(type(tensor_arr))

<class 'numpy.ndarray'>
<class 'mindspore.common.tensor.Tensor'>


### 2.3 使用init初始化器生成张量

需要同时传入的参数有`init`、`shape`、`dtype`。

+ `init`: 支持传入[initializer](https://www.mindspore.cn/docs/zh-CN/r1.7/api_python/mindspore.common.initializer.html)的子类。

+ `shape`: 支持传入 `list`、`tuple`、 `int`。

+ `dtype`: 支持传入[mindspore.dtype](https://www.mindspore.cn/docs/zh-CN/r1.7/api_python/mindspore/mindspore.dtype.html#mindspore.dtype)。

In [4]:
from mindspore import Tensor
from mindspore import set_seed
from mindspore import dtype as mstype
from mindspore.common.initializer import One, Normal

set_seed(1)

tensor1 = Tensor(shape=(2, 2), dtype=mstype.float32, init=One())
tensor2 = Tensor(shape=(2, 2), dtype=mstype.float32, init=Normal())

print("tensor1:\n", tensor1)
print("tensor2:\n", tensor2)

tensor1:
 [[1. 1.]
 [1. 1.]]
tensor2:
 [[-0.00128023 -0.01392901]
 [ 0.0130886  -0.00107818]]


### 2.4 继承已有张量属性生成新张量

In [6]:
from mindspore import ops

x = Tensor(np.array([[0, 1], [2, 1]]).astype(np.int32))
output = ops.ones_like(x)

print(output)
print("input shape:", x.shape)
print("output shape:", output.shape)

[[1 1]
 [1 1]]
input shape: (2, 2)
output shape: (2, 2)


### 2.5 输出指定大小的常值张量

`shape`是张量的尺寸元组，确定输出的张量的维度。

In [7]:
from mindspore import ops
from mindspore import dtype as mstype

shape = (2, 2)
ones = ops.Ones()
output = ones(shape, mstype.float32)
print(output)

zeros = ops.Zeros()
output = zeros(shape, mstype.float32)
print(output)

[[1. 1.]
 [1. 1.]]
[[0. 0.]
 [0. 0.]]


## 3、张量基本操作

### 3.1 张量索引

Tensor索引与Numpy索引类似，索引从0开始编制，负索引表示按倒序编制，冒号`:`和 `...`用于对数据进行切片操作。

In [10]:
from mindspore import Tensor
import numpy as np

tensor = Tensor(np.array([[0, 1], [2, 3]]).astype(np.float32))

print("First row: {}".format(tensor[0]))
print("value of buttom right corner: {}".format(tensor[1, 1]))
print("Last column: {}".format(tensor[:, -1]))
print("First column: {}".format(tensor[..., 0]))

First row: [0. 1.]
value of buttom right corner: 3.0
Last column: [1. 3.]
First column: [0. 2.]


### 3.2 张量的属性

张量的属性包括形状、数据类型、转置、单个元素大小、占用字节数量、维数、元素个数和每一维步长。

+ 形状（shape）：是一个tuple。

+ 数据类型（dtype）：是MindSpore支持的数据类型。

+ 转置（T）：对张量进行转置操作。

+ 单个元素大小（itemsize）： `Tensor`中每一个元素占用字节数，是一个整数。

+ 占用字节数量（nbytes）： `Tensor`占用的总字节数，是一个整数。

+ 维数（ndim）： `Tensor`的秩，也就是len(tensor.shape)，是一个整数。

+ 元素个数（size）： `Tensor`中所有元素的个数，是一个整数。

+ 每一维步长（strides）： `Tensor`每一维所需要的字节数，是一个tuple。

In [11]:
x = Tensor(np.array([[1, 2], [3, 4]]), mstype.int32)

print("x:\n", x)
print("x_shape:", x.shape)
print("x_dtype:", x.dtype)
print("x_transposed:\n", x.T)
print("x_itemsize:", x.itemsize)
print("x_nbytes:", x.nbytes)
print("x_ndim:", x.ndim)
print("x_size:", x.size)
print("x_strides:", x.strides)

x:
 [[1 2]
 [3 4]]
x_shape: (2, 2)
x_dtype: Int32
x_transposed:
 [[1 3]
 [2 4]]
x_itemsize: 4
x_nbytes: 16
x_ndim: 2
x_size: 4
x_strides: (8, 4)


### 3.3 张量运算

张量之间有很多运算，包括算术、线性代数、矩阵处理（转置、标引、切片）、采样等，张量运算和NumPy的使用方式类似，详细内容请参考[MindSpore官方API](https://www.mindspore.cn/docs/zh-CN/r1.9/api_python/mindspore.ops.html)，下面介绍其中几种算术运算

普通算数运算有：加（+）、减（-）、乘（*）、除（/）、取模（%）、整除（//）等。

In [10]:
x = Tensor(np.array([1, 2, 3]), mstype.float32)
y = Tensor(np.array([4, 5, 6]), mstype.float32)

output_add = x + y
output_sub = x - y
output_mul = x * y
output_div = y / x
output_mod = y % x
output_floordiv = y // x

print("add:", output_add)
print("sub:", output_sub)
print("mul:", output_mul)
print("div:", output_div)
print("mod:", output_mod)
print("floordiv:", output_floordiv)

add: [5. 7. 9.]
sub: [-3. -3. -3.]
mul: [ 4. 10. 18.]
div: [4.  2.5 2. ]
mod: [0. 1. 0.]
floordiv: [4. 2. 2.]


## 4、扩展内容

### 4.1 Tensor与Numpy转换

Tensor可以和NumPy进行互相转换。

#### 4.1.1 Tensor转换为Numpy

使用 `asnumpy()` 将Tensor数据转换为Numpy数据。

In [11]:
zeros = ops.Zeros()

output = zeros((2, 2), mstype.float32)
print("output: {}".format(type(output)))

n_output = output.asnumpy()
print("n_output: {}".format(type(n_output)))

output: <class 'mindspore.common.tensor.Tensor'>
n_output: <class 'numpy.ndarray'>


#### 4.1.2 Numpy转换为Tensor

使用`Tensor()`将Numpy数据转换为Tensor数据。

In [13]:
arr_output = np.array([1, 0, 1, 0])
print("arr_output: {}".format(type(arr_output)))

t_output = Tensor(output)
print("t_output: {}".format(type(t_output)))

arr_output: <class 'numpy.ndarray'>
t_output: <class 'mindspore.common.tensor.Tensor'>


### 4.2 张量序列化和反序列化

**序列化**就是指把对象转换为字节序列的过程；**反序列化**就是指把字节序列恢复为对象的过程。

序列化和反序列化的作用就是对象状态的**保存**和**重建**。

可以使用 HDF5 格式和 h5py 库。 HDF5 是一种可移植的、被广泛支持的格式，用于将序列化的多维数组组织在一个嵌套的键值对字典中。Python 通过 h5py 库支持 HDF5，该库接收和返回 NumPy 数组格式的数据。

#### 4.2.1 序列化

In [8]:
import h5py as h5
from mindspore import Tensor
from mindspore import numpy as np
import os

# 创建data文件夹
if os.path.exists("./data" ):
    pass
else:
    os.makedirs("./data" )

# 创建张量
tensor = Tensor(np.reshape(np.arange(16), (4, 4)))
# 开始序列化
filepath = './data/tensor.hdf5'
f = h5.File(filepath, 'w')
dset = f.create_dataset('matrix', data=tensor.asnumpy()) # 这里的“matrix”是保存到 HDF5 文件的一个键
f.close()

#### 4.2.2 反序列化

In [15]:
f = h5.File(filepath, 'r')
dset = f['matrix']
tensor_ = dset[:]

print(type(tensor_))
tensor_r = Tensor(tensor_)
tensor_r

<class 'numpy.ndarray'>


Tensor(shape=[4, 4], dtype=Int32, value=
[[ 0,  1,  2,  3],
 [ 4,  5,  6,  7],
 [ 8,  9, 10, 11],
 [12, 13, 14, 15]])

## 5、张量实验任务

运用上面所学的知识完成以下四个实验任务：

1. 创建一个形状为3×4的二维张量$W$和一个长度为4的一维张量$X$，数据类型都为32位浮点型；

2. 查看两个张量的属性；

3. 将$W$的进行拆分，第一列元素为$b$，其余形状为3×3的元素为$w$，将张量$X$的第一个元素设置为1，并取其余元素为$x$；

4. 计算$W*X^{T}$和$w*x^{T}+b$，并将结果转换为numpy.array格式（会用到[expand_dims](https://www.mindspore.cn/docs/zh-CN/r1.7/api_python/mindspore/mindspore.Tensor.html#mindspore.Tensor.expand_dims)和[ops.matmul](https://www.mindspore.cn/docs/zh-CN/r1.7/api_python/ops/mindspore.ops.matmul.html#mindspore.ops.matmul)两种方法，可以参考MindSpore API）。

## 6、小结

1. 学习了构建张量的基本方法

2. 学习了张量的基础运算

3. 学习了张量与numpy相互转换

4. 学习了张量的序列化和反序列化