<a href="https://colab.research.google.com/github/ElwinGao4444/colab/blob/main/Tensorflow.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tensorflow介绍

官方教程：https://www.tensorflow.org/tutorials

官方指南：https://www.tensorflow.org/guide

官方API文档：https://www.tensorflow.org/api_docs/python/tf

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf

# Tensorflow基础

## 张量

张量在使用上和numpy的用法非常相似，可以相互借鉴学习

### 初始化

#### 直接初始化

In [None]:
print('标量：', tf.constant(0))
print('秩为1的张量（向量）：', tf.constant([1,2,3]))
print('秩为2的张量（矩阵）：', tf.reshape(tf.range(0,4,1), [2,2]))

标量： tf.Tensor(0, shape=(), dtype=int32)
秩为1的张量（向量）： tf.Tensor([1 2 3], shape=(3,), dtype=int32)
秩为2的张量（矩阵）： tf.Tensor(
[[0 1]
 [2 3]], shape=(2, 2), dtype=int32)


#### 结构初始化

In [None]:
print('全0/1初始化（标量）：', tf.zeros([]), tf.ones([]))
print('全0/1初始化（向量）：', tf.zeros([5]), tf.ones([5]))
print('全0/1初始化（矩阵）：', tf.zeros([2,2]), tf.ones([2,2]))
arr = np.arange(8).reshape(2,2,2)
print('全0/1初始化（like）：', tf.zeros_like(arr), tf.ones_like(arr))  # 这里用list，ndarray，tensor都可以

print('填充指定值：', tf.fill([2,2],9))

全0/1初始化（标量）： tf.Tensor(0.0, shape=(), dtype=float32) tf.Tensor(1.0, shape=(), dtype=float32)
全0/1初始化（向量）： tf.Tensor([0. 0. 0. 0. 0.], shape=(5,), dtype=float32) tf.Tensor([1. 1. 1. 1. 1.], shape=(5,), dtype=float32)
全0/1初始化（矩阵）： tf.Tensor(
[[0. 0.]
 [0. 0.]], shape=(2, 2), dtype=float32) tf.Tensor(
[[1. 1.]
 [1. 1.]], shape=(2, 2), dtype=float32)
全0/1初始化（like）： tf.Tensor(
[[[0 0]
  [0 0]]

 [[0 0]
  [0 0]]], shape=(2, 2, 2), dtype=int64) tf.Tensor(
[[[1 1]
  [1 1]]

 [[1 1]
  [1 1]]], shape=(2, 2, 2), dtype=int64)
填充指定值： tf.Tensor(
[[9 9]
 [9 9]], shape=(2, 2), dtype=int32)


#### 随机初始化

In [None]:
print('使用均匀分布采用的随机初始化：', tf.random.uniform([2, 2], minval=0, maxval=100))
print('使用高斯分布采用的随机初始化：', tf.random.normal([2, 2], mean=0, stddev=1))

使用均匀分布采用的随机初始化： tf.Tensor(
[[38.749397 48.955906]
 [95.77758  97.25719 ]], shape=(2, 2), dtype=float32)
使用高斯分布采用的随机初始化： tf.Tensor(
[[-0.04571061  0.9203868 ]
 [-1.4090029  -0.37009853]], shape=(2, 2), dtype=float32)


### 类型转换

In [None]:
print('ndarray转tensor：', tf.convert_to_tensor(np.arange(3)))
print('tensor转ndarray：', np.array(tf.constant([1,2,3])))
print('tensor转ndarray：', tf.constant([1,2,3]).numpy())

ndarray转tensor： tf.Tensor([0 1 2], shape=(3,), dtype=int64)
tensor转ndarray： [1 2 3]
tensor转ndarray： [1 2 3]


In [None]:
np.arange(8).reshape(2,2,2)

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

### 张量运算

In [None]:
a = tf.constant([[1,2],[3,4]], dtype=tf.double)
b = tf.constant([[2,4],[6,8]], dtype=tf.double)

print('加法运算：', tf.add(a, b))
print('逐项相乘：', tf.multiply(a, b))
print('矩阵乘法：', tf.matmul(a, b))

print('加法运算：', a + b)
print('逐项相乘：', a * b)
print('矩阵乘法：', a @ b)

print('寻找张量中最大的元素', tf.reduce_max(a))
print('寻找张量中最大的元素位置', tf.math.argmax(a))
print('计算SoftMax', tf.nn.softmax(a))

加法运算： tf.Tensor(
[[ 3.  6.]
 [ 9. 12.]], shape=(2, 2), dtype=float64)
逐项相乘： tf.Tensor(
[[ 2.  8.]
 [18. 32.]], shape=(2, 2), dtype=float64)
矩阵乘法： tf.Tensor(
[[14. 20.]
 [30. 44.]], shape=(2, 2), dtype=float64)
加法运算： tf.Tensor(
[[ 3.  6.]
 [ 9. 12.]], shape=(2, 2), dtype=float64)
逐项相乘： tf.Tensor(
[[ 2.  8.]
 [18. 32.]], shape=(2, 2), dtype=float64)
矩阵乘法： tf.Tensor(
[[14. 20.]
 [30. 44.]], shape=(2, 2), dtype=float64)
寻找张量中最大的元素 tf.Tensor(4.0, shape=(), dtype=float64)
寻找张量中最大的元素位置 tf.Tensor([1 1], shape=(2,), dtype=int64)
计算SoftMax tf.Tensor(
[[0.26894142 0.73105858]
 [0.26894142 0.73105858]], shape=(2, 2), dtype=float64)


### 形状操作

In [None]:
print('修改形状：', tf.reshape([[1],[2],[3]], [1, -1]))
print('展平张量：', tf.reshape([[1],[2],[3]], [-1]))

修改形状： tf.Tensor([[1 2 3]], shape=(1, 3), dtype=int32)
展平张量： tf.Tensor([1 2 3], shape=(3,), dtype=int32)


### 类型转换

In [None]:
the_f64_tensor = tf.constant([2.2, 3.3, 4.4], dtype=tf.float64)
print('float64类型：', the_f64_tensor)
the_f16_tensor = tf.cast(the_f64_tensor, dtype=tf.float16)
print('float16类型：', the_f16_tensor)

float64类型： tf.Tensor([2.2 3.3 4.4], shape=(3,), dtype=float64)
float16类型： tf.Tensor([2.2 3.3 4.4], shape=(3,), dtype=float16)


### 不规则张量

In [None]:
# 不规则张量不能直接构建
ragged_list = [
    [0, 1, 2, 3],
    [4, 5],
    [6, 7, 8],
    [9]]
try:
  tensor = tf.constant(ragged_list)
except Exception as e:
  print(f"{type(e).__name__}: {e}")

# 不规则张量需要使用：tf.ragged.RaggedTensor进行构建
print('构建不规则张量：', tf.ragged.constant(ragged_list))

ValueError: Can't convert non-rectangular Python sequence to Tensor.
构建不规则张量： <tf.RaggedTensor [[0, 1, 2, 3], [4, 5], [6, 7, 8], [9]]>


### 字符串张量
（官方文档：https://www.tensorflow.org/api_docs/python/tf/strings）

In [None]:
print('构建字符串标量：', tf.constant("Gray wolf"))
print('构建字符串向量：', tf.constant(["Gray wolf","Quick brown fox","Lazy dog"]))

构建字符串标量： tf.Tensor(b'Gray wolf', shape=(), dtype=string)
构建字符串向量： tf.Tensor([b'Gray wolf' b'Quick brown fox' b'Lazy dog'], shape=(3,), dtype=string)


### 稀疏张量

In [None]:
# 构建在[0,0]和[1,2]两个位置，值为1和2的，3行4列的稀疏矩阵
print('构建稀疏张量：', tf.sparse.SparseTensor(indices=[[0, 0], [1, 2]], values=[1, 2], dense_shape=[3, 4]))

构建稀疏张量： SparseTensor(indices=tf.Tensor(
[[0 0]
 [1 2]], shape=(2, 2), dtype=int64), values=tf.Tensor([1 2], shape=(2,), dtype=int32), dense_shape=tf.Tensor([3 4], shape=(2,), dtype=int64))


## 变量
张量是只读的，变量是可变的

### 变量与张量
大部分张量的操作，都可以用于变量

In [None]:
print('使用list初始化变量：', tf.Variable([1,2,3]))
print('使用ndarray初始化变量：', tf.Variable(np.arange(10)))
print('使用tensor初始化变量：', tf.Variable(tf.constant(0)))
# tf.reshape(tf.Variable([1,2,3]), [1,4]) # Variable是无法reshape的

使用list初始化变量： <tf.Variable 'Variable:0' shape=(3,) dtype=int32, numpy=array([1, 2, 3], dtype=int32)>
使用ndarray初始化变量： <tf.Variable 'Variable:0' shape=(10,) dtype=int64, numpy=array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])>
使用tensor初始化变量： <tf.Variable 'Variable:0' shape=() dtype=int32, numpy=0>


### 变量的赋值

In [None]:
v = tf.Variable([2.0, 3.0])
print('对变量进行赋值：', v.assign([1, 2]))
try:
  v.assign([1.0, 2.0, 3.0]) # 变量
except Exception as e:
  print(f"{type(e).__name__}: {e}")

对变量进行赋值： <tf.Variable 'UnreadVariable' shape=(2,) dtype=float32, numpy=array([1., 2.], dtype=float32)>
ValueError: Cannot assign value to variable ' Variable:0': Shape mismatch.The variable shape (2,), and the assigned value shape (3,) are incompatible.


### 变量的复制

In [None]:
# 用一个变量初始化另一个变量，会进行变量的复制
a = tf.Variable([2.0, 3.0])
b = tf.Variable(a)

a.assign([5, 6])
# 复制对象产生新的存储空间，不与原变量共享空间
print(a.numpy())
print(b.numpy())

[5. 6.]
[2. 3.]


### 变量的运算

In [None]:
print(a.assign_add([2,3]).numpy())  # [7. 9.]
print(a.assign_sub([7,9]).numpy())  # [0. 0.]

[7. 9.]
[0. 0.]


### 命名与监视

In [None]:
print('通过对变量进行命名，方便调试：', tf.Variable([0], name="Mark"))
print('通过设置trainable打开/关闭梯度计算', tf.Variable(1, trainable=False))

通过对变量进行命名，方便调试： <tf.Variable 'Mark:0' shape=(1,) dtype=int32, numpy=array([0], dtype=int32)>
通过设置trainable打开/关闭梯度计算 <tf.Variable 'Variable:0' shape=() dtype=int32, numpy=1>


### 指定运算设备

In [None]:
# 由于 tf.config.set_soft_device_placement 默认处于打开状态，所以，即使在没有 GPU 的设备上运行此代码，它也会运行，只不过乘法步骤会在 CPU 上执行
with tf.device('CPU:0'):
  a = tf.Variable([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
  b = tf.Variable([[1.0, 2.0, 3.0]])

with tf.device('GPU:0'):
  # Element-wise multiply
  k = a * b

print(k)

tf.Tensor(
[[ 1.  4.  9.]
 [ 4. 10. 18.]], shape=(2, 3), dtype=float32)


## 自动微分
（官方文档：https://www.tensorflow.org/guide/autodiff）

### 计算梯度

### 标量的梯度

In [None]:
# 一元方程的梯度，其实就是导数
x = tf.Variable(3.0)

with tf.GradientTape() as tape:
  y = x**2

dy_dx = tape.gradient(y, x) # 计算y对x的导数
dy_dx.numpy()

6.0

### 张量的梯度

In [None]:
w = tf.Variable(tf.random.normal((3, 2)), name='w')
b = tf.Variable(tf.zeros(2, dtype=tf.float32), name='b')
x = [[1., 2., 3.]]

with tf.GradientTape(persistent=True) as tape:
  y = x @ w + b
  loss = tf.reduce_mean(y**2)

[dl_dw, dl_db] = tape.gradient(loss, [w, b])  # 计算loss函数对[w,b]的梯度

dl_dw, dl_db

(<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
 array([[ -1.1720861,  -3.7522082],
        [ -2.3441722,  -7.5044165],
        [ -3.5162582, -11.256624 ]], dtype=float32)>,
 <tf.Tensor: shape=(2,), dtype=float32, numpy=array([-1.1720861, -3.7522082], dtype=float32)>)

In [None]:
w = tf.Variable(tf.random.normal((3, 2)), name='w')
b = tf.Variable(tf.zeros(1, dtype=tf.float32), name='b')
x = [[1., 2., 3.]]

with tf.GradientTape(persistent=True) as tape:
  y = x @ w + b
  loss = tf.reduce_mean(y**2)

[dl_dw, dl_db] = tape.gradient(loss, [w, b])  # 计算loss函数对[w,b]的梯度

dl_dw, dl_db

(<tf.Tensor: shape=(3, 2), dtype=float32, numpy=
 array([[-1.418551 , -1.4579914],
        [-2.837102 , -2.9159827],
        [-4.255653 , -4.373974 ]], dtype=float32)>,
 <tf.Tensor: shape=(1,), dtype=float32, numpy=array([-2.8765423], dtype=float32)>)

### 相对于模型的梯度

In [None]:
# TODO

# Keras

## Sequential模型

### 一个最简单的模型

In [None]:
# model可以直接作为函数使用
# 当如此使用的时候，它就是在求解Sequential所代表的复合函数
# 对于一个输出长度为1的Dense层来说，它所表达的就是求解多元线性函数
model = tf.keras.Sequential() # 定义一个Sequential模型
model.add(tf.keras.layers.Dense(1,  # 输出向量长度为1的线性函数
                kernel_initializer=tf.keras.initializers.Ones(),  # w系数初始化为全1
                bias_initializer=tf.keras.initializers.Ones(),   # b系数初始化为1
                ))  # Dense层在被首次使用的时候，会动态适配输入参数的元数
model(tf.constant([[1]])) # 1个样本，每个样本元数为1，也就是最常见的y=wx+b

<tf.Tensor: shape=(1, 1), dtype=float32, numpy=array([[2.]], dtype=float32)>

## 简单的训练模型

In [None]:
# 加载数据集
mnist = tf.keras.datasets.mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

In [None]:
# 定义模型

model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28)),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dropout(0.2),
  tf.keras.layers.Dense(10)
])

# 模型(model)可以简单的理解为一个复合函数，参数就是自变量(向量)集合，返回值就是对应的y值集合
predictions = model(x_train[:1])    # 输入位1个28x28的数据，输出为1个size为10的一维向量
tf.nn.softmax(predictions).numpy()  # 将model输出的向量，进行softmax操作，转化为相加为1的概率

array([[0.07725315, 0.04424134, 0.09963002, 0.04156731, 0.14695534,
        0.15113597, 0.107852  , 0.113647  , 0.11509059, 0.10262731]],
      dtype=float32)

In [None]:
# 不在model里增加一个softmax层，而是使用SparseCategoricalCrossentropy的from_logits参数
# 主要原因就是softmax做指数运算，交叉熵做对数运算，二者合并运算，可以简化计算，并防止数值越界
# 自己做softmax，然后令from_logits=False(默认为False)，可得到相同的计算结果
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
loss_fn(y_train[:1], predictions).numpy()

1.8895755

### 封装版

In [None]:
# 通过compile指定损失函数，优化器
# metrics=['accuracy'] 指定要为模型评估的指标
model.compile(optimizer='adam', loss=loss_fn, metrics=['accuracy'])

In [None]:
# 执行训练过程
model.fit(x_train, y_train, epochs=1)



<keras.callbacks.History at 0x7b2d4b7b0370>

In [None]:
# 检查模型性能
model.evaluate(x_test,  y_test, verbose=2)

313/313 - 0s - loss: 0.1347 - accuracy: 0.9608 - 486ms/epoch - 2ms/step


[0.1346559375524521, 0.9607999920845032]

### 手写版

In [None]:
batch_size = 32

def train(x, y, model, loss_fn, trainer):
  counter = 0
  data = (x, y)
  train_iter = tf.data.Dataset.from_tensor_slices(data).batch(batch_size).shuffle(len(data[0]))
  for x, y in train_iter:
    counter = counter + 1
    with tf.GradientTape() as tape:
      y_hat = model(x)
      l = loss_fn(y, y_hat)
      params = model.trainable_variables
      grads = tape.gradient(l, params)
      trainer.apply_gradients(zip(grads, params))
      print('\r', end='')
      print('train loss[%d]: %s' % (counter, l), end='')
  return l

In [None]:
trainer = tf.keras.optimizers.Adam()
train(x_train, y_train, model, loss_fn, trainer)

train loss[1875]: tf.Tensor(0.193171, shape=(), dtype=float32)

<tf.Tensor: shape=(), dtype=float32, numpy=0.193171>

In [None]:
def predict(model, x, y):
  y_hat = tf.argmax(model(x), axis=1).numpy()
  right = np.count_nonzero(y==y_hat)
  return right / len(y)

In [None]:
predict(model, x_test[:3200], y_test[:3200])

0.956875