# BML Notebook介绍

在如下示例中，将介绍如何使用示例代码基于您在BML中已创建的数据集来完成模型的构建。您既可以通过修改示例代码来完成所需模型的构建，也可以使用其它的预训练模型或基于全新的代码来构建模型，只需要保证被保存的模型文件存储在"/home/work/PretrainedModel/"目录下即可。

## 预置文件介绍

- PretrainedModel：用于存储用户训练好的模型文件，用户可以将该文件夹下的模型文件保存为不同的模型版本。被保存的模型文件的大小不能超过1.5G。
- data：用户导入的数据集保存在该文件夹下。Notebook在重启之后会自动导入用户已导入的数据集。
- demo：该文件夹下保存了示例代码。

用户在保存模型文件时，可以同时保存data目录以外的文件，并在下次启动Notebook时使文件系统恢复到被保存时的状态。但保存文件的大小不能超过150M。

## Notebook建模步骤

在Notebook中建模包括如下步骤：

1. 导入数据集
2. 下载预训练模型
3. 构建迁移学习代码
4. 训练模型
5. 保存模型

### 1. 导入数据集

在Notebook中并不能直接访问您在BML中创建的数据集，但可以通过导入的方式，将已创建的数据集复制到Notebook文件夹的“data”目录下：

- 在导入数据集是，系统会自动在Notebook运行环境的“/home/data/”目录下创建以“数据集ID”为名的文件夹，并将数据集的原始文件以及标注文件复制到该文件夹中。

- 当原始数据集有更新时，不会自动同步，需要手工进行同步。

在完成数据集导入后，可以通过如下命令查看已导入的数据集：

`!ls /home/work/data/`

### 2. 下载预训练模型

在Notebook中用户可以自定义网络结构，也可以基于预训练模型通过网络微调技术（Fine-tuning）进行迁移学习，从而快速的构建自己的模型。

- 示例代码即通过迁移学习来训练满足用户数据的模型。


- PaddlePaddle提供了丰富的图像分类预训练模型，[预训练模型列表](https://paddleclas.readthedocs.io/zh_CN/latest/models/models_intro.html#id4)。



### 3. 构建迁移学习代码

网络微调技术是常用的迁移学习方法。对于神经网络，一般认为它能够逐层提取特征，越末层的网络特征提取能力越强。对于相似的任务A和B，他们的特征提取方法可以认为是相近的，因此网络的前面数层可以重用，后面的数层可以根据具体的任务设定从零开始训练。

示例代码结构如下所示：

```
Demo
└─训练脚本：/home/work/demo/train.sh 
    └─训练&生成模型代码：/home/work/demo/train.py
         ├─训练集&测试集构建代码：/home/work/demo/reader.py
	      └─网络定义代码：/home/work/demo/resnet.py
```

当需要使用其它预训练网络时，一般仅需修改或替换如下两个文件：

- /home/work/demo/train.py：修改该文件中引用的网络定义代码文件
- /home/work/demo/resnet.py：根据新的预训练网络构建编码新的网络结构定义代码


### 4. 训练模型

当代码都准备好，即可在Notebook或终端中执行主控脚本train.sh进行模型训练，示例如下

`!bash demo/train.sh /home/work/data/96159/ /home/work/PretrainedModel/`

示例脚本train.sh的输入参数如下：

`train.sh <数据目录> <模型保存目录> `

- 数据目录：数据集保存目录的绝对路径
- 模型保存目录：请设置为/home/work/PretrainedModel/，否则会造成生成新模型版本时无法读取模型文件。

### 5. 保存模型

Notebook中的模型文件只有保存后，才可以执行发布和部署功能：

- 请确保要保存的模型文件在/home/work/PretrainedModel目录下。模型支持版本管理功能，在保存时可以生成新版本也可以覆盖已有的且尚未部署的模型版本，每个版本的模型都可以独立部署。每个模型版本中保存的模型文件大小上限为1.5GB。

- 在保存模式时也可以将训练模型的代码一并保存。代码支持版本管理功能，用户再次启动Notebook时，可以使用指定的代码版本来初始化Notebook工作空间即/home/work目录下data以外的空间。每个代码版本中保存的文件大小上限为150M

单击Notebook页面右上角工具栏中的“保存模型”即可进行模型与代码的保存。模型保存后，可以在当前项目的“配置模型”列表中查看到已保存的模型。

## 运行示例代码

要运行示例代码，您只需要导入数据集，并根据实际的数据集目录修改下面的代码中的目录即可。

In [None]:
# 查看当前挂载的数据集目录，目录存放了从BML导入的数据集，该目录下的变更在重启环境后会自动还原
!ls /home/work/data/

In [None]:
# 查看预置代码模版，demo目录下存放模型训练代码模版
# 建议用户将代码文件和其他文件分开存储，以便选择和保存代码新版本。将代码和其他文件一起提交保存代码版本，可能会导致生成代码版本失败。
!ls /home/work/demo/

In [None]:
# `demo/train.sh`: 非必需文件，模型训练代码模版的运行入口；可自行编写代码训练自定义模型
# 指定训练数据集及模型保存路径，运行代码模版demo下的train.sh，训练和导出模型
!bash demo/train.sh /home/work/data/1/ /home/work/PretrainedModel/

请点击[此处](https://ai.baidu.com/ai-doc/BML/eki083bt5)查看本环境基本用法.  <br>
Please click [here ](https://ai.baidu.com/ai-doc/BML/eki083bt5) for more detailed instructions. 

In [3]:
pip install tensorflow==1.13.1

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting tensorflow==1.13.1
[?25l  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/d4/29/6b4f1e02417c3a1ccc85380f093556ffd0b35dc354078074c5195c8447f2/tensorflow-1.13.1-cp37-cp37m-manylinux1_x86_64.whl (92.6MB)
[K     |████████████████████████████████| 92.6MB 3.1MB/s eta 0:00:01
Collecting keras-preprocessing>=1.0.5 (from tensorflow==1.13.1)
[?25l  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/79/4c/7c3275a01e12ef9368a892926ab932b33bb13d55794881e3573482b378a7/Keras_Preprocessing-1.1.2-py2.py3-none-any.whl (42kB)
[K     |████████████████████████████████| 51kB 10.4MB/s eta 0:00:01
Collecting keras-applications>=1.0.6 (from tensorflow==1.13.1)
[?25l  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/71/e3/19762fdfc62877ae9102edf6342d71b28fbfd9dea3d2f96a882ce099b03f/Keras_Applications-1.0.8-py3-none-any.whl (50kB)
[K     |████████████████████████████████| 51kB 4.7MB/s eta 0:00:011
Collecting tensorboar

In [1]:
import tensorflow as tf

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [None]:
tf.__version__

In [1]:
%run NextitNet_TF_Pretrain_topk.py

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


[4 3 0]
[]
1.0
Instructions for updating:
Please use tensorflow/transform or tf.data.
Instructions for updating:
Please use tensorflow/transform or tf.data.
Instructions for updating:
Please use tensorflow/transform or tf.data.
('len(items)', 117762)
Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use the `axis` argument instead
Instructions for updating:
Create a `tf.sparse.SparseTensor` and use `tf.sparse.to_dense` instead.
Instructions for updating:
Use tf.cast instead.


2022-05-25 16:49:17.702406: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA
2022-05-25 16:49:17.708843: I tensorflow/core/platform/profile_utils/cpu_utils.cc:94] CPU Frequency: 2600000000 Hz
2022-05-25 16:49:17.710232: I tensorflow/compiler/xla/service/service.cc:150] XLA service 0x55e461d30d60 executing computations on platform Host. Devices:
2022-05-25 16:49:17.710292: I tensorflow/compiler/xla/service/service.cc:158]   StreamExecutor device (0): <undefined>, <undefined>


-------------------------------------------------------train1
LOSS: 9.228973388671875	ITER: 0	BATCH_NO: 9	 STEP:10	 total_batches:156.25
('TIME FOR BATCH', 1.4698970317840576)
('TIME FOR ITER (mins)', 3.8278568536043167)
-------------------------------------------------------test1
LOSS: [9.202033]	ITER: 0	BATCH_NO: 9	 STEP:10	 total_batches:156.25
('mrr_5:', 0.0, 'hit_5:', 0.0, 'ndcg_5:', 0.0)
-------------------------------------------------------train1
LOSS: 7.970929145812988	ITER: 0	BATCH_NO: 19	 STEP:20	 total_batches:156.25
('TIME FOR BATCH', 1.5250842571258545)
('TIME FOR ITER (mins)', 3.971573586265246)
-------------------------------------------------------test1
LOSS: [6.417548]	ITER: 0	BATCH_NO: 19	 STEP:20	 total_batches:156.25
('mrr_5:', 0.4775260416666667, 'hit_5:', 1.0, 'ndcg_5:', 0.6130746650675671)
-------------------------------------------------------train1
LOSS: 4.9710540771484375	ITER: 0	BATCH_NO: 29	 STEP:30	 total_batches:156.25
('TIME FOR BATCH', 1.445025205612182

In [1]:
%run PeterRec_noncau_parallel_classifier.py

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


[4 3 0]
[]
1.0
Instructions for updating:
Please use tensorflow/transform or tf.data.
Instructions for updating:
Please use tensorflow/transform or tf.data.
Instructions for updating:
Please use tensorflow/transform or tf.data.
('len(all_samples)', 10000)
('len(items)', 117762)
('len(targets)', 7)
Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Use the `axis` argument instead


2022-05-25 17:04:31.231941: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 AVX512F FMA
2022-05-25 17:04:31.238073: I tensorflow/core/platform/profile_utils/cpu_utils.cc:94] CPU Frequency: 2600000000 Hz
2022-05-25 17:04:31.239310: I tensorflow/compiler/xla/service/service.cc:150] XLA service 0x561ba292c260 executing computations on platform Host. Devices:
2022-05-25 17:04:31.239369: I tensorflow/compiler/xla/service/service.cc:158]   StreamExecutor device (0): <undefined>, <undefined>


Instructions for updating:
Use standard file APIs to check for files with this prefix.
INFO:tensorflow:Restoring parameters from Data/Models/generation_model/model_nextitnet_transfer_pretrain.ckpt
[[ 0.02349982  0.0305953   0.02199299 ... -0.03743219  0.01376248
   0.01151918]
 [-0.00584705 -0.01223884  0.00201045 ... -0.02342468  0.0076188
  -0.03312309]
 [-0.06083941 -0.11871241 -0.04665438 ...  0.02853298  0.14578229
   0.19798495]
 ...
 [-0.01338923  0.02334437  0.01299988 ... -0.02974786  0.00313042
  -0.0205938 ]
 [ 0.0266929  -0.01418035  0.00319476 ...  0.02045894 -0.00467984
  -0.00113745]
 [ 0.00076501  0.01438367 -0.03549717 ... -0.02710534  0.00743094
  -0.00200194]]
Instructions for updating:
Use tf.cast instead.
-------------------------------------------------------train1
LOSS: 0.7303035259246826\Reg_LOSS: 0.0011200506705790758	ITER: 0	BATCH_NO: 99	 STEP:100	 total_batches:500.0
('TIME FOR BATCH', 0.025456666946411133)
('TIME FOR ITER (mins)', 0.21213889122009277)
------