# 待研究问题

- [tensorflow-hub](https://tfhub.dev/)  
- [tensorflow-hub的使用](https://tf.wiki/zh/appendix/tfhub.html)  
- [TensorFlow Embeddings ](https://www.tensorflow.org/tutorials/text/word_embeddings)  
- [一个使用tf-hub导入的模型，可以实现导入句子，导出Embedding](https://tfhub.dev/google/universal-sentence-encoder-large/5)  
- [tf.data](https://tf.wiki/zh/basic/tools.html#tfdata)  


# GPU/cpu问题

## GPU测试

In [1]:
from __future__ import absolute_import, division, print_function, unicode_literals

import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.experimental.list_physical_devices('GPU')))

Num GPUs Available:  1


## 显存限制-防止溢出

In [None]:
import tensorflow as tf
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
    # Restrict TensorFlow to only allocate 1GB of memory on the first GPU
    try:
        tf.config.experimental.set_virtual_device_configuration(
            gpus[0],
            [tf.config.experimental.VirtualDeviceConfiguration(memory_limit=4096)])
        # 通过这里的memory_limit来进行设置
        logical_gpus = tf.config.experimental.list_logical_devices('GPU')
        print(len(gpus), "Physical GPUs,", len(logical_gpus), "Logical GPUs")
    except RuntimeError as e:
        # Virtual devices must be set before GPUs have been initialized
        print(e)

## 设置cpu运行

In [None]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '1'# gpu报错 使用cpu运行
# os.environ["TF_CPP_MIN_LOG_LEVEL"] = '3'

# 使用jupyter的时候要导入.py文件包的时候的配置

In [None]:
# 正常情况下不用使用
%load_ext autoreload
%autoreload 2
import warnings
# warnings.filterwarnings("ignore")
import sys
# 要导入代码的路径 ,utils无法导入的时候使用,添加上自己code的路径 ,项目代码结构 code/utils ....
sys.path.append('/home/roger/kaikeba/03_lecture/code')  # 这里设置自己的路径

# 加载数据

## 加载txt文件

In [None]:
# 方式一：这里的root在config文件中定义，导入这里即可
with open (root,"r", encoding='utf-8') as f:
    data_in = f.read()
with open (root,"r", encoding='utf-8') as f:
    data_out = f.read()
    
# 方式二：若不在config中定义时可直接填写路径
root='data/couplet'  # 两个路径前边相同，故设置了相同的部分为root
with open (root+"/train/in.txt","r", encoding='utf-8') as f:
    data_in = f.read()
with open (root+"/train/out.txt","r", encoding='utf-8') as f:
    data_out = f.read()
    
# 方式三：使用numpy的方法  这个方法被封装在了config文件里边的load_dataset()函数里边
#使用这样的一行代码可以实现数据集的加载
# train_X,train_Y,test_X = load_dataset()
train_X = np.loadtxt(train_x_path)
train_Y = np.loadtxt(train_y_path)
test_X = np.loadtxt(test_x_path)
# 设置类型转换
train_X.dtype = 'float64'
train_Y.dtype = 'float64'
test_X.dtype = 'float64'

## 加载csv文件

In [None]:
# 使用的是pandas的方法：
data = pd.read_csv(train_data_path)

## 加载预训练权重

In [None]:
# 这里的字典在预处理文件中都处理好的直接加载进来（该处理的函数在utils文件的data_loader文件中）
embedding_matrix=load_embedding_matrix()

## 加载字典/构造字典

### 加载字典

In [None]:
# 这里的字典在预处理文件中都处理好的直接加载进来（该处理的函数在utils文件的data_loader文件中）
vocab,reverse_vocab=load_vocab(vocab_path)

### 构造字典

In [None]:
# 下边是一种方式，提供一种思路
import itertools
# 获取所有的字
words = list(itertools.chain.from_iterable(train_X))+list(itertools.chain.from_iterable(train_Y))
# 去重
words = set(words)
# 构建vocab
vocab = {word: index+1 for index ,word in enumerate(words)}
# 添加unk标签
vocab["unk"] = 0
# 也可以使用data_loader文件中封装的方法构建

# 数据预处理

## build_dataset
使用utils里边的data_loader封装好的build_dataset方法进行数据的预处理

## 使用tf.keras的方法进行预处理

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 这里的预处理是使用的是tensorflow.keras.preprocessing.sequence里边的pad_sequences进行的预处理
# 它把<PAD>置为0，填充不足的位数

# 转换成索引
train_X_ids = [[vocab.get(word,0) for word in sen] for sen in train_X]
train_Y_ids = [[vocab.get(word,0) for word in sen] for sen in train_Y]
# 填充长度
train_X_ids = pad_sequences(train_X_ids,maxlen=100,padding='post')
train_Y_ids = pad_sequences(train_Y_ids,maxlen=100,padding='post')
# 维度不够就扩展维度

# 预处理的最终返回值

通常返回的都是由索引组成的数据  
`array([[32800.,   403.,   986., ..., 32803., 32803., 32803.],
       [32800.,   791., 32801., ..., 32803., 32803., 32803.],
       [32800.,  1452.,    82., ..., 32803., 32803., 32803.],
       ...,
       [32800.,  3669.,  4535., ..., 32803., 32803., 32803.],
       [32800.,  3669., 32801., ..., 32803., 32803., 32803.],
       [32800.,   253.,  1369., ..., 32803., 32803., 32803.]])`

# 设置模型需要的参数

In [None]:
# 这里要具体问题具体分析
# 训练集的长度
BUFFER_SIZE = len(train_X)

# 输入的长度
max_length_inp=train_X.shape[1]
# 输出的长度
max_length_targ=train_Y.shape[1]

# 这里的Batch_size通常越大越好，但是过大的话可能会超出内存直接崩掉
# 具体的大小要结合硬件设备来确定
BATCH_SIZE = 64

# 训练一轮需要迭代多少步（即训练多少步才能将整个训练集训练完一遍）  直接用训练集总数除以batch_size
steps_per_epoch = len(train_X)//BATCH_SIZE

# 词向量维度  这里必须要设置为预训练的词向量的维数
embedding_dim = 300

# 隐藏层单元数  Encoder Decoder的隐藏层单元数量，可以自己设置
# 这里大一点会拟合的更好，但是过大会过拟合（如数据量少，隐藏单元多，这样基本就过拟合）
units = 1024

# 词表大小
vocab_size = len(vocab)

# 创建tf.data数据集

In [None]:
# 构建训练集
# 这里直接将我们的训练数据使用TensorFlow里边的tf.data.Dataset这个方法直接把它封起来，进行打乱
# 这里和之前拿到训练数据，构建dataset的思路一样
dataset = tf.data.Dataset.from_tensor_slices((train_X, train_Y)).shuffle(BUFFER_SIZE)
dataset = dataset.batch(BATCH_SIZE, drop_remainder=True)


# 从这里边将数据导入模型的方式
for (batch, (inp, targ)) in enumerate(dataset.take(steps_per_epoch)):
        # 这里的inp: train_X, targ：train_Y
        # 遍历轮数和训练集
        # batch:第几次batch_size,(inp, targ)输入的内容是什么
        batch_loss = train_step(inp, targ, enc_hidden)
        total_loss += batch_loss

# 模型构建

# 模型训练

In [None]:
model.fit(train_X_ids,train_Y_ids, batch_size =64, epochs =1, validation_split = 0.2) 

# 模型保存

In [None]:
model.save('data/epochs_10_batch_64_model.h5')

# 模型加载

In [None]:
model = tf.keras.models.load_model('data/epochs_10_batch_64_model.h5')