In [4]:
input_texts = [
    "我有一个苹果",
    "你好吗",
    "见到你很高兴",
    "我简直不敢相信",
    "我知道那种感觉",
    "我真的非常后悔",
    "我也这样以为",
    "这样可以吗",
    "这事可能发生在任何人身上",
    "我想要一个手机",
]
output_texts = [
    "I have a apple",
    "How are you",
    "Nice to meet you",
    "I can not believe it",
    "I know the feeling",
    "I really regret it",
    "I thought so, too",
    "Is that OK",
    "It can happen to anyone",
    "I want a iphone",
]

In [5]:
# 标准流程：对于中文句子，都会先对其进行分词后再进行后续的处理
# 这里为了简单，就简化处理了
def count_char(input_texts):
    input_characters = set()  # 用来存放输入集出现的中文字
    for input_text in input_texts:  # 遍历输入集的每一个句子
        for char in input_text:  # 遍历每个句子的每个字
            if char not in input_characters:
                input_characters.add(char)
    return input_characters


input_characters = count_char(input_texts)
input_characters

{'一',
 '上',
 '不',
 '个',
 '为',
 '也',
 '事',
 '人',
 '以',
 '任',
 '何',
 '你',
 '信',
 '兴',
 '到',
 '发',
 '可',
 '后',
 '吗',
 '在',
 '好',
 '常',
 '很',
 '悔',
 '想',
 '感',
 '我',
 '手',
 '敢',
 '有',
 '机',
 '果',
 '样',
 '生',
 '的',
 '直',
 '相',
 '真',
 '知',
 '种',
 '简',
 '能',
 '苹',
 '要',
 '见',
 '觉',
 '身',
 '这',
 '道',
 '那',
 '非',
 '高'}

In [6]:
# 同样的方法对输出的英文句子进行统计。值得注意的是，在每个输出句子中都添加了句子开头标记符号 > 和句子结尾标记符号 < 符号
def count_word(output_texts):
    target_characters = set()  # 用来存放输出集出现的单词
    target_texts = []  # 存放加了句子开头和结尾标记的句子
    for target_text in output_texts:  # 遍历输出集的每个句子
        target_text = "> " + target_text + " <"
        target_texts.append(target_text)
        word_list = target_text.split(" ")  # 对每个英文句子按空格划分，得到每个单词
        for word in word_list:  # 遍历每个单词
            if word not in target_characters:
                target_characters.add(word)
    return target_texts, target_characters


target_texts, target_characters = count_word(output_texts)
target_texts, target_characters

(['> I have a apple <',
  '> How are you <',
  '> Nice to meet you <',
  '> I can not believe it <',
  '> I know the feeling <',
  '> I really regret it <',
  '> I thought so, too <',
  '> Is that OK <',
  '> It can happen to anyone <',
  '> I want a iphone <'],
 {'<',
  '>',
  'How',
  'I',
  'Is',
  'It',
  'Nice',
  'OK',
  'a',
  'anyone',
  'apple',
  'are',
  'believe',
  'can',
  'feeling',
  'happen',
  'have',
  'iphone',
  'it',
  'know',
  'meet',
  'not',
  'really',
  'regret',
  'so,',
  'that',
  'the',
  'thought',
  'to',
  'too',
  'want',
  'you'})

In [7]:
# 建立一个字典，将字符序列化

input_characters = sorted(list(input_characters))  # 这里排序是为了每一次
target_characters = sorted(list(target_characters))  # 构建的字典都一样
# 构建字符到数字的字典，每个字符对应一个数字
input_token_index = dict([(char, i) for i, char in enumerate(input_characters)])
target_token_index = dict([(char, i) for i, char in enumerate(target_characters)])

input_token_index

{'一': 0,
 '上': 1,
 '不': 2,
 '个': 3,
 '为': 4,
 '也': 5,
 '事': 6,
 '人': 7,
 '以': 8,
 '任': 9,
 '何': 10,
 '你': 11,
 '信': 12,
 '兴': 13,
 '到': 14,
 '发': 15,
 '可': 16,
 '后': 17,
 '吗': 18,
 '在': 19,
 '好': 20,
 '常': 21,
 '很': 22,
 '悔': 23,
 '想': 24,
 '感': 25,
 '我': 26,
 '手': 27,
 '敢': 28,
 '有': 29,
 '机': 30,
 '果': 31,
 '样': 32,
 '生': 33,
 '的': 34,
 '直': 35,
 '相': 36,
 '真': 37,
 '知': 38,
 '种': 39,
 '简': 40,
 '能': 41,
 '苹': 42,
 '要': 43,
 '见': 44,
 '觉': 45,
 '身': 46,
 '这': 47,
 '道': 48,
 '那': 49,
 '非': 50,
 '高': 51}

In [8]:
# 构建反向字典，每个数字对应一个字符
reverse_input_char_index = dict((i, char) for char, i in input_token_index.items())

reverse_target_char_index = dict((i, char) for char, i in target_token_index.items())

reverse_input_char_index

{0: '一',
 1: '上',
 2: '不',
 3: '个',
 4: '为',
 5: '也',
 6: '事',
 7: '人',
 8: '以',
 9: '任',
 10: '何',
 11: '你',
 12: '信',
 13: '兴',
 14: '到',
 15: '发',
 16: '可',
 17: '后',
 18: '吗',
 19: '在',
 20: '好',
 21: '常',
 22: '很',
 23: '悔',
 24: '想',
 25: '感',
 26: '我',
 27: '手',
 28: '敢',
 29: '有',
 30: '机',
 31: '果',
 32: '样',
 33: '生',
 34: '的',
 35: '直',
 36: '相',
 37: '真',
 38: '知',
 39: '种',
 40: '简',
 41: '能',
 42: '苹',
 43: '要',
 44: '见',
 45: '觉',
 46: '身',
 47: '这',
 48: '道',
 49: '那',
 50: '非',
 51: '高'}

In [9]:
# 分别计算输入字符和输出单词的数量，以便后面对输入句子和输出句子进行独热编码。同时分别算出最长输入句子的长度和最长输出句子的长度
num_encoder_tokens = len(input_characters)  # 输入集不重复的字数
num_decoder_tokens = len(target_characters)  # 输出集不重复的单词数
max_encoder_seq_length = max([len(txt) for txt in input_texts])  # 输入集最长句子的长度
max_decoder_seq_length = max([len(txt) for txt in target_texts])  # 输出集最长句子的长度

In [10]:
# 将输入句子和输出句子都转化为向量的形式


import numpy as np

# 创三个全为 0 的三维矩阵，第一维为样本数，第二维为句最大句子长度，第三维为每个字符的独热编码。
encoder_input_data = np.zeros(
    (len(input_texts), max_encoder_seq_length, num_encoder_tokens), dtype="float32"
)
decoder_input_data = np.zeros(
    (len(input_texts), max_decoder_seq_length, num_decoder_tokens), dtype="float32"
)
decoder_target_data = np.zeros(
    (len(input_texts), max_decoder_seq_length, num_decoder_tokens), dtype="float32"
)

for i, (input_text, target_text) in enumerate(
    zip(input_texts, target_texts)
):  # 遍历输入集和输出集
    for t, char in enumerate(input_text):  # 遍历输入集每个句子
        encoder_input_data[i, t, input_token_index[char]] = 1.0  # 字符对应的位置等于 1
    for t, char in enumerate(target_text.split(" ")):  # 遍历输出集的每个单词
        # 解码器的输入序列
        decoder_input_data[i, t, target_token_index[char]] = 1.0
        if t > 0:
            # 解码器的输出序列
            decoder_target_data[i, t - 1, target_token_index[char]] = 1.0

In [11]:
encoder_input_data[0]

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 

In [12]:
import tensorflow as tf

# 潜空间向量？
latent_dim = 256  # 循环神经网络的神经单元数

# 编码器模型
encoder_inputs = tf.keras.Input(shape=(None, num_encoder_tokens))  # 编码器的输入
encoder = tf.keras.layers.LSTM(latent_dim, return_state=True)
encoder_outputs, state_h, state_c = encoder(encoder_inputs)  # 编码器的输出

encoder_states = [state_h, state_c]  # 状态值
encoder_states

[<KerasTensor shape=(None, 256), dtype=float32, sparse=False, name=keras_tensor_2>,
 <KerasTensor shape=(None, 256), dtype=float32, sparse=False, name=keras_tensor_3>]

In [13]:
# 解码器模型
decoder_inputs = tf.keras.Input(shape=(None, num_decoder_tokens))  # 解码器输入
decoder_lstm = tf.keras.layers.LSTM(
    latent_dim, return_sequences=True, return_state=True
)

# 初始化解码模型的状态值为 encoder_states
decoder_outputs, _, _ = decoder_lstm(decoder_inputs, initial_state=encoder_states)

# 连接一层全连接层，并使用 Softmax 求出每个时刻的输出
decoder_dense = tf.keras.layers.Dense(num_decoder_tokens, activation="softmax")
decoder_outputs = decoder_dense(decoder_outputs)  # 解码器输出
decoder_outputs

<KerasTensor shape=(None, None, 32), dtype=float32, sparse=False, name=keras_tensor_8>

In [14]:
# 定义训练模型
model = tf.keras.Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.summary()

In [15]:
# 定义优化算法和损失函数
model.compile(optimizer="adam", loss="categorical_crossentropy")

# 训练模型
model.fit(
    [encoder_input_data, decoder_input_data],
    decoder_target_data,
    batch_size=10,
    epochs=200,
)

Epoch 1/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1s/step - loss: 0.6425
Epoch 2/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step - loss: 0.6401
Epoch 3/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step - loss: 0.6377
Epoch 4/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step - loss: 0.6353
Epoch 5/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step - loss: 0.6328
Epoch 6/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 28ms/step - loss: 0.6302
Epoch 7/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step - loss: 0.6274
Epoch 8/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 30ms/step - loss: 0.6244
Epoch 9/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step - loss: 0.6211
Epoch 10/200
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step - loss: 0.6168
Epoch 11/20

<keras.src.callbacks.history.History at 0x1571e893590>

In [None]:
# 由于不知道输出序列的长度，所以要将编码器和解码器分开
# 将解码器的的第一个时刻的输入都设置为句子开头符号 > 。最后一个时刻的输出为句子结尾符号 < 。因此，在测试时，将句子开头符号 > 作为解码器第一个时刻的输入，预测出来的对应英文单词则作为下一个时刻的输入，依次循环。当输出为句子结尾符号 < 时，停止循环，将解码器所有的输出连起来得到一个翻译句子

# 当模型训练完成之后，得到的是一个编码器和一个解码器。而在测试时，先将要翻译的中文句子输入编码器中，经过编码器得到一个状态向量 C 。

In [16]:
# 重新定义编码器模型
encoder_model = tf.keras.Model(encoder_inputs, encoder_states)
encoder_model.summary()

In [17]:
""" 重新定义解码器模型 """
decoder_state_input_h = tf.keras.Input(shape=(latent_dim,))  # 解码器状态 H 输入
decoder_state_input_c = tf.keras.Input(shape=(latent_dim,))  # 解码器状态 C 输入
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]
decoder_outputs, state_h, state_c = decoder_lstm(
    decoder_inputs, initial_state=decoder_states_inputs
)  # LSTM 模型输出

decoder_states = [state_h, state_c]
decoder_outputs = decoder_dense(decoder_outputs)  # 连接一层全连接层
# 定义解码器模型
decoder_model = tf.keras.Model(
    [decoder_inputs] + decoder_states_inputs, [decoder_outputs] + decoder_states
)

decoder_model.summary()

In [18]:
def decode_sequence(input_seq):
    """
    decoder_dense:中文句子的向量形式。
    """
    # 使用编码器预测出状态值
    states_value = encoder_model.predict(input_seq)

    # 构建解码器的第一个时刻的输入，即句子开头符号 >
    target_seq = np.zeros((1, 1, num_decoder_tokens))
    target_seq[0, 0, target_token_index[">"]] = 1.0
    stop_condition = False  # 设置停止条件
    decoded_sentence = []  # 存放结果
    while not stop_condition:
        # 预测出解码器的输出
        output_tokens, h, c = decoder_model.predict([target_seq] + states_value)
        # 求出对应的字符
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_char = reverse_target_char_index[sampled_token_index]
        # 如果解码的输出为句子结尾符号 < ，则停止预测
        if sampled_char == "<" or len(decoded_sentence) > max_decoder_seq_length:
            stop_condition = True
        if sampled_char != "<":
            decoded_sentence.append(sampled_char)
        target_seq = np.zeros((1, 1, num_decoder_tokens))
        target_seq[0, 0, sampled_token_index] = 1.0
        # 更新状态，用来继续送入下一个时刻
        states_value = [h, c]
    return decoded_sentence

In [19]:
def answer(question):
    # 将句子转化为一个数字矩阵
    inseq = np.zeros((1, max_encoder_seq_length, num_encoder_tokens), dtype="float32")
    for t, char in enumerate(question):
        inseq[0, t, input_token_index[char]] = 1.0
    # 输入模型得到输出结果
    decoded_sentence = decode_sequence(inseq)
    return decoded_sentence


test_sent = "我有一个苹果"
result = answer(test_sent)
print("中文句子：", test_sent)
print("翻译结果：", " ".join(result))

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 92ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 93ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
中文句子： 我有一个苹果
翻译结果： I have a a


In [25]:
print("请输入中文句子，按回车键结束。")
test_sent = input()
result = answer(test_sent)
print("中文句子：", test_sent)
print("翻译结果：", " ".join(result))

请输入中文句子，按回车键结束。


 我想要苹果


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step
中文句子： 我想要苹果
翻译结果： I a a


In [None]:
# 一般商用的神经机器翻译系统都是用 TB 级别的数据来训练的