# 不规则张量
不规则张量是嵌套的可变长度列表的 TensorFlow 等效项。它们使存储和处理包含非均匀形状的数据变得容易
1. 可变长度特征，例如电影的演员名单。
2. 成批的可变长度顺序输入，例如句子或视频剪辑。
3. 分层输入，例如细分为节、段落、句子和单词的文本文档。
4. 结构化输入中的各个字段，例如协议缓冲区。
有一百多种 TensorFlow 运算支持不规则张量,包括:<br><br>**数学运算**（如 tf.add 和 tf.reduce_mean）、<br><br>**数组运算**（如 tf.concat 和 tf.tile）、<br><br>**字符串操作运算**（如 tf.substr）、<br><br>**控制流运算**（如 tf.while_loop 和 tf.map_fn）等：

In [1]:
import math
import tensorflow as tf

In [5]:
digits=tf.ragged.constant([[3, 1, 4, 1], [], [5, 9, 2], [6], []])
words=tf.ragged.constant([["So", "long"], ["thanks", "for", "all", "the", "fish"]])
print(tf.add(digits, 3))
print(tf.reduce_mean(digits, axis=1))
print(tf.concat([digits, [[5, 3]]], axis=0))
print(tf.tile(digits, [1, 2]))
print(tf.strings.substr(words, 0, 2))
print(tf.map_fn(tf.math.square, digits))


<tf.RaggedTensor [[6, 4, 7, 4], [], [8, 12, 5], [9], []]>
tf.Tensor([2.25              nan 5.33333333 6.                nan], shape=(5,), dtype=float64)
<tf.RaggedTensor [[3, 1, 4, 1], [], [5, 9, 2], [6], [], [5, 3]]>
<tf.RaggedTensor [[3, 1, 4, 1, 3, 1, 4, 1], [], [5, 9, 2, 5, 9, 2], [6, 6], []]>
<tf.RaggedTensor [[b'So', b'lo'], [b'th', b'fo', b'al', b'th', b'fi']]>
<tf.RaggedTensor [[9, 1, 16, 1], [], [25, 81, 4], [36], []]>


## 构造不规则张量
构造不规则张量的最简单方法是使用 tf.ragged.constant，
它会构建与给定的嵌套 Python list 或 numpy array 相对应的 RaggedTensor：

In [7]:
paragraphs = tf.ragged.constant([
    [['I', 'have', 'a', 'cat'], ['His', 'name', 'is', 'Mat']],
    [['Do', 'you', 'want', 'to', 'come', 'visit'], ["I'm", 'free', 'tomorrow']],
])
print(paragraphs)


<tf.RaggedTensor [[[b'I', b'have', b'a', b'cat'], [b'His', b'name', b'is', b'Mat']], [[b'Do', b'you', b'want', b'to', b'come', b'visit'], [b"I'm", b'free', b'tomorrow']]]>


如果知道每个值属于哪一行，可以使用 value_rowids 行分区张量构建 RaggedTensor：
![tf.RaggedTensor.from_value_rowids](https://tensorflow.google.cn/images/ragged_tensors/value_rowids.png)


In [8]:
print(tf.RaggedTensor.from_value_rowids(
    values=[3, 1, 4, 1, 5, 9, 2],
    value_rowids=[0, 0, 0, 0, 2, 2, 3]))


<tf.RaggedTensor [[3, 1, 4, 1], [], [5, 9], [2]]>


如果知道每行的长度，可以使用 row_lengths 行分区张量：
![tf.RaggedTensor.from_row_lengths](https://tensorflow.google.cn/images/ragged_tensors/row_lengths.png)

In [9]:
print(tf.RaggedTensor.from_row_lengths(
    values=[3, 1, 4, 1, 5, 9, 2],
    row_lengths=[4, 0, 2, 1]))


<tf.RaggedTensor [[3, 1, 4, 1], [], [5, 9], [2]]>


如果知道指示每行开始和结束的索引，可以使用 row_splits 行分区张量：
![tf.RaggedTensor.from_row_splits](https://tensorflow.google.cn/images/ragged_tensors/row_splits.png)

In [11]:
print(tf.RaggedTensor.from_row_splits(
    values=[3, 1, 4, 1, 5, 9, 2],
    row_splits=[0, 4, 4, 6, 7]))


<tf.RaggedTensor [[3, 1, 4, 1], [], [5, 9], [2]]>


## 可以在不规则张量中存储什么

与普通 Tensor 一样，RaggedTensor 中的所有值必须具有相同的类型；所有值必须处于相同的嵌套深度（张量的秩）：

In [13]:
print(tf.ragged.constant([["Hi"], ["How", "are", "you"]]))  # ok: type=string, rank=2
print(tf.ragged.constant([[[1, 2], [3]], [[4, 5]]]))        # ok: type=int32, rank=3
try:
  tf.ragged.constant([["one", "two"], [3, 4]])              # bad: multiple types
except ValueError as exception:
  print(exception)
try:
  tf.ragged.constant(["A", ["B", "C"]])                     # bad: multiple nesting depths
except ValueError as exception:
  print(exception)


<tf.RaggedTensor [[b'Hi'], [b'How', b'are', b'you']]>
<tf.RaggedTensor [[[1, 2], [3]], [[4, 5]]]>
Can't convert Python sequence with mixed types to Tensor.
all scalar values must have the same nesting depth


①生成索引表
②生成word的hash值
③根据hash值进行嵌入

④生成word带#的结尾与开头
⑤进行字母表的连接
![image](https://tensorflow.google.cn/images/ragged_tensors/ragged_example.png)

In [15]:
queries =tf.ragged.constant([['Who', 'is', 'Dan', 'Smith'],
                              ['Pause'],
                              ['Will', 'it', 'rain', 'later', 'today']])
# Create an embedding table.
num_buckets =1024
embedding_size = 4
embedding_table=tf.Variable(
    tf.random.normal(
        [num_buckets,embedding_size],stddev=1.0/math.sqrt(embedding_size)))
print(embedding_table.shape)
# Look up the embedding for each word.
word_buckets = tf.strings.to_hash_bucket_fast(queries, num_buckets)
word_embeddings = tf.nn.embedding_lookup(embedding_table, word_buckets) # ①

# Add markers to the beginning and end of each sentence.
marker = tf.fill([queries.nrows(), 1], '#')
padded = tf.concat([marker, queries, marker], axis=1)   # ②

# Build word bigrams & look up embeddings.
bigrams = tf.strings.join([padded[:, :-1], padded[:, 1:]], separator='+')
bigram_buckets = tf.strings.to_hash_bucket_fast(bigrams, num_buckets)
bigram_embeddings = tf.nn.embedding_lookup(embedding_table, bigram_buckets)
# Find the average embedding for each sentence
all_embeddings = tf.concat([word_embeddings, bigram_embeddings], axis=1)    # ⑤
avg_embedding = tf.reduce_mean(all_embeddings, axis=1)                      # ⑥
print(avg_embedding)


(1024, 4)
tf.Tensor(
[[ 0.08846062  0.03866541  0.41432765 -0.00089041]
 [-0.10011528  0.22524214  0.28767455 -0.11140803]
 [ 0.1195671  -0.2588686   0.24398302  0.06877986]], shape=(3, 4), dtype=float32)


使用单词进行小型的LSTM单元进行测试例子

In [17]:
sentences = tf.constant(
    ['What makes you think she is a witch?',
     'She turned me into a newt.',
     'A newt?',
     'Well, I got better.'])
is_question = tf.constant([True, False, True, False])

# Preprocess the input strings.

hash_buckets = 1000
words=tf.strings.split(sentences,' ')
hashed_words=tf.strings.to_hash_bucket_fast(words,hash_buckets)

# Build the Keras model.
keras_model=tf.keras.Sequential(
[
    tf.keras.layers.Input(shape=[None], dtype=tf.int64, ragged=True),
    tf.keras.layers.Embedding(hash_buckets,16),
    tf.keras.layers.LSTM(32, use_bias=False),
    tf.keras.layers.Dense(32),
    tf.keras.layers.Activation(tf.nn.relu),
    tf.keras.layers.Dense(1)

]
)
keras_model.compile(loss='binary_crossentropy', optimizer='rmsprop')
keras_model.fit(hashed_words, is_question, epochs=5)
print(keras_model.predict(hashed_words))


Epoch 1/5




Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
[[ 0.02688295]
 [ 0.00108126]
 [ 0.01995181]
 [-0.00023579]]
