In [1]:
import tensorflow as tf
from tensorflow import keras
import tensorflow.keras.layers.experimental.preprocessing as layers

## StringLookUp
StringLookup 和哈希函数在某种程度上确实有相似之处，因为它们都可以将输入映射到数字。然而，它们之间存在一些重要区别和独特之处：

确定性：
StringLookup 是确定性的，即相同的输入字符串将始终映射到相同的整数标识符。这对于深度学习模型的可重现性和稳定性非常重要。
哈希函数在某种程度上是确定性的，但在某些情况下可能会发生碰撞，即不同的输入可能映射到相同的哈希值，这可能会导致信息丢失。
可解释性：
StringLookup 可以轻松地反向查找，即从整数标识符映射回原始字符串。这在需要理解模型输出时非常有用。
哈希函数是单向的，通常不支持从哈希值反向查找回原始值。
控制词汇表：
StringLookup 允许你显式控制词汇表，可以指定要映射的字符串集合，以及如何处理未知词。
哈希函数通常不提供对输入的控制，它会根据输入自动计算哈希值。
处理未知词：
StringLookup 允许你指定处理未知词的策略，例如将其映射到特定的标识符，这在处理新数据时非常有用。
哈希函数无法处理未知词，因为它们只是将输入映射到固定长度的哈希值。
总的来说，StringLookup 提供了更多的控制选项和功能，特别适用于处理文本数据时需要考虑词汇表、未知词处理和可解释性的情况。在深度学习模型中，通常会选择使用 StringLookup 来处理文本数据，因为它提供了更多的灵活性和可控性。

In [2]:
## 显式的指定词汇表
vocab = ["a", "b", "c", "d"]
data = tf.constant([["a", "c", "d"], ["d", "z", "b"]])
layer = layers.StringLookup(vocabulary=vocab)
layer(data)

<tf.Tensor: shape=(2, 3), dtype=int64, numpy=
array([[2, 4, 5],
       [5, 1, 3]], dtype=int64)>

In [3]:
layer = layers.StringLookup()
layer(data)

<tf.Tensor: shape=(2, 3), dtype=int64, numpy=
array([[1, 1, 1],
       [1, 1, 1]], dtype=int64)>

In [4]:
ctr_hidden = keras.Input(shape=(64,))
layer = keras.layers.Dense(1, activation=keras.activations.sigmoid, name="CTR")
ctr_logit = layer(ctr_hidden)
my_functional_model = tf.keras.Model(inputs=ctr_hidden, outputs=ctr_logit)
my_functional_model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 64)]              0         
_________________________________________________________________
CTR (Dense)                  (None, 1)                 65        
Total params: 65
Trainable params: 65
Non-trainable params: 0
_________________________________________________________________
