[toc]

# Tensorflow Embedding Lookup

In [1]:
import tensorflow as tf

In [14]:
embeddings = tf.constant([
    [0.1, 0.1, 0.1, 0.1],
    [0.2, 0.2, 0.2, 0.2],
    [0.3, 0.3, 0.3, 0.3],
    [0.4, 0.4, 0.4, 0.4],
])
embeddings

<tf.Tensor: shape=(4, 4), dtype=float32, numpy=
array([[0.1, 0.1, 0.1, 0.1],
       [0.2, 0.2, 0.2, 0.2],
       [0.3, 0.3, 0.3, 0.3],
       [0.4, 0.4, 0.4, 0.4]], dtype=float32)>

In [21]:
features = tf.constant([2,3])
features

<tf.Tensor: shape=(2,), dtype=int32, numpy=array([2, 3], dtype=int32)>

In [22]:
tf.nn.embedding_lookup(embeddings, features)

<tf.Tensor: shape=(2, 4), dtype=float32, numpy=
array([[0.3, 0.3, 0.3, 0.3],
       [0.4, 0.4, 0.4, 0.4]], dtype=float32)>

embedding_lookup 相当于 one-hot 之后进行矩阵乘法，好处是不需要真的进行 one-hot 操作。因为 one-hot 出来的矩阵会占很多空间。

也就是说，**`embedding_lookup` 可以看作一种针对特征情况的一种高效的矩阵乘法。**

In [23]:
one_hot = tf.one_hot(features, depth=4)
one_hot

<tf.Tensor: shape=(2, 4), dtype=float32, numpy=
array([[0., 0., 1., 0.],
       [0., 0., 0., 1.]], dtype=float32)>

In [25]:
tf.matmul(one_hot, embeddings)

<tf.Tensor: shape=(2, 4), dtype=float32, numpy=
array([[0.3, 0.3, 0.3, 0.3],
       [0.4, 0.4, 0.4, 0.4]], dtype=float32)>

## 多维的情况

In [26]:
embeddings

<tf.Tensor: shape=(4, 4), dtype=float32, numpy=
array([[0.1, 0.1, 0.1, 0.1],
       [0.2, 0.2, 0.2, 0.2],
       [0.3, 0.3, 0.3, 0.3],
       [0.4, 0.4, 0.4, 0.4]], dtype=float32)>

In [32]:
features = tf.constant([[2, 1],
                        [3, 1]])

tf.nn.embedding_lookup(embeddings, features)

<tf.Tensor: shape=(2, 2, 4), dtype=float32, numpy=
array([[[0.3, 0.3, 0.3, 0.3],
        [0.2, 0.2, 0.2, 0.2]],

       [[0.4, 0.4, 0.4, 0.4],
        [0.2, 0.2, 0.2, 0.2]]], dtype=float32)>