# Python Project Structure

In [1]:
import torch
import torch.nn as nn

Embedding 层输入的每一位表示一个分类，embedding 的目的是将输入的每一位对应到一个向量上，相同的类对应相同的向量。假设离散的分类总共有 $C$ 类，那么就可以用 $[0, C-1]$ 之间的一个整数表示。Embedding对于这 $C$ 个不同整数，对应到 $C$ 个不同向量上。假设向量长度为 $N$，那么 Embedding 层的参数就应该是：

```py
nn.Embedding(C, N)
```

Embedding 层内部会用一个 $C\times N$ 的矩阵表示每个类对应到哪个向量上：

In [2]:
emb = nn.Embedding(10, 3)
emb.weight

Parameter containing:
tensor([[ 0.8373,  0.3786, -0.0782],
        [ 0.1326,  0.7976, -2.3274],
        [-0.4276, -0.4555, -1.3511],
        [ 0.1125,  0.6198, -1.4834],
        [ 1.8693, -0.5637, -1.9679],
        [-1.7449,  1.7056, -0.6247],
        [-1.8638,  2.4209, -0.2572],
        [ 0.1979, -0.2532,  0.8580],
        [-1.1505,  1.5513, -0.3498],
        [ 1.7300, -0.1363, -0.3816]], requires_grad=True)

In [3]:
emb(torch.LongTensor([0]))

tensor([[ 0.8373,  0.3786, -0.0782]], grad_fn=<EmbeddingBackward>)

In [4]:
emb(torch.LongTensor([1]))

tensor([[ 0.1326,  0.7976, -2.3274]], grad_fn=<EmbeddingBackward>)

如果输入的整数超过这个范围，就会报错：

In [5]:
emb(torch.LongTensor([10]))

RuntimeError: index out of range at /Users/soumith/code/builder/wheel/pytorch-src/aten/src/TH/generic/THTensorMath.cpp:352

因为 embedding 是对输入的每一位做的，输入的大小是多大都没有影响：

In [6]:
x = (torch.rand(2) * 10).long()
y = emb(x)
x.size(), y.size()

(torch.Size([2]), torch.Size([2, 3]))

In [7]:
x = (torch.rand(2, 4, 6) * 10).long()
y = emb(x)
x.size(), y.size()

(torch.Size([2, 4, 6]), torch.Size([2, 4, 6, 3]))