# WEEK 18

2024/08/05 - 2024/08/11

## 深度学习 C5_W4

### 1. 创建位置编码

- **位置编码（Positional Encoding）**：
  - 在Transformer模型中，没有卷积或递归结构来捕捉输入序列中的顺序信息，因此需要为输入序列添加位置编码。
  - 位置编码通过正弦和余弦函数为每个位置生成唯一的向量，并将其添加到输入嵌入中。
  - 位置编码的公式如下：
    \[
    PE_{(pos, 2i)} = \sin \left( \frac{pos}{10000^{2i/d_{model}}} \right)
    \]
    \[
    PE_{(pos, 2i+1)} = \cos \left( \frac{pos}{10000^{2i/d_{model}}} \right)
    \]

- **代码示例**：

```python
import numpy as np
import tensorflow as tf

def get_angles(pos, i, d_model):
    angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    return pos * angle_rates

def positional_encoding(position, d_model):
    angle_rads = get_angles(np.arange(position)[:, np.newaxis],
                            np.arange(d_model)[np.newaxis, :],
                            d_model)

    # apply sin to even indices in the array; 2i
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])

    # apply cos to odd indices in the array; 2i+1
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])

    pos_encoding = angle_rads[np.newaxis, ...]

    return tf.cast(pos_encoding, dtype=tf.float32)

# 示例
position = 50
d_model = 512
pos_encoding = positional_encoding(position, d_model)
print(pos_encoding.shape)  # (1, 50, 512)
```

### 2. 捕捉数据中的顺序关系

- **顺序关系**：
  - 通过位置编码，Transformer能够捕捉输入序列中的顺序关系。
  - 位置编码为每个时间步的输入增加了位置信息，使模型能够区分相同词语在不同位置的不同含义。

### 3. 利用词嵌入计算缩放点积自注意力

- **缩放点积自注意力（Scaled Dot-Product Attention）**：
  - 自注意力机制用于计算序列中每个元素对其他元素的注意力权重。
  - 缩放点积自注意力的计算公式如下：
    \[
    Attention(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V
    \]
  - 其中，\(Q\)、\(K\)和\(V\)分别是查询、键和值矩阵，\(d_k\)是键向量的维度。

- **代码示例**：

```python
import tensorflow as tf
from tensorflow.keras.layers import Dense

def scaled_dot_product_attention(q, k, v, mask):
    matmul_qk = tf.matmul(q, k, transpose_b=True)

    dk = tf.cast(tf.shape(k)[-1], tf.float32)
    scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

    if mask is not None:
        scaled_attention_logits += (mask * -1e9)

    attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)

    output = tf.matmul(attention_weights, v)

    return output, attention_weights

# 示例
d_model = 512
num_heads = 8

q = tf.random.uniform((1, 60, d_model))
k = tf.random.uniform((1, 60, d_model))
v = tf.random.uniform((1, 60, d_model))

output, attention_weights = scaled_dot_product_attention(q, k, v, None)
print(output.shape)  # (1, 60, 512)
```

### 4. 实施遮蔽式多头关注

- **多头注意力（Multi-Head Attention）**：
  - 在多头注意力中，使用多个注意力头并行处理输入，以捕捉不同位置之间的关系。
  - 每个注意力头都有自己的查询、键和值矩阵，然后将这些头的输出拼接在一起，并通过一个线性层进行变换。

- **遮蔽（Masking）**：
  - 遮蔽用于避免在计算注意力时关注到未来的词语或填充的词语。
  - 在训练时，使用前向遮蔽（look-ahead mask）来防止模型看到未来的词语。

- **代码示例**：

```python
class MultiHeadAttention(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.d_model = d_model

        assert d_model % self.num_heads == 0

        self.depth = d_model // self.num_heads

        self.wq = Dense(d_model)
        self.wk = Dense(d_model)
        self.wv = Dense(d_model)

        self.dense = Dense(d_model)

    def split_heads(self, x, batch_size):
        x = tf.reshape(x, (batch_size, -1, self.num_heads, self.depth))
        return tf.transpose(x, perm=[0, 2, 1, 3])

    def call(self, v, k, q, mask):
        batch_size = tf.shape(q)[0]

        q = self.wq(q)
        k = self.wk(k)
        v = self.wv(v)

        q = self.split_heads(q, batch_size)
        k = self.split_heads(k, batch_size)
        v = self.split_heads(v, batch_size)

        scaled_attention, attention_weights = scaled_dot_product_attention(q, k, v, mask)

        scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])

        concat_attention = tf.reshape(scaled_attention, (batch_size, -1, self.d_model))

        output = self.dense(concat_attention)

        return output, attention_weights
```

### 5. 建立并训练变压器模型

- **变压器模型（Transformer Model）**：
  - 变压器模型由编码器和解码器组成，每个编码器和解码器都有多个层堆叠而成。
  - 编码器层包括多头注意力和前馈神经网络，解码器层还包括额外的多头注意力用于接收编码器的输出。

- **代码示例**：

```python
class EncoderLayer(tf.keras.layers.Layer):
    def __init__(self, d_model, num_heads, dff, rate=0.1):
        super(EncoderLayer, self).__init__()

        self.mha = MultiHeadAttention(d_model, num_heads)
        self.ffn = point_wise_feed_forward_network(d_model, dff)

        self.layernorm1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)

        self.dropout1 = tf.keras.layers.Dropout(rate)
        self.dropout2 = tf.keras.layers.Dropout(rate)

    def call(self, x, training, mask):
        attn_output, _ = self.mha(x, x, x, mask)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(x + attn_output)

        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        out2 = self.layernorm2(out1 + ffn_output)

        return out2

# 示例
d_model = 512
num_heads = 8
dff = 2048
dropout_rate = 0.1

encoder_layer = EncoderLayer(d_model, num_heads, dff, dropout_rate)
sample_encoder_output = encoder_layer(tf.random.uniform((64, 43, d_model)), False, None)
print(sample_encoder_output.shape)  # (64, 43, 512)
```

### 6. 微调用于命名实体识别的预训练转换器模型

- **预训练转换器模型（Pre-trained Transformer Models）**：
  - 预训练的Transformer模型如BERT、GPT-3等，已在大规模语料库上进行了预训练，可以用于各种下游任务。
  - 可以对预训练模型进行微调，以适应特定任务，如命名实体识别（NER）。

- **代码示例**：

```python
from transformers import TFBertModel, BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
bert_model = TFBertModel.from_pretrained('bert-base-cased')

input_ids = tf.constant(tokenizer.encode("Hello, my name is Bert.", add_special_tokens=True))[None, :]
outputs = bert_model(input_ids)

print(outputs.last_hidden_state.shape)  # (1, 8, 768)
```

### 7. 使用预训练模型进行命

名实体识别

- **命名实体识别（NER）**：
  - NER是从文本中识别出实体名称（如人名、地名、组织名等）的任务。
  - 可以使用预训练的BERT模型进行微调，使其适应NER任务。

- **代码示例**：

```python
from transformers import TFBertForTokenClassification

ner_model = TFBertForTokenClassification.from_pretrained('bert-base-cased', num_labels=9)
ner_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 示例数据
X = tf.random.uniform((32, 50), maxval=100, dtype=tf.int32)
y = tf.random.uniform((32, 50), maxval=9, dtype=tf.int32)

ner_model.fit(X, y, epochs=3)
```
