In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import math
from transformers import BertTokenizer

In [2]:
class Embeddings(nn.Module):
    """
    Implements embeddings of the words and adds their positional encodings. 
    """
    def __init__(self, vocab_size, d_model, max_len, num_layers = 6):
        super(Embeddings, self).__init__()
        self.d_model = d_model
        self.dropout = nn.Dropout(0.1)
        self.embed = nn.Embedding(vocab_size, d_model)
        self.pe = self.create_positinal_encoding(max_len, self.d_model)     # (1, max_len, d_model)
        self.te = self.create_positinal_encoding(num_layers, self.d_model)  # (1, num_layers, d_model)
        self.dropout = nn.Dropout(0.1)
        
    def create_positinal_encoding(self, max_len, d_model):
        pe = torch.zeros(max_len, d_model).to(device)
        for pos in range(max_len):   # for each position of the word
            for i in range(0, d_model, 2):   # for each dimension of the each position
                pe[pos, i] = math.sin(pos / (10000 ** ((2 * i)/d_model)))
                pe[pos, i + 1] = math.cos(pos / (10000 ** ((2 * (i + 1))/d_model)))
        pe = pe.unsqueeze(0)   # include the batch size
        return pe
        
    def forward(self, embedding, layer_idx):
        if layer_idx == 0:
            embedding = self.embed(embedding) * math.sqrt(self.d_model)
        embedding += self.pe[:, :embedding.size(1)]   # pe will automatically be expanded with the same batch size as encoded_words
        # embedding: (batch_size, max_len, d_model), te: (batch_size, 1, d_model)
        embedding += self.te[:, layer_idx, :].unsqueeze(1).repeat(1, embedding.size(1), 1)
        embedding = self.dropout(embedding)
        return embedding

class MultiHeadAttention(nn.Module):
    
    def __init__(self, heads, d_model):
        
        super(MultiHeadAttention, self).__init__()
        assert d_model % heads == 0
        self.d_k = d_model // heads
        self.heads = heads
        self.dropout = nn.Dropout(0.1)
        self.query = nn.Linear(d_model, d_model)
        self.key = nn.Linear(d_model, d_model)
        self.value = nn.Linear(d_model, d_model)
        self.concat = nn.Linear(d_model, d_model)
        
    def forward(self, query, key, value, mask):
        """
        query, key, value of shape: (batch_size, max_len, 512)
        mask of shape: (batch_size, 1, 1, max_words)
        """
        # (batch_size, max_len, 512)
        query = self.query(query)
        key = self.key(key)        
        value = self.value(value)   
        
        # (batch_size, max_len, 512) --> (batch_size, max_len, h, d_k) --> (batch_size, h, max_len, d_k)
        query = query.view(query.shape[0], -1, self.heads, self.d_k).permute(0, 2, 1, 3)   
        key = key.view(key.shape[0], -1, self.heads, self.d_k).permute(0, 2, 1, 3)  
        value = value.view(value.shape[0], -1, self.heads, self.d_k).permute(0, 2, 1, 3)  
        
        # (batch_size, h, max_len, d_k) matmul (batch_size, h, d_k, max_len) --> (batch_size, h, max_len, max_len)
        scores = torch.matmul(query, key.permute(0,1,3,2)) / math.sqrt(query.size(-1))
        scores = scores.masked_fill(mask == 0, -1e9)    # (batch_size, h, max_len, max_len)
        weights = F.softmax(scores, dim = -1)           # (batch_size, h, max_len, max_len)
        weights = self.dropout(weights)
        # (batch_size, h, max_len, max_len) matmul (batch_size, h, max_len, d_k) --> (batch_size, h, max_len, d_k)
        context = torch.matmul(weights, value)
        # (batch_size, h, max_len, d_k) --> (batch_size, max_len, h, d_k) --> (batch_size, max_len, h * d_k)
        context = context.permute(0,2,1,3).contiguous().view(context.shape[0], -1, self.heads * self.d_k)
        # (batch_size, max_len, h * d_k)
        interacted = self.concat(context)
        return interacted 

class FeedForward(nn.Module):

    def __init__(self, d_model, middle_dim = 2048):
        super(FeedForward, self).__init__()
        
        self.fc1 = nn.Linear(d_model, middle_dim)
        self.fc2 = nn.Linear(middle_dim, d_model)
        self.dropout = nn.Dropout(0.1)

    def forward(self, x):
        out = F.relu(self.fc1(x))
        out = self.fc2(self.dropout(out))
        return out

class EncoderLayer(nn.Module):

    def __init__(self, d_model, heads):
        super(EncoderLayer, self).__init__()
        self.layernorm = nn.LayerNorm(d_model)
        self.self_multihead = MultiHeadAttention(heads, d_model)
        self.feed_forward = FeedForward(d_model)
        self.dropout = nn.Dropout(0.1)

    def forward(self, embeddings, mask):
        interacted = self.dropout(self.self_multihead(embeddings, embeddings, embeddings, mask))
        interacted = self.layernorm(interacted + embeddings)
        feed_forward_out = self.dropout(self.feed_forward(interacted))
        encoded = self.layernorm(feed_forward_out + interacted)
        return encoded

class DecoderLayer(nn.Module):
    
    def __init__(self, d_model, heads):
        super(DecoderLayer, self).__init__()
        self.layernorm = nn.LayerNorm(d_model)
        self.self_multihead = MultiHeadAttention(heads, d_model)
        self.src_multihead = MultiHeadAttention(heads, d_model)
        self.feed_forward = FeedForward(d_model)
        self.dropout = nn.Dropout(0.1)
        
    def forward(self, embeddings, encoded, src_mask, target_mask):
        query = self.dropout(self.self_multihead(embeddings, embeddings, embeddings, target_mask))
        query = self.layernorm(query + embeddings)
        interacted = self.dropout(self.src_multihead(query, encoded, encoded, src_mask))
        interacted = self.layernorm(interacted + query)
        feed_forward_out = self.dropout(self.feed_forward(interacted))
        decoded = self.layernorm(feed_forward_out + interacted)
        return decoded

class Transformer(nn.Module):
    
    def __init__(self, d_model, heads, num_layers, word_map, max_len):
        super(Transformer, self).__init__()
        
        self.d_model = d_model
        self.num_layers = num_layers
        self.vocab_size = len(word_map)
        self.embed = Embeddings(self.vocab_size, d_model, num_layers = num_layers)
        self.encoder = EncoderLayer(d_model, heads) 
        self.decoder = DecoderLayer(d_model, heads)
        self.logit = nn.Linear(d_model, self.vocab_size)
        
    def encode(self, src_embeddings, src_mask):
        for i in range(self.num_layers):
            src_embeddings = self.embed(src_embeddings, i)
            src_embeddings = self.encoder(src_embeddings, src_mask)
        return src_embeddings
    
    def decode(self, tgt_embeddings, target_mask, src_embeddings, src_mask):
        for i in range(self.num_layers):
            tgt_embeddings = self.embed(tgt_embeddings, i)
            tgt_embeddings = self.decoder(tgt_embeddings, src_embeddings, src_mask, target_mask)
        return tgt_embeddings
        
    def forward(self, src_words, src_mask, target_words, target_mask):
        encoded = self.encode(src_words, src_mask)
        decoded = self.decode(target_words, target_mask, encoded, src_mask)
        out = F.log_softmax(self.logit(decoded), dim = 2)
        return out

class AdamWarmup:
    
    def __init__(self, model_size, warmup_steps, optimizer):
        
        self.model_size = model_size
        self.warmup_steps = warmup_steps
        self.optimizer = optimizer
        self.current_step = 0
        self.lr = 0
        
    def get_lr(self):
        return self.model_size ** (-0.5) * min(self.current_step ** (-0.5), self.current_step * self.warmup_steps ** (-1.5))
        
    def step(self):
        # Increment the number of steps each time we call the step function
        self.current_step += 1
        lr = self.get_lr()
        for param_group in self.optimizer.param_groups:
            param_group['lr'] = lr
        # update the learning rate
        self.lr = lr
        self.optimizer.step()       

In [3]:
checkpoint = torch.load('./checkpoint/checkpoint_49.pth.tar')
transformer = checkpoint['transformer']

tokenizer = BertTokenizer.from_pretrained(
    pretrained_model_name_or_path='bert-base-chinese',
    cache_dir='./tokenizer',
    force_download=False)

word_map = tokenizer.get_vocab()

max_len = 200

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

'(MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /bert-base-chinese/resolve/main/tokenizer_config.json (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000016967815D10>, 'Connection to huggingface.co timed out. (connect timeout=10)'))"), '(Request ID: a43841b6-2c65-40c0-b2b9-dfdb8fd48c95)')' thrown while requesting HEAD https://huggingface.co/bert-base-chinese/resolve/main/tokenizer_config.json


In [4]:
def evaluate(transformer, question, question_mask, max_len, word_map):
    """
    Performs Greedy Decoding with a batch size of 1
    """
    rev_word_map = {v: k for k, v in word_map.items()}
    transformer.eval()
    start_token = word_map['[CLS]']
    encoded = transformer.encode(question, question_mask)
    words = torch.LongTensor([[start_token]]).to(device)
    
    for step in range(max_len - 1):
        size = words.shape[1]
        target_mask = torch.triu(torch.ones(size, size)).transpose(0, 1).type(dtype=torch.uint8)
        target_mask = target_mask.to(device).unsqueeze(0).unsqueeze(0)
        decoded = transformer.decode(words, target_mask, encoded, question_mask)
        predictions = transformer.logit(decoded[:, -1])
        _, next_word = torch.max(predictions, dim = 1)
        next_word = next_word.item()
        if next_word == word_map['[SEP]']:
            break
        words = torch.cat([words, torch.LongTensor([[next_word]]).to(device)], dim = 1)   # (1,step+2)
        
    # Construct Sentence
    if words.dim() == 2:
        words = words.squeeze(0)
        words = words.tolist()
        
    sen_idx = [w for w in words if w not in {word_map['[CLS]']}]
    sentence = ' '.join([rev_word_map[sen_idx[k]] for k in range(len(sen_idx))])
    
    return sentence

In [5]:
while(1):
    question = input("Question: ") 
    if question == 'quit':
        break
    encoded_question = tokenizer.encode_plus(question,return_tensors="pt")
    question_ids = encoded_question["input_ids"]
    enc_qus = question_ids[0].tolist()
    question = torch.LongTensor(enc_qus).to(device).unsqueeze(0)
    question_mask = (question!=0).to(device).unsqueeze(1).unsqueeze(1) 
    sentence = evaluate(transformer, question, question_mask, int(max_len), word_map)
    print(sentence)

Question:  hello


你 好 ， 癫 痫 病 的 治 疗 方 法 有 很 多 ， 关 键 是 要 看 治 疗 原 理 是 否 符 合 发 病 机 制 ， 癫 痫 病 的 治 疗 方 法 有 很 多 ， 关 键 是 要 看 治 疗 原 理 是 否 符 合 发 病 机 制 ， 癫 痫 病 患 者 的 日 常 治 疗 主 要 是 对 症 下 药 ， 患 者 可 以 用 一 些 口 服 药 物 ， 配 合 一 些 维 生 素 ， 而 且 注 意 自 身 护 理 ， 合 理 饮 食 ， 避 免 寒 冷 食 物 ， 最 后 希 望 癫 痫 病 患 者 可 以 尽 快 康 复 ！


Question:  心痛，气短


你 好 ， 这 种 情 况 可 能 是 有 心 肌 供 血 不 足 或 者 心 肌 供 血 不 足 的 情 况 ， 可 以 应 用 扩 血 管 药 物 治 疗 看 。 平 时 注 意 适 当 运 动 调 理 。 ， 心 脏 神 经 官 能 症 对 患 者 们 带 来 的 危 害 是 非 常 大 的 ， 一 旦 发 现 自 身 的 症 状 ， 就 要 及 时 就 医 诊 治 ， 同 时 多 重 视 饮 食 问 题 ， 以 清 淡 食 物 为 主 ， 希 望 心 脏 神 经 官 能 症 患 者 能 得 到 专 业 治 疗 。


Question:  胸闷气短，喘气


你 好 ， 这 种 情 况 可 能 是 有 慢 性 咽 炎 或 咽 炎 ， 建 议 口 服 阿 奇 霉 素 ， 利 咽 颗 粒 ， 利 咽 颗 粒 ， 多 喝 水 ， 忌 辛 辣 刺 激 性 饮 食 ， 多 喝 水 。 ， 对 于 慢 性 咳 嗽 疾 病 的 出 现 ， 患 者 朋 友 们 应 该 做 到 积 极 对 症 治 疗 ， 因 为 早 期 的 慢 性 咳 嗽 是 容 易 得 到 缓 解 的 。 患 者 们 不 要 错 过 治 疗 的 好 时 机 。


Question:  喉咙痛


你 好 ， 这 种 情 况 可 能 是 有 心 肌 供 血 不 足 或 者 心 肌 供 血 不 足 的 情 况 ， 建 议 进 一 步 胸 片 或 者 透 视 检 查 。 另 外 需 要 注 意 是 不 是 有 心 肌 供 血 不 足 。 可 以 做 一 下 冠 脉 造 影 看 看 ， 极 对 症 治 疗 为 好 的 ， 心 脏 病 对 患 者 们 带 来 的 伤 害 是 非 常 大 的 ， 一 旦 发 现 自 身 的 症 状 ， 就 要 及 时 就 医 诊 治 ， 同 时 多 重 视 饮 食 问 题 ， 以 清 淡 食 物 为 主 ， 希 望 心 脏 病 患 者 能 得 到 专 业 治 疗 。


Question:  胃口不好


你 好 ， 这 种 情 况 应 该 是 有 胃 炎 或 胃 溃 疡 等 问 题 造 成 的 ， 可 以 应 用 奥 美 拉 唑 、 丽 珠 得 乐 、 克 拉 霉 素 等 药 物 治 疗 看 。 平 时 注 意 避 免 刺 激 性 食 物 。 ， 除 此 之 外 ， 患 者 在 治 疗 胃 炎 期 间 ， 除 了 要 对 症 治 疗 外 ， 患 者 的 饮 食 状 况 和 心 理 状 态 也 是 尤 为 重 要 ， 患 者 一 定 要 避 免 精 神 上 过 度 的 紧 张 和 忧 虑 ， 以 免 对 胃 炎 的 恢 复 造 成 了 不 必 要 的 影 响 。


Question:  quit
