# 基于BiLSTM+CRF实现意图识别任务

**用户意图识别简介**：

随着新技术的发展，在线公司积极探索新的服务形态，打造一个基于智能语音、自然语言理解等先进技术的多轮对话服务机器人。在对话中，用户通过与对话机器人的多轮交互，提出所需的信息和服务，通过多次陈述完善需求，在一次完整通话中，会设计到多个业务场景和业务节点。因此首先要抽取出用户的意图。用户意图识别可以按文本分类的方法完成，本次任务主要完成单句级别中的槽位抽取，把其看作命名实体识别的方法。

- 任务描述：槽位抽取可以通过命名实体识别方法进行，主要识别通话文本中具有特定意义的槽值，主要包括
    - 宽带类型
    - 附属标签
    - 流量业务对象类型等。
    
- 本教程介绍和实现一个简单的槽位抽取方法，该方法通过BiLSTM+CRF模型预测出文本中文字所对应的标签，再根据标签提取出文本中的实体。
- 数据集：使用来自中移在线的意图识别数据集，数据总量约为4万条。



![image.png](attachment:3f27e19e-9ca4-4e11-b230-85a29c94d10a.png)

In [1]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

#### 数据集说明

本数据集共包含约3.5万中文文本，其中包括约2万训练集，1万验证集和0.5万测试集，保存在datasets目录下。

1. 训练集：包含文本和对应的标签，用于模型训练。
2. 验证集：包含文本和对应的标签，用于模型训练和参数调试。
3. 测试集：包含文本和对应的标签，用于预测结果、验证效果。

数据集中标注有三种实体，分别为密码、金钱、数字、4G、群组、单一、加油包、流量包、天、月、小时、周、银行卡等，标注集合为

['O',
  'B-PASSWORD',
  'I-PASSWORD',
  'B-MONEY',
  'I-MONEY',
  'B-NUMBER',
  'I-NUMBER',
  'B-4G',
  'I-4G',
  'B-GROUP',
  'I-GROUP',
  'B-SINGLE',
  'I-SINGLE',
  'B-PLUS',
  'I-PLUS',
  'B-DAY',
  'I-DAY',
  'B-HOUR',
  'I-HOUR',
  'B-NIGHT',
  'I-NIGHT',
  'B-WEEKEND',
  'I-WEEKEND',
  'B-BASE',
  'I-BASE',
  'B-MONTH',
  'I-MONTH',
  '0',
  'B-MOMTH',
  'B-MONET']。
  
 
其中'O'表示非实体，'B-'表示实体的首字，'I-'表示实体的其他位置的字。IOB（Inside–outside–beginning）是用于标记标志的通用标记格式。


#### 数据整理

In [2]:
with open("./datasets/移动在线的实体识别数据集/train_data.txt","r",encoding="utf-8")as f:
    print(f.readline())

打	O



In [3]:
def get_vocab_list(path_list):
    vocab_set = set()
    vocab_list = []
    
    label_set = set()
    label_list = []
    for path in path_list:
        with open(path,"r",encoding="utf-8") as f:
            for line in f.readlines():
                cur = line.strip()
                if len(cur)==0:
                    continue
                line = cur.split("\t")
                if line[0] not in vocab_set:
                    vocab_set.add(line[0])
                    vocab_list.append(line[0])
                if line[1] not in label_set:
                    label_set.add(line[1])
                    label_list.append(line[1])
    return vocab_list,label_list

In [4]:
vocab_list,label_list = get_vocab_list(["./datasets/移动在线的实体识别数据集/train_data.txt",
                                        "./datasets/移动在线的实体识别数据集/test_data.txt",
                                        "./datasets/移动在线的实体识别数据集/dev_data.txt"])

In [5]:
def save_vocab(path,vocab_list):
    outs = "".join([vocab+"\n"  for vocab in vocab_list])
    with open(path,"w+",encoding="utf-8") as f:
        f.write(outs)

In [6]:
save_vocab("./outputs/vocab.txt",vocab_list)

In [7]:
save_vocab("./outputs/label.txt",label_list)

#### 加载数据， 分别获取vocab 和label, 与 id的映射

In [8]:
def get_string2id(path):
    string2id = {}
    id2string = []
    with open(path,'r',encoding='utf-8') as f:
        for line in f.readlines():
            string2id[line.strip()] = len(string2id)
            id2string.append(line.strip())
    return id2string,string2id

In [9]:
id2label,label2id = get_string2id("./outputs/label.txt")

In [10]:
label2id

{'O': 0,
 'B-PASSWORD': 1,
 'I-PASSWORD': 2,
 'B-MONEY': 3,
 'I-MONEY': 4,
 'B-NUMBER': 5,
 'I-NUMBER': 6,
 'B-4G': 7,
 'I-4G': 8,
 'B-GROUP': 9,
 'I-GROUP': 10,
 'B-SINGLE': 11,
 'I-SINGLE': 12,
 'B-PLUS': 13,
 'I-PLUS': 14,
 'B-DAY': 15,
 'I-DAY': 16,
 'B-HOUR': 17,
 'I-HOUR': 18,
 'B-NIGHT': 19,
 'I-NIGHT': 20,
 'B-WEEKEND': 21,
 'I-WEEKEND': 22,
 'B-BASE': 23,
 'I-BASE': 24,
 'B-MONTH': 25,
 'I-MONTH': 26,
 '0': 27,
 'B-MOMTH': 28,
 'B-MONET': 29}

In [11]:
id2vocab,vocab2id = get_string2id("./outputs/vocab.txt")

In [12]:
id2vocab[:10]

['打', '电', '话', '的', '还', '有', '多', '少', '我', '费']

In [13]:
vocab2id

{'打': 0,
 '电': 1,
 '话': 2,
 '的': 3,
 '还': 4,
 '有': 5,
 '多': 6,
 '少': 7,
 '我': 8,
 '费': 9,
 '都': 10,
 '花': 11,
 '到': 12,
 '哪': 13,
 '里': 14,
 '去': 15,
 '了': 16,
 '完': 17,
 '吗': 18,
 '请': 19,
 '再': 20,
 '重': 21,
 '复': 22,
 '一': 23,
 '遍': 24,
 '余': 25,
 '额': 26,
 '消': 27,
 '钱': 28,
 '查': 29,
 '下': 30,
 '订': 31,
 '购': 32,
 '什': 33,
 '么': 34,
 '询': 35,
 '当': 36,
 '前': 37,
 '看': 38,
 '账': 39,
 '单': 40,
 '业': 41,
 '务': 42,
 '帮': 43,
 '开': 44,
 '通': 45,
 '些': 46,
 '免': 47,
 '语': 48,
 '音': 49,
 '月': 50,
 '初': 51,
 '扣': 52,
 '用': 53,
 '怎': 54,
 '是': 55,
 '套': 56,
 '餐': 57,
 '剩': 58,
 '量': 59,
 '短': 60,
 '信': 61,
 '卡': 62,
 '上': 63,
 '包': 64,
 '为': 65,
 '这': 66,
 '手': 67,
 '机': 68,
 '办': 69,
 '理': 70,
 '流': 71,
 '你': 72,
 '好': 73,
 '想': 74,
 '取': 75,
 '要': 76,
 '国': 77,
 '内': 78,
 '给': 79,
 '增': 80,
 '加': 81,
 '个': 82,
 '买': 83,
 '降': 84,
 '低': 85,
 '更': 86,
 '改': 87,
 '修': 88,
 '方': 89,
 '式': 90,
 '样': 91,
 '换': 92,
 '定': 93,
 '如': 94,
 '何': 95,
 '别': 96,
 '人': 97,
 '该': 98,
 '咋': 99,
 '法': 100,

#### 获取每个通话句子的长度， 并得到最大长度

In [14]:
def get_sequence_len(path):
    sequence_len = []
    tmp_len = 0
    with open(path,"r",encoding="utf-8") as f:
        for line in f.readlines():
            line = line.strip()
            if len(line)==0:
                sequence_len.append(tmp_len)
                tmp_len=0
            else:
                tmp_len += 1
    return np.array(sequence_len)

In [15]:
train_sequence_len = get_sequence_len("./datasets/移动在线的实体识别数据集/train_data.txt")

In [16]:
dev_sequence_len = get_sequence_len("./datasets/移动在线的实体识别数据集/dev_data.txt")

In [17]:
test_sequence_len = get_sequence_len("./datasets/移动在线的实体识别数据集/test_data.txt")

In [18]:
max_len = max(max(train_sequence_len),max(dev_sequence_len),max(test_sequence_len))

In [19]:
max_len

45

#### 读取数据，对不足最大长度的句子进行padding

In [20]:
def read_data(path,vocab2id,label2id,max_len):
    data_x = []
    data_y = []
    temp_text = []
    temp_label = []
    
    with open(path,"r",encoding="utf-8")as f:
        for line in f.readlines():
            line = line.strip()
            # print("***********line**********")
            # print(line)
            if len(line) == 0:
                temp_text +=[len(vocab2id) ]* (max_len- len(temp_text))
                # print("***********temp_text**********")
                # print(temp_text)
                temp_label += [0] * (max_len - len(temp_label))
                # print("***********temp_label**********")
                # print(temp_label)
                data_x.append(temp_text)
                data_y.append(temp_label)
                
                temp_text=[]
                temp_label=[]
            else:
                temp_text.append(vocab2id[line[0]])
                temp_label.append(label2id[line[2:]])
    return np.array(data_x),np.array(data_y)

In [21]:
with open("./datasets/移动在线的实体识别数据集/test_data.txt","r",encoding="utf-8")as f:
    line = f.readline().strip()
    print(line)
    print(line[0])
    print(line[2:])

微	O
微
O


In [22]:
train_text,train_label = read_data("./datasets/移动在线的实体识别数据集/train_data.txt",vocab2id,label2id,max_len)
dev_text,dev_label = read_data("./datasets/移动在线的实体识别数据集/dev_data.txt",vocab2id,label2id,max_len)
test_text,test_label = read_data("./datasets/移动在线的实体识别数据集/test_data.txt",vocab2id,label2id,max_len)

In [23]:
len(train_text)

34525

In [24]:
train_text[0]

array([   0,    1,    2,    3,    4,    5,    6,    7, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451])

In [25]:
type(train_text[0])

numpy.ndarray

In [26]:
[len(vocab2id)] * 4

[2451, 2451, 2451, 2451]

In [27]:
type(train_label[0])

numpy.ndarray

In [28]:
train_text[0]

array([   0,    1,    2,    3,    4,    5,    6,    7, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
       2451])

In [29]:
train_label[0]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0])

##### 使用tensorflow的Dataset加载

In [30]:
train_dataset = tf.data.Dataset.from_tensor_slices((train_text,train_label,train_sequence_len))
train_dataset

<TensorSliceDataset shapes: ((45,), (45,), ()), types: (tf.int32, tf.int32, tf.int32)>

In [31]:
train_dataset = train_dataset.batch(1)
train_dataset

<BatchDataset shapes: ((None, 45), (None, 45), (None,)), types: (tf.int32, tf.int32, tf.int32)>

In [32]:
dev_dataset = tf.data.Dataset.from_tensor_slices((dev_text,dev_label,dev_sequence_len))
dev_dataset = dev_dataset.batch(1)
dev_dataset

<BatchDataset shapes: ((None, 45), (None, 45), (None,)), types: (tf.int32, tf.int32, tf.int32)>

In [33]:
test_dataset = tf.data.Dataset.from_tensor_slices((test_text,test_label,test_sequence_len))
test_dataset = test_dataset.batch(1)
test_dataset

<BatchDataset shapes: ((None, 45), (None, 45), (None,)), types: (tf.int32, tf.int32, tf.int32)>

In [38]:
list(train_dataset.as_numpy_iterator())[:3]

[(array([[   0,    1,    2,    3,    4,    5,    6,    7, 2451, 2451, 2451,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451]]),
  array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0]]),
  array([8])),
 (array([[   8,    3,    2,    9,   10,   11,   12,   13,   14,   15,   16,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451, 2451,
          2451]]),
  array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
          0]]),
  a

In [None]:
class RNN_LAYER(keras.layers.Layer):
    def __init__(self,param):
        super(self).__init__()
        
        self.fw_lstm =
        