# 实战项目之命名实体识别（NLP基础）    
<br>   

## 1⃣️ 导入相关包，tensorflow会报一个warnings，故用warnings.filterwarning过滤掉


In [1]:
import warnings
warnings.filterwarnings("ignore", category=UserWarning, module="tensorflow")

import evaluate
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForTokenClassification, TrainingArguments

import os
os.getcwd() # 查看文件夹路径 

'D:\\CodeLibrary\\NLP_Task'

## 2⃣️ 加载人民日报数据（一般都会用这个数据做ner）   

<br>

### 利用hf联网加载错误
```python      
ner_datastes = load_dataset("peoples_daily_ner", cache_dir="./ner/data")  # 从hf中下载数据，并缓存到指定文件夹
```
**有可能会报错：** ConnectionError: Couldn't reach 'peoples_daily_ner' on the Hub (ConnectTimeout)  

<br>

### 本地加载错误       
```python
ner_datasets = DatasetDict.load_from_disk("D:\\CodeLibrary\\NLP_Task\\ner\\ner_data")
```
**报错：** ValueError: Protocol not known: D:\CodeLibrary\NLP_Task\ner_data 

**可能原因：** 解析存储路径时，fsspec库无法识别协议（Protocol）

**解决办法：** 在路径前面加 `file://` 即可， 或者更新库 `pip install -U datasets fsspec` (这个没试）

In [2]:
from datasets import DatasetDict
# ner_datastes = load_dataset("peoples_daily_ner", cache_dir="./data")
ner_datasets = DatasetDict.load_from_disk("file://D:\\CodeLibrary\\NLP_Task\\ner_data")
ner_datasets

DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 20865
    })
    validation: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 2319
    })
    test: Dataset({
        features: ['id', 'tokens', 'ner_tags'],
        num_rows: 4637
    })
})

In [3]:
ner_datasets['train'][0]

{'id': '0',
 'tokens': ['海',
  '钓',
  '比',
  '赛',
  '地',
  '点',
  '在',
  '厦',
  '门',
  '与',
  '金',
  '门',
  '之',
  '间',
  '的',
  '海',
  '域',
  '。'],
 'ner_tags': [0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0]}

## 获取 ner 命名的标签，也就说查看人民日报是哪种ner方法

In [4]:
ner_datasets['train'].features

{'id': Value(dtype='string', id=None),
 'tokens': Sequence(feature=Value(dtype='string', id=None), length=-1, id=None),
 'ner_tags': Sequence(feature=ClassLabel(names=['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'], id=None), length=-1, id=None)}

### 上面的结果可以看到，'ner_tag' 属性中看到了 `label` 的值, 故根据属性名进行逐级访问, 即可得到 ner 的 tag 列表



In [5]:
label_list = ner_datasets['train'].features['ner_tags'].feature.names
label_list

['O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC']

## 3⃣️ 数据预处理，转为模型输入的形式 

In [6]:
tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

### 随便找一个例子试一下分词        

**需要注意的是：** 参数 `is_split_into_words=True` 是要求 `tokenizer` **不用再次** 分词, 因为得到的数据已经是分词过了的，这对于ner任务很重要，因为模型自带的 `tokenizer` 可能不是我们想要的分词结果。




In [7]:
tokenizer(ner_datasets["train"][0]['tokens'], is_split_into_words=True)

{'input_ids': [101, 3862, 7157, 3683, 6612, 1765, 4157, 1762, 1336, 7305, 680, 7032, 7305, 722, 7313, 4638, 3862, 1818, 511, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [8]:
res = tokenizer('hello world, and nothing')  # 如果设置 is_split_into_words=True会报错，因为没有分词的数据不是 list  
res

{'input_ids': [101, 8701, 8572, 117, 8256, 9059, 10716, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}

### `word_ids()` 方法是用于获取每个 token 对应的单词 ID; 即，每个 token 属于哪个单词的标识


比如说，这里的 `None` 表示的是 `[CLS]` 和 `[SEP]`, 0 表示的是 `hello`, 以此类推，其中 4 表示的应该是 `nothing`（这里nothing分成了 no 和 thing)       



In [9]:
res.word_ids()

[None, 0, 1, 2, 3, 4, 4, None]

## 编写一个函数，通过 `word_ids` 实现标签映射     

In [10]:
def process_data(datas):
    # 使用 tokenizer 对输入文本进行 tokenization。
    # max_length=128 指定了序列的最大长度为 128 tokens。
    # truncation=True 表示如果文本超过最大长度，将进行截断。
    # is_split_into_words=True 表示输入的文本已经是单词级别的，不需要再次分割。
    tokenized_datas = tokenizer(datas['tokens'], max_length=128, truncation=True, is_split_into_words=True)
    
    # 初始化一个列表来存储处理后的标签。
    labels = []
    
    # 遍历每个样本的 NER 标签。
    for i, label in enumerate(datas['ner_tags']):
        
        # 获取当前样本的 token 对应的单词 ID。
        # batch_index=i 用于指定当前正在处理的批次中的样本索引。
        word_ids = tokenized_datas.word_ids(batch_index=i)
        
        # 初始化一个列表来存储当前样本处理后的标签 ID。   
        label_ids = []
        
        # 遍历每个 token 的单词 ID。
        for word_id in word_ids:
            
            # 如果 word_id is None，这意味着当前的 token 是特殊标记（如 [CLS] 或 [SEP]）。
            # 将其标签设置为 -100，这是一个常用的忽略标签值。
            if word_id is None:
                label_ids.append(-100)
            
            # 否则，将当前 token 的标签设置为原始标签列表 label 中对应单词 ID 的标签。
            else:
                label_ids.append(label[word_id])
        
        # 将处理后的标签 ID 列表添加到 labels 列表中。
        labels.append(label_ids)
    
    # 将处理后的标签列表添加到 tokenized_datas 字典中，键为 'labels'。
    tokenized_datas['labels'] = labels
    
    # 返回包含 tokenization 结果和标签的数据集。
    return tokenized_datas

In [11]:
# 使用 map 方法对整个数据集进行预处理。
# batched=True 表示对数据集进行批次处理。
tokenized_datas = ner_datasets.map(process_data, batched=True)
tokenized_datas

Map:   0%|          | 0/2319 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'tokens', 'ner_tags', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 20865
    })
    validation: Dataset({
        features: ['id', 'tokens', 'ner_tags', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 2319
    })
    test: Dataset({
        features: ['id', 'tokens', 'ner_tags', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 4637
    })
})

### 🌰 让我们找个数据测试一下函数 `process_datas`        

写成 [:1] （等价于[0]）其实也是一个，如果只取一个写成[0] 则会报错 TypeError: 'int' object is not subscriptable




In [12]:
print(ner_datasets['train'][:1])
ner_datasets['train'][:1]['ner_tags']

{'id': ['0'], 'tokens': [['海', '钓', '比', '赛', '地', '点', '在', '厦', '门', '与', '金', '门', '之', '间', '的', '海', '域', '。']], 'ner_tags': [[0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0]]}


[[0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0]]

In [13]:
res1=process_data(ner_datasets['train'][:1])
res1

{'input_ids': [[101, 3862, 7157, 3683, 6612, 1765, 4157, 1762, 1336, 7305, 680, 7032, 7305, 722, 7313, 4638, 3862, 1818, 511, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]], 'labels': [[-100, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0, -100]]}

### 打印下之前预处理好的数据 `tokenized_datas`  

可以看到 多了一个 `labels` 属性的数据了

In [14]:
print(tokenized_datas['train'][0])

{'id': '0', 'tokens': ['海', '钓', '比', '赛', '地', '点', '在', '厦', '门', '与', '金', '门', '之', '间', '的', '海', '域', '。'], 'ner_tags': [0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0], 'input_ids': [101, 3862, 7157, 3683, 6612, 1765, 4157, 1762, 1336, 7305, 680, 7032, 7305, 722, 7313, 4638, 3862, 1818, 511, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [-100, 0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 0, 0, 0, -100]}


## 4️⃣ 数据处理好了之后，创建模型    

In [15]:
model = AutoModelForTokenClassification.from_pretrained('hfl/chinese-macbert-base', num_labels=len(label_list))

  return self.fget.__get__(instance, owner)()
Some weights of BertForTokenClassification were not initialized from the model checkpoint at hfl/chinese-macbert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [16]:
model.config.num_labels

7

In [17]:
model.config

BertConfig {
  "_name_or_path": "hfl/chinese-macbert-base",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2",
    "3": "LABEL_3",
    "4": "LABEL_4",
    "5": "LABEL_5",
    "6": "LABEL_6"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2,
    "LABEL_3": 3,
    "LABEL_4": 4,
    "LABEL_5": 5,
    "LABEL_6": 6
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transfo

In [18]:
model.config.vocab_size

21128

## 5️⃣ 评估函数  

In [19]:
seqeval = evaluate.load('D:\\CodeLibrary\\NLP_Task\\ner\seqeval_metric.py')

In [20]:
import numpy as np

def eval_metric(pred):
    predictions, labels = pred
    predictions = np.argmax(predictions, axis=-1)

    # 将id转换为原始字符串类型的标签
    true_predictions = [
        [label_list[p] for p,l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    
    true_labels = [
        [label_list[l] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    result = seqeval.compute(predictions=true_predictions, references=true_labels, mode="strict", scheme="IOB2")

    return {
        "f1": result["overall_f1"]
    }

## 6️⃣ 配置训练参数

In [21]:
args = TrainingArguments(
    output_dir="models_for_ner",
    per_device_train_batch_size=64,
    per_device_eval_batch_size=128,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    metric_for_best_model="f1",
    load_best_model_at_end=True,
    logging_steps=50,
    num_train_epochs=1
)



## 7️⃣ 创建 trainer

In [25]:
from transformers import Trainer, DataCollatorForTokenClassification
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datas["train"],
    eval_dataset=tokenized_datas["validation"],
    compute_metrics=eval_metric,
    data_collator=DataCollatorForTokenClassification(tokenizer=tokenizer)
)

## 8️⃣ model training 

In [26]:
trainer.train()

Epoch,Training Loss,Validation Loss,F1
1,0.0252,0.020377,0.938916


TrainOutput(global_step=327, training_loss=0.06485472323333087, metrics={'train_runtime': 162.5735, 'train_samples_per_second': 128.342, 'train_steps_per_second': 2.011, 'total_flos': 1317626511207666.0, 'train_loss': 0.06485472323333087, 'epoch': 1.0})

In [28]:
trainer.evaluate(eval_dataset=tokenized_datas["test"])

{'eval_loss': 0.02498953975737095,
 'eval_f1': 0.9283175752698988,
 'eval_runtime': 13.7614,
 'eval_samples_per_second': 336.958,
 'eval_steps_per_second': 2.689,
 'epoch': 1.0}

## 9️⃣ model prediction

`model.config` 之前看过了，可以翻上面记录查看，即可知道属性 `id2label` 其实就是标签


In [31]:
from transformers import pipeline
# 使用pipeline进行推理，要指定id2label
model.config.id2label = {idx: label for idx, label in enumerate(label_list)}

In [30]:
# 如果模型是基于GPU训练的，那么推理时要指定device
# 对于NER任务，可以指定aggregation_strategy为simple，得到具体的实体的结果，而不是token的结果
ner_pipe = pipeline("token-classification", model=model, tokenizer=tokenizer, device=0, aggregation_strategy="simple")

In [32]:
res = ner_pipe("小明在北京上班")
res

Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


[{'entity_group': 'PER',
  'score': 0.96730155,
  'word': '小 明',
  'start': 0,
  'end': 2},
 {'entity_group': 'LOC',
  'score': 0.9937446,
  'word': '北 京',
  'start': 3,
  'end': 5}]

### 根据start和end取实际的结果  

In [33]:
ner_result = {}
x = "小明在北京上班"
for r in res:
    if r["entity_group"] not in ner_result:
        ner_result[r["entity_group"]] = []
    ner_result[r["entity_group"]].append(x[r["start"]: r["end"]])

ner_result

{'PER': ['小明'], 'LOC': ['北京']}