# 使用高速过滤器标注全部数据

In [1]:
#!AHOCORASICK_BYTES=1 pip install git+https://github.com/WojciechMula/pyahocorasick.git

In [2]:
import os
import json
import random
from matplotlib import pyplot as plt
import numpy as np
from tokenizer import tokenizer,token2str,vocab_size
import torch
import torch.nn as nn
from make_model import make_model
from train_and_use import Batch,CrossEntropyLoss,SimpleAdamOptimizer,OptimizerWrapper,train_server_start
from train_and_use import greedy_decode #使用text_continue时重复惩罚会严重减速，换用greedy_decode
from train_and_use import TOGGLE,STOP
from train_and_use import record
from tqdm import tqdm
import concurrent.futures
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# device = torch.device("cpu")
# %matplotlib widget

In [3]:
model = make_model(
    #token是从1开始的，0填充，剩下的用来覆盖全部字节
    vocab_size = vocab_size+1+255,
    embedding_dim = 16,
    key_dim = 8,
    head_number = 2,
    position_information_type = "mask",
    # position_information_type = "sinusoidal",
    # position_information_type = "rotary",
    # position_information_type = "learned",
    enable_affine = True,
    enable_talking_head = False,
    use_diff = False,
    self_attention_block_size = 0,
    feed_forward_dim = 16,
    enable_layer_norm = True,
    deep = 1,
    dropout_rate = 0.1
).to(device)

In [4]:
model.load_state_dict(torch.load('fastautotagger.weight',weights_only=True))
model = model.eval()

In [5]:
file_high = open('high_ff.txt','a')
file_mid = open('mid_ff.txt','a')
file_low  = open('low_ff.txt','a')

In [6]:
fnames = os.listdir('WuDaoCorpus2.0_base_200G')
fnames.sort()
cnt = 0
prompt = tokenizer(' 这段文本的质量按照“高、中、低”三档评价为：',5.0)
tokens_batch = []
data_ff = []
for fname in fnames:
    cnt += 1
    print('\r[',cnt,'/',len(fnames),']',end=' '*10)
    with open('WuDaoCorpus2.0_base_200G/'+fname,'r',encoding='utf-8') as f:
        lines = [item['content'] for item in json.load(f)]
        with torch.amp.autocast("cuda"):
            with concurrent.futures.ProcessPoolExecutor(max_workers=14) as executor:
                task_dict = {executor.submit(tokenizer,line,5):line for line in lines}
                with tqdm(total=len(task_dict)) as pbar:
                    for future in concurrent.futures.as_completed(task_dict):
                        data_ff += [task_dict[future]]
                        tokens_batch += [(future.result()+[-255]*1000)[:1000] + prompt]
                        if len(tokens_batch) == 256:
                            tokens_batch = np.array(tokens_batch,dtype=np.int64)+255
                            inputs = torch.from_numpy(tokens_batch).to(device).data
                            with torch.no_grad():
                                o = greedy_decode(model,inputs,out_length=1)
                            for res,line in zip(o,data_ff):
                                res = token2str(res.cpu().numpy()-255)[-1]
                                if res == '高':
                                    print(line,file=file_high)
                                if res == '中':
                                    print(line,file=file_mid)
                                if res == '低':
                                    print(line,file=file_low)
                            tokens_batch = []
                            data_ff = []
                        pbar.update(1)
            if len(tokens_batch) != 0:
                tokens_batch = np.array(tokens_batch,dtype=np.int64)+255
                inputs = torch.from_numpy(tokens_batch).to(device).data
                with torch.no_grad():
                    o = greedy_decode(model,inputs,out_length=1)
                for res,line in zip(o,data_ff):
                    res = token2str(res.cpu().numpy()-255)[-1]
                    if res == '高':
                        print(line,file=file_high)
                    if res == '中':
                        print(line,file=file_mid)
                    if res == '低':
                        print(line,file=file_low)
                tokens_batch = []
                data_ff = []

[ 1 / 366 ]          

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 39888/39888 [00:54<00:00, 737.91it/s]


[ 2 / 366 ]          

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 49679/49679 [00:56<00:00, 871.87it/s]


[ 3 / 366 ]          

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 97845/97845 [01:40<00:00, 973.95it/s]


[ 4 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 101147/101147 [02:19<00:00, 725.93it/s]


[ 5 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 86502/86502 [01:21<00:00, 1057.77it/s]


[ 6 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 107790/107790 [01:32<00:00, 1163.90it/s]


[ 7 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 97534/97534 [01:27<00:00, 1115.99it/s]


[ 8 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 91097/91097 [01:22<00:00, 1101.14it/s]


[ 9 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 95285/95285 [01:26<00:00, 1096.19it/s]


[ 10 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 84712/84712 [01:17<00:00, 1092.48it/s]


[ 11 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 104762/104762 [01:33<00:00, 1117.14it/s]


[ 12 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 93451/93451 [01:25<00:00, 1091.83it/s]


[ 13 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 92972/92972 [01:27<00:00, 1059.97it/s]


[ 14 / 366 ]          

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 89696/89696 [01:31<00:00, 982.07it/s]


[ 15 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 95776/95776 [01:27<00:00, 1095.33it/s]


[ 16 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 102347/102347 [01:36<00:00, 1057.98it/s]


[ 17 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 101061/101061 [01:31<00:00, 1100.00it/s]


[ 18 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 87273/87273 [01:22<00:00, 1055.66it/s]


[ 19 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 92582/92582 [01:27<00:00, 1053.87it/s]


[ 20 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 85192/85192 [01:25<00:00, 1001.29it/s]


[ 21 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 89110/89110 [01:24<00:00, 1051.59it/s]


[ 22 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 91668/91668 [01:26<00:00, 1064.45it/s]


[ 23 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 110363/110363 [01:41<00:00, 1087.05it/s]


[ 24 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 100482/100482 [01:34<00:00, 1066.79it/s]


[ 25 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 101016/101016 [01:35<00:00, 1056.76it/s]


[ 26 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 103864/103864 [01:35<00:00, 1084.95it/s]


[ 27 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 96832/96832 [01:32<00:00, 1050.04it/s]


[ 28 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 115989/115989 [01:45<00:00, 1095.87it/s]


[ 29 / 366 ]          

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 97763/97763 [01:31<00:00, 1068.97it/s]


[ 30 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 114234/114234 [01:44<00:00, 1095.48it/s]


[ 31 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 492576/492576 [08:10<00:00, 1004.32it/s]


[ 32 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 611437/611437 [13:45<00:00, 740.46it/s]


[ 33 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 603573/603573 [12:27<00:00, 807.72it/s]


[ 34 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 630399/630399 [12:09<00:00, 863.91it/s]


[ 35 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 612779/612779 [12:04<00:00, 846.30it/s]


[ 36 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 652021/652021 [13:28<00:00, 806.64it/s]


[ 37 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 567990/567990 [12:00<00:00, 788.81it/s]


[ 38 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 602940/602940 [12:06<00:00, 829.98it/s]


[ 39 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 594082/594082 [11:22<00:00, 869.92it/s]


[ 40 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 554411/554411 [09:42<00:00, 951.38it/s]


[ 41 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 587312/587312 [09:54<00:00, 988.73it/s]


[ 42 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 695166/695166 [13:07<00:00, 882.98it/s]


[ 43 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 648530/648530 [11:05<00:00, 974.78it/s]


[ 44 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████| 692488/692488 [11:29<00:00, 1004.98it/s]


[ 45 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 648140/648140 [10:55<00:00, 988.91it/s]


[ 46 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 652784/652784 [11:04<00:00, 982.74it/s]


[ 47 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 652124/652124 [11:14<00:00, 966.34it/s]


[ 48 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 658319/658319 [12:33<00:00, 874.16it/s]


[ 49 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 662735/662735 [11:46<00:00, 937.66it/s]


[ 50 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 659709/659709 [11:48<00:00, 931.61it/s]


[ 51 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 446419/446419 [08:00<00:00, 928.81it/s]


[ 52 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 732676/732676 [12:45<00:00, 957.36it/s]


[ 53 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 851531/851531 [16:10<00:00, 877.61it/s]


[ 54 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 859310/859310 [23:12<00:00, 616.93it/s]


[ 55 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 968031/968031 [17:34<00:00, 917.64it/s]


[ 56 / 366 ]          

100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 1195887/1195887 [24:44<00:00, 805.36it/s]


[ 57 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 953399/953399 [16:18<00:00, 974.78it/s]


[ 58 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 858036/858036 [16:34<00:00, 862.54it/s]


[ 59 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 584462/584462 [12:05<00:00, 805.83it/s]


[ 60 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 730232/730232 [15:33<00:00, 781.95it/s]


[ 61 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 877315/877315 [20:13<00:00, 723.09it/s]


[ 62 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 990185/990185 [18:44<00:00, 880.79it/s]


[ 63 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 839920/839920 [17:18<00:00, 809.05it/s]


[ 64 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 828377/828377 [16:24<00:00, 841.11it/s]


[ 65 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 707842/707842 [14:13<00:00, 829.53it/s]


[ 66 / 366 ]          

100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 781280/781280 [15:39<00:00, 831.33it/s]


[ 67 / 366 ]          

100%|██████████████████████████████████████████████████████████████████████████████████████████████████▉| 809749/809753 [19:36<00:00, 688.34it/s]


BrokenProcessPool: A process in the process pool was terminated abruptly while the future was running or pending.

In [7]:
file_high.close()
file_mid.close()
file_low.close()