### 安装

虚拟环境的安装命令

pip install transformers -i https://pypi.douban.com/simple

pip install datasets -i https://pypi.tuna.tsinghua.edu.cn/simple

anaconda环境安装 

需要先进入prompt

conda install -c huggingface transformers

conda install -c huggingface -c conda-forge datasets

### tokenizer

In [1]:
from transformers import BertTokenizer

In [3]:
tokenizer = BertTokenizer.from_pretrained(
    pretrained_model_name_or_path='bert-base-chinese',
    cache_dir=None,
    force_download=False
)

In [4]:
sents = [
    '选择珠江花园的原因就是方便。',
    '笔记本的键盘确实爽。',
    '房间太小。其他的都一般。',
    '今天才知道这书还有第6卷,真有点郁闷.',
    '机器背面似乎被撕了张什么标签，残胶还在。',
]

In [5]:
out = tokenizer.encode(
    text=sents[0],
    text_pair=sents[1],
    
    # 句子长度大于max_length时, 进行截断操作.
    truncation=True,
    
    # 句子长度不够就统一拼接
    padding='max_length',
    add_special_tokens=True,
    max_length=30,
    # tf, pt, np, 默认返回列表
    return_tensors=None,
)

In [7]:
print(out)

[101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102, 0, 0, 0]


In [8]:
tokenizer.decode(out)

'[CLS] 选 择 珠 江 花 园 的 原 因 就 是 方 便 。 [SEP] 笔 记 本 的 键 盘 确 实 爽 。 [SEP] [PAD] [PAD] [PAD]'

In [9]:
# 增强版编码函数
out = tokenizer.encode_plus(
    text=sents[0],
    text_pair=sents[1],
    truncation=True,
    padding='max_length',
    add_special_tokens=True,
    max_length=30,
    # tf, pt, np, 默认返回列表
    return_tensors=None,
    
    # 
    return_token_type_ids=True,
    return_attention_mask=True,
    # 返回特殊符合表示
    return_special_tokens_mask=True,
    # 返回length标识长度
    return_length=True
)

In [13]:
for k,v in out.items():
    print(k, ': ', v)

input_ids :  [101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102, 0, 0, 0]
token_type_ids :  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
special_tokens_mask :  [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
attention_mask :  [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]
length :  30


In [16]:
# 批量编码句子
out = tokenizer.batch_encode_plus(
    batch_text_or_text_pairs=[sents[0], sents[1]],
    truncation=True,
    padding='max_length',
    add_special_tokens=True,
    max_length=15,
    # tf, pt, np, 默认返回列表
    return_tensors=None,
    
    # 
    return_token_type_ids=True,
    return_attention_mask=True,
    # 返回特殊符合表示
    return_special_tokens_mask=True,
    # 返回length标识长度
    return_length=True
)

In [17]:
for k,v in out.items():
    print(k, ': ', v)

input_ids :  [[101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 102], [101, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102, 0, 0, 0]]
token_type_ids :  [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]
special_tokens_mask :  [[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]]
length :  [15, 12]
attention_mask :  [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]]


In [18]:
tokenizer.decode(out['input_ids'][0]),tokenizer.decode(out['input_ids'][1])

('[CLS] 选 择 珠 江 花 园 的 原 因 就 是 方 便 [SEP]',
 '[CLS] 笔 记 本 的 键 盘 确 实 爽 。 [SEP] [PAD] [PAD] [PAD]')

In [22]:
# 编码批量成对的句子
out = tokenizer.batch_encode_plus(
    batch_text_or_text_pairs=[(sents[0], sents[1]), (sents[2], sents[3])],
    truncation=True,
    padding='max_length',
    add_special_tokens=True,
    max_length=30,
    # tf, pt, np, 默认返回列表
    return_tensors=None,
    
    # 
    return_token_type_ids=True,
    return_attention_mask=True,
    # 返回特殊符合表示
    return_special_tokens_mask=True,
    # 返回length标识长度
    return_length=True
)

Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the 'longest_first' truncation strategy. So the returned list will always be empty even if some tokens have been removed.


In [23]:
for k,v in out.items():
    print(k, ': ', v)

input_ids :  [[101, 6848, 2885, 4403, 3736, 5709, 1736, 4638, 1333, 1728, 2218, 3221, 3175, 912, 511, 102, 5011, 6381, 3315, 4638, 7241, 4669, 4802, 2141, 4272, 511, 102, 0, 0, 0], [101, 2791, 7313, 1922, 2207, 511, 1071, 800, 4638, 6963, 671, 5663, 511, 102, 791, 1921, 2798, 4761, 6887, 6821, 741, 6820, 3300, 5018, 127, 1318, 117, 4696, 3300, 102]]
token_type_ids :  [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
special_tokens_mask :  [[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1], [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]]
length :  [27, 30]
attention_mask :  [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]


In [25]:
vocab = tokenizer.get_vocab()

In [26]:
len(vocab)

21128

In [27]:
'手机' in vocab

False

In [28]:
# 添加新词
tokenizer.add_tokens(new_tokens=['你好', '手机'])

2

In [29]:
# 添加新字符
tokenizer.add_special_tokens({'eos_token': '[EOS]'})

1

In [30]:
vocab = tokenizer.get_vocab()

In [31]:
len(vocab)

21131

In [32]:
'你好' in vocab

True

In [33]:
vocab.get('你好')

21128

In [34]:
# 编码新添加的词
out = tokenizer.encode(
    text='你好的手机[EOS]',
    text_pair=None,
    truncation=True,
    
    # 句子长度不够就统一拼接
    padding='max_length',
    add_special_tokens=True,
    max_length=30,
    # tf, pt, np, 默认返回列表
    return_tensors=None,
)

In [35]:
print(out)

[101, 21128, 4638, 21129, 21130, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [36]:
tokenizer.decode(out)

'[CLS] 你好 的 手机 [EOS] [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]'

### datasets的使用

In [41]:
from datasets import load_dataset

# 加载数据
dataset = load_dataset(path='seamew/ChnSentiCorp')

Downloading and preparing dataset chn_senti_corp/default to C:/Users/SupercoldZzz/.cache/huggingface/datasets/seamew___chn_senti_corp/default/0.0.0/1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85...


ConnectionError: Couldn't reach https://drive.google.com/u/0/uc?id=1uV-aDQoMI51A27OxVgJnzxqZFQqkDydZ&export=download (ConnectionError(MaxRetryError("HTTPSConnectionPool(host='drive.google.com', port=443): Max retries exceeded with url: /u/0/uc?id=1uV-aDQoMI51A27OxVgJnzxqZFQqkDydZ&export=download (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x00000217971578C8>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。'))")))

In [None]:
# 保存数据集到磁盘
# 注意: 上面的加载数据要成功运行才可以执行保存.
dataset.save_to_disk(dataset_dict_path='../data/ChnSentiCorp/')

In [42]:
# 从本地磁盘加载
from datasets import load_from_disk

dataset = load_from_disk('../data/ChnSentiCorp/')
dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 9600
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
})

In [48]:
# 按照字典的方法取数据
dataset_train = dataset['train']

In [50]:
dataset_train[0]

{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'label': 1}

In [52]:
# 排序
print(dataset_train['label'])

[1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 

In [57]:
sorted_dataset = dataset_train.sort('label')

Loading cached sorted indices for dataset at D:\AIoT-深度学习视频版\深度学习基础\自然语言处理\NLP入门\data\ChnSentiCorp\train\cache-b61f31a3615ff3e1.arrow


In [58]:
sorted_dataset

Dataset({
    features: ['text', 'label'],
    num_rows: 9600
})

In [59]:
print(sorted_dataset['label'][:10])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [60]:
print(sorted_dataset['label'][-10:])

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [61]:
# 打乱顺序
# shuffle
shuffled_dataset = sorted_dataset.shuffle(seed=10)

In [62]:
shuffled_dataset['label'][:10]

[0, 1, 0, 0, 0, 1, 1, 1, 0, 0]

In [65]:
# select 选择指定位置的数据
dataset_train.select([0, 10, 20, 30, 40, 50])[-1]

{'text': '卡梅拉是之勇敢的小鸡简单而执着我喜欢哦~同事的小宝宝也很喜欢~还有我将给我男朋友听的也很投入~', 'label': 0}

In [66]:
# 过滤
def f(data):
    return data['text'].startswith('选择')
start_with_ar = dataset_train.filter(f)
len(start_with_ar), start_with_ar['text']

Loading cached processed dataset at D:\AIoT-深度学习视频版\深度学习基础\自然语言处理\NLP入门\data\ChnSentiCorp\train\cache-4e5e70440364fc6f.arrow


(2,
 ['选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
  '选择的事例太离奇了，夸大了心理咨询的现实意义，让人失去了信任感！如果说这样写的效果能在一开始抓住读者的眼球，但是看到案例主人公心理问题的原因解释时就逐渐失去了兴趣，反正有点拣了芝麻丢了西瓜的感觉。'])

In [67]:
# 切分训练集和测试集
dataset_train.train_test_split(test_size=0.2)

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 7680
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1920
    })
})

In [69]:
# 分桶
# 把数据切分到N个桶中, 均匀分配的
dataset_train.shard(num_shards=4, index=1)

Dataset({
    features: ['text', 'label'],
    num_rows: 2400
})

In [71]:
# 列的重命名
dataset_train.rename_column('text', 'content')

Dataset({
    features: ['content', 'label'],
    num_rows: 9600
})

In [72]:
# 删除列
dataset_train.remove_columns(['text'])

Dataset({
    features: ['label'],
    num_rows: 9600
})

In [73]:
# map
def f(data):
    data['text'] = 'My sentence: ' + data['text']
    return data
dataset_map = dataset_train.map(f)
dataset_map['text'][:5]

Loading cached processed dataset at D:\AIoT-深度学习视频版\深度学习基础\自然语言处理\NLP入门\data\ChnSentiCorp\train\cache-a01b2d0e05ea9354.arrow


['My sentence: 选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'My sentence: 15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错',
 'My sentence: 房间太小。其他的都一般。。。。。。。。。',
 'My sentence: 1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆，手不能摸，一摸一个印. 4.硬盘分区不好办.',
 'My sentence: 今天才知道这书还有第6卷,真有点郁闷:为什么同一套书有两种版本呢?当当网是不是该跟出版社商量商量,单独出个第6卷,让我们的孩子不会有所遗憾。']

In [75]:
# 设置格式
dataset_train.set_format(type='torch', columns=['label'])
dataset_train[0]

{'label': tensor(1)}

In [77]:
# 导出为csv, json这种常见格式. 
dataset_train.to_csv(path_or_buf='../data/ChnSentiCorp/ChnSentiCorp.csv')

Creating CSV from Arrow format:   0%|          | 0/10 [00:00<?, ?ba/s]

3070207

In [78]:
# 加载csv格式
csv_dataset = load_dataset(path='csv', data_files='../data/ChnSentiCorp/ChnSentiCorp.csv', split='train')

Using custom data configuration default-3fbea27c6b95f628


Downloading and preparing dataset csv/default to C:/Users/SupercoldZzz/.cache/huggingface/datasets/csv/default-3fbea27c6b95f628/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to C:/Users/SupercoldZzz/.cache/huggingface/datasets/csv/default-3fbea27c6b95f628/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


In [79]:
csv_dataset[20]

{'Unnamed: 0': 20, 'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！', 'label': 1}

In [81]:
dataset_train.to_json(path_or_buf='../data/ChnSentiCorp/ChnSentiCorp.json')

Creating json from Arrow format:   0%|          | 0/10 [00:00<?, ?ba/s]

6125321

In [82]:
# 加载json数据格式
json_dataset = load_dataset(path='json', data_files='../data/ChnSentiCorp/ChnSentiCorp.json', split='train')

Using custom data configuration default-9f7735a4f877b7b1


Downloading and preparing dataset json/default to C:/Users/SupercoldZzz/.cache/huggingface/datasets/json/default-9f7735a4f877b7b1/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to C:/Users/SupercoldZzz/.cache/huggingface/datasets/json/default-9f7735a4f877b7b1/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51. Subsequent calls will reuse this data.


In [83]:
json_dataset[20]

{'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！', 'label': 1}