# 三、HuggingFace的数据集工具

在以往的自然语言处理任务中会花费大量的时间在数据处理上，针对不同的数据集往往需要不同的处理过程，各个数据集的格式差异大，处理起来复杂又容易出错。针对以上问题，HuggingFace提供了统一的数据集处理工具，让开发者在处理各种不同的数据集时可以通过统一的API处理，大大降低了数据处理的工作量。

登录HuggingFace官网，单击顶部的Datasets，即可看到HuggingFace提供的数据集。可以根据不同的任务类型、语言、体积、使用许可来筛选数据集，其中有经典的glue、super_glue数据集，问答数据集squad，情感分类数据集imdb，纯文本数据集wikitext。

单击具体的某个数据集，进入数据集的详情页面，可以看到数据集的概要信息。

本节课使用ChnSentiCorp数据集，这是一个情感分类数据集，每条数据中包括一句购物评价，以及一个标识，表明这条评价是一条好评还是一条差评。在ChnSentiCorp数据集中，被评价的商品包括书籍、酒店、计算机配件等。对于人类来讲，即使不给予标识，也能通过评价内容大致判断出这是一条好评还是一条差评；对于神经网络，也将通过这个任务来验证它的有效性。

## 1. 在线加载数据集

使用HuggingFace数据集工具加载数据往往只需一行代码，以加载名为seamew/ChnSentiCorp数据集为例，代码如下：

In [1]:
# 在线加载数据集
from datasets import load_dataset
#dataset = load_dataset(path="seamew/ChnSentiCorp")
#print(dataset)

## 2. 本地加载数据集

存在各种原因导致无法在线加载数据集，所以需要手工加载数据集

1. 找到数据集所在的网址：https://huggingface.co/datasets/seamew/ChnSentiCorp/tree/main
2. 使用工具下载数据集
3. 将数据集放到指定位置，如ChnSentiCropOriginal，注意这里是一个相对位置
4. 加载数据集
5. 保存数据集为HuggingFace的格式

或者使用命令工具huggingface-cli下载


In [2]:
#!hf download --repo-type dataset seamew/ChnSentiCorp --local-dir ../dataset/ChnSentiCorp

In [3]:
#!hf download --repo-type dataset fka/awesome-chatgpt-prompts --local-dir ../dataset/awesome-chatgpt-prompts

In [4]:
from datasets import Dataset
dataset_train = Dataset.from_file("../dataset/ChnSentiCorp/chn_senti_corp-train.arrow")
dataset_validation = Dataset.from_file("../dataset/ChnSentiCorp/chn_senti_corp-validation.arrow")
dataset_test = Dataset.from_file("../dataset/ChnSentiCorp/chn_senti_corp-test.arrow")
dataset_train

Dataset({
    features: ['label', 'text'],
    num_rows: 9600
})

## 3. 查看数据

In [5]:
print(dataset_train[0])

{'label': 1, 'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般'}


In [6]:
print(dataset_train[:5])

{'label': [1, 1, 0, 0, 1], 'text': ['选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般', '15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错', '房间太小。其他的都一般。。。。。。。。。', '1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆，手不能摸，一摸一个印. 4.硬盘分区不好办.', '今天才知道这书还有第6卷,真有点郁闷:为什么同一套书有两种版本呢?当当网是不是该跟出版社商量商量,单独出个第6卷,让我们的孩子不会有所遗憾。']}


In [7]:
print(dataset_validation[:5])

{'label': [1, 1, 0, 1, 1], 'text': ['這間酒店環境和服務態度亦算不錯,但房間空間太小~~不宣容納太大件行李~~且房間格調還可以~~ 中餐廳的廣東點心不太好吃~~要改善之~~~~但算價錢平宜~~可接受~~ 西餐廳格調都很好~~但吃的味道一般且令人等得太耐了~~要改善之~~', '<荐书> 推荐所有喜欢<红楼>的红迷们一定要收藏这本书,要知道当年我听说这本书的时候花很长时间去图书馆找和借都没能如愿,所以这次一看到当当有,马上买了,红迷们也要记得备货哦!', '商品的不足暂时还没发现，京东的订单处理速度实在.......周二就打包完成，周五才发货...', '２００１年来福州就住在这里，这次感觉房间就了点，温泉水还是有的．总的来说很满意．早餐简单了些．', '不错的上网本，外形很漂亮，操作系统应该是个很大的 卖点，电池还可以。整体上讲，作为一个上网本的定位，还是不错的。']}


In [8]:
print(dataset_test[:5])

{'label': [1, 0, 0, 1, 1], 'text': ['这个宾馆比较陈旧了，特价的房间也很一般。总体来说一般', '怀着十分激动的心情放映，可是看着看着发现，在放映完毕后，出现一集米老鼠的动画片！开始还怀疑是不是赠送的个别现象，可是后来发现每张DVD后面都有！真不知道生产商怎么想的，我想看的是猫和老鼠，不是米老鼠！如果厂家是想赠送的话，那就全套米老鼠和唐老鸭都赠送，只在每张DVD后面添加一集算什么？？简直是画蛇添足！！', '还稍微重了点，可能是硬盘大的原故，还要再轻半斤就好了。其他要进一步验证。贴的几种膜气泡较多，用不了多久就要更换了，屏幕膜稍好点，但比没有要强多了。建议配赠几张膜让用用户自己贴。', '交通方便；环境很好；服务态度很好 房间较小', '不错，作者的观点很颠覆目前中国父母的教育方式，其实古人们对于教育已经有了很系统的体系了，可是现在的父母以及祖父母们更多的娇惯纵容孩子，放眼看去自私的孩子是大多数，父母觉得自己的孩子在外面只要不吃亏就是好事，完全把古人几千年总结的教育古训抛在的九霄云外。所以推荐准妈妈们可以在等待宝宝降临的时候，好好学习一下，怎么把孩子教育成一个有爱心、有责任心、宽容、大度的人。']}


In [9]:
for i in [12, 17, 20, 26, 56]:
    print(dataset_train[i])

{'label': 1, 'text': '轻便，方便携带，性能也不错，能满足平时的工作需要，对出差人员来说非常不错'}
{'label': 0, 'text': '很好的地理位置，一蹋糊涂的服务，萧条的酒店。'}
{'label': 1, 'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！'}
{'label': 0, 'text': '跟住招待所没什么太大区别。 绝对不会再住第2次的酒店！'}
{'label': 0, 'text': '价格太高，性价比不够好。我觉得今后还是去其他酒店比较好。'}


## 4. 对数据集的简单操作

### 1) 排序

In [10]:
print(dataset_train['label'][:10])
train_sorted = dataset_train.sort('label')
print(train_sorted['label'][:10])
print(train_sorted['label'][-10:])

[1, 1, 0, 0, 1, 0, 0, 0, 1, 1]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


### 2) 打乱数据顺序

In [11]:
train_shuffled = train_sorted.shuffle(seed=42)
train_shuffled['label'][:10]

[0, 1, 0, 0, 1, 0, 1, 0, 1, 0]

### 3) 选择一部分数据

In [12]:
train_selected = dataset_train.select([0, 10, 20, 30, 40, 50])
print(train_selected)
for d in train_selected:
    print(d)

Dataset({
    features: ['label', 'text'],
    num_rows: 6
})
{'label': 1, 'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般'}
{'label': 0, 'text': '我看过朋友的还可以，但是我订的书迟迟未到已有半个月，都没有收到打电话也没有用，以后你们订书一定要考虑好！当当实在是太慢了'}
{'label': 1, 'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！'}
{'label': 0, 'text': '没有比这更差的酒店了。房间灯光暗淡，空调无法调节，前台服务僵化。用早餐时，服务员居然叫我回房间把拖鞋换成皮鞋再下来，到底谁是上帝，这家酒店的老总应该马上辞职。建议大家不要住这家酒店，有被骗的感觉！'}
{'label': 1, 'text': '这家YMCA非常好，还主动帮我们升级房间，住起又棒又舒适，地点也很方便，服务又好，号称香港物美价优第一流的YMCA，值得大家推荐。'}
{'label': 0, 'text': '卡梅拉是之勇敢的小鸡简单而执着我喜欢哦~同事的小宝宝也很喜欢~还有我将给我男朋友听的也很投入~'}


### 4) 过滤数据

In [13]:
def f(data):
    return data['text'].startswith('非常不错')
train_filted = dataset_train.filter(f)
print(train_filted)
for d in train_filted:
    print(d)

Dataset({
    features: ['label', 'text'],
    num_rows: 13
})
{'label': 1, 'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！'}
{'label': 1, 'text': '非常不错的营养食谱，把宝宝每月需要的营养指标都给出来，让我参考给孩子搭配。而且书中给的小食谱既经典又有创新，宝宝看到每天不同花样的搭配食欲很好。这本书更让人感到很好的地方还有：根据不同月份的宝宝，罗列出很多亲子游戏和一些很实用的早教知识，很贴近生活。让我在增强宝宝的体质的同时，也懂得了如何跟宝宝互动。'}
{'label': 1, 'text': '非常不错的酒店，虽然不是在处在市中心，但是离钟楼、鼓楼不远，出租车起步价即可，或者可以坐公车606路，车站就在酒店对面。酒店环境不错，房间很干净，工作人员服务也比较好。'}
{'label': 1, 'text': '非常不错的一家酒店。没有什么可以挑剔的了。'}
{'label': 1, 'text': '非常不错的酒店，房间宽大，浴室的设计都不错，只是房间里的酒水设备不足。我从加州带来几瓶很好的红酒，可是没有杯子，不过酒店马上就送过来。客房，门房的服务都很好。在大连的五星酒店里这家的价格合理（可是还是比我在北京住的五星酒店贵）。我住过大连其它的五星酒店，这家日光比较划算。'}
{'label': 0, 'text': '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的'}
{'label': 1, 'text': '非常不错的酒店 已经多次入住'}
{'label': 0, 'text': '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的'}
{'label': 1, 'text': '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的'}
{'label': 1, 'text': '非常不错的一家酒店。没有什么可以挑剔的了。'}
{'label': 1, 'text': '非常不错的酒店，虽然不是在处在市中心，但是离钟楼、鼓楼不远，出租车起步价即可，或者可以坐公车606路，车站就在酒店对面

### 5) 切分训练集和测试集

In [14]:
train_splited = dataset_train.train_test_split(test_size=0.1)
print(train_splited)

DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 8640
    })
    test: Dataset({
        features: ['label', 'text'],
        num_rows: 960
    })
})


### 6) 数据分桶

In [15]:
print(dataset_train.shard(num_shards=4, index=0))
print(dataset_train.shard(num_shards=4, index=1))
print(dataset_train.shard(num_shards=4, index=2))
print(dataset_train.shard(num_shards=4, index=3))

Dataset({
    features: ['label', 'text'],
    num_rows: 2400
})
Dataset({
    features: ['label', 'text'],
    num_rows: 2400
})
Dataset({
    features: ['label', 'text'],
    num_rows: 2400
})
Dataset({
    features: ['label', 'text'],
    num_rows: 2400
})


### 7) 字段重命名

In [16]:
train_renamed = dataset_train.rename_column('text', 'text_rename')
print(train_renamed)

Dataset({
    features: ['label', 'text_rename'],
    num_rows: 9600
})


### 8) 删除字段

In [17]:
train_deleted = dataset_train.remove_columns(['text'])
print(train_deleted)

Dataset({
    features: ['label'],
    num_rows: 9600
})
