In [1]:
from datasets import load_dataset

#加载数据
#注意：如果你的网络不允许你执行这段的代码，则直接运行【从磁盘加载数据】即可，我已经给你准备了本地化的数据文件
#转载自seamew/ChnSentiCorp
dataset = load_dataset(path='lansinuote/ChnSentiCorp')

dataset

Downloading metadata:   0%|          | 0.00/960 [00:00<?, ?B/s]

Downloading data: 100%|██████████| 2.16M/2.16M [00:01<00:00, 1.31MB/s]
Downloading data: 100%|██████████| 276k/276k [00:00<00:00, 562kB/s]
Downloading data: 100%|██████████| 275k/275k [00:00<00:00, 586kB/s]


Generating train split:   0%|          | 0/9600 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/1200 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1200 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 9600
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
})

In [2]:
#保存数据集到磁盘
#注意：运行这段代码要确保【加载数据】运行是正常的，否则直接运行【从磁盘加载数据】即可
dataset.save_to_disk(dataset_dict_path='./data/ChnSentiCorp')

Saving the dataset (0/1 shards):   0%|          | 0/9600 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/1200 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/1200 [00:00<?, ? examples/s]

In [3]:
#从磁盘加载数据
from datasets import load_from_disk

dataset = load_from_disk('./data/ChnSentiCorp')

dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 9600
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 1200
    })
})

In [4]:
#取出训练集
dataset = dataset['train']

dataset

Dataset({
    features: ['text', 'label'],
    num_rows: 9600
})

In [5]:
#查看一个数据
dataset[0]

{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'label': 1}

In [6]:
#sort

#未排序的label是乱序的
print(dataset['label'][:10])

#排序之后label有序了
sorted_dataset = dataset.sort('label')
print(sorted_dataset['label'][:10])
print(sorted_dataset['label'][-10:])

[1, 1, 0, 0, 1, 0, 0, 0, 1, 1]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [7]:
#shuffle

#打乱顺序
shuffled_dataset = sorted_dataset.shuffle(seed=42)

shuffled_dataset['label'][:10]

[0, 1, 0, 0, 1, 0, 1, 0, 1, 0]

In [8]:
#select
dataset.select([0, 10, 20, 30, 40, 50])

Dataset({
    features: ['text', 'label'],
    num_rows: 6
})

In [9]:
#filter
def f(data):
    return data['text'].startswith('选择')


start_with_ar = dataset.filter(f)

len(start_with_ar), start_with_ar['text']

Filter:   0%|          | 0/9600 [00:00<?, ? examples/s]

(2,
 ['选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
  '选择的事例太离奇了，夸大了心理咨询的现实意义，让人失去了信任感！如果说这样写的效果能在一开始抓住读者的眼球，但是看到案例主人公心理问题的原因解释时就逐渐失去了兴趣，反正有点拣了芝麻丢了西瓜的感觉。'])

In [10]:
def f1(data):
    return data['text'].startswith("非常不错")

dataset.filter(f1)["text"]

Filter:   0%|          | 0/9600 [00:00<?, ? examples/s]

['非常不错，服务很好，位于市中心区，交通方便，不过价格也高！',
 '非常不错的营养食谱，把宝宝每月需要的营养指标都给出来，让我参考给孩子搭配。而且书中给的小食谱既经典又有创新，宝宝看到每天不同花样的搭配食欲很好。这本书更让人感到很好的地方还有：根据不同月份的宝宝，罗列出很多亲子游戏和一些很实用的早教知识，很贴近生活。让我在增强宝宝的体质的同时，也懂得了如何跟宝宝互动。',
 '非常不错的酒店，虽然不是在处在市中心，但是离钟楼、鼓楼不远，出租车起步价即可，或者可以坐公车606路，车站就在酒店对面。酒店环境不错，房间很干净，工作人员服务也比较好。',
 '非常不错的一家酒店。没有什么可以挑剔的了。',
 '非常不错的酒店，房间宽大，浴室的设计都不错，只是房间里的酒水设备不足。我从加州带来几瓶很好的红酒，可是没有杯子，不过酒店马上就送过来。客房，门房的服务都很好。在大连的五星酒店里这家的价格合理（可是还是比我在北京住的五星酒店贵）。我住过大连其它的五星酒店，这家日光比较划算。',
 '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的',
 '非常不错的酒店 已经多次入住',
 '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的',
 '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的',
 '非常不错的一家酒店。没有什么可以挑剔的了。',
 '非常不错的酒店，虽然不是在处在市中心，但是离钟楼、鼓楼不远，出租车起步价即可，或者可以坐公车606路，车站就在酒店对面。酒店环境不错，房间很干净，工作人员服务也比较好。',
 '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！',
 '非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的非常不错的']

In [11]:
#train_test_split, 切分训练集和测试集
dataset.train_test_split(test_size=0.1)

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 8640
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 960
    })
})

In [12]:
#shard
#把数据切分到4个桶中,均匀分配
dataset.shard(num_shards=4, index=0)

Dataset({
    features: ['text', 'label'],
    num_rows: 2400
})

In [13]:
#rename_column
dataset.rename_column('text', 'textA')

Dataset({
    features: ['textA', 'label'],
    num_rows: 9600
})

In [18]:
#remove_columns
dataset.remove_columns(['text'])

Dataset({
    features: ['label'],
    num_rows: 9600
})

In [19]:
dataset[0]

{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'label': 1}

In [20]:
# the return value is a copy of dataset object instead of the original one
help(dataset.remove_columns)

Help on method remove_columns in module datasets.arrow_dataset:

remove_columns(column_names: Union[str, List[str]], new_fingerprint: Optional[str] = None) -> 'Dataset' method of datasets.arrow_dataset.Dataset instance
    Remove one or several column(s) in the dataset and the features associated to them.
    
    You can also remove a column using [`~datasets.Dataset.map`] with `remove_columns` but the present method
    is in-place (doesn't copy the data to a new dataset) and is thus faster.
    
    Args:
        column_names (`Union[str, List[str]]`):
            Name of the column(s) to remove.
        new_fingerprint (`str`, *optional*):
            The new fingerprint of the dataset after transform.
            If `None`, the new fingerprint is computed using a hash of the previous fingerprint, and the transform arguments.
    
    Returns:
        [`Dataset`]: A copy of the dataset object without the columns to remove.
    
    Example:
    
    ```py
    >>> from datasets impo

In [15]:
#map
def f(data):
    data['text'] = 'My sentence: ' + data['text']
    return data


datatset_map = dataset.map(f)

datatset_map['text'][:5]

Map:   0%|          | 0/9600 [00:00<?, ? examples/s]

['My sentence: 选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'My sentence: 15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错',
 'My sentence: 房间太小。其他的都一般。。。。。。。。。',
 'My sentence: 1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆，手不能摸，一摸一个印. 4.硬盘分区不好办.',
 'My sentence: 今天才知道这书还有第6卷,真有点郁闷:为什么同一套书有两种版本呢?当当网是不是该跟出版社商量商量,单独出个第6卷,让我们的孩子不会有所遗憾。']

In [22]:
#set_format
dataset.set_format(type='torch', columns=['label'], output_all_columns=True)

dataset[0]

{'label': tensor(1),
 'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般'}

In [23]:
#第三章/导出为csv格式
dataset = load_dataset(path='lansinuote/ChnSentiCorp', split='train')
dataset.to_csv(path_or_buf='./data/ChnSentiCorp.csv')

#加载csv格式数据
csv_dataset = load_dataset(path='csv',
                           data_files='./data/ChnSentiCorp.csv',
                           split='train')
csv_dataset[20]

Creating CSV from Arrow format:   0%|          | 0/10 [00:00<?, ?ba/s]

Generating train split: 0 examples [00:00, ? examples/s]

{'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！', 'label': 1}

In [24]:
#第三章/导出为json格式
dataset = load_dataset(path='lansinuote/ChnSentiCorp', split='train')
dataset.to_json(path_or_buf='./data/ChnSentiCorp.json')

#加载json格式数据
json_dataset = load_dataset(path='json',
                            data_files='./data/ChnSentiCorp.json',
                            split='train')
json_dataset[20]

Creating json from Arrow format:   0%|          | 0/10 [00:00<?, ?ba/s]

Generating train split: 0 examples [00:00, ? examples/s]

{'text': '非常不错，服务很好，位于市中心区，交通方便，不过价格也高！', 'label': 1}

In [25]:
help(load_dataset)

Help on function load_dataset in module datasets.load:

load_dataset(path: str, name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]], NoneType] = None, split: Union[str, datasets.splits.Split, NoneType] = None, cache_dir: Optional[str] = None, features: Optional[datasets.features.features.Features] = None, download_config: Optional[datasets.download.download_config.DownloadConfig] = None, download_mode: Union[datasets.download.download_manager.DownloadMode, str, NoneType] = None, verification_mode: Union[datasets.utils.info_utils.VerificationMode, str, NoneType] = None, ignore_verifications='deprecated', keep_in_memory: Optional[bool] = None, save_infos: bool = False, revision: Union[str, datasets.utils.version.Version, NoneType] = None, token: Union[bool, str, NoneType] = None, use_auth_token='deprecated', task='deprecated', streaming: bool = False, num_proc: Optional[int] = None, storage_options: Opt