# datasets 模块的使用

In [48]:
from datasets import load_dataset

dataset = load_dataset(
    path='seamew/ChnSentiCorp',
    split='train'
)
dataset


Using custom data configuration default
Reusing dataset chn_senti_corp (C:\Users\Jejune\.cache\huggingface\datasets\seamew___chn_senti_corp\default\0.0.0\1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85)


Dataset({
    features: ['text', 'label'],
    num_rows: 9600
})

In [49]:
dataset[0]

{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
 'label': 1}

## 排序和乱序

In [50]:
print(dataset['label'][:10])

#排序之后label有序了
sorted_dataset = dataset.sort('label')
print(sorted_dataset['label'][:10])
print(sorted_dataset['label'][-10:])

Loading cached sorted indices for dataset at C:\Users\Jejune\.cache\huggingface\datasets\seamew___chn_senti_corp\default\0.0.0\1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85\cache-14246461b49d6134.arrow


[1, 1, 0, 0, 1, 0, 0, 0, 1, 1]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [51]:
shuffled_dataset = sorted_dataset.shuffle(seed=42)
print(sorted_dataset['label'][:10])

Loading cached shuffled indices for dataset at C:\Users\Jejune\.cache\huggingface\datasets\seamew___chn_senti_corp\default\0.0.0\1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85\cache-468feea96a2c2225.arrow


[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


## 选择和过滤

In [52]:
dataset.select([0,10,20,30])

Dataset({
    features: ['label', 'text'],
    num_rows: 4
})

In [53]:
#filter
def f(data):
    return data['text'].startswith('选择')


start_with_ar = dataset.filter(f)

len(start_with_ar), start_with_ar['text']

  0%|          | 0/10 [00:00<?, ?ba/s]

(2,
 ['选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般',
  '选择的事例太离奇了，夸大了心理咨询的现实意义，让人失去了信任感！如果说这样写的效果能在一开始抓住读者的眼球，但是看到案例主人公心理问题的原因解释时就逐渐失去了兴趣，反正有点拣了芝麻丢了西瓜的感觉。'])

## 切分和分桶

In [54]:
dataset.train_test_split(test_size=0.1)

DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 8640
    })
    test: Dataset({
        features: ['label', 'text'],
        num_rows: 960
    })
})

In [55]:
dataset.shard(num_shards=4, index=0)

Dataset({
    features: ['label', 'text'],
    num_rows: 2400
})

## 列操作和类型转换

In [56]:
dataset.rename_column('text', 'textA')

Dataset({
    features: ['textA', 'label'],
    num_rows: 9600
})

In [57]:
# dataset.remove_columns('text')

In [58]:
dataset.set_format(type='torch',columns='label')
dataset[0]

{'label': tensor(1)}

## map

In [73]:
dataset

Dataset({
    features: ['text', 'label'],
    num_rows: 9600
})

In [74]:
#map
def f(data):
    data['text'] = 'My sentence: ' + data['text']
    return data


datatset_map = dataset.map(f)

datatset_map['text'][:5]

  0%|          | 0/9600 [00:00<?, ?ex/s]

KeyError: 'text'

## 保存到本地，读取本地

In [81]:
from datasets import load_from_disk

dataset = load_dataset(path='seamew/ChnSentiCorp', split='train')

# 保存
dataset.save_to_disk('./')


Using custom data configuration default
Reusing dataset chn_senti_corp (C:\Users\Jejune\.cache\huggingface\datasets\seamew___chn_senti_corp\default\0.0.0\1f242195a37831906957a11a2985a4329167e60657c07dc95ebe266c03fdfb85)


In [82]:
dataset = load_from_disk('./')
dataset

Dataset({
    features: ['label', 'text'],
    num_rows: 9600
})

In [83]:
# 保存其他格式
dataset.to_csv('datasets.csv')

Creating CSV from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

3079797