# datasets基本使用

In [26]:
from datasets import *

加载在线数据集

In [None]:
# 里面已经划分好了训练集和测试集,一个字典{train, valid, test},每个都是字典,对应Dataset
datasets = load_dataset("madao33/new-title-chinese")
datasets

加载数据集合集中的某一项任务

In [None]:
boolq_dataset = load_dataset("super_glue", "boolq")
boolq_dataset

按照数据集划分进行加载

In [None]:
# 只加载train_dataset,相当于之前的大数据集中的train部分
dataset = load_dataset("madao33/new-title-chinese", split="train")
dataset

In [None]:
# 切片:训练数据集中的90条
dataset = load_dataset("madao33/new-title-chinese", split="train[10:100]")
dataset

In [None]:
# 按照比例切分,只能写百分数,不能写小数
dataset = load_dataset("madao33/new-title-chinese", split="train[:50%]")
dataset

In [None]:
# 输出一个数据集list,里面两个数据集
dataset = load_dataset("madao33/new-title-chinese", split=["train[:50%]", "train[50%:]"])
dataset

# 加载本地数据集

直接加载文件作为数据集

In [6]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv")
dataset

DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 7766
    })
})

In [7]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [8]:
dataset = Dataset.from_csv("./ChnSentiCorp_htl_all.csv")
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

加载文件夹内全部文件作为数据集

In [None]:
# 两个组成一样的数据集合并为一个
dataset = load_dataset("csv", data_files=["./all_data/ChnSentiCorp_htl_all.csv", "./all_data/ChnSentiCorp_htl_all copy.csv"], split='train')
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 15532
})

通过预先加载的其他格式转换加载数据集

In [None]:
# 从pandas形式加载数据集
import pandas as pd
data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
data.head()

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"


In [11]:
dataset = Dataset.from_pandas(data)
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [12]:
# 从list形式加载数据集
#  List格式的数据需要内嵌{}，明确数据字段
data = [{"text": "abc"}, {"text": "def"}]
# data = ["abc", "def"]
Dataset.from_list(data)

Dataset({
    features: ['text'],
    num_rows: 2
})

# 查看数据集

In [47]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv")
dataset

DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 7766
    })
})

In [15]:
dataset["train"][0]

{'label': 1, 'review': '距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.'}

In [23]:
dataset["train"][:5]

{'label': [1, 1, 1, 1, 1],
 'review': ['距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.',
  '商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!',
  '早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。',
  '宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小，但加上低价位因素，还是无超所值的；环境不错，就在小胡同内，安静整洁，暖气好足-_-||。。。呵还有一大优势就是从宾馆出发，步行不到十分钟就可以到梅兰芳故居等等，京味小胡同，北海距离好近呢。总之，不错。推荐给节约消费的自助游朋友~比较划算，附近特色小吃很多~',
  'CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风']}

In [28]:
dataset["train"]['label'][:5]


[1, 1, 1, 1, 1]

In [30]:
dataset["train"].column_names

['label', 'review']

In [31]:
dataset["train"].features

{'label': Value('int64'), 'review': Value('string')}

数据集划分

In [None]:
# 数据集划分成一个新的大数据集字典,包含train和test
dataset_split = dataset["train"]
dataset_split.train_test_split(test_size=0.1)

DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 6989
    })
    test: Dataset({
        features: ['label', 'review'],
        num_rows: 777
    })
})

数据的选取和过滤

In [None]:
# 选取
# 为原数据集中被选取的部分,返回一个新的数据集
dataset["train"].select([0, 2, 4])

Dataset({
    features: ['label', 'review'],
    num_rows: 3
})

In [38]:
# 过滤
filter_dataset = dataset["train"].filter(lambda example: example["label"] == 0)
print(filter_dataset)
print(filter_dataset["label"][:5])

Dataset({
    features: ['label', 'review'],
    num_rows: 2444
})
[0, 0, 0, 0, 0]


数据映射

In [None]:
# 这里传入的example是一个大数据集字典
def add_prefix(example):
    example["label"] = 2 + example["label"]
    return example

In [48]:
prefix_dataset = dataset.map(add_prefix)
print(prefix_dataset)
prefix_dataset["train"][:10]["label"]

DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 7766
    })
})


[3, 3, 3, 3, 3, 3, 3, 3, 3, 3]

In [None]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
# 相当于在大数据集中的train和test都加入了新了feature,一些新的字典
# 将tokenizer当参数传入,应对进程的问题(num_procs=4)
def preprocess_function(example, tokenizer=tokenizer):
    model_inputs = tokenizer(example["content"], max_length=512, truncation=True)
    labels = tokenizer(example["title"], max_length=32, truncation=True)
    # label就是title编码的结果
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
processed_datasets = datasets.map(preprocess_function)
processed_datasets

In [None]:
processed_datasets = datasets.map(preprocess_function, num_proc=4)
processed_datasets

In [None]:
# 更快,如果tokenizer支持use_fast=True
processed_datasets = datasets.map(preprocess_function, batched=True)
processed_datasets

映射时去除不要的feature

In [None]:
processed_datasets = datasets.map(preprocess_function, batched=True, remove_columns=dataset["train"].column_names)
processed_datasets

保存与加载

In [None]:
# 把处理好的结果保存在本地
processed_datasets.save_to_disk("./processed_data")

In [None]:
# 从本地加载已经处理好的数据集
processed_datasets = load_from_disk("./processed_data")
processed_datasets

# Dataset With DataCollator

In [49]:
from transformers import  DataCollatorWithPadding

In [50]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split='train')
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset

Filter:   0%|          | 0/7766 [00:00<?, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 7765
})

In [None]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

def process_function(examples):
    tokenized_examples = tokenizer(examples["review"], max_length=128, truncation=True)
    tokenized_examples["labels"] = examples["label"]
    return tokenized_examples

In [None]:
tokenized_dataset = dataset.map(process_function, batched=True, remove_columns=dataset.column_names)
tokenized_dataset

In [None]:
print(tokenized_dataset[:3])

In [None]:
collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [None]:
from torch.utils.data import DataLoader

In [None]:
dl = DataLoader(tokenized_dataset, batch_size=4, collate_fn=collator, shuffle=True)