In [1]:
import os
os.environ["http_proxy"] = "http://127.0.0.1:8889"
os.environ["https_proxy"] = "http://127.0.0.1:8889"

In [2]:
from datasets import *

  from .autonotebook import tqdm as notebook_tqdm


## load online datasets

In [4]:
datasets = load_dataset("madao33/new-title-chinese")
datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

### load a task of a dataset

In [5]:
boolq_dataset = load_dataset("super_glue", "boolq")
boolq_dataset

Downloading builder script: 100%|██████████| 30.7k/30.7k [00:00<00:00, 194kB/s]
Downloading metadata: 100%|██████████| 38.7k/38.7k [00:00<00:00, 62.7kB/s]
Downloading readme: 100%|██████████| 14.8k/14.8k [00:00<00:00, 16.0MB/s]
Downloading data: 100%|██████████| 4.12M/4.12M [00:03<00:00, 1.31MB/s]
Generating train split: 100%|██████████| 9427/9427 [00:00<00:00, 69145.06 examples/s]
Generating validation split: 100%|██████████| 3270/3270 [00:00<00:00, 69186.05 examples/s]
Generating test split: 100%|██████████| 3245/3245 [00:00<00:00, 73894.70 examples/s]


DatasetDict({
    train: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 9427
    })
    validation: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 3270
    })
    test: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 3245
    })
})

### load a split of a dataset

In [12]:
datasets = load_dataset("madao33/new-title-chinese")

# datasets = load_dataset("madao33/new-title-chinese", split="train")

# datasets = load_dataset("madao33/new-title-chinese", split="train[:10]")

# datasets = load_dataset("madao33/new-title-chinese", split="train[:10%]")

# datasets = load_dataset("madao33/new-title-chinese", split=["train[:10%]", "validation[90%:]"])

datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

## check the dataset

In [14]:
datasets["train"][:2]

{'title': ['望海楼美国打“台湾牌”是危险的赌博', '大力推进高校治理能力建设'],
 'content': ['近期，美国国会众院通过法案，重申美国对台湾的承诺。对此，中国外交部发言人表示，有关法案严重违反一个中国原则和中美三个联合公报规定，粗暴干涉中国内政，中方对此坚决反对并已向美方提出严正交涉。\n事实上，中国高度关注美国国内打“台湾牌”、挑战一中原则的危险动向。近年来，作为“亲台”势力大本营的美国国会动作不断，先后通过“与台湾交往法”“亚洲再保证倡议法”等一系列“挺台”法案，“2019财年国防授权法案”也多处触及台湾问题。今年3月，美参院亲台议员再抛“台湾保证法”草案。众院议员继而在4月提出众院版的草案并在近期通过。上述法案的核心目标是强化美台关系，并将台作为美“印太战略”的重要伙伴。同时，“亲台”议员还有意制造事端。今年2月，5名共和党参议员致信众议院议长，促其邀请台湾地区领导人在国会上发表讲话。这一动议显然有悖于美国与台湾的非官方关系，其用心是实质性改变美台关系定位。\n上述动向出现并非偶然。在中美建交40周年之际，两国关系摩擦加剧，所谓“中国威胁论”再次沉渣泛起。美国对华认知出现严重偏差，对华政策中负面因素上升，保守人士甚至成立了“当前中国威胁委员会”。在此背景下，美国将台海关系作为战略抓手，通过打“台湾牌”在双边关系中增加筹码。特朗普就任后，国会对总统外交政策的约束力和塑造力加强。其实国会推动通过涉台法案对行政部门不具约束力，美政府在2018年并未提升美台官员互访级别，美军舰也没有“访问”台湾港口，保持着某种克制。但从美总统签署国会通过的法案可以看出，国会对外交产生了影响。立法也为政府对台政策提供更大空间。\n然而，美国需要认真衡量打“台湾牌”成本。首先是美国应对危机的代价。美方官员和学者已明确发出警告，美国卷入台湾问题得不偿失。美国学者曾在媒体发文指出，如果台海爆发危机，美国可能需要“援助”台湾，进而导致新的冷战乃至与中国大陆的冲突。但如果美国让台湾自己面对，则有损美国的信誉，影响美盟友对同盟关系的支持。其次是对中美关系的危害。历史证明，中美合则两利、斗则两伤。中美关系是当今世界最重要的双边关系之一，保持中美关系的稳定发展，不仅符合两国和两国人民的根本利益，也是国际社会的普遍期待。美国蓄意挑战台湾问题的底线，加剧中美关系的复杂性和不确定

In [16]:
datasets["train"]["title"][:2]

['望海楼美国打“台湾牌”是危险的赌博', '大力推进高校治理能力建设']

In [17]:
datasets["train"].column_names

['title', 'content']

In [18]:
datasets["train"].features

{'title': Value(dtype='string', id=None),
 'content': Value(dtype='string', id=None)}

## split dataset

In [19]:
dataset = datasets["train"]
dataset.train_test_split(test_size=0.2)

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 4680
    })
    test: Dataset({
        features: ['title', 'content'],
        num_rows: 1170
    })
})

In [20]:
dataset = boolq_dataset["train"]
dataset.train_test_split(test_size=0.2, stratify_by_column="label")

DatasetDict({
    train: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 7541
    })
    test: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 1886
    })
})

## data selection and filtering

In [21]:
datasets["train"].select([0, 1])

Dataset({
    features: ['title', 'content'],
    num_rows: 2
})

In [23]:
subset = datasets["train"].filter(lambda example: "中国" in example["title"])
subset

Filter: 100%|██████████| 5850/5850 [00:00<00:00, 225603.88 examples/s]


Dataset({
    features: ['title', 'content'],
    num_rows: 544
})

In [25]:
subset[:2]

{'title': ['聚焦两会，世界探寻中国成功秘诀', '望海楼中国经济的信心来自哪里'],
 'content': ['世界眼中的中国两会，是一道集聚全国人民磅礴之力的风景线，不仅展现着新时代中国的意气风发，而且增添着世界的生机和动能\n\u3000\u3000两会时间，世界研究中国的重要时间。\n中国智慧、中国方略、中国成就集中展现，来自世界的热评此起彼伏。“中国两会对全球事务有着巨大影响力”“是时候对中国的突飞猛进有清醒的认识了”“中国方案为世界提供借鉴”……来自世界的这些叙述，折射着探寻成功秘诀的目光。各国媒体纷纷向北京增派记者，3000多名中外记者报名采访中国两会。世界瞩目中国两会，期待进一步读懂新时代的中国。\n作为世界最大发展中国家和第二大经济体，中国不断创造着人类发展史上惊天动地的奇迹。中国提供着最高的对世界经济增长的贡献率、最高的对世界减贫事业的贡献率，中国建成了世界上最大的社会保障网、高速铁路网，中国科技创新在诸多领域实现并跑、领跑……国际舆论普遍认为，着眼自身治理能力现代化的中国，日益为全球治理作出重要贡献。\n世界经济复苏发展，中国功不可没。中国国家统计局最新数据显示，2017年，中国国内生产总值增速达6.9%，占世界经济的比重达15%，稳居世界第二。“中国的成功故事与世界经济的命运紧密相连。”国际货币基金组织第一副总裁戴维·利普顿这样评价。“世行对中国经济发展有信心，对中国持续成为全球经济增长引擎有信心。”世界银行发展预测局局长阿伊汗·高斯为中国点赞。\n国外不少人感叹，世界太需要像中国这样不断书写成功故事。但是，环顾当下的世界，一些国家深陷矛盾丛生、乱象频发的怪圈。在今年年初的达沃斯论坛年会和慕尼黑安全会议上，来自西方一些国家的人士纷纷大谈对社会分裂、政治极化、民粹主义盛行之忧。国际政治、社会领域诸多乱象，从若干侧面说明了失却方向之痛、道路探索之难。与此形成鲜明反差的是，中国的稳步发展和繁荣景象，无疑给不乏深忧的世界注入了昂扬振奋的力量。\n中国的成功故事，揭示了中国道路自信、理论自信、制度自信、文化自信之源。中共十九大的胜利召开，为中国建设现代化强国指明了方向，为中华民族伟大复兴做了全面谋划。世界瞩目，十九大后的首次中国两会将如何围绕民众普遍关心的反腐倡廉、社会保障、教育公平、医疗改革、脱贫攻坚、依法治国、改革开放等一系列议题谋篇布

## data mapping

In [26]:
def add_prefix(example):
    example["title"] = "prefix: " + example["title"]
    return example

In [27]:
prefix_datasets = datasets.map(add_prefix)
prefix_datasets["train"][:10]["title"]

Map: 100%|██████████| 5850/5850 [00:00<00:00, 42119.22 examples/s]
Map: 100%|██████████| 1679/1679 [00:00<00:00, 47578.82 examples/s]


['prefix: 望海楼美国打“台湾牌”是危险的赌博',
 'prefix: 大力推进高校治理能力建设',
 'prefix: 坚持事业为上选贤任能',
 'prefix: “大朋友”的话儿记心头',
 'prefix: 用好可持续发展这把“金钥匙”',
 'prefix: 跨越雄关，我们走在大路上',
 'prefix: 脱贫奇迹彰显政治优势',
 'prefix: 拱卫亿万人共同的绿色梦想',
 'prefix: 为党育人、为国育才',
 'prefix: 净化网络语言']

In [28]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

def preprocess_function(example):
    model_inputs = tokenizer(example["title"], max_length=512, truncation=True)
    labels = tokenizer(example["title"], max_length=32, truncation=True)
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

Downloading (…)okenizer_config.json: 100%|██████████| 29.0/29.0 [00:00<00:00, 30.3kB/s]
Downloading (…)lve/main/config.json: 100%|██████████| 624/624 [00:00<00:00, 1.28MB/s]
Downloading (…)solve/main/vocab.txt: 100%|██████████| 110k/110k [00:00<00:00, 312kB/s]
Downloading (…)/main/tokenizer.json: 100%|██████████| 269k/269k [00:00<00:00, 1.70MB/s]


In [34]:
preprocess_datasets = datasets.map(preprocess_function)
preprocess_datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [35]:
preprocess_datasets = datasets.map(preprocess_function, batched=True)
preprocess_datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [36]:
preprocess_datasets = datasets.map(preprocess_function, num_proc=4)
preprocess_datasets

Map (num_proc=4): 100%|██████████| 5850/5850 [00:00<00:00, 18940.98 examples/s]
  table = cls._concat_blocks(blocks, axis=0)
Map (num_proc=4): 100%|██████████| 1679/1679 [00:00<00:00, 11252.38 examples/s]
  table = cls._concat_blocks(blocks, axis=0)


DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [37]:
preprocess_datasets = datasets.map(preprocess_function, remove_columns=datasets["train"].column_names)
preprocess_datasets

Map: 100%|██████████| 5850/5850 [00:00<00:00, 7730.32 examples/s]
Map: 100%|██████████| 1679/1679 [00:00<00:00, 8308.06 examples/s]


DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

## save and load

In [38]:
preprocess_datasets.save_to_disk("./datasets/test")

Saving the dataset (1/1 shards): 100%|██████████| 5850/5850 [00:00<00:00, 1352852.09 examples/s]
Saving the dataset (1/1 shards): 100%|██████████| 1679/1679 [00:00<00:00, 788604.30 examples/s]


In [None]:
processes_datasets = load_from_disk("./datasets/test")