# datasets基本使用

In [1]:
from datasets import *

  from .autonotebook import tqdm as notebook_tqdm


## 加载在线数据集

In [2]:
datasets = load_dataset("madao33/new-title-chinese")
datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

## 加载数据集合中的某一项任务

In [3]:
# 以glue任务集合为例
boolq_dataset=load_dataset("super_glue","boolq")
boolq_dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 9427
    })
    validation: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 3270
    })
    test: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 3245
    })
})

## 按照数据划分进行加载

In [4]:
# 一般情况下数据被分为训练集、验证集、测试集三部分
#使用spilt加载以上三部分的某个数据
dataset=load_dataset("madao33/new-title-chinese",split="train")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 5850
})

In [5]:
#加载部分数据
#按照数目
dataset=load_dataset("madao33/new-title-chinese",split="train[:100]")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 100
})

In [6]:
dataset=load_dataset("madao33/new-title-chinese",split="train[10:100]")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 90
})

In [7]:
#按照比例,注意不能写小数
dataset=load_dataset("madao33/new-title-chinese",split="train[:50%]")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 2925
})

In [8]:
dataset = load_dataset("madao33/new-title-chinese", split=["train[:50%]", "train[50%:]"])
dataset

[Dataset({
     features: ['title', 'content'],
     num_rows: 2925
 }),
 Dataset({
     features: ['title', 'content'],
     num_rows: 2925
 })]

## 查看数据集

In [9]:
datasets=load_dataset("madao33/new-title-chinese")
datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

In [10]:
datasets["train"][0]

{'title': '望海楼美国打“台湾牌”是危险的赌博',
 'content': '近期，美国国会众院通过法案，重申美国对台湾的承诺。对此，中国外交部发言人表示，有关法案严重违反一个中国原则和中美三个联合公报规定，粗暴干涉中国内政，中方对此坚决反对并已向美方提出严正交涉。\n事实上，中国高度关注美国国内打“台湾牌”、挑战一中原则的危险动向。近年来，作为“亲台”势力大本营的美国国会动作不断，先后通过“与台湾交往法”“亚洲再保证倡议法”等一系列“挺台”法案，“2019财年国防授权法案”也多处触及台湾问题。今年3月，美参院亲台议员再抛“台湾保证法”草案。众院议员继而在4月提出众院版的草案并在近期通过。上述法案的核心目标是强化美台关系，并将台作为美“印太战略”的重要伙伴。同时，“亲台”议员还有意制造事端。今年2月，5名共和党参议员致信众议院议长，促其邀请台湾地区领导人在国会上发表讲话。这一动议显然有悖于美国与台湾的非官方关系，其用心是实质性改变美台关系定位。\n上述动向出现并非偶然。在中美建交40周年之际，两国关系摩擦加剧，所谓“中国威胁论”再次沉渣泛起。美国对华认知出现严重偏差，对华政策中负面因素上升，保守人士甚至成立了“当前中国威胁委员会”。在此背景下，美国将台海关系作为战略抓手，通过打“台湾牌”在双边关系中增加筹码。特朗普就任后，国会对总统外交政策的约束力和塑造力加强。其实国会推动通过涉台法案对行政部门不具约束力，美政府在2018年并未提升美台官员互访级别，美军舰也没有“访问”台湾港口，保持着某种克制。但从美总统签署国会通过的法案可以看出，国会对外交产生了影响。立法也为政府对台政策提供更大空间。\n然而，美国需要认真衡量打“台湾牌”成本。首先是美国应对危机的代价。美方官员和学者已明确发出警告，美国卷入台湾问题得不偿失。美国学者曾在媒体发文指出，如果台海爆发危机，美国可能需要“援助”台湾，进而导致新的冷战乃至与中国大陆的冲突。但如果美国让台湾自己面对，则有损美国的信誉，影响美盟友对同盟关系的支持。其次是对中美关系的危害。历史证明，中美合则两利、斗则两伤。中美关系是当今世界最重要的双边关系之一，保持中美关系的稳定发展，不仅符合两国和两国人民的根本利益，也是国际社会的普遍期待。美国蓄意挑战台湾问题的底线，加剧中美关系的复杂性和不确定性，损害两国在重要领域合作，损人又害己

In [11]:
# 前两条
datasets["train"][:2]

{'title': ['望海楼美国打“台湾牌”是危险的赌博', '大力推进高校治理能力建设'],
 'content': ['近期，美国国会众院通过法案，重申美国对台湾的承诺。对此，中国外交部发言人表示，有关法案严重违反一个中国原则和中美三个联合公报规定，粗暴干涉中国内政，中方对此坚决反对并已向美方提出严正交涉。\n事实上，中国高度关注美国国内打“台湾牌”、挑战一中原则的危险动向。近年来，作为“亲台”势力大本营的美国国会动作不断，先后通过“与台湾交往法”“亚洲再保证倡议法”等一系列“挺台”法案，“2019财年国防授权法案”也多处触及台湾问题。今年3月，美参院亲台议员再抛“台湾保证法”草案。众院议员继而在4月提出众院版的草案并在近期通过。上述法案的核心目标是强化美台关系，并将台作为美“印太战略”的重要伙伴。同时，“亲台”议员还有意制造事端。今年2月，5名共和党参议员致信众议院议长，促其邀请台湾地区领导人在国会上发表讲话。这一动议显然有悖于美国与台湾的非官方关系，其用心是实质性改变美台关系定位。\n上述动向出现并非偶然。在中美建交40周年之际，两国关系摩擦加剧，所谓“中国威胁论”再次沉渣泛起。美国对华认知出现严重偏差，对华政策中负面因素上升，保守人士甚至成立了“当前中国威胁委员会”。在此背景下，美国将台海关系作为战略抓手，通过打“台湾牌”在双边关系中增加筹码。特朗普就任后，国会对总统外交政策的约束力和塑造力加强。其实国会推动通过涉台法案对行政部门不具约束力，美政府在2018年并未提升美台官员互访级别，美军舰也没有“访问”台湾港口，保持着某种克制。但从美总统签署国会通过的法案可以看出，国会对外交产生了影响。立法也为政府对台政策提供更大空间。\n然而，美国需要认真衡量打“台湾牌”成本。首先是美国应对危机的代价。美方官员和学者已明确发出警告，美国卷入台湾问题得不偿失。美国学者曾在媒体发文指出，如果台海爆发危机，美国可能需要“援助”台湾，进而导致新的冷战乃至与中国大陆的冲突。但如果美国让台湾自己面对，则有损美国的信誉，影响美盟友对同盟关系的支持。其次是对中美关系的危害。历史证明，中美合则两利、斗则两伤。中美关系是当今世界最重要的双边关系之一，保持中美关系的稳定发展，不仅符合两国和两国人民的根本利益，也是国际社会的普遍期待。美国蓄意挑战台湾问题的底线，加剧中美关系的复杂性和不确定

In [12]:
#查看title的前五条
datasets["train"]["title"][:5]

['望海楼美国打“台湾牌”是危险的赌博',
 '大力推进高校治理能力建设',
 '坚持事业为上选贤任能',
 '“大朋友”的话儿记心头',
 '用好可持续发展这把“金钥匙”']

In [13]:
# 返回字段名的列表
datasets["train"].column_names

['title', 'content']

In [14]:
# 返回每个字段的完整定义
datasets["train"],features

(Dataset({
     features: ['title', 'content'],
     num_rows: 5850
 }),
 <module 'datasets.features' from 'c:\\Users\\surface\\miniconda3\\envs\\transformers-py310\\lib\\site-packages\\datasets\\features\\__init__.py'>)

## 数据集划分

In [15]:
dataset=datasets["train"]
dataset.train_test_split(test_size=0.1) #将10%的训练数据划分为测试集，剩下的90%将作为训练集

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5265
    })
    test: Dataset({
        features: ['title', 'content'],
        num_rows: 585
    })
})

In [16]:
dataset=boolq_dataset["train"]
dataset.train_test_split(test_size=0.1,stratify_by_column="label") #通过分层抽样，确保训练集和测试集中各类别的比例保持一致

DatasetDict({
    train: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 8484
    })
    test: Dataset({
        features: ['question', 'passage', 'idx', 'label'],
        num_rows: 943
    })
})

## 数据选取与过滤

In [17]:
#选取
datasets["train"].select([0,1])

Dataset({
    features: ['title', 'content'],
    num_rows: 2
})

In [18]:
#过滤
filter_dataset = datasets["train"].filter(lambda example:"中国" in example["title"]) #遍历每一条数据（example），检查其 title 字段中是否包含“中国”，如果包含就保留，否则丢弃。

In [19]:
filter_dataset["title"][:5]

['聚焦两会，世界探寻中国成功秘诀',
 '望海楼中国经济的信心来自哪里',
 '“中国奇迹”助力世界减贫跑出加速度',
 '和音瞩目历史交汇点上的中国',
 '中国风采感染世界']

## 数据映射

In [20]:
def add_prefix(example):
    example["title"]='Prefix:'+example["title"]
    return example

In [21]:
prefix_dataset=datasets.map(add_prefix)
prefix_dataset["train"][:10]["title"]

['Prefix:望海楼美国打“台湾牌”是危险的赌博',
 'Prefix:大力推进高校治理能力建设',
 'Prefix:坚持事业为上选贤任能',
 'Prefix:“大朋友”的话儿记心头',
 'Prefix:用好可持续发展这把“金钥匙”',
 'Prefix:跨越雄关，我们走在大路上',
 'Prefix:脱贫奇迹彰显政治优势',
 'Prefix:拱卫亿万人共同的绿色梦想',
 'Prefix:为党育人、为国育才',
 'Prefix:净化网络语言']