In [2]:
from datasets import *

## Datasets基本使用

### 加载在线数据集

In [3]:
datasets = load_dataset("madao33/new-title-chinese")
datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

### 加载数据集合集中的某一项任务（如MMMLU）

In [4]:
sub_dataset = load_dataset("openai/MMMLU", "ZH_CN")
sub_dataset

DatasetDict({
    test: Dataset({
        features: ['Unnamed: 0', 'Question', 'A', 'B', 'C', 'D', 'Answer', 'Subject'],
        num_rows: 14042
    })
})

In [5]:
boolq_dataset = load_dataset("super_plue", "boolq", trust_remote_code=True)
boolq_dataset

DatasetNotFoundError: Dataset 'super_plue' doesn't exist on the Hub or cannot be accessed.

### 按照数据集划分进行加载

In [6]:
dataset = load_dataset("madao33/new-title-chinese", split="train")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 5850
})

In [7]:
dataset = load_dataset("madao33/new-title-chinese", split="train[:100]")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 100
})

In [8]:
dataset = load_dataset("madao33/new-title-chinese", split="train[:50%]")
dataset

Dataset({
    features: ['title', 'content'],
    num_rows: 2925
})

In [9]:
dataset = load_dataset("madao33/new-title-chinese", split=["train[10:100]", "validation[:10%]"])
dataset

[Dataset({
     features: ['title', 'content'],
     num_rows: 90
 }),
 Dataset({
     features: ['title', 'content'],
     num_rows: 168
 })]

### 查看数据集

In [10]:
datasets = load_dataset("madao33/new-title-chinese")
datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content'],
        num_rows: 1679
    })
})

In [11]:
datasets["train"][0]

{'title': '望海楼美国打“台湾牌”是危险的赌博',
 'content': '近期，美国国会众院通过法案，重申美国对台湾的承诺。对此，中国外交部发言人表示，有关法案严重违反一个中国原则和中美三个联合公报规定，粗暴干涉中国内政，中方对此坚决反对并已向美方提出严正交涉。\n事实上，中国高度关注美国国内打“台湾牌”、挑战一中原则的危险动向。近年来，作为“亲台”势力大本营的美国国会动作不断，先后通过“与台湾交往法”“亚洲再保证倡议法”等一系列“挺台”法案，“2019财年国防授权法案”也多处触及台湾问题。今年3月，美参院亲台议员再抛“台湾保证法”草案。众院议员继而在4月提出众院版的草案并在近期通过。上述法案的核心目标是强化美台关系，并将台作为美“印太战略”的重要伙伴。同时，“亲台”议员还有意制造事端。今年2月，5名共和党参议员致信众议院议长，促其邀请台湾地区领导人在国会上发表讲话。这一动议显然有悖于美国与台湾的非官方关系，其用心是实质性改变美台关系定位。\n上述动向出现并非偶然。在中美建交40周年之际，两国关系摩擦加剧，所谓“中国威胁论”再次沉渣泛起。美国对华认知出现严重偏差，对华政策中负面因素上升，保守人士甚至成立了“当前中国威胁委员会”。在此背景下，美国将台海关系作为战略抓手，通过打“台湾牌”在双边关系中增加筹码。特朗普就任后，国会对总统外交政策的约束力和塑造力加强。其实国会推动通过涉台法案对行政部门不具约束力，美政府在2018年并未提升美台官员互访级别，美军舰也没有“访问”台湾港口，保持着某种克制。但从美总统签署国会通过的法案可以看出，国会对外交产生了影响。立法也为政府对台政策提供更大空间。\n然而，美国需要认真衡量打“台湾牌”成本。首先是美国应对危机的代价。美方官员和学者已明确发出警告，美国卷入台湾问题得不偿失。美国学者曾在媒体发文指出，如果台海爆发危机，美国可能需要“援助”台湾，进而导致新的冷战乃至与中国大陆的冲突。但如果美国让台湾自己面对，则有损美国的信誉，影响美盟友对同盟关系的支持。其次是对中美关系的危害。历史证明，中美合则两利、斗则两伤。中美关系是当今世界最重要的双边关系之一，保持中美关系的稳定发展，不仅符合两国和两国人民的根本利益，也是国际社会的普遍期待。美国蓄意挑战台湾问题的底线，加剧中美关系的复杂性和不确定性，损害两国在重要领域合作，损人又害己

In [12]:
datasets["train"][:2]

{'title': ['望海楼美国打“台湾牌”是危险的赌博', '大力推进高校治理能力建设'],
 'content': ['近期，美国国会众院通过法案，重申美国对台湾的承诺。对此，中国外交部发言人表示，有关法案严重违反一个中国原则和中美三个联合公报规定，粗暴干涉中国内政，中方对此坚决反对并已向美方提出严正交涉。\n事实上，中国高度关注美国国内打“台湾牌”、挑战一中原则的危险动向。近年来，作为“亲台”势力大本营的美国国会动作不断，先后通过“与台湾交往法”“亚洲再保证倡议法”等一系列“挺台”法案，“2019财年国防授权法案”也多处触及台湾问题。今年3月，美参院亲台议员再抛“台湾保证法”草案。众院议员继而在4月提出众院版的草案并在近期通过。上述法案的核心目标是强化美台关系，并将台作为美“印太战略”的重要伙伴。同时，“亲台”议员还有意制造事端。今年2月，5名共和党参议员致信众议院议长，促其邀请台湾地区领导人在国会上发表讲话。这一动议显然有悖于美国与台湾的非官方关系，其用心是实质性改变美台关系定位。\n上述动向出现并非偶然。在中美建交40周年之际，两国关系摩擦加剧，所谓“中国威胁论”再次沉渣泛起。美国对华认知出现严重偏差，对华政策中负面因素上升，保守人士甚至成立了“当前中国威胁委员会”。在此背景下，美国将台海关系作为战略抓手，通过打“台湾牌”在双边关系中增加筹码。特朗普就任后，国会对总统外交政策的约束力和塑造力加强。其实国会推动通过涉台法案对行政部门不具约束力，美政府在2018年并未提升美台官员互访级别，美军舰也没有“访问”台湾港口，保持着某种克制。但从美总统签署国会通过的法案可以看出，国会对外交产生了影响。立法也为政府对台政策提供更大空间。\n然而，美国需要认真衡量打“台湾牌”成本。首先是美国应对危机的代价。美方官员和学者已明确发出警告，美国卷入台湾问题得不偿失。美国学者曾在媒体发文指出，如果台海爆发危机，美国可能需要“援助”台湾，进而导致新的冷战乃至与中国大陆的冲突。但如果美国让台湾自己面对，则有损美国的信誉，影响美盟友对同盟关系的支持。其次是对中美关系的危害。历史证明，中美合则两利、斗则两伤。中美关系是当今世界最重要的双边关系之一，保持中美关系的稳定发展，不仅符合两国和两国人民的根本利益，也是国际社会的普遍期待。美国蓄意挑战台湾问题的底线，加剧中美关系的复杂性和不确定

In [13]:
datasets["train"]["title"][:5]

['望海楼美国打“台湾牌”是危险的赌博',
 '大力推进高校治理能力建设',
 '坚持事业为上选贤任能',
 '“大朋友”的话儿记心头',
 '用好可持续发展这把“金钥匙”']

In [14]:
datasets["train"].column_names

['title', 'content']

In [15]:
datasets["train"].features

{'title': Value(dtype='string', id=None),
 'content': Value(dtype='string', id=None)}

### 数据集划分

In [16]:
dataset = datasets["train"]
dataset.train_test_split(test_size=0.1)  # 指定测试集比例

DatasetDict({
    train: Dataset({
        features: ['title', 'content'],
        num_rows: 5265
    })
    test: Dataset({
        features: ['title', 'content'],
        num_rows: 585
    })
})

In [17]:
boolq_dataset = load_dataset("boolq")
boolq_dataset

DatasetDict({
    train: Dataset({
        features: ['question', 'answer', 'passage'],
        num_rows: 9427
    })
    validation: Dataset({
        features: ['question', 'answer', 'passage'],
        num_rows: 3270
    })
})

In [18]:
dataset = boolq_dataset["train"]
dataset.train_test_split(test_size=0.1, stratify_by_column="answer")  # 保持测试集与整个数据集里“answer”的数据分类比例一致，仅支持ClassLabel类型

ValueError: Stratifying by column is only supported for ClassLabel column, and column answer is Value.

In [19]:
dataset.features

{'question': Value(dtype='string', id=None),
 'answer': Value(dtype='bool', id=None),
 'passage': Value(dtype='string', id=None)}

In [20]:
ClassLabel

datasets.features.features.ClassLabel

In [21]:
mrpc_dataset = load_dataset("autoevaluate/autoeval-staging-eval-glue-mrpc-71a11b-14455978")
mrpc_dataset

DatasetDict({
    train: Dataset({
        features: ['text1', 'text2', 'target', 'feat_idx', 'evaluation_predictions'],
        num_rows: 408
    })
})

In [22]:
mrpc_dataset["train"].features

{'text1': Value(dtype='string', id=None),
 'text2': Value(dtype='string', id=None),
 'target': ClassLabel(names=['equivalent', 'not_equivalent'], id=None),
 'feat_idx': Value(dtype='int32', id=None),
 'evaluation_predictions': Sequence(feature=Value(dtype='float64', id=None), length=-1, id=None)}

In [23]:
dataset = mrpc_dataset["train"]
dataset.train_test_split(test_size=0.1, stratify_by_column="target")  # 终于找到一个ClassLabel类型

DatasetDict({
    train: Dataset({
        features: ['text1', 'text2', 'target', 'feat_idx', 'evaluation_predictions'],
        num_rows: 367
    })
    test: Dataset({
        features: ['text1', 'text2', 'target', 'feat_idx', 'evaluation_predictions'],
        num_rows: 41
    })
})

### 数据选取与过滤

In [24]:
# 选取对应索引的数据，结果还是Dataset
datasets["train"].select([0, 20, 100])

Dataset({
    features: ['title', 'content'],
    num_rows: 3
})

In [25]:
# 传个函数做过滤，结果还是Dataset
datasets["train"].filter(lambda example: "中国" in example["title"])

Dataset({
    features: ['title', 'content'],
    num_rows: 544
})

### 数据映射

In [26]:
def add_prefix(example):
    example["title"] = 'Prefix:' + example["title"]
    return example

In [27]:
prefix_dataset = datasets.map(add_prefix)
prefix_dataset["train"][:10]["title"]

['Prefix:望海楼美国打“台湾牌”是危险的赌博',
 'Prefix:大力推进高校治理能力建设',
 'Prefix:坚持事业为上选贤任能',
 'Prefix:“大朋友”的话儿记心头',
 'Prefix:用好可持续发展这把“金钥匙”',
 'Prefix:跨越雄关，我们走在大路上',
 'Prefix:脱贫奇迹彰显政治优势',
 'Prefix:拱卫亿万人共同的绿色梦想',
 'Prefix:为党育人、为国育才',
 'Prefix:净化网络语言']

In [28]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
def process_function(example):
    model_inputs = tokenizer(example["content"], max_length=512, truncation=True)
    labels = tokenizer(example["title"], max_length=32, truncation=True)
    # Tokenizer返回字典，其中“inputs_ids”是编码后部分
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs



In [29]:
process_datasets = datasets.map(process_function)
process_datasets

Map:   0%|          | 0/1679 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [30]:
# 支持批处理
sets = datasets.map(process_function, batched=True)
process_datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [31]:
# 多进程处理，指定进程数量
process_datasets = datasets.map(process_function, num_proc=8)
process_datasets

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['title', 'content', 'input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

In [32]:
# map时把不想要的字段去掉
process_datasets = datasets.map(process_function, batched=True, remove_columns=datasets["train"].column_names)
process_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

### 保存与加载

In [33]:
process_datasets.save_to_disk("./process_data")

Saving the dataset (0/1 shards):   0%|          | 0/5850 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/1679 [00:00<?, ? examples/s]

In [34]:
process_datasets = load_from_disk("./process_data")
process_datasets

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 5850
    })
    validation: Dataset({
        features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
        num_rows: 1679
    })
})

## 加载本地数据集

### 直接加载文件作为数据集

In [35]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv")
dataset

Generating train split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['label', 'review'],
        num_rows: 7766
    })
})

In [36]:
# 返回类型从DatasetDict变成了Dataset
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [37]:
dataset = Dataset.from_csv("./ChnSentiCorp_htl_all.csv", split="train")
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [38]:
dataset = Dataset.from_csv("./ChnSentiCorp_htl_all.csv")
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

### 加载文件夹内全部文件作为数据集

In [39]:
dataset = load_dataset("csv", data_dir="./all_data", split='train')
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 23298
})

In [40]:
dataset = load_dataset("csv", data_files=["./all_data//ChnSentiCorp_htl_all.csv", "./all_data/ChnSentiCorp_htl_all copy.csv"], split='train')
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 15532
})

### 通过预先加载的其他格式转换加载数据集

In [41]:
import pandas as pd

data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
data.head()

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"


In [42]:
dataset = Dataset.from_pandas(data)
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [47]:
# list格式的数据需要内嵌{}，明确数据字段
# data = ["abc", "def", "ghj"]
data = [{"key":"ghj", "text":"abc"}, {"text":"def"}]
Dataset.from_list(data)

Dataset({
    features: ['key', 'text'],
    num_rows: 2
})

In [48]:
Dataset.from_list(data)[:2]

{'key': ['ghj', None], 'text': ['abc', 'def']}

### 通过自定义加载脚本加载数据集

In [54]:
data = load_dataset("json", data_files="./cmrc2018_trial.json", field="data")
data

Generating train split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'id', 'title'],
        num_rows: 256
    })
})

In [55]:
data["train"][0]

{'paragraphs': [{'context': '基于《跑跑卡丁车》与《泡泡堂》上所开发的游戏，由韩国Nexon开发与发行。中国大陆由盛大游戏运营，这是Nexon时隔6年再次授予盛大网络其游戏运营权。台湾由游戏橘子运营。玩家以水枪、小枪、锤子或是水炸弹泡封敌人(玩家或NPC)，即为一泡封，将水泡击破为一踢爆。若水泡未在时间内踢爆，则会从水泡中释放或被队友救援(即为一救援)。每次泡封会减少生命数，生命数耗完即算为踢爆。重生者在一定时间内为无敌状态，以踢爆数计分较多者获胜，规则因模式而有差异。以2V2、4V4随机配对的方式，玩家可依胜场数爬牌位(依序为原石、铜牌、银牌、金牌、白金、钻石、大师) ，可选择经典、热血、狙击等模式进行游戏。若游戏中离，则4分钟内不得进行配对(每次中离+4分钟)。开放时间为暑假或寒假期间内不定期开放，8人经典模式随机配对，采计分方式，活动时间内分数越多，终了时可依该名次获得奖励。',
   'id': 'TRIAL_800',
   'qas': [{'answers': [{'answer_start': 127, 'text': '踢爆'}],
     'id': 'TRIAL_800_QUERY_0',
     'question': '生命数耗完即算为什么？'},
    {'answers': [{'answer_start': 301, 'text': '4分钟'}],
     'id': 'TRIAL_800_QUERY_1',
     'question': '若游戏中离，则多少分钟内不得进行配对？'},
    {'answers': [{'answer_start': 85, 'text': '玩家以水枪、小枪、锤子或是水炸弹泡封敌人'}],
     'id': 'TRIAL_800_QUERY_2',
     'question': '玩家用什么泡封敌人？'},
    {'answers': [{'answer_start': 275, 'text': '可选择经典、热血、狙击等模式进行游戏。'}],
     'id': 'TRIAL_800_QUERY_3',
     'question': '游戏的模式有哪些？'}]}],
 'id': 'TRIAL_800',
 'title': '泡泡战士

In [57]:
dataset = load_dataset("./load_script.py", split="train", trust_remote_code=True)
dataset

Generating train split: 0 examples [00:00, ? examples/s]

Dataset({
    features: ['id', 'context', 'question', 'answers'],
    num_rows: 1002
})

In [58]:
dataset[0]

{'id': 'TRIAL_800_QUERY_0',
 'context': '基于《跑跑卡丁车》与《泡泡堂》上所开发的游戏，由韩国Nexon开发与发行。中国大陆由盛大游戏运营，这是Nexon时隔6年再次授予盛大网络其游戏运营权。台湾由游戏橘子运营。玩家以水枪、小枪、锤子或是水炸弹泡封敌人(玩家或NPC)，即为一泡封，将水泡击破为一踢爆。若水泡未在时间内踢爆，则会从水泡中释放或被队友救援(即为一救援)。每次泡封会减少生命数，生命数耗完即算为踢爆。重生者在一定时间内为无敌状态，以踢爆数计分较多者获胜，规则因模式而有差异。以2V2、4V4随机配对的方式，玩家可依胜场数爬牌位(依序为原石、铜牌、银牌、金牌、白金、钻石、大师) ，可选择经典、热血、狙击等模式进行游戏。若游戏中离，则4分钟内不得进行配对(每次中离+4分钟)。开放时间为暑假或寒假期间内不定期开放，8人经典模式随机配对，采计分方式，活动时间内分数越多，终了时可依该名次获得奖励。',
 'question': '生命数耗完即算为什么？',
 'answers': {'text': ['踢爆'], 'answer_start': [127]}}

## Dataset with DataCollator
将features特征数据转换为tensor类型的dataset

In [59]:
from transformers import DataCollatorWithPadding

In [60]:
dataset = load_dataset("csv", data_files="./ChnSentiCorp_htl_all.csv", split="train")
dataset

Dataset({
    features: ['label', 'review'],
    num_rows: 7766
})

In [62]:
dataset = dataset.filter(lambda x: x["review"] is not None)
dataset

Filter:   0%|          | 0/7765 [00:00<?, ? examples/s]

Dataset({
    features: ['label', 'review'],
    num_rows: 7765
})

In [63]:
def process_function(examples):
    tokenized_examples = tokenizer(examples["review"], max_length=128, truncation=True)
    tokenized_examples["labels"] = examples["label"]
    return tokenized_examples

In [64]:
tokenized_dataset = dataset.map(process_function, batched=True, remove_columns=dataset.column_names)
tokenized_dataset

Map:   0%|          | 0/7765 [00:00<?, ? examples/s]

Dataset({
    features: ['input_ids', 'token_type_ids', 'attention_mask', 'labels'],
    num_rows: 7765
})

In [68]:
print(tokenized_dataset[:3])

{'input_ids': [[101, 6655, 4895, 2335, 3763, 1062, 6662, 6772, 6818, 117, 852, 3221, 1062, 769, 2900, 4850, 679, 2190, 117, 1963, 3362, 3221, 107, 5918, 7355, 5296, 107, 4638, 6413, 117, 833, 7478, 2382, 7937, 4172, 119, 2456, 6379, 4500, 1166, 4638, 6662, 5296, 119, 2791, 7313, 6772, 711, 5042, 1296, 119, 102], [101, 1555, 1218, 1920, 2414, 2791, 8024, 2791, 7313, 2523, 1920, 8024, 2414, 3300, 100, 2160, 8024, 3146, 860, 2697, 6230, 5307, 3845, 2141, 2669, 679, 7231, 106, 102], [101, 3193, 7623, 1922, 2345, 8024, 3187, 6389, 1343, 1914, 2208, 782, 8024, 6929, 6804, 738, 679, 1217, 7608, 1501, 4638, 511, 6983, 2421, 2418, 6421, 7028, 6228, 671, 678, 6821, 702, 7309, 7579, 749, 511, 2791, 7313, 3315, 6716, 2523, 1962, 511, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [69]:
collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [70]:
from torch.utils.data import DataLoader

In [71]:
dl = DataLoader(tokenized_dataset, batch_size=4, collate_fn=collator, shuffle=True)
dl

<torch.utils.data.dataloader.DataLoader at 0x7fc1a7af2640>

In [72]:
next(enumerate(dl))

(0,
 {'input_ids': tensor([[ 101, 2769, 3315, 3341, 4157, 6397, 3221,  671, 1146, 4638, 8024,  679,
          4761, 2582,  720, 1359, 2768,  749,  123, 1146, 8024, 2792,  809, 1086,
          3341, 3121,  671,  678,  511,  102,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
             0,    0,    0,    0,    0,    0,    0,    0],
         [ 101, 6821,  702, 6983, 2421, 3221, 2769,  857, 6814, 4638, 1744, 1079,
          1724, 3215,

In [74]:
num = 0
for batch in dl:
    print(batch["input_ids"].size())
    num += 1
    if num > 10:
        break

torch.Size([4, 128])
torch.Size([4, 128])
torch.Size([4, 128])
torch.Size([4, 107])
torch.Size([4, 128])
torch.Size([4, 128])
torch.Size([4, 128])
torch.Size([4, 80])
torch.Size([4, 128])
torch.Size([4, 128])
torch.Size([4, 73])
