### Datasets提供加载的几种常见的数据格式
![image.png](attachment:image.png)

## 1、加载本地数据集

!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz  
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz

解压  
!gzip -dkv SQuAD_it-*.json.gz

In [1]:
from datasets import load_dataset

squad_it_dataset = load_dataset("json",   # json格式的数据集
                                data_files="./data/SQuAD_it-train.json",   # 数据集文件
                                field="data")  # 数据集字段

Generating train split: 0 examples [00:00, ? examples/s]

默认情况下, 加载本地文件会创建一个带有train的DatasetDict 对象

In [2]:
squad_it_dataset

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 442
    })
})

In [3]:
squad_it_dataset["train"][0]

{'paragraphs': [{'context': "Il terremoto del Sichuan del 2008 o il terremoto del Gran Sichuan, misurato a 8.0 Ms e 7.9 Mw, e si è verificato alle 02:28:01 PM China Standard Time all' epicentro (06:28:01 UTC) il 12 maggio nella provincia del Sichuan, ha ucciso 69.197 persone e lasciato 18.222 dispersi.",
   'qas': [{'answers': [{'answer_start': 29, 'text': '2008'}],
     'id': '56cdca7862d2951400fa6826',
     'question': 'In quale anno si è verificato il terremoto nel Sichuan?'},
    {'answers': [{'answer_start': 232, 'text': '69.197'}],
     'id': '56cdca7862d2951400fa6828',
     'question': 'Quante persone sono state uccise come risultato?'},
    {'answers': [{'answer_start': 29, 'text': '2008'}],
     'id': '56d4f9902ccc5a1400d833c0',
     'question': 'Quale anno ha avuto luogo il terremoto del Sichuan?'},
    {'answers': [{'answer_start': 78, 'text': '8.0 Ms e 7.9 Mw'}],
     'id': '56d4f9902ccc5a1400d833c1',
     'question': 'Che cosa ha fatto la misura di sisma?'},
    {'answers'

In [4]:
data_files = {"train": "./data/SQuAD_it-train.json", "test": "./data/SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 442
    })
    test: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 48
    })
})

Datasets实际上支持输入文件的自动解压

In [None]:
data_files = {"train": "SQuAD_it-train.json.gz",
              "test": "SQuAD_it-test.json.gz"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")

## 2、加载远程数据

In [None]:
# 下载并自动解压
from datasets import load_dataset

url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {
    "train": url + "SQuAD_it-train.json.gz",
    "test": url + "SQuAD_it-test.json.gz",
}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")