# 从datasets库加载本地/远程服务器上的数据集

本笔记的内容参考自：[5.2: What if my dataset isn’t on the Hub?](https://huggingface.co/learn/llm-course/en/chapter5/2?fw=pt)

如果我们需要用到的数据集不在HuggingFace Hub上面，我们可以加载本地笔记本/PC上的文件，也可以加载远程服务器上的。这三种加载数据的方式，都可以通过调用`datasets.load_dataset`函数来实现。

In [1]:
from datasets import load_dataset


接着，我们先来复习一下加载HuggingFace Hub上面的数据集，然后介绍一下加载远程服务器的，最后是加载本地的。

## 1. 从HuggingFace Hub加载数据集

In [20]:
from datasets import load_dataset

# Login using e.g. `huggingface-cli login` to access this dataset
megabench_core_dataset = load_dataset("TIGER-Lab/MEGA-Bench", "core")

In [21]:
from pprint import pprint
pprint(megabench_core_dataset)

DatasetDict({
    test: Dataset({
        features: ['id', 'task_name', 'task_description', 'global_media', 'example_text', 'example_media', 'query_text', 'query_media', 'answer', 'metric_info', 'eval_context', 'taxonomy_tree_path', 'application', 'input_format', 'output_format'],
        num_rows: 6531
    })
})


## 2. 加载远程服务器上的数据集

In [30]:
url = "https://huggingface.co/datasets/TIGER-Lab/MEGA-Bench/resolve/main/core/"
data_files = {
    "test": url + "test-00000-of-00001.parquet",
}
megabench_core_dataset = load_dataset(path="parquet", data_files=data_files)
pprint(megabench_core_dataset)

DatasetDict({
    test: Dataset({
        features: ['id', 'task_name', 'task_description', 'global_media', 'example_text', 'example_media', 'query_text', 'query_media', 'answer', 'metric_info', 'eval_context', 'taxonomy_tree_path', 'application', 'input_format', 'output_format'],
        num_rows: 6531
    })
})


## 3. 加载本地的数据集

In [31]:
data_files = "./megabench_core_test.parquet"
megabench_core_dataset = load_dataset("parquet", data_files=data_files)
pprint(megabench_core_dataset)

Generating train split: 6531 examples [00:00, 120915.30 examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'task_name', 'task_description', 'global_media', 'example_text', 'example_media', 'query_text', 'query_media', 'answer', 'metric_info', 'eval_context', 'taxonomy_tree_path', 'application', 'input_format', 'output_format'],
        num_rows: 6531
    })
})



