# T0. 使用命令行工具
## 1. 命令行工具简介

使用命令行工具允许您以最快的速度使用 `fastie` 集成的多种模型对您的数据进行训练、验证和推理,
当您成功安装 `fastie` 后，您可以通过在命令行中输入 `fastie` 来查看所有可以使用的命令行工具.
具体而言, `fastie` 提供了以下命令行工具:

### 1.1 fastie-train

`fastie-train` 为 `fastie` 的训练工具，它可以帮助您使用 `fastie` 集成的模型架构或预设方案
对您的数据集进行训练并保存模型参数，您可以通过 `fastie-train --help` 来查看所有可用的参数.
具体而言，所有的 `fastie` 命令行工具都有拥有以下基础参数:

- `--task`, `-t` 指定任务名称.
- `--dataset`, `-d` 指定数据集名称.
- `--config`, `-c` 指定预设配置名称.
- `--help`, `-h` 获得当前可用参数的帮助信息.

下面对每个参数进行详细说明:

#### 1.1.1 task

`fastie` 中的 `task` 代表具体的 `NLP` 任务及其使用的解决方案(或模型)架构, 例如, `fastie`
提供了使用预训练的 `BERT` 模型进行 `NER` 任务的解决方案, 该解决方案的 `task` 名称为:
`ner/bert`, `/` 符号分割了任务的名称和架构的名称.

`fastie` 提供了 `--list`, `-l` 工具帮助您快速获悉 `fastie` 中所有可用的 `task` 名称.
例如, 在控制台中输入(在您的控制台中请勿输入开头的 `!` 字符):

In [6]:
!fastie-train --task --list

Task   Solution                            Description                          
NER    bert       用预训练模型 Bert 对 token 进行向量表征，然后通过 classification head 对每个 token
                  进行分类。                                                    
                                                                                


`fastie` 的检索功能同时支持筛选, 若您只想查看 `NER` 的相关任务, 您可以输入:

In [7]:
!fastie-train --task ner --list

Task   Solution                            Description                          
NER    bert       用预训练模型 Bert 对 token 进行向量表征，然后通过 classification head 对每个 token
                  进行分类。                                                    
                                                                                


#### 1.1.2 dataset

`fastie` 中的 `dataset` 代表具体的 `NLP` 数据集或者数据集结构, 例如, `fastie` 提供了
`CoNLL-2003` 数据集, 那么对应的 `dataset` 名称为 `conll2003`. `fastie` 除了提供常用
`NLP` 数据集外(在 `fastie` 中被称为 `legacy` 数据集)，还提供了多种数据集格式(在 `fastie`
中被称为 `io` 数据集), 便于您读取自己的数据集, 例如, `fastie` 提供了 `jsonlines-ner`
格式的数据集:

```jsonl
{"tokens": ["I", "love", "fastie", "."], "entity_motions": [
    {"entity_index": [0], "entity_type": "PER"}
    {"entity_index": [2], "entity_type": "MISC"}
]}
{"tokens": ["I", "love", "fastNLP", "."], "entity_motions": [
    {"entity_index": [0], "entity_type": "PER"}
    {"entity_index": [2], "entity_type": "MISC"}
]}
```

如上所示, `jsonlines` 格式规定您的文件中每行是一个 `json` 格式的样本, 当您的数据集是
`jsonlines-ner`格式的时候，您就可以将 `dataset` 设置为 `jsonlines-ner`，`fastie` 会自动
读取您的数据集.

与 `task` 类似, `fastie` 提供了 `--list`, `-l` 工具帮助您快速获悉 `fastie` 中所有可用的
`dataset` 名称. 例如, 在控制台中输入(在您的控制台中请勿输入开头的 `!` 字符):

In [8]:
!fastie-train --dataset --list

   Dataset                                Description                           
conll2003       The shared task of CoNLL-2003 concerns language-independent     
                named entity                                                    
wikiann         这个类还没写好，请勿参考.                                       
column-ner      这个类还没写好，请勿参考.                                       
sentence        None                                                            
jsonlines-ner   None                                                            
                                                                                


#### 1.1.3 config

`fastie` 中的 `config` 代表预设配置文件, 您可以使用自己的配置文件, 也可以使用 `fastie` 提
供的预设配置. 简单来说, `config` 同时具有 `fastie` 中的 `task` 和 `dataset` 的功能, 例如,
您可以在当前的工作目录建立 `config.py`:

```python
config = {
    "task": "ner/bert",
    "dataset": "conll2003"
}
```

然后在控制台中输入:

```bash
fastie-train --config config.py
```

上述的操作等价于直接在命令行输入:

```bash
fastie-train --task ner/bert --dataset conll2003
```

如上所示可见 `fastie` 中的 `config` 是使用 `python` 语言编写的, 因此您可以在 `config` 中
使用任何 `python` 语言的特性, 例如, 您可以在 `config` 中使用 `if` 语句来判断当前的 `task`
和 `dataset` 并设置不同的参数:

```python
dataset = "conll2003"
config = {
    "task": "ner/bert" if dataset == "conll2003" else "ner/bilstm",
    "dataset": dataset
}
```

但是请注意, 您提供的配置文件必须包含 `config` 变量, 且 `config` 变量必须是一个 `dict` 类型.

`fastie` 中的配置文件除了可以储存 `task`, `dataset` 这种基础参数外, 还可以储存 `task` 或
`dataset` 规定的内部参数, 详见 `2. 获得命令行的帮助`.

同样的, `fastie` 提供了 `--list`, `-l` 工具帮助您快速获悉 `fastie` 中所有可用的 `config`
名称. 例如, 在控制台中输入(在您的控制台中请勿输入开头的 `!` 字符):

In [9]:
!fastie-train --config --list

Config           Description                                
bert-conll2003   : 使用 bert 对 conll2003 数据集进行序列标注


### 1.2 fastie-eval

`fastie-eval` 是 `fastie` 中的验证工具, 用于评估 `fastie-train` 训练出的模型. `fastie-eval`
的使用方法与 `fastie-train` 类似, 同样拥有 `--task`, `--dataset`, `--config` 这三个参数.

在进行模型评测的时候, 我们一般需要设置一个模型文件路径的参数, 用于初始化 `task` 中的模型, 因此
在这里简答介绍 `fastie` 的渐进式命令行帮助机制:

当您仅在控制台中输入 `fastie-eval --help` 时, `fastie` 只会提供给你 `--task`, `--dataset`,
`--config` 这三个基本参数的帮助. 而当您进一步明确了 `task` 或者 `dataset` 或者 `config` 后,
`--help` 提供的参数帮助将会增加, 例如, 当您输入 `fastie-eval --task ner/bert --help` 时:

In [10]:
!fastie-eval --task ner/bert --help

usage: fastie-train [-h] [--config] [--task] [--dataset] [--cuda ]
                    [--load_model] [--batch_size] [--shuffle ]
                    [--pretrained_model_name_or_path]

options:
  -h, --help            show this help message and exit

fastIE command line basic arguments:
  --config , -c         The config file you want to use. default:
  --task , -t           The task you want to use. Please use / to split the
                        task and the specific solution. default:
  --dataset , -d        The dataset you want to work with. default:

Use pre-trained BERT and a classification head to classify tokens:
  --cuda []             Whether to use your NVIDIA graphics card to accelerate
                        the process. default: False
  --load_model          Load the model from the path or model name. default:
  --batch_size          Batch size. default: 32
  --shuffle []          Whether to shuffle the dataset. default: True
  --pretrained_model_nam

造成上述现象的原因是 `fastie` 会根据您的输入自动加载 `task` 或者 `dataset`, 并将其可用的参数
帮助信息打印出来. 因此, 当您使用 `fastie` 的时候, 请尽量使用 `--help`.

因此, 如果我们想要用现有的 `bertNER` 模型对自己的 `jsonlines-ner` 数据集进行验证, 我们可以在控制台中
首先查询自己需要输入的参数信息:

In [13]:
!fastie-eval --task ner/bert --dataset jsonlines-ner --help

usage: fastie-train [-h] [--config] [--task] [--dataset] [--cuda ]
                    [--load_model] [--batch_size] [--shuffle ]
                    [--pretrained_model_name_or_path] [--use_cache ]
                    [--refresh_cache ] [--folder] [--right_inclusive ]

options:
  -h, --help            show this help message and exit

fastIE command line basic arguments:
  --config , -c         The config file you want to use. default:
  --task , -t           The task you want to use. Please use / to split the
                        task and the specific solution. default:
  --dataset , -d        The dataset you want to work with. default:

Use pre-trained BERT and a classification head to classify tokens:
  --cuda []             Whether to use your NVIDIA graphics card to accelerate
                        the process. default: False
  --load_model          Load the model from the path or model name. default:
  --batch_size          Batch size. default: 32
  --shuf

从获得帮助信息中可知, 我们需要 `load_model` 参数来加载 `fastie-train` 训练好的模型, 而
`jsonlines-ner` 数据集需要 `folder` 参数来指定数据集路径. 因此, 完整的验证命令为:

```bash
fastie-eval --task ner/bert --dataset jsonlines-ner --load_model /path/to/model --folder /path/to/dataset
```

### 1.3 fastie-infer

`fastie-infer` 是 `fastie` 中的推理工具, 用于使用训练好的模型对新的数据进行预测. `fastie-infer`
的使用方法与 `fastie-eval` 类似, 但 `fastie` 中的数据集一般只有 `tokens` 字段.

在 `fastie` 中为您提供了推理专用的数据结构 `sentence`, 方便您快速对单个序列进行测试, 例如:

```bash
fastie-infer --task ner/bert --load_model /path/to/model --dataset sentence --sentence "I love fastie ."
```

### 1.4 fastie-interact

`fastie-interact` 是 `fastie` 中的交互工具, 用于与训练好的模型进行交互. `fastie-interact`
的使用方法与 `fastie-eval` 类似, 但由于 `fastie-interact` 的数据集为您实时输入的序列, 因此
没有 `dataset` 参数.

## 2. 获得命令行的帮助

`fastie` 中的所有工具都提供了 `--help` 参数, 用于获得命令行的帮助信息. 帮助信息会随着您进一步
明确 `task` 或者 `dataset` 或者 `config` 后增加, 例如, 当您指定 `task` 为 `ner/bert`
后, 帮助信息将 `ner/bert` 需要的参数也展示出来.

## 3. 使用配置文件

 如前文 `1.1.3 config` 所述, `config` 文件不但可以储存基础参数 `task`, `dataset`, 还可以
 储存 `task` 或 `dataset` 规定的内部参数. 例如, 可以在 `config` 中设置 `task` 的 `batch_size`
 等参数, 也可以在 `config` 中设置 `dataset` 的 `folder` 等参数:

```python
config = {
    "task": "ner/bert",
    "dataset": "conll2003",
    "batch_size": 32,
    "folder": "/path/to/dataset"
}
```

值得注意的是, `config` 文件中的参数, `help` 中提示的参数, 与 `SDK` 方式中每个 `task` 类或
`dataset` 类的参数都是保持一致的, 因此, 无论您使用哪种方式, 您都可以使用 `--help` 获得
完整的参数帮助信息.