# 文本分类的训练代码

以`TextCNN`为例

首先引入训练器`Trainer`和配置器`Config`

In [None]:
from trainer import Trainer
from config import Config

- 实例化一个配置器, 在构造函数里指定预设配置
- 其他还需要额外指定的参数可以单独设置
- 注意这里设置`embedding`预训练文件得用`set_embedding_pretrained`方法

In [None]:
config = Config(from_json='./configs/TextCNN.json') # 从json文件中读取配置
config.num_classes = 10 # 数据集里一共有多少个类别
config.vocab_path = './THUCNews/data/vocab.pkl' # 词表路径
config.set_embedding_pretrained('./THUCNews/data/embedding_Tencent.npz') # 预训练好的词表Embedding

设置好后就可以开始训练啦, 实例化一个训练器, 然后指定训练集路径, 验证集路径, 配置器.
上述是必选参数
此外你可以额外指定
- 句子最大长度`padding_length`
- 批训练大小`batch_size`
- 验证集批训练大小`batch_size_eval`
- 本次任务的名字`task_name`(随便取, 不过记得每次都要修改下名字, 这样结果保存下来才不会重名)

In [None]:
trainer = Trainer('./THUCNews/data/train.txt', './THUCNews/data/dev.txt', config, padding_length=64, batch_size=256, batch_size_eval=64, task_name='TextCNN_Try')

然后定义一个for循环, 里面随便做点什么就可以开始训练了

`trainer`里还可以指定
- `num_epochs`迭代次数(默认30)
- `lr`学习率(默认1e-3)
- `gpu`个数, 必须传入数组, 如[0], [0, 1, 2, 3]

In [None]:
for i in trainer():
    a = i

如果你从某个已经训练好的模型继续训练, 请在`trainer`中加入`resume_path`和`resume_step`参数
- resume_path: 已经训练好的模型路径
- resume_step: 当前这个模型的步数, 可以自己设定一个数字

例如

```python
for i in trainer(resume_path='./model.pth', resume_step=572)
```

# 文本分类的预测代码

如果想使用自己训练好的模型, 可以运行以下代码

以`TextCNN`为例

In [None]:
from predictor import Predictor
from config import Config

In [None]:
config = Config(from_json='./configs/TextCNN.json')
config.num_classes = 10
config.vocab_path = './THUCNews/data/vocab.pkl'
config.set_embedding_pretrained('./THUCNews/data/embedding_Tencent.npz')

这里需要配置`resume_path`的路径, 即你训练好的模型存放路径.

In [None]:
pred = Predictor(config, resume_path='你的模型路径')

然后就可以开心的预测数据的分类了!

In [None]:
pred(['你真的很有趣!'])