# get_pretrained_t2v

## 概述

使用 EduNLP 项目组给定的预训练模型将一组题目的切分序列表征为向量。

- 优点：简单方便。
- 缺点：只能使用项目中给定的模型，局限性较大。

## 导入功能块

In [1]:
from tqdm import tqdm
from EduNLP.SIF.segment import seg
from EduNLP.SIF.tokenization import tokenize
from EduNLP.Pretrain import GensimWordTokenizer
from EduNLP.Vector import get_pretrained_t2v

## 输入

类型：list  
内容：一个题组中每个题目切分序列的组合。
> 这里需要调用 `GensimWordTokenizer` 将题目文本（`str` 类型）转换成 tokens。

In [2]:
items = [
    {'ques_content':'有公式$\\FormFigureID{wrong1?}$和公式$\\FormFigureBase64{wrong2?}$，如图$\\FigureID{088f15ea-8b7c-11eb-897e-b46bfc50aa29}$,若$x,y$满足约束条件$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$'},
    {'ques_content':'如图$\\FigureID{088f15ea-8b7c-11eb-897e-b46bfc50aa29}$,若$x,y$满足约束条件$\\SIFSep$，则$z=x+7 y$的最大值为$\\SIFBlank$'},
    {'ques_content':'<div>Below is a discussion on a website.<br><table border=\1'},
]

token_items = []
for item in tqdm(items, "sifing"):
    # transform content into special marks('g','m','a','s'), except text('t') and formula('f').
    # 'general' means symbolize the Formula in figure format and use 'linear' method for formula segmentation
    tokenizer = GensimWordTokenizer(symbol="gmas", general=True)
    token_item = tokenizer(item["ques_content"])
    if token_item:
        token_items.append(token_item.tokens)

sifing: 3it [00:01,  1.69it/s]


## 模型的选择与使用

根据题目所属学科选择预训练模型：  
 预训练模型名称 | 模型训练数据的所属学科 
 -------------- | ---------------------- 
 d2v_all_256    | 全学科                 
 d2v_sci_256    | 理科                   
 d2v_eng_256    | 英语                   
 d2v_lit_256    | 文科                   

In [3]:
# different from 
t2v = get_pretrained_t2v("d2v_sci_256")

downloader, INFO http://base.ustc.edu.cn/data/model_zoo/EduNLP/d2v/general_science_256.zip is saved as /home/lvrui/.EduNLP/model/general_science_256.zip
downloader, INFO file existed, skipped


- 注意：
    默认的 EduNLP 项目存储地址为根目录(`~/.EduNLP`)，模型存储地址为项目存储地址下的 `model` 文件夹。您可以通过修改下面的环境变量来修改模型存储地址：
    - EduNLP 项目存储地址：`EDUNLPPATH = xx/xx/xx`
    - 模型存储地址：`EDUNLPMODELPATH = xx/xx/xx`

In [None]:
t2v(token_items)