# T2V 向量化容器

`T2V` 向量化过程是将题目的令牌序列（tokens）转成向量（vector）的过程。

在调用 `T2V` 向量化容器之前，必须先使用 `Tokenizer` 令牌化容器获取 令牌序列列（token）。

## 概述

使用自己提供的任一预训练模型（给出模型存放路径即可）将题目的令牌化序列表征为向量。

- 优点：模型及其参数可自主调整，灵活性强。


## T2V容器列表

 名称 | T2V容器   
 -------------- | ----------------------   
 w2v    | `W2V`                   
 d2v    | `D2V`                     
 elmo    | `ElmoModel`                     
 bert    | `BertModel`  
 dienq | `DisenQModel`  
 quesnet| `QuesNetModel`  

# W2V 使用示例
## 导入功能块

In [1]:
from EduNLP.Tokenizer import PureTextTokenizer

from EduNLP.Vector import T2V, W2V



## 令牌化

In [2]:
raw_items = [
    r"题目一：如图几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$",
    r"题目二: 如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
]

tokenizer = PureTextTokenizer()
token_items = [t for t in tokenizer(raw_items)]

print(token_items)

[['题目', '如图', '几何图形', '此图', '三个', '半圆', '三个', '半圆', '直径', '直角三角形', 'ABC', '斜边', 'BC', '直角', 'AB', 'AC', '\\bigtriangleup', 'ABC', '三边', '围成', '区域', '记', 'I', '黑色', '记', 'II', '其余部分', '记', 'III', '图形', '中', '随机', '取', '一点', '此点', '取自', 'I', ',', 'II', ',', 'III', '概率', '记', 'p', '_', '1', ',', 'p', '_', '2', ',', 'p', '_', '3', '[MARK]', '[FIGURE]'], ['题目', '二', '如图', '古希腊', '数学家', '希波', '克拉底', '研究', '几何图形', '此图', '三个', '半圆', '三个', '半圆', '直径', '直角三角形', 'ABC', '斜边', 'BC', '直角', 'AB', 'AC', '\\bigtriangleup', 'ABC', '三边', '围成', '区域', '记', 'I', '黑色', '记', 'II', '其余部分', '记', 'III', '图形', '中', '随机', '取', '一点', '此点', '取自', 'I', ',', 'II', ',', 'III', '概率', '记', 'p', '_', '1', ',', 'p', '_', '2', ',', 'p', '_', '3', '[MARK]', '[FIGURE]']]


## 向量化：使用T2V容器

In [7]:
path = "../test_model/w2v/w2v_test_256/w2v_test_256.kv"
t2v = T2V('w2v', filepath=path)
# 或
# t2v = W2V(path)

embed_size = t2v.vector_size
print(embed_size)

256


In [5]:
# item_vector = t2v(token_items)

item_vector = t2v.infer_vector(token_items) # [array(), ..., array()]
token_vector = t2v.infer_tokens(token_items) # [ [array(), ..., array()], [...], [...]]

print(len(item_vector), len(item_vector[0])) 
print(len(token_vector), len(token_vector[0]), len(token_vector[0][0]))

2 256
