# I2V 向量化容器

向量化过程是将原始题目（item）转成向量（vector）的过程，它包括两个步骤：
- 使用 `Tokenizer` 将原始题目（item）转化为令牌化序列（tokens）；
- 使用 `T2V` 向量化容器 将令牌化序列（tokens）转成向量（vector）。

为了使用户能直接使用本地的（或公开的）预训练模型，我们提供了`I2V向量化容器`, 将令牌化、向量化操作同时封装起来。

## 概述

使用EduNLP的开源预训练模型将给定的题目转成向量。

- 优点：用户不需要研究令牌化和模型加载的细节。令牌化和向量化的参数已由预训练模型的参数文件定义好。
- 缺点：不适合修改预训练的模型参数或令牌化容器参数

In [1]:
import os

items = [
  r"题目一：如图几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$",
  r"题目二: 如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
]

model_dir = "../test_model"

# 示例：使用 W2V 加载本地模型
## W2V

In [2]:
from EduNLP.I2V import W2V

pretrained_path = os.path.join(model_dir, "w2v/w2v_test_256/w2v_test_256.kv")
i2v = W2V("pure_text", "w2v", pretrained_path)

item_vector, token_vector = i2v(items)
# or
item_vector, token_vector = i2v.infer_vector(items)
# or
item_vector = i2v.infer_item_vector(items)
token_vector = i2v.infer_token_vector(items)

print(len(item_vector), len(item_vector[0])) 
print(len(token_vector), len(token_vector[0]), len(token_vector[0][0]))



2 256
2 56 256
