# 向量化

## 简述

向量化过程是将item转换为向量的过程，其前置步骤为语法解析、成分分解、令牌化，本部分将先后介绍如何获得数据集、如何使用本地的预训练模型、如何直接调用远程提供的预训练模型。

## 获得数据集

### 概述

此部分通过调用 [OpenLUNA.json](http://base.ustc.edu.cn/data/OpenLUNA/OpenLUNA.json) 获得。

## I2V

### 概述

使用自己提供的任一预训练模型（给出模型存放路径即可）将给定的题目文本转成向量。

- 优点：可以使用自己的模型，另可调整训练参数，灵活性强。

### D2V

#### 导入类

In [1]:
from EduNLP.I2V import D2V



#### 输入

类型：str  
内容：题目文本 （text）

In [2]:
items = [
r"1如图几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$",
r"2如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
]

#### 输出

In [3]:
model_path = "./d2v/test_d2v_256.bin"
i2v = D2V("pure_text","d2v",filepath=model_path, pretrained_t2v = False)

item_vectors, token_vectors = i2v(items)
print(item_vectors[0])
print(token_vectors) # For d2v, token_vector is None
print("shape of item_vector: ",len(item_vectors), item_vectors[0].shape) 

[ 0.10603202 -0.10537548 -0.04773913  0.15573525  0.25898772 -0.06423073
 -0.02817309  0.0068187  -0.07323898  0.06517941  0.07943465  0.14800762
 -0.06772996 -0.23892336  0.04638071  0.1539897   0.17565852  0.02895202
 -0.18859927  0.2180874   0.00909669  0.06621908 -0.02090263 -0.13006955
 -0.21020882  0.00618349  0.00531093 -0.04877732 -0.06709669 -0.04705636
  0.09211092  0.13896106 -0.07455818  0.06019318 -0.09071473  0.12701215
  0.13018885 -0.02784999  0.10064025 -0.07757548 -0.05522636 -0.02657779
 -0.04159601 -0.03008493  0.10995369 -0.00587291  0.05902484  0.06532726
  0.04887666  0.01902074  0.03713945  0.03691795  0.12516327  0.07410683
 -0.14467879  0.05678609  0.02574336 -0.1320522   0.07502684  0.07929367
 -0.06655917 -0.0144536   0.02595847  0.04403471  0.21743318 -0.02525017
 -0.0416184   0.21441495 -0.09308876 -0.09418222  0.08030997  0.00492512
 -0.04921608 -0.07808654 -0.03323801  0.0879296  -0.04668022 -0.0696011
  0.06708417  0.06555629 -0.07418457 -0.13050951 -0.

### W2V

In [4]:
from EduNLP.I2V import W2V

In [5]:
model_path = "./w2v/general_literal_300/general_literal_300.kv"
i2v = W2V("pure_text","w2v",filepath=model_path, pretrained_t2v = False)

item_vectors, token_vectors = i2v(items)

print(item_vectors[0])
print(token_vectors[0][0])
print("shape of item_vectors: ", len(item_vectors), item_vectors[0].shape)
print("shape of token_vectors: ", len(token_vectors), len(token_vectors[0]), len(token_vectors[0][0]))

[-1.34266680e-03  5.19845746e-02 -1.98070258e-02 -4.17470075e-02
  4.92814295e-02 -1.70883536e-01 -2.16597781e-01 -3.12069029e-01
  8.96430463e-02 -1.31331667e-01  9.16494895e-03 -3.22572999e-02
  3.07940125e-01  1.92060292e-01  1.31043345e-02  6.10962026e-02
  2.21019030e-01 -3.53541046e-01  1.34150490e-01  1.14867561e-01
  1.17448963e-01  2.27990672e-01 -1.65213019e-01  2.78246611e-01
 -4.36594114e-02 -1.37816787e-01 -1.07707813e-01 -1.80805102e-01
  1.20028563e-01 -1.14409983e-01  6.19181581e-02 -1.79836392e-01
  7.68677965e-02  2.41688967e-01  6.20721914e-02 -7.59824514e-02
  1.79465964e-01  1.69306010e-01 -1.99512452e-01 -9.75036696e-02
  1.02485821e-01 -1.59723386e-01 -1.67252243e-01  1.52240042e-02
 -5.98842278e-03  6.47612512e-02  8.48228261e-02  2.67874986e-01
 -1.73656959e-02 -4.40101810e-02  9.11948457e-02  1.40905827e-01
  6.33735815e-03  2.03221604e-01 -1.97303146e-01  1.32987842e-01
 -1.80283263e-01  3.64040211e-02  2.49624569e-02  7.49479085e-02
 -2.05568615e-02 -4.02397

## get_pretrained_i2v

### 概述

使用 EduNLP 项目组给定的预训练模型将给定的题目文本转成向量。

- 优点：简单方便。
- 缺点：只能使用项目中给定的模型，局限性较大。


### 导入功能块

In [6]:
from EduNLP import get_pretrained_i2v

### 输入

类型：str  
内容：题目文本 （text）

In [7]:
items = [
"如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
]


### 模型选择与使用

根据题目所属学科选择预训练模型：    

 预训练模型名称 | 模型训练数据的所属学科   
 -------------- | ----------------------   
 d2v_all_256    | 全学科                   
 d2v_sci_256    | 理科                     
 d2v_eng_256    | 英语                     
 d2v_lit_256    | 文科                      
 w2v_eng_300    | 英语                     
 w2v_lit_300    | 文科             

In [8]:
i2v = get_pretrained_i2v("d2v_sci_256", model_dir="./d2v")

EduNLP, INFO Use pretrained t2v model d2v_sci_256
downloader, INFO http://base.ustc.edu.cn/data/model_zoo/EduNLP/d2v/general_science_256.zip is saved as d2v\general_science_256.zip
downloader, INFO file existed, skipped


- 注意：
    默认的 EduNLP 项目存储地址为根目录(`~/.EduNLP`)，模型存储地址为项目存储地址下的 `model` 文件夹。您可以通过修改下面的环境变量来修改模型存储地址：
    - EduNLP 项目存储地址：`EDUNLPPATH = xx/xx/xx`
    - 模型存储地址：`EDUNLPMODELPATH = xx/xx/xx`

In [9]:
item_vectors, token_vectors = i2v(items)
print(item_vectors)
print(token_vectors)

[array([-0.23861311,  0.06892798, -0.27065727,  0.16547263,  0.02818857,
       -0.18185084,  0.09226187,  0.01612627,  0.0921795 ,  0.3134312 ,
        0.09265023, -0.22529641, -0.25788078,  0.06702194,  0.09765045,
       -0.19932257,  0.08527228, -0.22684543, -0.1776405 , -0.03682012,
        0.6210964 , -0.26637274,  0.08060682, -0.15860714, -0.17825642,
       -0.13271384,  0.27331072,  0.18202724,  0.08430962,  0.23299456,
        0.179898  ,  0.1571772 , -0.1406754 , -0.19508898, -0.11265783,
        0.11396482,  0.0223774 ,  0.07824919, -0.2421433 ,  0.06195279,
       -0.04763965, -0.02037446,  0.07481094, -0.1908799 ,  0.09688905,
        0.3995564 ,  0.28225863,  0.30547026, -0.46538818, -0.02891348,
       -0.19343005,  0.01966276, -0.21590087,  0.09774096, -0.26137134,
       -0.23963049,  0.34259936,  0.14825426, -0.2987728 , -0.38039675,
       -0.12087625,  0.05897354,  0.06351897,  0.10188989,  0.12092843,
        0.13229063,  0.12786968, -0.15378596,  0.00724137, -0.1