# 向量化

## 简述

向量化过程是将item转换为向量的过程，其前置步骤为语法解析、成分分解、令牌化，本部分将先后介绍如何获得数据集、如何使用本地的预训练模型、如何直接调用远程提供的预训练模型。

## 获得数据集

### 概述

此部分通过调用 [OpenLUNA.json](http://base.ustc.edu.cn/data/OpenLUNA/OpenLUNA.json) 获得。

## I2V

### 概述

使用自己提供的任一预训练模型（给出模型存放路径即可）将给定的题目文本转成向量。

- 优点：可以使用自己的模型，另可调整训练参数，灵活性强。

### D2V

#### 导入类

In [None]:
from EduNLP.I2V import D2V

#### 输入

类型：str  
内容：题目文本 （text）

In [None]:
items = [
r"1如图几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$",
r"2如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
]

#### 输出

In [None]:
model_path = "../../data/d2v/test_d2v_256.bin"
i2v = D2V("pure_text","d2v",filepath=model_path, pretrained_t2v = False)

item_vectors, token_vectors = i2v(items)
print(item_vectors,  token_vectors)
print(len(item_vectors), item_vectors[0].shape) # For d2v, token_vector is None

[array([ 0.10634826, -0.10273553, -0.04942605,  0.15323296,  0.25780037,
       -0.06630539, -0.02834828,  0.0065832 , -0.07495898,  0.06529831,
        0.07989643,  0.14697047, -0.06513839, -0.23898382,  0.04266138,
        0.15211952,  0.17704317,  0.02768603, -0.1854407 ,  0.21742067,
        0.00984387,  0.06774732, -0.02058181, -0.13266353, -0.20851782,
        0.00558438,  0.00460878, -0.05139542, -0.06485009, -0.04847892,
        0.09366203,  0.13947366, -0.07552954,  0.05977268, -0.09442269,
        0.12721013,  0.13273577, -0.02567345,  0.09778284, -0.08030444,
       -0.05697263, -0.02538129, -0.04187621, -0.03123644,  0.11242954,
       -0.00650479,  0.06117244,  0.06449873,  0.05163544,  0.01810673,
        0.03808153,  0.03746097,  0.1275719 ,  0.07381074, -0.14620851,
        0.05757713,  0.02838781, -0.12927914,  0.07510903,  0.08147711,
       -0.06523656, -0.01486957,  0.02304654,  0.04361376,  0.21421443,
       -0.02614699, -0.03873423,  0.21355043, -0.09329057, -0.0

In [None]:
from EduData import get_data

get_data("open-luna", "../../data/")


downloader, INFO http://base.ustc.edu.cn/data/OpenLUNA/OpenLUNA.json is saved as ../../data/OpenLUNA.json


Downloading ../../data/OpenLUNA.json 100.00%: 269KB | 269KB


'../../data/OpenLUNA.json'

### W2V

In [None]:
from EduNLP.I2V import W2V

model_path = "../../data/w2v/general_literal_300/general_literal_300.kv"
i2v = W2V("pure_text","w2v",filepath=model_path, pretrained_t2v = False)
try:
    item_vectors, token_vectors = i2v(items)
    print(item_vectors) # 每个句子vector 为np.ndarray
    print(token_vectors) # 每个单词vector list
    print(len(item_vectors), item_vectors[0].shape,len(token_vectors), len(token_vectors[0]),len(token_vectors[0][0]))
except Exception as e:
    print(e)

[array([-1.34266680e-03,  5.19845746e-02, -1.98070258e-02, -4.17470075e-02,
        4.92814295e-02, -1.70883536e-01, -2.16597781e-01, -3.12069029e-01,
        8.96430463e-02, -1.31331667e-01,  9.16494895e-03, -3.22572999e-02,
        3.07940125e-01,  1.92060292e-01,  1.31043345e-02,  6.10962026e-02,
        2.21019030e-01, -3.53541046e-01,  1.34150490e-01,  1.14867561e-01,
        1.17448963e-01,  2.27990672e-01, -1.65213019e-01,  2.78246611e-01,
       -4.36594114e-02, -1.37816787e-01, -1.07707813e-01, -1.80805102e-01,
        1.20028563e-01, -1.14409983e-01,  6.19181581e-02, -1.79836392e-01,
        7.68677965e-02,  2.41688967e-01,  6.20721914e-02, -7.59824514e-02,
        1.79465964e-01,  1.69306010e-01, -1.99512452e-01, -9.75036696e-02,
        1.02485821e-01, -1.59723386e-01, -1.67252243e-01,  1.52240042e-02,
       -5.98842278e-03,  6.47612512e-02,  8.48228261e-02,  2.67874986e-01,
       -1.73656959e-02, -4.40101810e-02,  9.11948457e-02,  1.40905827e-01,
        6.33735815e-03, 

## get_pretrained_i2v

### 概述

使用 EduNLP 项目组给定的预训练模型将给定的题目文本转成向量。

- 优点：简单方便。
- 缺点：只能使用项目中给定的模型，局限性较大。


### 导入功能块

In [None]:
from EduNLP import get_pretrained_i2v

### 输入

类型：str  
内容：题目文本 （text）

In [None]:
item = {
"如图来自古希腊数学家希波克拉底所研究的几何图形．此图由三个半圆构成，三个半圆的直径分别为直角三角形$ABC$的斜边$BC$, 直角边$AB$, $AC$.$\bigtriangleup ABC$的三边所围成的区域记为$I$,黑色部分记为$II$, 其余部分记为$III$.在整个图形中随机取一点，此点取自$I,II,III$的概率分别记为$p_1,p_2,p_3$,则$\SIFChoice$$\FigureID{1}$"
}


### 模型选择与使用

根据题目所属学科选择预训练模型：    

 预训练模型名称 | 模型训练数据的所属学科   
 -------------- | ----------------------   
 d2v_all_256    | 全学科                   
 d2v_sci_256    | 理科                     
 d2v_eng_256    | 英语                     
 d2v_lit_256    | 文科                      



In [None]:
i2v = get_pretrained_i2v("d2v_sci_256")

EduNLP, INFO Use pretrained t2v model d2v_sci_256
downloader, INFO http://base.ustc.edu.cn/data/model_zoo/EduNLP/d2v/general_science_256.zip is saved as /home/lvrui/.EduNLP/model/general_science_256.zip
downloader, INFO file existed, skipped


- 注意：
    默认的 EduNLP 项目存储地址为根目录(`~/.EduNLP`)，模型存储地址为项目存储地址下的 `model` 文件夹。您可以通过修改下面的环境变量来修改模型存储地址：
    - EduNLP 项目存储地址：`EDUNLPPATH = xx/xx/xx`
    - 模型存储地址：`EDUNLPMODELPATH = xx/xx/xx`

In [None]:
print(i2v(item))

([array([-2.38860980e-01,  7.09681511e-02, -2.71706015e-01,  1.64714813e-01,
        2.81243492e-02, -1.82386801e-01,  9.22331214e-02,  1.31783364e-02,
        9.15176645e-02,  3.14464062e-01,  9.37800854e-02, -2.28523940e-01,
       -2.60597020e-01,  6.49375990e-02,  9.75619778e-02, -1.97933778e-01,
        8.29798505e-02, -2.26491719e-01, -1.77030653e-01, -3.56038064e-02,
        6.22844934e-01, -2.66110301e-01,  8.00080523e-02, -1.60827965e-01,
       -1.78654417e-01, -1.33000776e-01,  2.76004016e-01,  1.79546073e-01,
        8.71006995e-02,  2.33958483e-01,  1.76031828e-01,  1.55402005e-01,
       -1.38987333e-01, -1.92975491e-01, -1.09528497e-01,  1.12305783e-01,
        2.32549626e-02,  7.75609687e-02, -2.43636876e-01,  6.35311157e-02,
       -4.82399836e-02, -2.24204548e-02,  7.49862418e-02, -1.91449642e-01,
        9.72701237e-02,  4.00750965e-01,  2.81992704e-01,  3.07581365e-01,
       -4.68867749e-01, -3.03025767e-02, -1.95257351e-01,  1.79073047e-02,
       -2.15334237e-01,