# 标准项目格式

version: 0.2

为了后续研究和使用的方便，我们需要一个统一的试题语法标准。

## 语法规则
1. 题目文本中只允许出现中文字符、中英文标点和换行符。
2. 使用 \$\SIFBlank\$ 替换横线，对于选择题中的括号使用 \$\SIFChoice\$ 替换。
3. 图片 ID 以公式的形式嵌入文本中：`$\FigureID{ uuid }$` 或用 base64 编码表示，特别的，内容为公式的图片用`$\FormFigureID{ uuid }$`表示。
4. 文本标注格式：统一用 `$\textf{item,CHAR_EN}$` 表示，目前定义的有：b-加粗，i-斜体，u-下划线，w-下划波浪线，d-加点，t-标题。标注可以混用，按字母顺序排序，例如：$\textf{EduNLP, biu}$ 表示 <u>***EduNLP***</u>
5. 其余诸如，英文字母、罗马字符、数字等数学符号一律需要使用 latex 格式表示，即嵌在 `$$` 之中。
6. 分子式的录入标准暂且参考 [INCHI](https://zh.wikipedia.org/wiki/%E5%9B%BD%E9%99%85%E5%8C%96%E5%90%88%E7%89%A9%E6%A0%87%E8%AF%86)
7. 目前对 latex 内部语法没有要求。

## 示例

标准形式:

1. `若$x,y$满足约束条件$\\left\\{\\begin{array}{c}2 x+y-2 \\leq 0 \\\\ x-y-1 \\geq 0 \\\\ y+1 \\geq 0\\end{array}\\right.$，则$z=x+7 y$的最大值$\\SIFUnderline$'`

2. `已知函数$f(x)=|3 x+1|-2|x|$画出$y=f(x)$的图像求不等式$f(x)>f(x+1)$的解集$\\PictureID{3bf2ddf4-8af1-11eb-b750-b46bfc50aa29}$$\\PictureID{59b8bd14-8af1-11eb-93a5-b46bfc50aa29}$$\\PictureID{63118b3a-8b75-11eb-a5c0-b46bfc50aa29}$$\\PictureID{6a006179-8b76-11eb-b386-b46bfc50aa29}$$\\PictureID{088f15eb-8b7c-11eb-a86f-b46bfc50aa29}$`

非标准形式：

1. 字母、数字和数学符号连续混合出现：
    例如：
    `完成下面的2x2列联表，`
    `（单位：m3）`
    `则输出的n=`
    
2. 特殊的数学符号没有用 latex 公式表示：
    例如：
    `命题中真命题的序号是 ①`
    `AB是⊙O的直径，AC是⊙O的切线，BC交⊙O于点E．若D为AC的中点`
    
3. 出现以 unicode 编码写成的字符
    例如：`则$a$的取值范围是（\u3000\u3000）`


## 此外提供了判断是否为sif格式和转换为sif格式的函数

## 导入函数

In [3]:
from EduNLP.SIF import is_sif, to_sif,sif4sci

## is_sif

In [4]:
text = '若$x,y$满足约束条件' \
    '$\\left\\{\\begin{array}{c}2 x+y-2 \\leq 0 \\\\ x-y-1 \\geq 0 \\\\ y+1 \\geq 0\\end{array}\\right.$，' \
'则$z=x+7 y$的最大值$\\SIFUnderline$'
    
is_sif(text)


True

In [5]:
text = '某校一个课外学习小组为研究某作物的发芽率y和温度x（单位...'
is_sif(text)

False

## to_sif

In [6]:
text = '某校一个课外学习小组为研究某作物的发芽率y和温度x（单位...'
to_sif(text)

'某校一个课外学习小组为研究某作物的发芽率$y$和温度$x$（单位...'