NaiveIME

编译

理论上本程序能够在任何支持 .NET Standard 2.0 的平台上编译运行，在下列平台经过测试：

Windows + Visual Studio 2017 (.NET Framework 4.6.1)
Debian Linux + Mono 5.10.1

编译方法为在项目目录下运行：

nuget restore
msbuild /p:Configuration=Release

或者使用 Visual Studio 打开项目进行生成亦可。

配置文件

在程序的工作目录中需要有 config.json，内容如下：

{
	"ModelDirectory": "models",
	"LambdaRatio": "0.75",
	"CandidatesEachStep": "10"
}

ModelDirectory 指定程序（生成和加载）模型的目录位置（相对工作目录），LambdaRatio 指定混合的 n-gram 算法中进行非线性混合时使用的系数（详见实验报告），CandidateEachStep 指定每扩展一个字后留下的可能选项数。

功能说明

直接运行编译出的 NaiveIME.exe 即可看到功能说明，共有 interative, model, statistics, solve, analyze, merge, build, test 八个实际的功能，每个功能的说明均已经给出。具体参数可以使用类似 NaiveIME.exe solve --help 的方法进行查询。

本程序的训练数据格式为 UTF-8 编码的纯文本，每个句子分为两行，一行为空格分隔的拼音，一行为文本。常规的步骤为：

生成词频统计

NaiveIME.exe analyze text/FILE_1.txt text/FILE_2.txt -d stats/
NaiveIME.exe merge stats/FILE_1_stats.csv stats/FILE_2_stats.csv -o stats/stats.csv
# 如果每个文本的数据量不大，上面两步也可以简化为
NaiveIME.exe analyze text/FILE_1.txt text/FILE_2.txt --merge --out stats/stats.csv

需要注意的是，merge 操作需要占用较大的内存，在 Windows 下可能受到单对象不得超过 2GB 的限制而失败，此时可以使用 Linux 进行分析。将分析与合并分为两部的原因是，本程序是单线程的，可以使用 GNU Parallel 等工具帮助进行并行分析后统一合并。

生成模型

NaiveIME.exe build stats/stats.csv -m 1 2 3

模型会保存在上述的配置文件指定的目录下。

进行拼音转换

# 交互式转换
NaiveIME.exe interactive -m MODEL
# 转换文件
NaiveIME.exe solve --in data/input.txt --out data/output.txt -m MODEL

其中模型可从 1/2/12l/12m/123l 中挑选，意义可见实验报告中。

进行模型测试

NaiveIME.exe test -m MODEL_1 MODEL_2 --in data/test.txt --out data/result.txt

测试集格式与训练集相同，可以指定多个模型，如果不指定 --out ，则结果会输出到控制台。对于一组测试，输出如下：

------- IME Test Report -------
No.0: [NGram1][]
No.1: [NGram2][]
No.2: [NGramMixed][12m]
No.3: [NGramMixed][12l]
No.4: [NGramMixed][123l]
-------------------------------
> 在去年驻韩美军在韩国部署萨德系统一度引发多方面的争议
0 ＋区＋主汉＋＋＋汉＋不数＋的＋通＋＋因＋＋＋＋＋政一
1 ＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋
2 ＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋
3 ＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋
4 ＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋＋

...... （更多测试结果）

Results:
0: [NGram1][]:	Char accuracy: 0.5110656 Sentence accuracy: 0
1: [NGram2][]:	Char accuracy: 0.8389344 Sentence accuracy: 0.1147541
2: [NGramMixed][12m]:	Char accuracy: 0.8467213 Sentence accuracy: 0.1065574
3: [NGramMixed][12l]:	Char accuracy: 0.8456967 Sentence accuracy: 0.1065574
4: [NGramMixed][123l]:	Char accuracy: 0.9122951 Sentence accuracy: 0.1721312

内容几乎都是自解释的，“+”代表模型给出了正确的结果，最后有各个模型的字/句正确率分析。

额外功能

此外，可以使用 model 查询在给定前缀下各个输出的概率（输入格式为类似于 qinghuada 学）

可以用 statistic 读取统计文件获取某一个短语的频率。

其他

当输入法无法进行转换时，会输出当前的结果，后面以“？”填充满拼音音节长度，如：

wo jue de Android bu hao
我觉得？？？

请注意，一旦出现错误，后面的拼音就不会再被转换。

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
IME		IME
Preprocessor		Preprocessor
Properties		Properties
TrainingModel		TrainingModel
Types		Types
Utility		Utility
.gitignore		.gitignore
App.config		App.config
NaiveIME.csproj		NaiveIME.csproj
NaiveIME.sln		NaiveIME.sln
Program.cs		Program.cs
README.md		README.md
packages.config		packages.config

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NaiveIME

编译

配置文件

功能说明

其他

About

Releases

Packages

Languages

Harry-Chen/NaiveIME

Folders and files

Latest commit

History

Repository files navigation

NaiveIME

编译

配置文件

功能说明

其他

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages