训练好后测试显示乱码 #2

fire717 · 2018-03-19T01:45:21Z

我是在windows下跑的，跑完后测试时的样例句子显示：
鐣鍗鍚渚

然后我encode为gbk又显示[b'\xe7\x95', b'\xe5\x8d', b'\xe5\x90', b'\xe4\xbe']

最后我在linux环境下测试，同样显示：鐣鍗鍚渚

求问作者的训练环境和测试环境（不会是因为不该在windows下训练吧。。。）

fire717 · 2018-03-19T08:06:55Z

我知道了，在extract_conv.py里open时应该加一个encoding:'utf-8'
不知道作者的环境，我是win10+py3 以及ubuntu+py3 改了之后都可以了

qhduan · 2018-03-19T08:09:05Z

因为windows默认编码不是utf-8，其他文件都是

所以windows默认会有点问题

fire717 · 2018-03-19T08:48:16Z

好吧可能是我先下到windows再传到ubuntu的也不行

yaleimeng · 2018-09-14T09:12:57Z

可能你在Windows下打开编辑过，再保存会改编码的。我也是下到windows再传到ubuntu解压缩的，执行demo没问题。

NexusLee mentioned this issue Jan 23, 2019

线程错误 #25

Open

Provide feedback