baidu_html2word

一个基于python爬取百度文档js源码信息解析的html转换word的工具

百度文库转word文档.exe

开发者：aJay13 版本：V.1.1

软件介绍：此软件通过分析百度的文档接口数据，将数据对应到同目录下的word文档中，相对于图片识别转换，所有的字段不会丢失，文字的大小、位置、图片等都完全依照百度开放接口内容返回。

原百度文档

转换后word文档

使用说明：

将软件和default.docx文件放到与要转换的html文件夹同一目录，软件便能找到此文件下的所有要转换的html文件软件使用需要联网，请先确保电脑网络畅通。

转换失败的原因：

文档目录与软件、default.docx文件放到与未放到同一个文件夹
电脑无法连接网络
请先确保原html文档能够在浏览器中打开，并且加载速度不慢
百度文库的在线接口改变、请关注下一个版本

注意！！！：请在转换之前先将文档进行备份，避免产生不必要的麻烦。

BUG修复

修改因文件夹自身命名不规范导致的程序闪退
修改因网站自身失去资源而导致程序崩溃的bug
增加兼容win7x86

修复建议：

修复window下：UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position

content.encode("gbk", 'ignore').decode("gbk", "ignore")

如有其它改进方式请issues

致谢：Zd提出的想法

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
测试文档		测试文档
测试文档打包		测试文档打包
.gitattributes		.gitattributes
README.md		README.md
baidu_html_word.exe		baidu_html_word.exe
default.docx		default.docx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

baidu_html2word

百度文库转word文档.exe

使用说明：

转换失败的原因：

BUG修复

修复建议：

About

Releases

Packages

Languages

Hatcat123/baidu_html2word

Folders and files

Latest commit

History

Repository files navigation

baidu_html2word

百度文库转word文档.exe

使用说明：

转换失败的原因：

BUG修复

修复建议：

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages