We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
现有的图书资源以 PDF 格式为主,要使用这些资源,就需要先把它们转换成可用的格式。
PDF 电子书可以通过 Adobe Acrobat 导出为 XML 1.0 格式的文档,XML 文档整体结构如下。
<?xml version="1.0" encoding="UTF-8" ?> <TaggedPDF-doc> <?xpacket begin='' id='W5M0MpCehiHzreSzNTczkc9d'?> <?xpacket begin="" id="W5M0MpCehiHzreSzNTczkc9d"?> 这里是文档元信息,如创建/修改时间,标题、作者等等 <?xpacket end="w"?> <?xpacket end='r'?> 这里是文档内容 </TaggedPDF-doc>
但是有个问题:在文档内容中,出现 Ruby 标签对的地方,标签对内的 RB 标签和 RT 标签在 XML 文档里的顺序,和在 PDF 文档里的顺序是相反的。而且所有出现 Ruby 标签的地方,都是汉字在前面的 RB 标签中,单个的左/右双引号在 RT 标签中。
Ruby
RB
RT
也可以直接把 PDF 导出成 TXT 格式的纯文本文档并复制到浏览器中,然后在浏览器中用自定义的编辑器给每一段文字刷上对应的格式,再增加插入图片、视频之类的功能(需要在服务器上搭建文件服务,Nginx 也要做对应的配置,不是个小工程),编辑完成的文档导入 MongoDB 即可。
text editor
xml to html
The text was updated successfully, but these errors were encountered:
No branches or pull requests
需求描述
现有的图书资源以 PDF 格式为主,要使用这些资源,就需要先把它们转换成可用的格式。
转换成 XML
PDF 电子书可以通过 Adobe Acrobat 导出为 XML 1.0 格式的文档,XML 文档整体结构如下。
但是有个问题:在文档内容中,出现
Ruby
标签对的地方,标签对内的RB
标签和RT
标签在 XML 文档里的顺序,和在 PDF 文档里的顺序是相反的。而且所有出现Ruby
标签的地方,都是汉字在前面的RB
标签中,单个的左/右双引号在RT
标签中。转换成 TXT
也可以直接把 PDF 导出成 TXT 格式的纯文本文档并复制到浏览器中,然后在浏览器中用自定义的编辑器给每一段文字刷上对应的格式,再增加插入图片、视频之类的功能(需要在服务器上搭建文件服务,Nginx 也要做对应的配置,不是个小工程),编辑完成的文档导入 MongoDB 即可。
方案调研
PDF 转换
文本编辑
text editor
文件服务
XML to HTML
xml to html
应用过程
要点总结
The text was updated successfully, but these errors were encountered: