Truncate newline between non-ASCII characters #61

r7kamura · 2018-11-17T16:27:15Z

解決したい問題

rurema/doctree#1579 で話していた問題への対応です。

ソースコードの編集上の都合で、入力される文章の中に改行が含まれている場合がありますが、Web ブラウザの CSS Text Module Level 3 への対応状況がまちまちなため、幾つかの Web ブラウザでは日本語文章の中でこの改行が空白として利用者に見える形で表示されてしまうという問題があります。

解決案

概要

ソースコードの編集上の都合で含まれている (HTML として出力する上では) 不要な改行を、「マルチバイト文字の間の改行は不要である」ということを根拠に bitclust 側で取り除くことで、この問題に対処します。

実装案1

BitClust::Preprocessor#wrap では、入力文字列を行単位で処理しています。このとき、

現在処理中の行がマルチバイト文字列に続く改行で終わっている
次に処理する行がマルチバイト文字で始まっている

という条件が同時に満たされる場合、現在処理中の行から末尾の改行を取り除きます。これにより、マルチバイト文字の間の改行が取り除かれるのではという寸法です。

次の行を見て判断する必要があるため、判断が必要になり次第先に次の行を読んでしまうというようなロジックを加えています。(つまり peek している)

実装案2

この Pull Request のコメント欄にあるように、実装案1では幾つかの解決できない問題があるため、BitClust::Preprocessor ではなく BitClust::RDCompiler の挙動を変更したのが実装案2です。

まず最初に、複数行からなる入力文字列を HTML 向けのテキストノード (実際はタグの含まれないただの文字列) に変換している箇所を、必ず #text_node_from_lines で処理するようにリファクタリングしました (但し pre 要素向けのテキストノードを生成する際にはこれを利用していません)。この処理は、以下の箇所で発生するようです (それぞれの構文規則の正確な名前は分からなかったので適当な名前を充てています)。

definition list
paragraph
entry info
entry paragraph
entry see

その上で、マルチバイト文字の間の改行を取り除く処理を #text_node_from_lines に加えました。

以下のテストケースを追加しています。それぞれの構文規則ごとに、英語と日本語を渡したときの挙動をテストしています。paragraph についてだけは、更に詳細な条件でテストしています (paragraph で成功すれば同じ実装を利用している他の箇所でも成功する可能性が高いだろうという考えから)。

TestRDCompiler#test_definition_list_with_ascii
TestRDCompiler#test_definition_list_with_non_ascii
TestRDCompiler#test_entry_info_with_ascii
TestRDCompiler#test_entry_info_with_non_ascii
TestRDCompiler#test_entry_paragraph_with_ascii
TestRDCompiler#test_entry_paragraph_with_non_ascii
TestRDCompiler#test_entry_see_with_ascii
TestRDCompiler#test_entry_see_with_non_ascii
TestRDCompiler#test_paragraph_with_newline_between_ascii_and_ascii
TestRDCompiler#test_paragraph_with_newline_between_ascii_and_non_ascii
TestRDCompiler#test_paragraph_with_newline_between_non_ascii_and_ascii
TestRDCompiler#test_paragraph_with_newline_between_non_ascii_and_non_ascii
TestRDCompiler#test_paragraph_with_single_line

This is a temporary measure for incomplete Web browsers that cannot treat newline character between CJK multi-byte characters for now. This change is related to rurema/doctree#1579.

scivola · 2018-11-17T16:44:59Z

おお！

ところで，これだとたぶん，
https://github.com/rurema/doctree/blob/master/refm/api/src/_builtin/Float#L120-L121
みたいな箇所に対応できませんよね。

r7kamura · 2018-11-18T02:48:11Z

これだとたぶん，
https://github.com/rurema/doctree/blob/master/refm/api/src/_builtin/Float#L120-L121
みたいな箇所に対応できませんよね。

うわっ、その通りですね。ありがたい指摘。

rurema/doctree#1579 のやり取りだと確か Preprocessor を修正する話が出ていたので、あまり上手く考えがまとまらないまま変更してみた感じでした。しかし Web ブラウザ向けの対応なので、単純に考えると HTML への整形時に改行を取り除くというのが妥当そうで、BitClust::RDCompiler が doc を HTML にコンパイルする担当のクラスなので、BitClust::Preprocessor よりこちらを修正するのがやはり適切なんじゃないかと考えています。(問題は不具合が起きると大変ということですね...)

現状のコードでは BitClust::Proprocessor で pragma 以外の行を対象に処理を加えていましたが、BitClust::RDCompiler の処理を変更する形で実装し直すなら、 pre 要素などの特例以外のテキストノードを出力する箇所でマルチバイト文字列に関する処理を加えれば良いのかな。

This reverts commit 110b5f9.

r7kamura · 2018-11-18T05:35:27Z

BitClust::Preprocessor ではなく BitClust::RDCompile の挙動を変更するように書き換えてみました。Pull Request の description も更新して、最初に書いたコードのほうを実装案1、次に書き換えたコードのほうを実装案2としました。

sho-h

非常に遅くなりましたけど僕の方からは特に気になる点はありませんでしたー。

Truncate newline between non-ASCII characters

110b5f9

This is a temporary measure for incomplete Web browsers that cannot treat newline character between CJK multi-byte characters for now. This change is related to rurema/doctree#1579.

r7kamura force-pushed the feature/spacing branch from fb638d9 to 110b5f9 Compare November 17, 2018 16:38

Revert "Truncate newline between non-ASCII characters"

ef78d1d

This reverts commit 110b5f9.

Truncate newline between non-ASCII characters on HTML rendering

6b53cd3

r7kamura force-pushed the feature/spacing branch from 5905ea3 to 6b53cd3 Compare November 18, 2018 05:36

r7kamura mentioned this pull request Nov 19, 2018

不要な空白がドキュメントの文章内に頻出している rurema/doctree#1579

Closed

sho-h approved these changes May 6, 2019

View reviewed changes

sho-h added the 1.2.3 1.2.3でリリース予定 label Aug 24, 2019

znz merged commit a98ec63 into rurema:master Oct 1, 2019

r7kamura deleted the feature/spacing branch October 1, 2019 10:14

pocke mentioned this pull request May 22, 2020

メタタグのdescriptionでも、改行による不要な空白を取り除きたい #131

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Truncate newline between non-ASCII characters #61

Truncate newline between non-ASCII characters #61

r7kamura commented Nov 17, 2018 •

edited

Loading

scivola commented Nov 17, 2018

r7kamura commented Nov 18, 2018 •

edited

Loading

r7kamura commented Nov 18, 2018

sho-h left a comment

Truncate newline between non-ASCII characters #61

Truncate newline between non-ASCII characters #61

Conversation

r7kamura commented Nov 17, 2018 • edited Loading

解決したい問題

解決案

概要

実装案1

実装案2

scivola commented Nov 17, 2018

r7kamura commented Nov 18, 2018 • edited Loading

r7kamura commented Nov 18, 2018

sho-h left a comment

Choose a reason for hiding this comment

r7kamura commented Nov 17, 2018 •

edited

Loading

r7kamura commented Nov 18, 2018 •

edited

Loading