以下では、東アジア・日本語分科会におけるルビのTEI化に関するガイドラインを述べる。
ルビとは、本文の行(以下、本行という)の中の任意の文字に対して、本行に沿わせて(一般的には)本行よりも小さな文字を配置して、読みなどの情報を附与するものである。そのような行為を「ルビを振る」という。ルビはおもに仮名であることからふりがなとも言うが(歴史的にはルビよりもふりがなのほうが古く現れる)、仮名ではなく漢字などを振ることもあることから一般的に拡張してふり文字ということもある。
- ルビは文字との対応関係が重要
- ルビのルビへのスタンドオフマークアップについて
- 文字数を指定することは、Unicodeのコードの組み合わせ上の難しさを生むので避けるべき
東アジア・日本語分科会では、現在、青空文庫のテキストのTEI化を行っている。2021年2月に実施されたTEI P5ガイドラインのアップデートによりruby/rb/rt要素が導入されたため、青空文庫のHTMLタグをTEI/XML互換のものに置換する予定である。
すなわち、青空文庫における
路地の奥に一本の<ruby><rb>樟木</rb><rp>(</rp><rt>くすのき</rt><rp>)</rp></ruby>が見え、
宮本百合子 芸術が必要とする科学
という内容は、
路地の奥に一本の<ruby><rb>樟木</rb><rt>くすのき</rt></ruby>が見え、
と改められる。
HTML Standard Requirements for Japanese Text Layout https://www.w3.org/TR/jlreq/#ruby_and_emphasis_dots JEPA|日本電子出版協会 2019年4月11日 Nat McCully氏、W3C下農氏:日本語組版の過去、現在、未来 http://www.jepa.or.jp/sem/20190411/
圏点とは、強調したい文字に「﹅」や「•」を傍書して際立たせる行為である。これは、<seg>
要素や<emph>
要素、<hi>
要素の@rend
属性にsesami
、dotted
など適宜記述を行うことで十分である。表示の際は、XSLTを通じてHTML等に変換するのであれば、CSSのfont-emphasize-style
プロパティなどを通じて制御することとなる。
たとえば、青空文庫において、
その枝に這いのぼった<strong class="SESAME_DOT">へちま</strong>の黄色い花もいくつか見える。
宮本百合子 芸術が必要とする科学
としてクラスによって圏点が表現されているのは、
その枝に這いのぼった<hi rend="sesami">へちま</hi>の黄色い花もいくつか見える。
と記述しておけばよい。