Skip to content
knagasaki edited this page Feb 12, 2021 · 7 revisions

ルビTEI化ガイドライン

以下では、東アジア・日本語分科会におけるルビのTEI化に関するガイドラインを述べる。

ルビについて

ルビ・ふりがな・ふり文字

ルビとは、本文の行(以下、本行という)の中の任意の文字に対して、本行に沿わせて(一般的には)本行よりも小さな文字を配置して、読みなどの情報を附与するものである。そのような行為を「ルビを振る」という。ルビはおもに仮名であることからふりがなとも言うが(歴史的にはルビよりもふりがなのほうが古く現れる)、仮名ではなく漢字などを振ることもあることから一般的に拡張してふり文字ということもある。

ルビと注釈のちがい

  • ルビは文字との対応関係が重要

ルビの歴史

マークアップのありかた

原則

ルビの多様性

  • ルビのルビへのスタンドオフマークアップについて
    • 文字数を指定することは、Unicodeのコードの組み合わせ上の難しさを生むので避けるべき

通常の半構造化マークアップ

スタンドオフ・マークアップが適するもの

青空TEIにおける現状

東アジア・日本語分科会では、現在、青空文庫のテキストのTEI化を行っている。2021年2月に実施されたTEI P5ガイドラインのアップデートによりruby/rb/rt要素が導入されたため、青空文庫のHTMLタグをTEI/XML互換のものに置換する予定である。

すなわち、青空文庫における

路地の奥に一本の<ruby><rb>樟木</rb><rp>(</rp><rt>くすのき</rt><rp>)</rp></ruby>が見え、 宮本百合子 芸術が必要とする科学

という内容は、

路地の奥に一本の<ruby><rb>樟木</rb><rt>くすのき</rt></ruby>が見え、

と改められる。

HTML Standard Requirements for Japanese Text Layout https://www.w3.org/TR/jlreq/#ruby_and_emphasis_dots JEPA|日本電子出版協会 2019年4月11日 Nat McCully氏、W3C下農氏:日本語組版の過去、現在、未来 http://www.jepa.or.jp/sem/20190411/

圏点について

圏点とは、強調したい文字に「﹅」や「•」を傍書して際立たせる行為である。これは、<seg>要素や<emph>要素、<hi>要素の@rend属性にsesamidottedなど適宜記述を行うことで十分である。表示の際は、XSLTを通じてHTML等に変換するのであれば、CSSのfont-emphasize-styleプロパティなどを通じて制御することとなる。

たとえば、青空文庫において、

その枝に這いのぼった<strong class="SESAME_DOT">へちま</strong>の黄色い花もいくつか見える。 宮本百合子 芸術が必要とする科学

としてクラスによって圏点が表現されているのは、

その枝に這いのぼった<hi rend="sesami">へちま</hi>の黄色い花もいくつか見える。

と記述しておけばよい。

文献