Skip to content

簡単なTEI文書の基本的構造

knagasaki edited this page Apr 22, 2019 · 21 revisions

TEIに準拠した文書の基本的な構造についてご説明します。

もっとも基本的な構造

一番大事なのは、文書本体に加えてヘッダが必須となっていると言う点です。 ヘッダを必須とすることで、テクストファイルを見た時に何がなんだかわからなくなってしまうという事態を避けることを目指しています。 そこで、もっとも基本的な形式としては、以下のようになっております。これは、Oxygen XML Editorで、メニューバーの「ファイル」⇒「新規作成」⇒(ダイアログが開くので)「フレームワーク テンプレート」⇒「TEI P5」⇒「All」を選んでから「作成」ボタンをクリックすると作成されます。

ヘッダの書き方

TEIヘッダ(<teiHeader></teiHeader>, 上の図では3~15行目)の中には、

  • そのファイル自体の書誌情報(電子版作成情報を含む)
  • 元になった資料の書誌情報 をそれぞれ定められた場所に記述します。では、どこにどういう情報を書けばよいのか、ということを以下にみてみましょう。

<titleStmt>

このエレメントには、当該作品のタイトルと、内容についての責任を持つ者の情報が記載されます。たとえば、青空文庫TEIの「走れメロス」では以下のように記述されています。

これを部分的に見ていきますと、まず、通常書かれるべきタイトルと著者名は以下のようになっています。これはわかりやすい例だと思います。

次に、青空文庫における翻刻者と校正者の名前が記載されています。

ここで注目していただきたいのが、<resp>エレメントです。ここには、この資料の内容について、どのような責任を持っているのか、ということが記述されます。その上で、<name>でその人の名前が書かれ、<respStmt>で囲まれて一つの要素となります。そうしますと当然、青空文庫が作成した、ということも記述することになります。それが以下の箇所です。

ここでは、青空文庫は組織の名前であるため、<orgName>エレメントが用いられています。そして、作成の日付がわかっているため、それを機械可読にしておくべく、<resp>エレメントにwhen属性が付与され、そこにISOの書式に準拠した日付が記述されています。また、詳しい注記がによって付けられています。このは、ここでの暫定的な措置として、青空文庫ファイルにつけられているフッタにおける書誌・作成関連情報をそのままもってきています。ただし、原文の<br>はそのままではTEIでは使えないため、<lb/> (line beginning)に置き換えられています。

<publicationStmt>

次に、刊行に関する情報を書く<publicationStmt>エレメントを見てみましょう。

ここでは、TEI協会東アジア/日本語分科会が刊行しているという形をとっていますので、<distributor>にはその旨書いています。日付は<date>で、本文としては日本語の年月日の書式で書いていますが、機械可読性を高めるために、<date>エレメントにwhen属性をつけてISO書式の日付情報を記述しています。

次に、<availability>を見てください。ここでは、パブリックドメインであることを示すために、クリエイティブ・コモンズ・ライセンスのCC0であることを記述するとともに、それを<ref>タグで囲った上で、target属性でクリエイティブ・コモンズのCC0ライセンスのURLを指定しています。このルールが共有できていれば、このファイルのライセンスがパブリックドメインであることが自動的に確認できます。クリエイティブ・コモンズ・ライセンスはグローバルに広く用いられているため、Web上でデータを処理するプログラムの多くがこれを知っています。したがって、これに従って記述しておくことで、機械可読性を高めることができるようになります。

<sourceDesc>

<sourceDesc>も見てみましょう。これは、元になった資料の情報を記述するためのエレメントです。

この場合は、一冊の刊本からデジタル翻刻したものですので、比較的容易に記述可能です。<bibl>エレメント中に1冊の刊本の情報が記述され、さらに著者名タイトル等の各要素がマークアップされています。日付のマークアップの仕方は、これまで見てきたいくつかの例を思い起こしてください。

テクスト <text> の書き方

戯曲についてはこちらをご覧ください。

書誌情報 <teiHeader> に対して、テクスト部分には、<text>が来るのが通常ですが、この中では、本文要素 <body> 以外に、<front> と <back> も含むことができます。登場人物一覧等は <front> に、用語索引等の付録は <back> に入れることがあるようです。TEIガイドラインでは、文化的背景に応じてfrontかbackかを決める、とされています。

登場人物のマークアップ:人物リスト

登場人物をマークアップしておくと後々色々便利ですので、時間的に可能そうな場合にはぜひ挑戦してみましょう。その場合は、<front>に以下のようにして人物要素をリストしておいて、xml:idを付与しておきます。これは、作業しながら後から追加していったり、あるいは本文中にタグを一通りつけた後に自動的に本文から抽出することもできますので、必ずしも最初に人物リストを作成する必要はありません。あくまでも、マークアップの例として見ておいてください。

本文での段落マークアップ

さて、次に、本文 <body> でのマークアップですが、<front> を作成した場合には、その次に書くことになりますが、<front> がない場合には、<text> の直下にすぐに書くことになります。なお、TEIlibレベル3の最低限のマークアップとしては、 <p> をつけて段落的なものを明記することによる構造化だけでも十分です。その場合は、以下のようになります。

登場人物のマークアップ:本文の場合

登場人物のマークアップは、戯曲の場合にはそれに特化された手法がありますが、通常の散文では、<persName> というタグをつけることで行います。人物名は別名や略称になっていることもありますので、いずれかの人物であることを同定できる場合は、人物リスト中のxml:idを属性値として付与することで自動的に同定できるようにします。

ただし、先にも述べたように、人物リストは、このようにして本文にタグをつけながら、あるいはつけた後で作成することもできますし、ある程度自動化することもできますので、「先に人物リストをきちんと作ってから・・・」と考える必要はありません。

ということで、簡単な本文マークアップはこういう感じです。