Skip to content

青空文庫テキストのTEI自動化プロジェクト

License

Notifications You must be signed in to change notification settings

TEI-EAJ/auto_aozora_tei

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

青空文庫テキストのTEI自動化プロジェクト

CC0

青空文庫テキストをBest Practice for TEI in LibrariesのLevel 2程度の深度で自動的にマークアップしたTEIファイルを格納しています。

Level 3やLevel 4の深度でマークアップする際の入力ファイルとしてご利用ください。

参考:青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクト

ディレクトリ構造

TEI/XMLファイルの格納先: docs/data

例: docs/data/000005/files/53194_45356.xml

ディレクトリ構造およびファイル名は青空文庫のGitHubリポジトリを参考にしています。

(参考)青空文庫のHTMLファイルのURLを入力してTEI/XMLファイルを表示する

変換方法

RELAX NG (リラクシング、RELAX Next Generation)ファイルを用いてバリデーションを実施しています。

ヘッダー

青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクトで定めた形式に変換しています。

本文

上述のスキーマに準拠するように、以下の変換処理を実施しています。

  • タグ

    • タグはすべてspanタグに置換し、rendition属性に変換前のタグ情報を与えています。
    • 例:h4 => span rendition="h4"
  • 属性(置換)

    • 形式的なバリデーションをクリアするための置換処理を含んでいます。
    • したがって、置換後の属性の使用方法の正しさは考慮できていません。
変換前 変換後
class rend
id xml:id
src facs
alt source
gaiji change
dir target
align to
name synch
href corresp
  • 属性(削除)
属性
rel
valign
property
border
cellpadding
vto
height
width

可視化例

About

青空文庫テキストのTEI自動化プロジェクト

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages