Skip to content

ITAコーパスの文章リスト

Notifications You must be signed in to change notification settings

Haruqa/ita-corpus

 
 

Repository files navigation

追加部分について

  • OREMO音名リスト
    • OREMO用にファイル名が読み上げ文となる音名リストを作成
  • OREMOコメント
    • OREMOのコメント部分に、読み上げ文の平仮名を表示するコメントファイルを作成
  • ファイル名をいい感じにするやつ
    • ファイル名を「えっ嘘でしょ。.wav」→「EMOTION100_001.wav」という感じに、なんかいい感じにするbatファイル。逆方向もある

OREMO→http://nwp8861.web.fc2.com/soft/oremo/

使い方

  • OREMO→ファイル→音名リストの読み込み、で音名リストを読み込み
  • OREMO→ファイル→保存フォルダの変更、でOREMOコメント以下の音名リストに対応するフォルダを選択
  • お好みでファイル名をいい感じにするbatを保存フォルダへコピペし、ダブルクリックでファイル名をいい感じにする

追加部分ライセンス

本家と同じく、パブリックドメインとします

蛇足

  • (長い文章だとOREMOがめっちゃ横に伸びるので本家のpdfを読もう)( ˘ω˘ )
  • (テストプレイしてないけど大丈夫かな)( ˘ω˘ )
  • (なんで平仮名なん?)(いつも平仮名を使っていたので手が滑りました)( ˘ω˘ )

以下本家READMEです

ITAコーパスの文章リスト公開用リポジトリ

合計424文からなる,音素バランスを考慮したパブリックドメインの日本語テキストコーパスです.

ITAコーパスとは

著作権の消滅した文献やオリジナルの文章・単語から文セットを構築することで,パブリックドメインで公開される文章コーパスです.日本語の単語では出現しにくいモーラも一定量カバーしつつも読みやすさを考慮しています.424文は,100文 (Emotion)と324文 (Recitation)のサブセットで構成されており,用途に応じて使い分けることが可能です.分野横断的研究を加速させるコーパスをという思いを込めて,Inter-field Task Accelerating (ITA)コーパスと命名しました.

ITAコーパスの文献情報

  • 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅:ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021.

ファイル構成

音声のファイル名と対応付けることを意識した.txtファイルと,朗読者向けに印刷して配布する.docxと.pdfファイルを用意しました.用途に応じてご自由にご利用ください.

  • emotion_transcript_utf8.txt
  • emotion_朗読者用.docx
  • emotion_朗読者用.pdf
  • recitation_transcript_utf8.txt
  • recitation_朗読者用.docx
  • recitation_朗読者用.pdf

ITAコーパスを朗読した音声データベースの例

  • 感情音声コーパス
  • 読唇マルチモーダルデータベース

ライセンス情報

パブリックドメインです.これは義務ではありませんが,データベース等を構築した場合,お知らせ頂ければ上記の例に記載させて頂きます.

開発者

  • プロジェクト総括:小田恭央(SSS合同会社)
  • プロジェクト管理:金井郁也(明治大学)
  • 文章作成・管理:小口純矢(明治大学)
  • 文章抽出:細田計
  • アドバイザ:齊藤剛史(九州工業大学),森勢将雅(明治大学)

修正履歴

  • 2021/06/17: 最初のアップロード

About

ITAコーパスの文章リスト

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Batchfile 100.0%