文書レベルの日本語平易化の評価データセット

このリポジトリでは、文章レベルの日本語平易化の評価に関するデータセットを配布しています。既存の日本語平易化コーパスであるJADOSデータセットのwikipediaドメインのデータの一部をモデルによる平易化文章によって拡張し、それらに人手によるアノテーションを行いました。

各データは、wikipediaの記事、言語モデルによって生成された平易化文章、および複数人のによる4つの評価観点アノテーションを含んでいます。データセットの詳細についてはJADOSデータセットの構築に関する論文とアノテーションに関する資料を参照してください。

データ構造

データは JSONL 形式で提供され、各行が1つのソース文章に対応しています。
その中で、各ソース文章には複数の平易化文（simplified_text）が simplified_list に辞書のリストにまとめられており、
各平易化文には複数のアノテーターによる評価スコアが annotations に辞書のリストとしてまとめられています。

各行は以下のような入れ子構造になっています（一部抜粋）：

{
  "original_id": 1,
  "original_text": "北越急行ほくほく線...",
  "simplified_list": [
    {
      "simplified_id": 1,
      "model_name": "bart",
      "simplified_text": "新潟県南魚沼市の六日町駅から...",
      "annotations": [
        {
          "evaluator_id": 1,
          "necessity": 1,
          "sufficiency": 2,
          "sentence_simplicity": 2,
          "document_simplicity": 3
        },
        ...
      ]
    },
    {
      "simplified_id": 2,
      "model_name": "gemma",
      "simplified_text": "ほくほく線は、新潟県の六日町駅から犀潟駅までを結ぶ電車の路線です。...",
      "annotations": [
        {
          "evaluator_id": 1,
          "necessity": 1,
          "sufficiency": 3,
          "sentence_simplicity": 3,
          "document_simplicity": 3
        },
        ...
      ]
    }
  ]
}

データの詳細

フィールド名	階層	型	説明
`original_id`	top-level	int	元の複雑な文章のID
`original_text`	top-level	str	wikipediaから抽出した平易化の対象となる文章
`simplified_list`	top-level	list	平易化された文章のリスト。各要素が1つのモデルによる出力に対応

simplified_list の要素

フィールド名	階層	型	説明
`simplified_id`	simplified_list[i]	int	モデル別に一意に定められたid
`model_name`	simplified_list[i]	str	生成元モデルの名称（例："gemma", "GPT-4o_0-shot"）
`simplified_text`	simplified_list[i]	str	平易化された文章
`annotations`	simplified_list[i]	list	各アノテーターによる評価のリスト

annotations の要素

フィールド名	階層	型	説明
`evaluator_id`	annotations[j]	int	評価者のID
`necessity`	annotations[j]	bool	物事を説明する文章として体裁を保っているかどうか
`sufficiency`	annotations[j]	int	(1-3)元の文章の趣旨を保持しているか
`sentence_simplicity`	annotations[j]	int	(1-3)文単位での読みやすさ・単純さ
`document_simplicity`	annotations[j]	int	(1-3)文章全体としての平易さ

model_name が表すモデルの詳細

モデル名	リンク	説明
bart	link	`ku-nlp/bart-large-japanese`をJADOSデータセットのtrainデータで訓練したEnc-Decモデル
gemma	link	`google/gemma-2-9b-itを利用`
GPT-4o_0-shot	link	`gpt-4o-2024-11-20`を利用．平易化の例を1件与えた1-shotの設定における生成結果
GPT-4o_1-shot	link	`gpt-4o-2024-11-20`を利用
Llama-swallow	link	`tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2`を利用
JADOS_target	link	拡張元のデータセットであるJADOSにおける人手で作成した平易化文章

LLMによる平易化に用いたプロンプト

次の記事を小学生が理解しやすい記事に変換してください。150字程度の短い記事になるように要約し、難しい表現は簡単な表現に言い換えたり補足の説明をしたりしてください。\n{original_text}

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
notebooks		notebooks
utils		utils
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

文書レベルの日本語平易化の評価データセット

データ構造

データの詳細

simplified_list の要素

annotations の要素

model_name が表すモデルの詳細

LLMによる平易化に用いたプロンプト

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

文書レベルの日本語平易化の評価データセット

データ構造

データの詳細

simplified_list の要素

annotations の要素

model_name が表すモデルの詳細

LLMによる平易化に用いたプロンプト

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages