このリポジトリでは、文章レベルの日本語平易化の評価に関するデータセットを配布しています。既存の日本語平易化コーパスであるJADOSデータセットのwikipediaドメインのデータの一部をモデルによる平易化文章によって拡張し、それらに人手によるアノテーションを行いました。
各データは、wikipediaの記事、言語モデルによって生成された平易化文章、および複数人のによる4つの評価観点アノテーションを含んでいます。 データセットの詳細についてはJADOSデータセットの構築に関する論文とアノテーションに関する資料を参照してください。
データは JSONL 形式で提供され、各行が1つのソース文章に対応しています。
その中で、各ソース文章には複数の平易化文(simplified_text)が simplified_list に辞書のリストにまとめられており、
各平易化文には複数のアノテーターによる評価スコアが annotations に辞書のリストとしてまとめられています。
各行は以下のような入れ子構造になっています(一部抜粋):
{
"original_id": 1,
"original_text": "北越急行ほくほく線...",
"simplified_list": [
{
"simplified_id": 1,
"model_name": "bart",
"simplified_text": "新潟県南魚沼市の六日町駅から...",
"annotations": [
{
"evaluator_id": 1,
"necessity": 1,
"sufficiency": 2,
"sentence_simplicity": 2,
"document_simplicity": 3
},
...
]
},
{
"simplified_id": 2,
"model_name": "gemma",
"simplified_text": "ほくほく線は、新潟県の六日町駅から犀潟駅までを結ぶ電車の路線です。...",
"annotations": [
{
"evaluator_id": 1,
"necessity": 1,
"sufficiency": 3,
"sentence_simplicity": 3,
"document_simplicity": 3
},
...
]
}
]
}| フィールド名 | 階層 | 型 | 説明 |
|---|---|---|---|
original_id |
top-level | int | 元の複雑な文章のID |
original_text |
top-level | str | wikipediaから抽出した平易化の対象となる文章 |
simplified_list |
top-level | list | 平易化された文章のリスト。各要素が1つのモデルによる出力に対応 |
| フィールド名 | 階層 | 型 | 説明 |
|---|---|---|---|
simplified_id |
simplified_list[i] | int | モデル別に一意に定められたid |
model_name |
simplified_list[i] | str | 生成元モデルの名称(例:"gemma", "GPT-4o_0-shot") |
simplified_text |
simplified_list[i] | str | 平易化された文章 |
annotations |
simplified_list[i] | list | 各アノテーターによる評価のリスト |
| フィールド名 | 階層 | 型 | 説明 |
|---|---|---|---|
evaluator_id |
annotations[j] | int | 評価者のID |
necessity |
annotations[j] | bool | 物事を説明する文章として体裁を保っているかどうか |
sufficiency |
annotations[j] | int | (1-3)元の文章の趣旨を保持しているか |
sentence_simplicity |
annotations[j] | int | (1-3)文単位での読みやすさ・単純さ |
document_simplicity |
annotations[j] | int | (1-3)文章全体としての平易さ |
| モデル名 | リンク | 説明 |
|---|---|---|
| bart | link | ku-nlp/bart-large-japaneseをJADOSデータセットのtrainデータで訓練したEnc-Decモデル |
| gemma | link | google/gemma-2-9b-itを利用 |
| GPT-4o_0-shot | link | gpt-4o-2024-11-20を利用.平易化の例を1件与えた1-shotの設定における生成結果 |
| GPT-4o_1-shot | link | gpt-4o-2024-11-20を利用 |
| Llama-swallow | link | tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2を利用 |
| JADOS_target | link | 拡張元のデータセットであるJADOSにおける人手で作成した平易化文章 |
次の記事を小学生が理解しやすい記事に変換してください。150字程度の短い記事になるように要約し、難しい表現は簡単な表現に言い換えたり補足の説明をしたりしてください。\n{original_text}