Skip to content

Latest commit

 

History

History
30 lines (23 loc) · 1.19 KB

README_ja.md

File metadata and controls

30 lines (23 loc) · 1.19 KB

japanese-toxic-dataset

ANLP2022「日本語有害表現スキーマの提案と評価」にて考案した日本語における有害表現を検知するためのスキーマとデータセットを提供しています。

リポジトリの構成は次の通りです。

  • schema_ja.md: ラベリングスキーマ
  • data/subset.csv: 「日本語有害表現スキーマの提案と評価」で利用したデータセットのサブセット

データセットの詳細

data/subset.csvは次のカラムで構成されています。

カラム名 説明
id 文章ID
text 文章
Not Toxic 有害レベル: Not Toxic
Hard to Say 有害レベル: Hard to Say
Toxic 有害レベル: Toxic
Very Toxic 有害レベル: Very Toxic
category_卑語 有害カテゴリ: 卑語
category_差別 有害カテゴリ: 差別
category_迷惑行為 有害カテゴリ: 迷惑行為
category_猥褻 有害カテゴリ: 猥褻
category_出会い・プライバシー侵害 有害カテゴリ: 出会い・プライバシー侵害
category_違法行為 有害カテゴリ: 違法行為
category_偏向表現 有害カテゴリ: 偏向表現
annotation_num アノテータ数