Skip to content

masayu-a/CEJC-WSD-frequency

Repository files navigation

『日本語日常会話コーパス』短単位語彙表(分類語彙表番号つき)(CEJC-WSD-frequency version 2024.03)

Description

『日本語日常会話コーパス』(CEJC)に分類語彙表番号を自動付与した CEJC-WSD の頻度表

Features

  • CEJC-WSD-frequency.xlsx CEJC の語彙頻度表(以下の4つのテキストファイルをすべて含む)
  • cejc_lemma_suw_wlsp_freq.txt CEJC 語彙素頻度表
  • cejc_lemma_form_suw_wlsp_freq.txt CEJC 語形頻度表
  • cejc_lemma_orthBase_suw_wlsp_freq.txt CEJC 書字形頻度表
  • cejc_lemma_pronToken_suw_wlsp_freq.txt CEJC 発音形出現形頻度表

Format

cejc_lemma_suw_wlsp_freq.txt

1行目がヘッダ行

  1. CEJC:format
  2. CEJC:location
  3. CEJC:age
  4. CEJC:gender
  5. UniDic:lForm 語彙素読み(UniDic)
  6. UniDic:lemma 語彙素(UniDic)
  7. UniDic:subLemma 語彙素細分類(UniDic)
  8. UniDic:pos 品詞(UniDic)
  9. UniDic:wType 語種(UniDic)
  10. WLSP:article number 分類番号(分類語彙表)
  11. WLSP:new label 分類語彙表にないラベルに "*" を付与(分類語彙表)
  12. WLSP:class 類(分類語彙表)
  13. WLSP:division 部門(分類語彙表)
  14. WLSP:section 中項目(分類語彙表)
  15. WLSP:article 分類項目(分類語彙表)
  16. frequency 頻度
  17. pmw 100万語あたりの調整頻度

cejc_lemma_{orthBase,form,pronToken}_suw_wlsp_freq.txt

  1. CEJC:format
  2. CEJC:location
  3. CEJC:age
  4. CEJC:gender
  5. UniDic:lForm 語彙素読み(UniDic)
  6. UniDic:lemma 語彙素(UniDic)
  7. UniDic:subLemma 語彙素細分類(UniDic)
  8. UniDic:pos 品詞(UniDic)
  9. UniDic:wType 語種(UniDic)
  10. (cejc_lemma_orthBase) UniDic:orthBase 書字形 / (cejc_lemma_form) UniDic:form 語形 / (cejc_lemma_pronToken) UniDic:pronToken 発音形出現形
  11. WLSP:article number 分類番号(分類語彙表)
  12. WLSP:new label 分類語彙表にないラベルに "*" を付与(分類語彙表)
  13. WLSP:class 類(分類語彙表)
  14. WLSP:division 部門(分類語彙表)
  15. WLSP:section 中項目(分類語彙表)
  16. WLSP:article 分類項目(分類語彙表)
  17. frequency 頻度
  18. pmw 100万語あたりの調整頻度

Creators

  • 浅田 宗磨(東京農工大学)
  • 古宮 嘉那子(東京農工大学)

利用上の注意

(1)研究,教育目的であれば無償で自由に利用できる。申し込みの必要はない。 (2)再配布は不可。商業使用(営利目的での利用)は要相談。 (3)論文等に引用する際は出典とバージョンを明記すること。 以下に,出典とバーションの例を示す。 『日本語日常会話コーパス』短単位語彙表(分類語彙表番号つき) (CEJC-WSD-frequency version 2024.03) (4)本データの著作権(編集著作権)は国立国語研究所が有する。 (5)データの瑕疵による損害についてはいかなる場合でも保証しない。 (6)内容の改善のため予告なく更新することがある。

Credit

国立国語研究所 (2024) 『日本語日常会話コーパス』短単位語彙表(分類語彙表番号つき) (CEJC-WSD-frequency version 2024.03)

本データは、科研費 22K12145 および国立国語研究所共同研究プロジェクト「アノテーションデータを用いた実証的計算心理言語学」によるものです。

Contact

kotonoha@ninjal.ac.jp

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published