『日本語日常会話コーパス』(CEJC)に分類語彙表番号を自動付与した CEJC-WSD の頻度表
- CEJC-WSD-frequency.xlsx CEJC の語彙頻度表(以下の4つのテキストファイルをすべて含む)
- cejc_lemma_suw_wlsp_freq.txt CEJC 語彙素頻度表
- cejc_lemma_form_suw_wlsp_freq.txt CEJC 語形頻度表
- cejc_lemma_orthBase_suw_wlsp_freq.txt CEJC 書字形頻度表
- cejc_lemma_pronToken_suw_wlsp_freq.txt CEJC 発音形出現形頻度表
1行目がヘッダ行
- CEJC:format
- CEJC:location
- CEJC:age
- CEJC:gender
- UniDic:lForm 語彙素読み(UniDic)
- UniDic:lemma 語彙素(UniDic)
- UniDic:subLemma 語彙素細分類(UniDic)
- UniDic:pos 品詞(UniDic)
- UniDic:wType 語種(UniDic)
- WLSP:article number 分類番号(分類語彙表)
- WLSP:new label 分類語彙表にないラベルに "*" を付与(分類語彙表)
- WLSP:class 類(分類語彙表)
- WLSP:division 部門(分類語彙表)
- WLSP:section 中項目(分類語彙表)
- WLSP:article 分類項目(分類語彙表)
- frequency 頻度
- pmw 100万語あたりの調整頻度
- CEJC:format
- CEJC:location
- CEJC:age
- CEJC:gender
- UniDic:lForm 語彙素読み(UniDic)
- UniDic:lemma 語彙素(UniDic)
- UniDic:subLemma 語彙素細分類(UniDic)
- UniDic:pos 品詞(UniDic)
- UniDic:wType 語種(UniDic)
- (cejc_lemma_orthBase) UniDic:orthBase 書字形 / (cejc_lemma_form) UniDic:form 語形 / (cejc_lemma_pronToken) UniDic:pronToken 発音形出現形
- WLSP:article number 分類番号(分類語彙表)
- WLSP:new label 分類語彙表にないラベルに "*" を付与(分類語彙表)
- WLSP:class 類(分類語彙表)
- WLSP:division 部門(分類語彙表)
- WLSP:section 中項目(分類語彙表)
- WLSP:article 分類項目(分類語彙表)
- frequency 頻度
- pmw 100万語あたりの調整頻度
- 浅田 宗磨(東京農工大学)
- 古宮 嘉那子(東京農工大学)
(1)研究,教育目的であれば無償で自由に利用できる。申し込みの必要はない。 (2)再配布は不可。商業使用(営利目的での利用)は要相談。 (3)論文等に引用する際は出典とバージョンを明記すること。 以下に,出典とバーションの例を示す。 『日本語日常会話コーパス』短単位語彙表(分類語彙表番号つき) (CEJC-WSD-frequency version 2024.03) (4)本データの著作権(編集著作権)は国立国語研究所が有する。 (5)データの瑕疵による損害についてはいかなる場合でも保証しない。 (6)内容の改善のため予告なく更新することがある。
国立国語研究所 (2024) 『日本語日常会話コーパス』短単位語彙表(分類語彙表番号つき) (CEJC-WSD-frequency version 2024.03)
本データは、科研費 22K12145 および国立国語研究所共同研究プロジェクト「アノテーションデータを用いた実証的計算心理言語学」によるものです。