Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
5 changes: 2 additions & 3 deletions ja/ch06.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,14 +18,13 @@ header:
1. ダウンロードしたzipファイルを解凍し,`readme.txt`の説明を読む.
2. 情報源(publisher)が"Reuters", "Huffington Post", "Businessweek", "Contactmusic.com", "Daily Mail"の事例(記事)のみを抽出する.
3. 抽出された事例をランダムに並び替える.
4. 抽出された事例の80%を学習データ,残りの10%ずつを検証データと評価データに分割し,それぞれ`train.txt`,`valid.txt`,`test.txt`というファイル名で保存する.ファイルには,1行に1事例を書き出すこととし,カテゴリ名と記事見出しのタブ区切り形式とせよ.
4. 抽出された事例の80%を学習データ,残りの10%ずつを検証データと評価データに分割し,それぞれ`train.txt`,`valid.txt`,`test.txt`というファイル名で保存する.ファイルには,1行に1事例を書き出すこととし,カテゴリ名と記事見出しのタブ区切り形式とせよ(このファイルは後に問題70で再利用する)

学習データと評価データを作成したら,各カテゴリの事例数を確認せよ.

## 51. 特徴量抽出

学習データ,検証データ,評価データから特徴量を抽出し,それぞれ`train.feature.txt`,`valid.feature.txt`,`test.feature.txt`というファイル名で保存せよ(このファイルは後に問題70で再利用する).
ファイルには,1行に1事例を書き出すこととし,カテゴリ名と記事見出しのスペース区切り形式とせよ.
学習データ,検証データ,評価データから特徴量を抽出し,それぞれ`train.feature.txt`,`valid.feature.txt`,`test.feature.txt`というファイル名で保存せよ.
なお,カテゴリ分類に有用そうな特徴量は各自で自由に設計せよ.記事の見出しを単語列に変換したものが最低限のベースラインとなるであろう.

## 52. 学習
Expand Down