ここでは、データの取り扱いについて述べていく

## Training and Test Sets
- https://developers.google.com/machine-learning/crash-course/training-and-test-sets/splitting-data
- https://developers.google.com/machine-learning/crash-course/validation/another-partition

データは大きく３種類に分けられる
- Training Set（学習データ）
- Validation Set（検証データ）
- Test Set（テストデータ）

まず、学習用データとテストデータは必ず分ける。
なぜなら、テストデータが無ければ学習した結果を評価できないからである。
ここで、学習するときに必ずテストデータを使わないように気をつける。
テストデータを用いて学習してしまうと、学習結果はテストデータに適合してしまう。

しかし、学習用データとテスト用データを分けるだけでは不十分である。
なぜなら、学習用データで学習する→テスト用データでテストする→パラメータ等を変化して学習用データで学習する→テスト用データでテストする、のように改善していったとき、テスト用データに適合してしまうからである。
そこで、改善の際に利用するデータと最終的にその学習結果を評価する時のデータを分ける必要がある。
したがって、学習用データ、検証用データ、テストデータと3種類のデータに分けて学習をおこなう。

<img src="assets/workflow.png">


## Representation
### Feature Engineering
https://developers.google.com/machine-learning/crash-course/representation/feature-engineering

Feature Engineeringとは、rawデータを学習できるデータ(feature vector)に変換すること。

<img src="assets/feature_engineering.png">

元データが数字の時は簡単。文字の時が問題になる。

→コンフルに書いたようないろいろな手法がある。


### Qualities of Good Features
https://developers.google.com/machine-learning/crash-course/representation/qualities-of-good-features

ここでは良いfeatureについて説明する。

良いfeatureの値とは、5回以上は出現するデータである。

出てくる回数が少ないとその値に対しての学習がおこなえない。

また、それぞれのfeatureの値はわかりやすく明確な意味がないといけない。
例えば年齢を年で表示せず秒で表示するなどしてはいけない。
なぜなら、その値がおかしいデータなのかどうかがすぐにわからなくなってしまうから。

featureの定義が変わらないようにする。
アイテムの種類を数字で表現するなどした場合に、その数字の意味が変わってしまうことがあるので注意。

### Cleaning data
https://developers.google.com/machine-learning/crash-course/representation/cleaning-data

学習用データ、テスト用データに悪いデータが混ざっている場合、それらを掃除しなければ良い結果は得られない。
ここでは、いくつかのデータをきれいにする方法を紹介する。

- Scaling
  - データの範囲が[100,900]とかの場合に[0,1]や[-1,+1]のように扱いやすい範囲に直すこと
  - よくある方法は標準化すること
  $$(value - mean) / stddev.$$
  - 複数のデータを同じスケールに合わせる必要は無い
  - scalingするメリットは以下の通り
    - 最急降下法で極小値にたどり着くのが早くなる
    - NaN trapを回避することができる。NaN trap = 数字が大きくなりすぎてfloatの限界を突破すること
    - 学習する際に考えないといけないことを減らすことができる。scalingしないとさらに大きなデータがある可能性を考慮しなければならなくなる。
- 外れ値の扱い方（とても長いロングテールがある場合）
  - logを取るとレンジが狭くなる。（logを取る時は最小値>1になるように元の値に+1するなど工夫が必要）
  - ある値以上のものは全てある値とする。例えば4.0以上のものは全て4.0に直す。6.0->4.0, 4.5->4.0とする。
- Binning
  - ある範囲に入っている値をまとめてカウントする
  - 100点満点のテストで10点ごとに区切るなど。0<= x < 10のもの、10<= x < 20のもの、といった具合
  - この場合いくつのグループに分けられるかを知っているのでベクトル化することができる
  - 100点のテストを10点で区切る場合10個に分けられる→例えば5点の場合 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0] と表現できる
- Scrubbing
  - 信頼できないデータを捨てること
  - Omitted value : 打ち忘れなどで入力されていない項目があるデータ
  - Duplicate examples : 同じログが2回記録されているなどで重複しているもの
  - Bad labels : 人が入力した際に間違えてラベル付けされたもの。犬の写真に猫とラベル付けされていたりなど
  - Bad feature values : 範囲外の値が入っていたりするなど値が明らかに間違いなもの

これらの手法を用いて良いデータセットにすることでより良い学習をすることができる。



