## **Introduction & Recap**

## イントロダクション

- データコンペに関する説明
- このコースの対象はMLの基礎事項を理解していることを前提としている。
    - 具体的には、python, sklearn, MLモデルの学習についてある程度知っている。
- 様々なプロセスで効率的に取り組めるようになるために、ある種の「直感」を養うことが必要。
- コンペに時間を捧げるほど、より多くのことをを学ぶことができる。
- このコースを提供しているのは、Kaggle 等のデータコンペに熱心に取り組んできた人物ら（ロシア・Yandex）

## コース概要

### スケジュール

- **WEEK1: Starting Point**
    - データコンペとRecapについて
    - 特徴量の前処理と抽出
- **WEEK2: Data Pipeline**
    - EDA
    - Validation
    - Data Leaks
- **WEEK3: Improvement**
    - Metrics
    - Mean-encodings
- **WEEK4: Advanced**
    - Advenced features
    - Hyperparameter optimization
    - Ensembles
- **WEEK5: Wrapping Up**
    - Final project
    - Winning solutions

---

## データコンペについて

### 概要

- ページ説明
    - Data
    - Model
    - Submission
    - Evaluation
    - Leaderboard

- プラットフォーム
    - Kaggle
    - DrivenData
    - CrowdAnalityx
    - CodaLab
    - DataScienceChallenge.net
    - Datascience.net
    - Signle-competition sites(like KDD, VizDooM)
    
- 参加すべき理由
    - 学習とネットワーキングの機会
    - 様々なアプローチを試せる
    - コミュニティに入れる
    - 運が良ければ賞金を得られる
    
### 実世界とデータコンペの違い

- 実世界
    - ビジネス理解
    - 問題の定式化
    - データ収集
    - データ前処理
    - モデリング
    - 評価指標を決定
    - デプロイ
- データコンペ
    - （ビジネス理解）
    - （データ収集）
    - データ前処理
    - モデリング
    
- データコンペはアルゴリズムのみではない
    - 既存のアプローチをチューニングする必要がある
        - 既存ライブラリのソースコードをいじったりすることも必要になりうる。
    - 洞察が必要
    - 時には ML 以外のことが必要になる
        - ヒューリスティック・手動のデータ分析もOK
        - 複雑な解放・先進的な特徴エンジニアリング・膨大な計算も避けなければならないわけではない。

---

## Recap

### ML アルゴリズムの系統

#### Linear

- アルゴリズム例
    - Logistic Regression
    - SVM
- 特徴
    - 線形モデルはスパースな高次元データに対して有効
- パッケージ
    - sklearn
    - vowpal-rabbit

#### Tree-based

- アルゴリズム例
    - Desicion Tree
    - Random Forest
    - GBDT
- 特徴
    - 決定木の組み合わせによって表現力が高く、テーブルデータに対して有効
    - 線形従属（斜めの線?）を捉えるのは苦手である。
- パッケージ
    - sklearn
    - dmlc/XGBoost
    - Microsoft/LightGBM
    
#### kNN

- 特徴
    - 距離が近いものが似たラベルを持つという発想。
    - シンプルな方法だが、近傍法に基づく特徴量は有益なことがしばしばある。
- パッケージ
    - sklearn


#### Neural Networks

- 特徴
    - 決定木系と比べて滑らかな分離カーブを表現できる
    - 画像・音声・テキスト・文章に特に有効なことがある。
- フレームワーク
    - TensorFlow
    - Keras
    - MXNet
    - PyTorch
    - Lasagne
    
### No Free Lunch Theorem

- 全てのタスクにおいて他の全てのモデルを凌ぐモデルは存在しないということ。
- そのため様々なモデルに精通している必要がある。

### Scikit-Learn の分離器比較

- https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
- 様々な分離器の決定境界を概観できる。
- なぜそのような決定境界ができるのか、その理由を直感的に理解できることが推奨される。

### まとめ

- 「銀の弾丸」のアルゴリズムは存在しない
- 線形モデルは空間を2つの小空間に分ける
- ツリーベースモデルは空間を箱に分ける
- kNNモデルはどのように各点の「近さ」を定義するかに大きく依存する
- 順伝播ニューラルネットは滑らかな非線形の決定境界を生成する
- 最も強力な手法は GDBT と NN だが、線形モデルやkNNも時にそれらを凌ぐことがあるので過小評価してはならない。

---

## ハードウェア/ソフトウェア要件

### ハードウェア

- 多くのコンペ（画像系を除く）は以下のもので十分
    - 高性能ノートPC
    - メモリ16GB
    - 4コア
- 以下のものがあるとより良い
    - デスクトップPC
    - メモリ32GB
    - 6コア
    
- 重要なポイント
    - メモリ： いろいろ捗る
    - コア： より多くのことを、より早く試せる
    - ストレージ： 画像や容量の大きいデータをミニバッチでアレコレする際に重要
    
- クラウドリソース
    - コンピュータリソースが捗る
        - AWS: スポットインスタンスはコストを抑えるが停止させられるリスクが有る
        - MS Azure
        - GCP
        
### ソフトウェア

- Python が多く用いられる
    - データサイエンスに適したライブラリ: NumPy, pandas, Scikit-learn, matplotlib
    - IDE: IPython, jupyter
    - Special packages: dmlc/XGBoost, Microsoft/LightGBM, Keras, danielfrg/tsne
    - External tools: VOWPAL WABBIT, srendle/libfm, gusetwalk/libffm, baidu/fast_rgf

## リンク

### クラウド

- [AWS](https://aws.amazon.com/jp/), [Google Cloud](https://cloud.google.com/), [Microsoft Azure](https://azure.microsoft.com/ja-jp/)

### AWS スポットオプション
- [Overview of Spot mechanism](https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/using-spot-instances.html)
- [Spot Setup Guide](https://datasciencebowl.com/aws_guide/)

### スタック/パッケージ

- [Basic SciPy stack (ipython, numpy, pandas, matplotlib)](https://www.scipy.org/)
- [jupyter Notebook](https://jupyter.org/)
- [Stand-alone python tSNE package](https://github.com/danielfrg/tsne)
- スパースなクリック率のような(CTR-like)データで機能するライブラリ: [LibFM](http://www.libfm.org/), [LibFFM](https://www.csie.ntu.edu.tw/~cjlin/libffm/)
- 別のツリーベースモデル: RGF ([implemetation](https://github.com/baidu/fast_rgf), [paper](https://arxiv.org/pdf/1109.0887.pdf))
- データサイエンスに関する諸々のパッケージが入った Python ディストリビューション: [Anaconda](https://www.continuum.io/what-is-anaconda)
- [Blog "datas-frame" (contains posts about effective Pandas usage)](https://tomaugspurger.github.io/)

---
---

## **Feature Preprocessing and Generation with Respect to Models**

## イントロダクション

### 前処理と特徴量生成について

前処理も特徴量生成もどのように処理するかは用いるモデルタイプに依存する。
以下、具体例を示す。

- カテゴリカル変数の前処理
    - 線形モデルは One-hot Encoding などが有効
    - ツリーベースモデルでは不要
    
- トレンドを反映させるための特徴量生成
    - 線形モデルでは前週の売上を特徴量として足す
    - ツリーベースでは Window で Target Encoding したものを特徴量として足す

## 数値変数（Numerical Features）

### 前処理

#### スケーリング（Scaling）

- ツリーベースモデル
    - 値のスケールに影響されない
- 非ツリーベースモデル
    - 値のスケールに影響を受ける
    - kNN の例にして考えるとスケールが予測精度に与える影響を理解しやすい
    
- 具体的な手法
    - sklearn.preprocessing.MinMaxScaler()
        - 指定した最小値と最大値の範囲に値をスケーリングする（デフォルトでは0~1の範囲）
    - sklearn.preprocessing.StandardScaler()
        - mean を引いて std で割る（平均0・標準偏差を1にする）
        
- kNN においてスケーリングの考え方を応用して、より重要だと思われる特徴量のスケールを大きくすることで、モデルへのその特徴量の影響度合いを（意図的に）大きくすることができる。

#### 外れ値（Outliers）

- 線形モデルは外れ値に影響を受けやすい
- これを避けるためのアプローチがいくつかある。
    - 1. パーセンタイルをもとに値をクリッピングする
    - 2. ランク変換（Rank Transformation）を行う。値のマッピングを行うイメージか。
        - ```rank([-100, 0, 1e5])==[0, 1, 2]```  
          ```rank([1000, 1, 10]) = [2, 0, 1]```  
        
#### その他

- 非ツリーベースモデル（特にNN）でしばしば有効な前処理
    - ログ変換（Log Transform): np.log(1+x)
    - 指数変換(Rasing to the power<1): np.sqrt(x + 2/3)
- これらは過分散を抑制する一方で、0に近い値の差を大きくする
- 様々な前処理を行って学習を行ったモデルを組み合わせることはとても有効になりうる。

### 特徴量生成

- 特徴量生成とは
    - 特徴量やタスクに関する知識を利用して新しい特徴量を作り出すこと。
    - モデルの学習をよりシンプルかつ効果的にするのに役立つ。
    - 事前知識や EDA を用いたり、仮説をもとに検証したり、あるいは直感によって新しい特徴量を引き出す。
    
- 数値変数に関する特徴量生成について
    - 加減乗除・交互作用による特徴量生成は線形モデルのみならずツリーベースモデルに対しても有効である。
    - ツリーベースモデルに掛け算や割り算による良い特徴量を追加することで、よりロバストで木の数を抑えたモデルを作ることができる。
    - 直感に基づくザックリした特徴量も有効になりうる。

## カテゴリカル・順序変数（Categorical and Oridinal Features）

### 前処理

- カテゴリカル変数の中でも、数値の順序に意味があるものを順序変数（あるいは Order Categorical Features）と呼ぶ。

#### Label Encoding
- 順序変数を数値に変換する手法
    - ツリーベースモデルでは特徴量を分割できるため有用
    - 一方で、非ツリーベースモデルでは有効には働かない。
- 実装方法
    - sklearn.preprocessing.LabelEncoder: アルファベット順にソートされ変換される
    - pandas.factorize: 出現順に順次変換される
    
#### Frequency Encoding
- カテゴリの出現頻度に応じて値をマッピングする
- ```encoding = titanic.groupby('Embarked').size()```  
  ```encoding = encoding/len(titanic)```  
  ```titanic['enc'] = titanic.Emberked.map(encoding)```  
- これは値の分布に関する情報を持つので、線形モデルやツリーモデルで有効に働きうる。
    - 線形モデルにとっては、もしカテゴリの頻度が目的変数と相関があれば有効になる
    - ツリーベースモデルにとっても、同様の理由でより少ない分割で済むようになりうる。
- 複数のカテゴリが同じ頻度で出現する場合、この方法ではそれらを区別することができない。
    - scipy.stats.rankdata で対処できうる
        
#### One-Hot Encoding
- カテゴリごとに列を作成し、それぞれのカテゴリについて1/0の値で埋める。
- 長所
    - 非ツリーベースモデルで有効に働く
    - 変換後すでにスケーリングされている。
- 短所
    - ツリーベースモデルでは学習の時間を冗長にし、効果が出にくい
- ちなみに、ツリーベースモデルについては、メモリを食うのでスパース行列にして持ったほうが良い。
    - XGBoost や LightGBM ではスパース行列でカテゴリカル変数を保持するように指定できる。


### 特徴量生成

#### 特徴量の交互作用

- 非ツリーベースモデルに対して有効。
- 複数のカテゴリ特徴量の組み合わせを One-Hot の形で持つ

## 日付変数と座標変数（Datetime and Coordinates）

### Date and Time

1. 周期性
    - 曜日・週・月・年・時間・分・秒 などとして利用できる
2. Time since
    - ある日からの経過時間 (Independent)
    - 決まったある日時から/までの時間 (dependent)
3. Difference between dates
    - ある日時から別のある日時までの日時の差
         - churn 予測における、date_diff（購買と電話の日時の差）
         
### Coordinate

- ある地点からの距離
- 集計された統計値を計算する
- ツリーベースモデルを使用するとき、45度（あるいは22.5度）回転させると、決定境界を作らせやすくなる。

## 欠損値処理（Handling Missing Values）

- 数値変数の欠損値には、NaN, Null, -1, 99 などがある。
- ヒストグラムを見ることで、値が欠損値が置き換えられたものだと想定することができる。

### 欠損値へのアプローチ

#### 1. 通常の値の分布外にある値で置き換える（-999, -1, etc.）
- 線形ネットワークモデルには適さない。

#### 2. 平均・中央値で置き換える
- 線形モデルやNNにとっては有効である。
- ツリーベースモデルには適さない。

#### 3. 値を「再構築」する
- 例えば時系列データの場合、欠損値を予測して置き換えることができうる。
- ただし、このようなことができる場合は多くない。


### 欠損値に関する特徴量生成

- 欠損値であるかどうかを示すバイナリの特徴量が作れる
    - ツリーベースモデルやNNで有効（平均や中央値で置き換えるより）
    - ただし、二重に列をつくることにもなる
    
- 欠損値を含む特徴量から別の特徴量を生成する際には、欠損値の置換に特に注意を払う必要がある。
- また 数値変数の欠損を -999 などに補完してからTarget-Encoding などを行ってしまうと、補完した値に平均が引っ張られてしまう。
    - このようなときは欠損値を無視して平均を取ったほうが良い。

- XGBoost は欠損値をそのまま扱え、スコアを大幅に改善することがある。

- 欠損値を異常値として扱うことができる。

- 学習データに現れないカテゴリカル変数のカテゴリはモデルに欠損値として扱われるので、それは Frequency Encoding で置換して対処する方法が考えられる。
    - 学習データとテストデータの両方を見て、その頻度を数え上げる。カテゴリの頻度と目的変数に依存関係があれば良い感じになる。
        - データリークを引き起こすのでは？

## リンク

### Feature preprocessing

- [Preprocessing in Sklearn](https://scikit-learn.org/stable/modules/preprocessing.html)
- [Andrew NG about gradient descent and feature scaling
](https://www.coursera.org/learn/machine-learning/lecture/xx3Da/gradient-descent-in-practice-i-feature-scaling)
- [Feature Scaling and the effect of standardization for machine learning algorithms](http://sebastianraschka.com/Articles/2014_about_feature_scaling.html)

### Feature generation

- [Discover Feature Engineering, How to Engineer Features and How to Get Good at It
](https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/)
- [Discussion of feature engineering on Quora](https://www.quora.com/What-are-some-best-practices-in-Feature-Engineering)