## **Introduction & Recap**

## イントロダクション

- データコンペに関する説明
- このコースの対象はMLの基礎事項を理解していることを前提としている。
    - 具体的には、python, sklearn, MLモデルの学習についてある程度知っている。
- 様々なプロセスで効率的に取り組めるようになるために、ある種の「直感」を養うことが必要。
- コンペに時間を捧げるほど、より多くのことをを学ぶことができる。
- このコースを提供しているのは、Kaggle 等のデータコンペに熱心に取り組んできた人物ら（ロシア・Yandex）

## コース概要

### スケジュール

- **WEEK1: Starting Point**
    - データコンペとRecapについて
    - 特徴量の前処理と抽出
- **WEEK2: Data Pipeline**
    - EDA
    - Validation
    - Data Leaks
- **WEEK3: Improvement**
    - Metrics
    - Mean-encodings
- **WEEK4: Advanced**
    - Advenced features
    - Hyperparameter optimization
    - Ensembles
- **WEEK5: Wrapping Up**
    - Final project
    - Winning solutions

## データコンペについて

### 概要

- ページ説明
    - Data
    - Model
    - Submission
    - Evaluation
    - Leaderboard

- プラットフォーム
    - Kaggle
    - DrivenData
    - CrowdAnalityx
    - CodaLab
    - DataScienceChallenge.net
    - Datascience.net
    - Signle-competition sites(like KDD, VizDooM)
    
- 参加すべき理由
    - 学習とネットワーキングの機会
    - 様々なアプローチを試せる
    - コミュニティに入れる
    - 運が良ければ賞金を得られる
    
### 実世界とデータコンペの違い

- 実世界
    - ビジネス理解
    - 問題の定式化
    - データ収集
    - データ前処理
    - モデリング
    - 評価指標を決定
    - デプロイ
- データコンペ
    - （ビジネス理解）
    - （データ収集）
    - データ前処理
    - モデリング
    
- データコンペはアルゴリズムのみではない
    - 既存のアプローチをチューニングする必要がある
        - 既存ライブラリのソースコードをいじったりすることも必要になりうる。
    - 洞察が必要
    - 時には ML 以外のことが必要になる
        - ヒューリスティック・手動のデータ分析もOK
        - 複雑な解放・先進的な特徴エンジニアリング・膨大な計算も避けなければならないわけではない。

## Recap

### ML アルゴリズムの系統

#### Linear

- アルゴリズム例
    - Logistic Regression
    - SVM
- 特徴
    - 線形モデルはスパースな高次元データに対して有効
- パッケージ
    - sklearn
    - vowpal-rabbit

#### Tree-based

- アルゴリズム例
    - Desicion Tree
    - Random Forest
    - GBDT
- 特徴
    - 決定木の組み合わせによって表現力が高く、テーブルデータに対して有効
    - 線形従属（斜めの線?）を捉えるのは苦手である。
- パッケージ
    - sklearn
    - dmlc/XGBoost
    - Microsoft/LightGBM
    
#### kNN

- 特徴
    - 距離が近いものが似たラベルを持つという発想。
    - シンプルな方法だが、近傍法に基づく特徴量は有益なことがしばしばある。
- パッケージ
    - sklearn


#### Neural Networks

- 特徴
    - 決定木系と比べて滑らかな分離カーブを表現できる
    - 画像・音声・テキスト・文章に特に有効なことがある。
- フレームワーク
    - TensorFlow
    - Keras
    - MXNet
    - PyTorch
    - Lasagne
    
### No Free Lunch Theorem

- 全てのタスクにおいて他の全てのモデルを凌ぐモデルは存在しないということ。
- そのため様々なモデルに精通している必要がある。

### Scikit-Learn の分離器比較

- https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
- 様々な分離器の決定境界を概観できる。
- なぜそのような決定境界ができるのか、その理由を直感的に理解できることが推奨される。

### まとめ

- 「銀の弾丸」のアルゴリズムは存在しない
- 線形モデルは空間を2つの小空間に分ける
- ツリーベースモデルは空間を箱に分ける
- kNNモデルはどのように各点の「近さ」を定義するかに大きく依存する
- 順伝播ニューラルネットは滑らかな非線形の決定境界を生成する
- 最も強力な手法は GDBT と NN だが、線形モデルやkNNも時にそれらを凌ぐことがあるので過小評価してはならない。

---

## **Feature Preprocessing and Generation with Respect to Models**

## イントロダクション

### 前処理と特徴量生成について

前処理も特徴量生成もどのように処理するかは用いるモデルタイプに依存する。
以下、具体例を示す。

- カテゴリカル変数の前処理
    - 線形モデルは One-hot Encoding などが有効
    - ツリーベースモデルでは不要
    
- トレンドを反映させるための特徴量生成
    - 線形モデルでは前週の売上を特徴量として足す
    - ツリーベースでは Window で Target Encoding したものを特徴量として足す
    
## 数値変数（Numerical Features）

### 前処理

#### スケーリング（Scaling）

- ツリーベースモデル
    - 値のスケールに影響されない
- 非ツリーベースモデル
    - 値のスケールに影響を受ける
    - kNN の例にして考えるとスケールが予測精度に与える影響を理解しやすい
    
- 具体的な手法
    - sklearn.preprocessing.MinMaxScaler()
        - 指定した最小値と最大値の範囲に値をスケーリングする
    - sklearn.preprocessing.StandardScaler()
        - mean を引いて std で割る（平均0・標準偏差を1にする）
        
- kNN においてスケーリングの考え方を応用して、より重要だと思われる特徴量のスケールを大きくすることで、モデルへのその特徴量の影響度合いを（意図的に）大きくすることができる。

#### 外れ値（Outliers）

- 線形モデルは外れ値に影響を受けやすい
- これを避けるためのアプローチがいくつかある。
    - 1. パーセンタイルをもとに値をクリッピングする
    - 2. ランク変換（Rank Transformation）を行う。値のマッピングを行うイメージか。
        - ```rank([-100, 0, 1e5])==[0, 1, 2]```
        - ```rank([1000, 1, 10]) = [2, 0, 1]```
        
#### その他

- 非ツリーベースモデル（特にNN）でしばしば有効な前処理
    - ログ変換（Log Transform): np.log(1+x)
    - 指数変換(Rasing to the power<1): np.sqrt(x + 2/3)
- これらは過分散を抑制する一方で、0に近い値の差を大きくする
- 様々な前処理を行って学習を行ったモデルを組み合わせることはとても有効になりうる。

### 特徴量生成

