# 機械学習に関するTips

## ○ テーブルデータの予測は深層学習よりもツリー系モデルの方が精度が良いらしい


深層学習がテーブルデータで精度が出ない場合の理由は主に以下二つ。
* 外れ値が含まれる、目的変数の分布が正規分布でないといったことがあるとそれら不正規な部分を過学習してしまう  
  深層学習では標準化が必要であり、(scikit-learnの)標準化は正規分布を前提にしているため上手く標準化できない。  
  下記の参考サイトの非正規分布の標準化をする必要があるかも。
* 予測に役立たない特徴量もしっかり使おうとしてしまう。

参考：
* 元記事： https://exploratory.io/note/kanaugust/XGBoost-knM4aqw2IL  
* 非正規分布の標準化について： https://biolab.sakura.ne.jp/robust-z-score.html

## ○ 線形モデルにおいて目的変数と特徴量が正規分布に近いと精度が上がるかも 

元文：  
線形モデルは目標値や特徴量が正規分布である必要はないが、目的変数や特徴量の変換（logなど）によって正規分布に近づけることで、適合の質が向上する場合がある。  
これは、外れ値の影響を減らすことができるからである。強く歪んだ特徴量は、一般的にターゲットと線形関係にない（これは線形モデルの仮定の一つである）。  

特徴量は確かに標準化する際に正規分布を仮定しているため、変換によって良い効果が得られそう。  
目的変数も変換するのは意外だが、確かに外れ値との残差を減らそうと学習するのは汎化性能が落ちてしまいそうな気がする。  
特徴量、目的変数ともにlogに変換した後の特徴量空間における線形回帰の予測は線形に見えるが、変換前の特徴量空間では非線形に見えるようになる。  

参考:  
* [KaggleのKernel](https://www.kaggle.com/code/dejavu23/house-prices-eda-to-ml-beginner/comments)
* [Scikit-Learnのドキュメント](https://scikit-learn.org/stable/modules/preprocessing.html)
* [目的変数をlogに変換する話](https://tomoshige-n.hatenablog.com/entry/2014/08/14/013616)

## ○ 目的変数と特徴量の関係性の調べ方
方法は色々ある。  
* 量的変数の場合  
    * 散布図と相関係数で確認する（人力）          
    目的変数と特徴量で2次元の散布図を書くと概ね傾向、外れ値が分かる。  
    このとき一応ピアソンの相関係数も算出しておくと、相関を定量的に示せる。  
    ただし、ピアソンの相関係数は線形の相関しか評価できないので注意。2次関数の相関だと、0に近い値になる。  
    非線形の相関はMICを使えば評価できるが、導入が面倒なのと特徴量が多いと計算に時間がかかるのが難点。  
    そもそも非線形の相関関係は散布図みれば大体わかるように思う。    
    https://qiita.com/m-hayashi/items/2204e9d7e4e6837c6140
    <br></br>
    * 学習済みモデルに教えてもらう  
    学習済みモデルの予測結果に対する特徴量の寄与を確認する。  
    XGBoost、LightGBMなどの決定木ベースのモデルや線形回帰モデル（Lasso、Ridge等）で使用できる。  
    これらモデルで特徴量重要度を計算した後に、使用する特徴量を決めて他のモデルで学習するということも可能。  
    [特徴量選択手法](https://bakuage.com/ai-blog/entry/2022/05/31/090000)
    <br></br>
    

* 質的変数の場合  
カテゴリ変数（質的変数）であればboxplotなどでカテゴリごとの目的変数の様子を見る。  
カテゴリによって四分位範囲が大きく変わるようであれば、目的変数との相関が強いと言えそう。  
注意点として、カテゴリごとは（順位をつけるようなカテゴリでなければ）基本的に等価であるため、カテゴリの並びは関係ないということ。  
左から右にカテゴリを見て目的変数が増加しているかどうかなどを見ても意味がない。  


## ○ モデルの予測結果と特徴量の関係性の調べ方  
変数重要度とPDPである程度解釈できる模様。  
下記サイトはRの場合で書かれているが、わかりやすかった。  
[変数重要度とPartial Dependence Plotで機械学習モデルを解釈する](https://dropout009.hatenablog.com/entry/2019/01/07/124214)

## ○ 多重共線性（マルチコ）について
マルチコは重回帰モデルのときに起きるので、重回帰以外のモデル（決定木など）では気にしなくてよい。  
https://yolo-kiyoshi.com/2019/05/27/post-1160/  
https://qiita.com/wakichi/items/b68bad8e533dc45d467b

## ○ 2つの特徴量同士の四則演算結果を新たな特徴量にすると、精度が上がるかも？  
データが非現実的で実用性不明。話半分に。  
結局ドメイン知識に基づいて取捨選択し、適用する必要がある。  
https://gri.jp/media/entry/370#f-3a2679f3