Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Why do tree-based models still outperform deep learning on typical tabular data?, Grinsztajn+, Soda, Inria Saclay , arXiv'22 #574

Open
AkihikoWatanabe opened this issue Apr 28, 2023 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 28, 2023

https://arxiv.org/pdf/2207.08815.pdf

@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Apr 28, 2023

tree basedなモデルがテーブルデータに対してニューラルモデルよりも優れた性能を発揮することを確認し、なぜこのようなことが起きるかいくつかの理由を説明した論文。

image

NNよりもtree basedなモデルがうまくいく理由として、モデルの帰納的バイアスがテーブルデータに適していることを調査している。考察としては

  1. NNはスムーズなターゲットを学習する能力が高いが、表形式のような不規則なデータを学習するのに適していない
  • Random Forestでは、x軸においてirregularなパターンも学習できているが、NNはできていない。
    image
  1. uninformativeなfeaatureがMLP-likeなNNに悪影響を与える
  • Tabular dataは一般にuninformativeな情報を多く含んでおり、実際MLPにuninformativeなfeatureを組み込んだ場合tree-basedな手法とのgapが増加した
    image
  1. データはrotationに対して不変ではないため、学習手順もそうあるべき(この辺がよくわからなかった)
  • ResNetはRotationを加えても性能が変わらなかった(rotation invariantな構造を持っている)
    image

@AkihikoWatanabe AkihikoWatanabe changed the title Why do tree-based models still outperform deep learning on typical tabular data? Why do tree-based models still outperform deep learning on typical tabular data?, Grinsztajn+, Soda, Inria Saclay , arXiv'23 Apr 28, 2023
@AkihikoWatanabe AkihikoWatanabe changed the title Why do tree-based models still outperform deep learning on typical tabular data?, Grinsztajn+, Soda, Inria Saclay , arXiv'23 Why do tree-based models still outperform deep learning on typical tabular data?, Grinsztajn+, Soda, Inria Saclay , arXiv'22 Apr 28, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant