# 背景・導入
## クレジットスコアリングの意義

クレジットスコアリングは上記のような信用リスク管理業務のなかでも大きな重要度を持った業務である。信用リスクの推算は貸出を行った場合の予想損失(EL)の推算とも言い換えられるが、予想損失の構成パラメータは、デフォルト時貸出残高(EAD)、デフォルト率(PD)、デフォルト時損失率(LGD)の積として表される。式として表すと
$$
  EL = EAD \times PD \times LGD
$$
となる。このうちクレジットスコアリングが行うのはデフォルト率(PD)の推算である。この推算を誤ると、実際には大きなリスクを抱えている案件のリスクを過小評価してしまったり実際には優良な債務者に対して貸出を行わない、といった意思決定に繋がる恐れがあり非常に重要である。

## クレジットスコアリングの歴史的背景

* 35%が過去の支払い履歴
* 30%が現在の負債
* 15%が信用履歴の長さ
* 10%が最近の融資問い合わせ額
* 10%がアカウントの種類/個数

また、クレジットスコアを改善させるためのベストプラクティスといったものもよく伝え聞かれており以下のようなものが挙げられている\cite{annuity2}。

* クレジット限度額の65%-75%には手をつけないようにすること。多すぎるとリスクになり、少なすぎると信用機関にとって良くわからない人になる。
* 昔のアカウントをcloseしないでopenなままにしておくこと、誘惑に負けてしまいそうならカードを捨てなさい。
* 新規アカウント開設は控えめに。企業や貸し手が信用情報を参照するたびにクレジットスコアは下がります。
* 延滞や延滞期限をできるだけ残さないようにすること。
* 安易な解決策に飛びつかないように。詐欺の場合もあります。

## 現在における構築の手順・課題

クレジットスコアリングモデルは各金融機関の生命線であるため具体的なアルゴリズムや説明変数が公開されている例はあまり存在せず、断片的な情報を組み合わせて推測する必要がある。また、信用機関は目的に応じて複数のクレジットスコアリングモデルを使い分けていると考えられるため\cite{fujitsu}、よく用いられていると考えられる手法をその背景などに着目しながら紹介する。また、クレジットスコアリングに用いられる説明変数はその国や地域における法規や産業構造の違いなどから異なる可能性が示唆される\cite{kirill1}。

### クレジットスコアリングの手法

現在の日本におけるクレジットスコアリングはその用例に応じて複数の手法を使い分ける試みがなされていると考えられる\cite{fujitsu}。以下はそれらについてと、その用法に関しての説明である。

* スコアカード

経験的な指標に基づきある条件を満たしているときは点数を加算することで、合計点数をクレジットスコアとするモデルである。例としては、勤続年数1年未満は10点、1-3年は30点、3-10年は50点、10年以上は70点と言った具合である\cite{scorecard}。非常に単純な指標であるため理解は容易であるが、経験的な指標であるため意思決定の際の強い根拠とするには弱く、また現実の複雑な状況に即した判断にも使いづらいという難点が存在する。

* 判別分析

線形分離モデルを用いてデフォルト先と非デフォルト先をより良く区分する線を決定する手法である。線形手法であるため、複雑な境界を表現できないという点で現実の複雑な状況に即した判断には使いづらく、直感的な理解もスコアカードに比べると容易ではない。そのため、意思決定の際にも強い根拠として用いることが難しい。

* ロジスティック回帰

一般化線形モデルを用いてデフォルト確率を推算することができるため、意思決定においては使いやすい。一方で、表現力は線形判別分析とおよそ同程度である。直感的な理解のしやすさも判別分析と同程度と言える。

* 決定木

確率の推算にも用いることができるため意思決定においては使いやすい。非線形の決定境界を表現できる一方、過学習しやすいという欠点もあり複雑な状況に即した判断にはやや使いづらい。一方、判断の根拠を階層的な分岐で表現でき理解のしやすさは判別分析やロジスティック回帰よりよいといえる。

* ニューラルネット

より複雑な境界を表現できる一方で、説明性に劣る面があるため、意思決定においても使いづらいという側面が存在する。

* カーネルSVM

カーネル関数を用いて高次元空間に特徴を写したうえで線形分離をする手法で、数年前までニューラルネット以上の成績を出すと言われていた一方、説明性に劣るため、意思決定の場では使いづらいという側面がある。

* アンサンブル手法

勾配ブースティングやニューラルネットと決定木のブレンディング・スタッキングなど、近年Kaggleなどのコンペティションにおいても隆盛を誇っている手法である。シングルモデル以上の成績を