# 背景・導入
## クレジットスコアリングの意義

クレジットスコアリングは上記のような信用リスク管理業務のなかでも大きな重要度を持った業務である。信用リスクの推算は貸出を行った場合の予想損失(EL)の推算とも言い換えられるが、予想損失の構成パラメータは、デフォルト時貸出残高(EAD)、デフォルト率(PD)、デフォルト時損失率(LGD)の積として表される。式として表すと
$$
  EL = EAD \times PD \times LGD
$$
となる。このうちクレジットスコアリングが行うのはデフォルト率(PD)の推算である。この推算を誤ると、実際には大きなリスクを抱えている案件のリスクを過小評価してしまったり実際には優良な債務者に対して貸出を行わない、といった意思決定に繋がる恐れがあり非常に重要である。

## クレジットスコアリングの歴史的背景

* 35%が過去の支払い履歴
* 30%が現在の負債
* 15%が信用履歴の長さ
* 10%が最近の融資問い合わせ額
* 10%がアカウントの種類/個数

また、クレジットスコアを改善させるためのベストプラクティスといったものもよく伝え聞かれており以下のようなものが挙げられている。

* クレジット限度額の65%-75%には手をつけないようにすること。多すぎるとリスクになり、少なすぎると信用機関にとって良くわからない人になる。
* 昔のアカウントをcloseしないでopenなままにしておくこと、誘惑に負けてしまいそうならカードを捨てなさい。
* 新規アカウント開設は控えめに。企業や貸し手が信用情報を参照するたびにクレジットスコアは下がります。
* 延滞や延滞期限をできるだけ残さないようにすること。
* 安易な解決策に飛びつかないように。詐欺の場合もあります。

## 現在における構築の手順・課題

クレジットスコアリングモデルは各金融機関の生命線であるため具体的なアルゴリズムや説明変数が公開されている例はあまり存在せず、断片的な情報を組み合わせて推測する必要がある。また、信用機関は目的に応じて複数のクレジットスコアリングモデルを使い分けていると考えられるため\cite{fujitsu}、よく用いられていると考えられる手法をその背景などに着目しながら紹介する。また、クレジットスコアリングに用いられる説明変数はその国や地域における法規や産業構造の違いなどから異なる可能性が示唆される\cite{kirill}。

### クレジットスコアリングの手法

現在のクレジットスコアリングはその用例に応じて複数の手法を使い分ける試みがなされていると考えられる\cite{fujitsu}。以下はそれらについてと、その用法に関しての説明である。

* スコアカード

経験的な指標に基づきある条件を満たしているときは点数を加算することで、合計点数をクレジットスコアとするモデルである。例としては、勤続年数1年未満は10点、1-3年は30点、3-10年は50点、10年以上は70点と言った具合である\cite{scorecard}。非常に単純な指標であるため理解は容易であるが、経験的な指標であるため意思決定の際の強い根拠とするには弱く、また現実の複雑な状況に即した判断にも使いづらいという難点が存在する。

* 判別分析

線形分離モデルを用いてデフォルト先と非デフォルト先をより良く区分する線を決定する手法である。線形手法であるため、複雑な境界を表現できないという点で現実の複雑な状況に即した判断には使いづらく、直感的な理解もスコアカードに比べると容易ではない。そのため、意思決定の際にも強い根拠として用いることが難しい。

* ロジスティック回帰

一般化線形モデルを用いてデフォルト確率を推算することができるため、意思決定においては使いやすい。一方で、表現力は線形判別分析とおよそ同程度である。直感的な理解のしやすさも判別分析と同程度と言える。

* 決定木

確率の推算にも用いることができるため意思決定においては使いやすい。非線形の決定境界を表現できる一方、過学習しやすいという欠点もあり複雑な状況に即した判断にはやや使いづらい。一方、判断の根拠を階層的な分岐で表現でき理解のしやすさは判別分析やロジスティック回帰よりよいといえる。

* ニューラルネット

中間層の複雑さを増すことでより複雑な境界を表現できる一方で、説明性に劣る面があるため、意思決定においても使いづらいという側面が存在する。

* カーネルSVM

カーネル関数を用いて高次元空間に特徴を写したうえで線形分離をする手法で、数年前までニューラルネット以上の成績を出すと言われていた一方、説明性に劣るため、意思決定の場では使いづらいという側面がある。

* アンサンブル手法

勾配ブースティングやニューラルネットと決定木のブレンディング・スタッキングなど、近年Kaggleなどのコンペティションにおいても隆盛を誇っている手法である。シングルモデル以上の成績を示すこともある一方で説明性は低く意思決定の場で決定打とはならないという現状があると考えられる。

### 説明変数について

### 金融機関の抱える課題

クレジットスコアリングに関連して金融機関が抱える課題はいくつかに分けられる\cite{fujitsu}。

* モデルが複雑なため、作成過程や計算過程がブラックボックス化してしまう
* モデルの精度に不安があり、モデルの見直しの必要がある
* モデルの見直しのたびに、コンサルティングやシステム改修の費用がかかる

といったことが挙げられている。これらに関して金融機関により挙げられている対策は以下のようになる。

* 研修の実施
* 運用目的にあわせて複雑さと説明性のトレードオフを考慮したモデルの再構築
* 最新の機械学習手法の利用
* テンプレートの利用

また、この他に\cite{kirill}などに挙げられている、詐欺のリスクも大きな課題となっているようである。詐欺を試みる者は虚偽の申告をする場合も多く、データには現れづらいと考えられる。

# 仮説・評価
## Home Credit Groupにおけるクレジットスコアリングモデル構築の取り組み

Home Credit GroupにおけるクレジットスコアリングはKaggleのコンペティションのディスカッションにおいて主催者であるKirill Odintsov氏が語っている内容から部分的に推察できる\cite{kirill}。以下はそれらのディスカッションの内容を要約したものである。

* AUC 0.77は現行のモデルよりはやや低いが抜かれるのは時間の問題である。それは、ビジネスにおける制約上用いることが出来ないデータを今回のコンペティションでは数多く用意しているからである。
* Home Credit Groupにおいて用いられているモデルはロジスティック回帰や決定木などの単純なものもあるし、より高度なXGBなどの勾配ブースティング法やニューラルネットを使ったものも存在する。
* 既に多くの融資を受けている人にお金を貸すことは企業としては利益になると考えられるので積極的に行うべきことであるが、顧客を過剰に借金を抱えた状態にしてしまう可能性があるのでPDが小さいと予測されていたとしても避けたいことである。
* 100以上の特徴を加えてモニタリングするよりも、50くらいの特徴でやや低いくらいの精度を出せるほうが良い。
* 最終的にはより簡単なモデルを使うにしても一度は複雑なモデルを試すことを行っている。
* モデルの再構築時には古いモデルを通ってきた母集団で学習を行うため、そこには含まれていなかったような人が新規申し込みをしたとして本来は落とされるべきであるにもかかわらず審査を通過してしまう可能性があり大きな問題となっている。
* 実際のモデルでは、性別・結婚状態・子供の数など、コンプライアンス的に使えない変数がある。
* その時点での景気などの情報を使えば推論の精度は良くなるがそれは入れられない。
* Home Credit Groupのデータサイエンスチームが用意しているモデルは多数ある。
  1. 顧客が最適なローン額を選ぶのを助けるモデル 
  2. 抱えているリスクから利子率を算出するモデル 
  3. データの収集戦略を最適化するモデル 
  4. ローンの提案をするモデル 
  5. 大規模な詐欺行為を調査するモデル 
  6. 顧客のクレジットカード制限の増減を決めるモデル
* ローンの契約は国や地域によって異なると考えられる(法的要請や産業構造の違いなどから)。応募用フォームは確かに異なるが現在データサイエンスチームが国ごとに大きく異ならないようにしているところである。
* 今回、Kaggleでコンペティションを開催したのは実際の業務において用いるためではなく、Kagglerのデータ分析のやり方などを見るためである。

## Home Credit Groupがコンペティション主催に至った理由

Home Credit Groupがコンペティションに求めているものは上述の通り、Kagglerのデータ分析のやり方そのものであり、実際の業務を改善させるようなモデルではないと考えられる。しかし、データ分析のやり方が求めるものだったとして、そのやり方を学ぶことで業務を改善させるようなことができると考えているからこそ総額\$ 70,000の賞金を設定するほど大きなコンペティションを開催する事になったと考えられる。すなわち、Home Credit Groupではデータ分析業務やリスク管理業務そのものが問題となっているという仮説が建てられる。言い換えれば、スコアリングのモデルの精度が低いといった問題というよりも、スコアリングのモデルの作成の仕方などが問題となっていると考えることができる。

この観点でKirill氏のディスカッションにおける発言を見直すと、モデルの作成に絡めて大きな課題意識を持っていることが伺える発言をしていることがわかる。

> We rebuild our models quite often. Every time we rebuild a model we can do it only on approved clients by the old model (we have no target for rejected clients). When we implement new model we stop using the old one, but the new model can start approving people who previously would be rejected by the old model not because they are good but simply because the new model did not learn that they are bad because they were not in the dataset for the new model. So for example if your old model would see that the people with "characteristic A" are really bad it would reject almost all of them - only those with best other characteristic would have a chance to be approved. The next model you will build on clients approved by the old model. Thus you would have small amount of people with "characteristic A" and they would not seem so bad, but in reality they are you just can't observe it in the data because the old model took only the best ones with "characteristic A".

これに絡めた発言を同氏は複数回しており、この問題を解決するのは非常に難しいということを認めている。これらの発言をまとめると、Home Credit Groupが抱えている課題意識は以下のようになる。

* モデルを再構築する際に、モデルの学習に使うデータは古いモデルによる予測を元に与信をすると意思決定した人たちのものである。
* 古いモデルが与信をしないと選択した対象は何らかの特徴が悪かったために落とされたと考えられるが、新しいモデルを学習させるのに使うデータにはそれらの特徴が"悪い"とされるようなデータは含まれていないか、含まれていたとしてもその他の特徴が"良い"とされたために審査を通過した人たちである。
* このようなデータで学習を行った場合、前回の審査では落とされてしまったような人も新しいモデルによる審査は通過する可能性がある。
* なぜならば、前回の審査で申込者を落とすのに主要な役割を果たした特徴に関して、新しいモデルの学習用データには圧倒的に偏りが生じているためである。

この他の点に関しても、Home Credit Groupはいくつかの課題を抱えていると考えられるが、大きなものとしてはこの点に尽きると考えられる。

## 課題を解決するアイデア

Home Credit Groupの抱える課題は上述の通りであるが、これを解決するのはKirill氏のいうように簡単な話ではない。しかし、いくつか解決に繋がりそうなアイデアは挙げられる。

1. 新しいモデルの学習において、古いモデルによって審査落ちしてしまった対象群に関しても学習データとして用いる。その際、そのようなデータに関してはターゲット変数がデフォルト(今回であれば1)であるとして扱う。
2. モデルの説明性を良くし、審査に落ちた人に関してその審査に関する支配的な特徴を特定できるようにする。審査を段階的なステップを踏むことにより、1段回目の審査で古いモデルで落ちてしまうような特徴を持つ人をふるい落とし、2段階目で新しいモデルを用いた審査を行う。モデルが更新されるごとにステップを増やす。
3. スコアリングモデルへの依存度を下げ、あくまでシグナルを出す程度のものに留める。すなわち最終的な審査は人手で行う。
4. スコアリングモデル自体は人間が確認できる程度の複雑さにし、機械による選別と人間による選別の2段階審査を行う。3のアイデアに近いが、機械的な作業の割合の問題である。
5. 1と2の折衷案として、古いモデルにおいて審査において落とすと決定したときの支配的要因を特定し、学習用データにおいてそのような特徴が"悪い"とされるデータを人工的に創りだす。この際、その人工データに関してはターゲット変数をデフォルトであるとして扱う。

上記のアイデアには当然のことながら長所もあれば短所も存在する。今回は特に短所を挙げていく。

* 新しいモデルの学習において、古いモデルによって審査落ちしてしまった対象群に関しても学習データとして用いる。その際、そのようなデータに関してはターゲット変数がデフォルト(今回であれば1)であるとして扱う。

古いモデルによって審査落ちしてしまった対象群は実のところ2通り存在すると考えられる。すなわち、PDが高いという予測が立った人たちである可能性と、リスクとリターンのバランスを考慮した時にPDはそれほど高くないものの、その他の要素を考慮した際に魅力的な申込者と判断されなかった可能性が考えられる。これらを一緒くたに扱ってしまうと、PDを予測するモデルにPDはそれほど悪くなかったデータまで混入することになり精度の悪化を招いてしまう。

* モデルの説明性を良くし、審査に落ちた人に関してその審査に関する支配的な特徴を特定できるようにする。審査を段階的なステップを踏むことにより、1段回目の審査で古いモデルで落ちてしまうような特徴を持つ人をふるい落とし、2段階目で新しいモデルを用いた審査を行う。モデルが更新されるごとにステップを増やす。

多段階モデルの欠点は二点ある。1つはそもそも古いモデルを使っている点にある。モデルを更新する必要があったということは、古いモデルに何らかの欠陥が存在した可能性もあるため、そのようなモデルを一段階目で使用するのはデータの分布をゆがめかねず危険である。また、モデルの更新のたびに新しいステップが増えるためモデルの複雑性が増大していってしまう点にある。結果としてモデルの管理コストやヒューマンエラーのリスクが増大することにつながりかねない。

* スコアリングモデルへの依存度を下げ、あくまでシグナルを出す程度のものに留める。すなわち最終的な審査は人手で行う。

人間による審査は負担を増大させヒューマンエラーの危険性を飛躍的に増大させるほか、人件費の増加も招くことになりスコアリングの取り組みに関しては大きく逆行することになる。

* スコアリングモデル自体は人間が確認できる程度の複雑さにし、機械による選別と人間による選別の2段階審査を行う。3のアイデアに近いが、機械的な作業の割合の問題である。

機械に扱えるデータの複雑さに制限をかけすぎてしまい、人間への負担が大きくなることが考えられる。最終的な判断はしばらくは人間に委ねられ続けるにしろ、やはりスコアリングの取り組みに逆行するアイデアである。

* 1と2の折衷案として、古いモデルにおいて審査において落とすと決定したときの支配的要因を特定し、学習用データにおいてそのような特徴が"悪い"とされるデータを人工的に創りだす。この際、その人工データに関してはターゲット変数をデフォルトであるとして扱う。

1つの特徴だけではなく、複数の特徴が複合的に影響して"悪い"という評価を作っていた場合に人工データの生成時に漏れが生じる可能性がある。

## 提案する解決策

以上の考察を踏まえたときに案1は改善の余地があるように思われる。つまり古いモデルにおいてPDが高いとされて審査落ちしたグループについてそのデータを学習に用いることが挙げられる。ただしこの群に関して一律に目的変数がデフォルト(1)であるとして学習を行うとデータの分布を損なってしまうため、サンプリングなどを用いて適切に評価する必要がある。したがって今回提案する解決策は以下のようなものである。

* 古いモデルにおいてPDが高いとされたレコードについては、新しいモデルの学習時にも用いる。
* 古いモデルにおいてPDが高いとされたレコードを新しいモデルの学習データとして用いるときは、古いモデルの予測PDに従いサンプリングを行いサンプリングされたデータを古いモデルにおいてもPDは低いとされていたデータと結合して用いる

この方法でも、古いモデルに依存した部分が出てきてしまうため、
> モデルを更新する必要があったということは、古いモデルに何らかの欠陥が存在した可能性もあるため、そのようなモデルを一段階目で使用するのはデータの分布をゆがめかねず危険である。

この指摘に関しては対応できていない。

## 実験

以上の議論を踏まえ、提案手法の性能を評価する実験を行った。データセットに関しては、今回Home Credit Groupから、Kaggleのコンペティション用に提供されているデータのうち、ターゲット変数が明らかになっているapplication_trainを用いた。また、その他の外部リソースや過去の申し込み情報などは今回の「提案手法の評価」という点では必要ないため、使用しなかった。また、説明変数も今回は提案手法とそれを用いなかった場合の差分を見るためだけのため、9個程度に絞って行った。変数の選択に関しては、LightGBMを用いたモデル\cite{LGBM}による変数重要度と\cite{stepwisebayse}に挙げられた変数などを参考に、

1. DAYS_EMPLOYED(勤続年数)
2. AMT_CREDIT/AMT_INCOME_TOTAL(自己資本比率に類似)
3. AMT_CREDIT/AMT_GOODS_PRICE
4. AMT_CREDIT/AMT_ANNUITY(借入期間に類似)
5. REGION_POPULATION_RELATIVE(Target Encodingをして地域別のデフォルト率指標とする)
6. DAYS_BIRTH
7. DAYS_EMPLOYED/DAYS_BIRTH
8. DAYS_ID_PUBLISH
9. ORGANIZATION_TYPE(Target Encodingにより職種別デフォルト率指標とする)

今回はあえてEXT_SOURCE_とついた指標については用いなかった。

データセットについては、古いモデルの学習用データ、古いモデルにより分類されるデータ(新しいモデルの学習データにもなる)、提案手法の性能確認用データの3つに分けた。全体の流れとしては以下の通りである。

1. application_trainのデータから9変数を抽出し、3つのグループに分類する。それぞれfold1, fold2, fold3とする。
2. Old Modelをfold1データで学習させる。今回はモデルとしてRandomForestRegressorを用いる。
3. Old Modelでfold2データに関してPDの予測を行う。予測されたPDに関して閾値以上であったデータは審査落ちデータとして扱う。
4. New Model1に関して、審査落ちデータは用いずに学習を行う。これは現状Home Credit Groupで行われている取り組みに対応する。New Model1もRandomForestRegressorとする。
5. 審査落ちデータに関してはステップ3で予測されたPDをもとにサンプリングを行い審査落ちデータが審査を通っていたと仮定した場合のデータセットを生成する。なお、サンプリングの個数はハイパーパラメータとなる。
6. ステップ3で審査を通過したデータについてはfold2のtargetをそのまま、審査落ちとされたデータについては5でサンプリングをした結果をtargetとして用いる。これによりサンプリングの回数分のデータセットが作成される。
7. New Model2に関して、6で作成したデータセットで学習を行う。この際にサンプリングの回数分の回帰木を作成する。モデルは4で用いたものと同じとする。
8. New Model1、New Model2に関してfold3のデータで検証を行う。

## 評価に関して

クレジットスコアリングのモデルの評価においてよく用いられるのは、AR(Accuracy Ratio)と呼ばれる指標の様である\cite{risk-management}。これは、序列性能を図る指標でありほとんど、ROC-AUCと等価である。しかし、今回は序列性能が目的というよりは、New Modelの学習時に学習用データセットに、前のモデルでPDが高いとされた群を含むことで、新規加入者のうち前のモデルでは落とされてしまったような人が入り込むことを防ぐのが目的である。

したがって今回の実装においては評価は、以下のような方法で行う。

1. fold2データ全体を用いて学習したモデルでfold3データを予測する。pred3と呼ぶことにする。
2. New Model1(審査落ちデータを含まない)のfold3データに関する予測をpred1とする。
3. New Model2(提案手法)のfold3データに関する予測をpred2とする。
4. pred3とpred2の差分が大きいデータ(すなわち審査落ちデータを用いなかったことによってPDの予測を誤ったことに相当する)に関してpred1が一定の割合以上のPDを予測できていた割合を計算する。

## 実装


``` python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys
from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import RandomForestRegressor
import numpy.random as random
```


### Step 1 データの整形

```python
class TargetEncoder:
    def __init__(self):
        self.encoder = None
        
    def fit(self, cat, target):
        colname_cat = cat.name
        colname_target = target.name
        
        concat = pd.concat([cat, target], axis=1)
        self.encoder = concat.groupby(colname_cat)[colname_target].mean()
    
    def transform(self, cat):
        target = cat.map(self.encoder)
        return target
    
    def fit_transform(self, cat, target):
        self.fit(cat, target)
        encoded = self.transform(cat)
        return encoded

df_path = "../data/application_train.csv"
df = pd.read_csv(df_path)
df = df.dropna(subset=["AMT_GOODS_PRICE", "AMT_ANNUITY"])

df["DAYS_EMPLOYED"] = df["DAYS_EMPLOYED"].map(lambda x:x if x != 365243 else 0)
df["CREDIT_INCOME_RATIO"] = df["AMT_CREDIT"] / df["AMT_INCOME_TOTAL"]
df["CREDIT_GOODS_RATIO"] = df["AMT_CREDIT"] / df["AMT_GOODS_PRICE"]
df["CREDIT_ANNUITY_RATIO"] = df["AMT_CREDIT"] / df["AMT_ANNUITY"]
df["EMPLOYED_BIRTH_RATIO"] = df["DAYS_EMPLOYED"] / df["DAYS_BIRTH"]

te = TargetEncoder()
df["REGION_TARGET_ENCODED"] = te.fit_transform(
    df["REGION_POPULATION_RELATIVE"], df["TARGET"])
df["ORGANIZATION_TARGET_ENCODED"] = te.fit_transform(
    df["ORGANIZATION_TYPE"], df["TARGET"])

columns_to_use = ["DAYS_EMPLOYED", "CREDIT_INCOME_RATIO", "CREDIT_GOODS_RATIO",
                  "CREDIT_ANNUITY_RATIO", "REGION_TARGET_ENCODED",
                  "DAYS_BIRTH", "EMPLOYED_BIRTH_RATIO",
                  "DAYS_ID_PUBLISH", "ORGANIZATION_TARGET_ENCODED"]

X = df[columns_to_use].values
y = df["TARGET"].values

skf = StratifiedKFold(n_splits=3)
for train_idx, test_idx in skf.split(X, y):
    train_tmp = X[train_idx]
    y_train_tmp = y[train_idx]
    Xfold3 = X[test_idx]
    yfold3 = y[test_idx]
    
skf2 = StratifiedKFold(n_splits=2)
for train_idx, test_idx in skf2.split(train_tmp, y_train_tmp):
    Xfold1 = train_tmp[train_idx]
    yfold1 = y_train_tmp[train_idx]
    Xfold2 = train_tmp[test_idx]
    yfold2 = y_train_tmp[test_idx]
```

Xfold1, Xfold2, Xfold3がそれぞれfold1, fold2, fold3データに対応しyfold1, yfold2, fold3はそれらのターゲット変数である。

### Step 2 Old Modelの学習

```python
old_model = RandomForestRegressor(max_depth=5, n_estimators=100, n_jobs=-1)
old_model.fit(Xfold1, yfold1)
```

### Step 3 Old ModelによるPD予測

```python
ypred_old = old_model.predict(Xfold2)
plt.hist(ypred_old, bins=100)
plt.xlabel("Estimated Probability of Default")
plt.ylabel("Number of records")
plt.show()
```

```python
use_idx = np.where(ypred_old < 0.15)[0]
discard_idx = np.where(ypred_old >= 0.15)[0]

Xnew = Xfold2[use_idx, :]
ynew = yfold2[use_idx]

Xdiscard = Xfold2[discard_idx, :]
ydiscard = yfold2[discard_idx]
ypred_discard = ypred_old[discard_idx]
```

今回は閾値を0.15として計算した。

### Step 4 New Model1の学習

```python
new_model1 = RandomForestRegressor(max_depth=5, n_estimators=100, n_jobs=-1)
new_model1.fit(Xnew, ynew)
```

### Step 5-7 データセット作成~New Model2学習

```python
class SamplingRegressor:
    def __init__(self, data, ypred, base_estimator, nsample=200):
        self.nsample = nsample
        self.clfs = [base_estimator for i in range(nsample)]
        self.discarded = data
        self.samples = [random.binomial(1, ypred) for i in range(nsample)]
        self.X = None
        self.y = []
        
    def fit(self, X, y):
        self.X = np.vstack([X, self.discarded])
        self.y = [np.hstack([y, s]) for s in self.samples]
        for i, clf in enumerate(self.clfs):
            clf.fit(self.X, self.y[i])
            percentage = (i+1) / self.nsample * 100
            sys.stdout.write(f"\r{percentage:.2f} percent finished")
        print()
            
    def predict(self, X):
        preds = np.zeros(X.shape[0])
        for clf in self.clfs:
            preds += clf.predict(X)
        return preds / self.nsample
    
rf = RandomForestRegressor(max_depth=5, n_estimators=100, n_jobs=-1)
new_model2 = SamplingRegressor(Xdiscard, ypred_discard, rf, 1000)
new_model2.fit(Xnew, ynew)
```

### Step 8 検証


```python
validation_model = RandomForestRegressor(max_depth=5, n_estimators=100, n_jobs=-1)
validation_model.fit(Xfold2, yfold2)

pred1 = new_model1.predict(Xfold3)
pred2 = new_model2.predict(Xfold3)
pred3 = validation_model.predict(Xfold3)

idx = np.where(pred3 - pred1 > 0.1)[0]
print((pred2[idx] > 0.15).mean())
```


これによりOld Modelでは審査落ちしていてNew Model1ではPDが低く出ていたデータのうち **98.8%** が提案手法ではPDが高い(閾値以上)と予測されることがわかった。

なお、確認のためROC曲線を描いてみたのが以下の図\label{fig:roc}である。

AUCでは、Validation Modelが0.653, New Model1が0.649, New Model2が0.651となった。

# 価値提案

最後に提案したモデルについて、価格設定を行う。本モデルには **\$ 40,000**　の価格を設定する。この価格の根拠は以下のとおりである。

まず、Home Credit GroupがHome-Credit-Default-Riskのコンペティションに設定した賞金は総額\$ 70,000であり、一位の賞金は\$ 35,000である。この価格設定は、コンペティションに対してHome Credit Groupがかけている期待を反映したものであると言える。先に述べたとおり、Home Credit Groupがこのコンペティションに求めているものは、Home Credit Groupが抱えている課題を解決するデータ分析のやり方のヒントであって提出されるモデルそのものではない。すなわち、実務に直接使えるものではなく、その業務を改善するヒントに \$ 70,000という額を設定していると考えられる。これは将来にわたってのクレジットスコアリングモデル構築費用の一部の額を積分した値と捉えることができる。

また、同業である富士通総研ではクレジットスコアリングモデル構築に$ 50,000以上という価格設定をしている\cite{fujitsu}。これを考えて、クレジットスコアリングモデルの相場はおよそ\$ 30,000 - \$ 100,000程度であると予測した。この上で今回のスコアリングモデルはHome Credit Groupが抱える課題にクリティカルに作用する解決策を含むもののその他の部分での手法的目新しさはなく、運用中に改善を多く施すことになると考えられることから、スコアリングモデルの価格の下限に近い\$ 40,000を設定した。