### データの読み込みと可視化

##### 日本語 - 英字変換
+ NO - NO
+ 申込日 - offer_date
+ 申込時間 - offer_time
+ 【媒体コード】大項目 - baitai_dai
+ 【媒体コード】詳細項目 - baitai_shousai
+ 受付時間帯区分 - uketsuke_jikantai
+ 受付形態区分 - uketsuke_keitai
+ 新規時自動契約機店番 - shinki_jidokeiyaku
+ 取扱店番 - toriatsukai_tenban
+ 管理店番 - kanri_tenban
+ 性別 - sex
+ 年齢 - age
+ 生年月日 - birth
+ ＪＩＳ住所コード - jis
+ 独既区分 - doku
+ 新職種区分_大区分 - sinshoku_dai
+ 【新職種区分】詳細区分 - sinshoku_shousai
+ 雇用形態区分 - koyo
+ 就業形態区分 - shugyo
+ 会社規模区分 - kaisha_kibo
+ 合計年収 - nenshu
+ 在社月数 - zaisha
+ 住居区分 - jukyo
+ 居住月数 - kyoju
+ 家賃負担額 - yachin
+ 家族構成区分 - kazoku_kousei
+ 保険職種区分 - hoken_shokushu
+ 収入証明有無 - shunyu_shoumei
+ 独身内訳 - dokushin
+ 同居区分 - doukyo
+ 扶養家族数 - fuyo
+ 扶養家族子供数 - fuyo_child
+ 所得証明区分 - shotoku_shoumei
+ 名義区分 - meigi
+ 事業形態区分 - jigyo_keitai
+ 事業所有無 - jigyosho
+ 貸付年月日 - kashituke_date
+ 貸付形態区分 - kashituke_keitai
+ 契約年率 - keiyaku_nenritsu
+ 解約時口座内訳 - kaiyakuji
+ 解約年月日 - kaiyaku_date
+ 解約時貸付残高 - kaiyaku_zandaka
+ １２ヶ月事故 - month12_jiko

In [None]:
import pandas as pd

df = pd.read_csv("モデル構築用.csv", encoding="sjis")
origin_columns = df.columns
df.columns = ["offer_date","NO","offer_time","baitai_dai","baitai_shousai","uketsuke_jikantai","uketsuke_keitai","shinki_jidokeiyaku","toriatsukai_tenban","kanri_tenban","sex","age","birth","jis","doku","sinshoku_dai","sinshoku_shousai","koyo","shugyo","kaisha_kibo","nenshu","zaisha","jukyo","kyoju","yachin","kazoku_kousei","hoken_shokushu","shunyu_shoumei","dokushin","doukyo","fuyo","fuyo_child","shotoku_shoumei","meigi","jigyo_keitai","jigyosho","kashituke_date","kashituke_keitai","keiyaku_nenritsu","kaiyakuji","kaiyaku_date","kaiyaku_zandaka","month12_jiko"]

df.head()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

cols = ["sex","age","nenshu","month12_jiko"]
sns.pairplot(df[cols])
plt.show();

In [None]:
import numpy as np

cm = np.corrcoef(df[cols].values.T)
sns.set(font_scale=1.5)
hm = sns.heatmap(cm,
                 cbar=True,
                 annot=True,
                 square=True,
                 fmt='.2f',
                 annot_kws={'size': 15},
                 yticklabels=cols,
                 xticklabels=cols)
plt.show();

### 重回帰による各項目の関連度分析

#### 手法: 重回帰分析
事故発生フラグと各変数間の相関を調べ、どの変数が事故発生の起因となっているかについて調査する

In [None]:
import statsmodels.api as sm

X = df[cols].drop('month12_jiko', 1)
Y = df['month12_jiko']

# 正規化する
X = (X - X.mean()) / X.std()
X.head()

In [None]:
X = sm.add_constant(X)

model = sm.OLS(Y, X)
result = model.fit()
result.summary()

In [None]:
# 影響度を表すt値よりヒートマップを作成
import matplotlib.pyplot as plt
import seaborn as sns

df_t = pd.DataFrame(data=result.tvalues, columns=["t"])
plt.figure(figsize=(9, 6))
sns.heatmap(df_t);

### 時系列として季節性やトレンドの分析をする

#### 手法: 季節性分析/トレンド分析
年間で特定の時期に事故が発生しやすいか、過去に比べて現在は徐々に事故件数が増えてきているのかなど、年間を通した事故発生の分析を時間の流れに沿って行う。

※ 後ほど追加

In [None]:
import datetime

# 月ごとに事故発生件数を集計する
df_date = df
df_date["offer_date"] = pd.to_datetime(df_date["offer_date"])
df_date = df_date.set_index("offer_date")
df_ymw = df_date.set_index([df_date.index.year, df_date.index.month, df_date.index.week, df_date.index])
df_ymw.index.names = ['year', 'month', 'week', 'date']
df_ymw_sum = df_ymw.sum(level=["year", "month", "week"])
df_ymw_sum = df_ymw_sum.reset_index()
to_int = lambda x: int(np.asscalar(x))
df_ymw_sum["offer_date"] = df_ymw_sum.apply(lambda row: "{}{:02}{:02}".format(to_int(row["year"]),to_int(row["month"]),to_int(row["week"])), axis=1)
df_ymw_sum = df_ymw_sum.drop(["year", "month", "week"], axis=1)
df_ymw_sum = df_ymw_sum.set_index("offer_date")
df_ymw_sum

In [None]:
# 事故件数を可視化する
df_jiko = df_ymw_sum["month12_jiko"]
# 2016年以前はほとんどデータがないので削除
df_jiko = df_jiko["20160101":]
df_jiko.plot(figsize=(16, 7), alpha=0.5);

In [None]:
import matplotlib.pyplot as plt

# 自己相関
acf = sm.tsa.stattools.acf(df_jiko, nlags=40)
# 偏自己相関
pacf = sm.tsa.stattools.pacf(df_jiko, nlags=40, method='ols')

# コレログラムで可視化する
fig = plt.figure(figsize=(12,10))
ax1 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(df_jiko, lags=40, ax=ax1)
ax2 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(df_jiko, lags=40, ax=ax2)

In [None]:
# 6週ごとに周期がありそうなので、季節成分の抽出
import matplotlib
matplotlib.rc('font', size=1)
sd = sm.tsa.seasonal_decompose(df_jiko, freq=6)
plt = sd.plot()
plt.set_figwidth(10)
plt.set_figheight(5)

In [None]:
# 定常性を持つか検定
# 拡張Dickey-Fuller検定(ADF検定)
res = sm.tsa.stattools.adfuller(df_jiko)
print('p-value = {:.4}'.format(res[1]))

In [None]:
# p > 0.5より定常性を持たないことが分かったため、トレンドと季節成分を抽出する
# トレンド(差分)
df_jiko.diff().plot(title='trend', figsize=(12, 3));

In [None]:
# 季節調整
(df_jiko - sd.seasonal).plot(title='seasonal ajustment', figsize=(12, 3));

In [None]:
# トレンド(差分) + 季節調整
ajusted = (df_jiko - sd.seasonal)
ajusted = ajusted.dropna()
ajusted.plot(title='ajusted - trend & seasonal', figsize=(12, 3));

In [None]:
# 再度定常性の確認
res = sm.tsa.stattools.adfuller(ajusted)
print('p-value = {:.4}'.format(res[1]))

#### 定常性が確認できなかったため、トレンド+季節調整では効果がないことが分かった

### 貸倒れ事故の発生を予測する

#### 手法: ロジスティック回帰
単純パーセプトロンと同様のモデルであり、線形回帰モデルを2値分類に展開した予想モデル。

#### 手法2: ランダムフォレスト
説明変数が多数の場合において、各変数の寄与率を出しながら高速に分類学習する手法

In [None]:
# 訓練データと検証データを作成
import numpy as np

# 日時データは削除
ignore_cols = ['offer_date', 'kashituke_date', 'kaiyaku_date', 'birth']
data = df.drop(ignore_cols, 1)

# 60%を訓練データとして使用する
train_ratio = 0.6
# ランダムに並び替えて、訓練/検証データに分割
df_rand = data.reindex(np.random.permutation(data.index)).reset_index(drop=True)
train = df_rand[0:round(len(data)*train_ratio)]
validation = df_rand[round(len(data)*train_ratio):]

train.shape, validation.shape

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X_train = train.drop('month12_jiko', 1)
y_train = train['month12_jiko']

# 正規化する
X_train = (X_train - X_train.mean()) / X_train.std()
X_train = X_train.fillna(0)

# ロジスティック回帰で2値分類する
clf = LogisticRegression()
clf.fit(X_train, y_train)

In [None]:
# 精度 - Accuracyで検証データで評価

X_val = validation.drop('month12_jiko', 1)
y_val = validation['month12_jiko']

# 正規化する
X_val = (X_val - X_val.mean()) / X_val.std()
X_val = X_val.fillna(0)

clf.score(X_val, y_val)

### 貸付判定モデル

1. 予測結果から貸し出す顧客を決定
2. 貸し出す人には全員一律で25万円貸すことにする

In [None]:
# 提出用検証データを読み込む
submission = pd.read_csv("検証用.csv", encoding="sjis")
submission.columns = ["offer_date","NO","offer_time","baitai_dai","baitai_shousai","uketsuke_jikantai","uketsuke_keitai","shinki_jidokeiyaku","toriatsukai_tenban","kanri_tenban","sex","age","birth","jis","doku","sinshoku_dai","sinshoku_shousai","koyo","shugyo","kaisha_kibo","nenshu","zaisha","jukyo","kyoju","yachin","kazoku_kousei","hoken_shokushu","shunyu_shoumei","dokushin","doukyo","fuyo","fuyo_child","shotoku_shoumei","meigi","jigyo_keitai","jigyosho","kashituke_date","kashituke_keitai","keiyaku_nenritsu","kaiyakuji","kaiyaku_date","kaiyaku_zandaka","kashitsuke"]

submission.head()

In [None]:
from scipy.special import expit

# 各顧客の事故発生予測
X_submission = submission.drop(ignore_cols, 1)
X_submission = X_submission.drop("kashitsuke", axis=1)
# 正規化
X_submission = (X_submission - X_submission.mean()) / X_submission.std()
X_submission = X_submission.fillna(0)
# 予測
pred = clf.predict(X_submission)

In [None]:
# 一律で25万円貸し出す
submission["kashitsuke"] = 250_000
# 事故が発生すると予測された人には貸さない
submission["kashitsuke"] *= 1-pred
submission.head()

In [None]:
# ヘッダー名を設定
submission.columns = origin_columns[:-1].tolist() + ["貸付金額"]

# 結果を提出用にCSVへ書き出す
submission.to_csv("提出サンプル1.csv", encoding="sjis")