### 説明文

機械学習を使ったマーケティング

ポルトガルの銀行の電話でのダイレクトマーケティングのデータを使って、お客様が購入する見込みがあるかどうかを判定。
今回のデータでは定期預金の契約をオススメするキャンペーンを行った結果、契約してもらえたかというデータを使用。

特徴: お客様の情報や電話の回数
目的: 定期預金を契約してくれるかどうか


こちらのデータを元に作成。
[Moro et al., 2014] S. Moro, P. Cortez and P. Rita.
A Data-Driven Approach to Predict the Success of Bank Telemarketing.
Decision Support Systems, Elsevier, 62:22-31, June 2014
https://archive.ics.uci.edu/ml/datasets/Bank+Marketing

In [3]:
import pandas as pd

df = pd.read_csv('./bank.csv', index_col=0)
df.head(3)

Unnamed: 0,年齢,職種,結婚,学歴,債務不履行,預金残高,住宅ローン,個人ローン,連絡手段,日,月,秒数,連絡回数,経過日数,事前連絡回数,前回の結果,結果
0,42,4,1,2,0,2187,1,0,0,17,11,525,3,-1,0,3,1
1,67,5,1,2,0,701,0,0,0,6,8,254,2,-1,0,3,1
2,34,0,0,1,0,479,1,0,0,12,5,515,1,350,5,0,1


In [5]:
## 説明変数 目的変数

X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

In [6]:
import numpy as np
from sklearn.model_selection import cross_val_score

#### 決定木

In [9]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier(random_state=0)
scores = cross_val_score(tree, X, y, cv=10)

print("正答率", np.mean(scores), "標準偏差 +/-", np.std(scores))

正答率 0.72 標準偏差 +/- 0.08426149773176358


#### SVM

In [10]:
from sklearn.svm import SVC

svm = SVC(C=1, gamma='auto', random_state=0)
scores = cross_val_score(svm, X, y, cv=10)

print("正答率", np.mean(scores), "標準偏差 +/-", np.std(scores))

正答率 0.51 標準偏差 +/- 0.020000000000000018


#### ロジスティック回帰

In [11]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(C=0.001, random_state=0, solver='liblinear')
scores = cross_val_score(lr, X, y, cv=10)

print("正答率", np.mean(scores), "標準偏差 +/-", np.std(scores))

正答率 0.7500000000000001 標準偏差 +/- 0.1


## cross_val_score
cv : 交差検証を何回行うか

In [17]:
## Scores 出力
scores

array([0.85, 0.85, 0.6 , 0.65, 0.65, 0.85, 0.7 , 0.75, 0.9 , 0.7 ])