## 第5章 顧客の退会を予測する10本ノック

この記事は[「Python実践データ分析100本ノック」](https://www.amazon.co.jp/dp/B07ZSGSN9S/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1)の演習を実際にやってみたという内容になっています。今まで自己流でやってきましたが、一度他の方々がどのような考え方やコーディングをしているのか勉強してみようと思ってやってみました。本書は実際の業務に活用する上でとても参考になる内容だと思っています。データ分析に関わる仕事をしたい方にお勧めしたいです。

本演習で利用しているデータは本サイトからは利用できません。ぜひとも「Python実践データ分析１００本ノック」を購入し、本に沿ってダウンロードして自分の手でコーディングしてみてください。（私は決して回し者ではないので安心してください笑）

前章（4章）では、クラスタリングと線形回帰を実行してみました。今回は決定木のようです。データ分析や予測において最初に使われるのがXGBoostやLightGBM、ランダムフォレストであり、それらの手法の基礎となっているのが決定木です。

### github
- jupyter notebook形式のファイルは[こちら](https://github.com/hiroshi0530/wa-src/blob/master/ml/data100/05/05_nb.ipynb)

### google colaboratory
- google colaboratory で実行する場合は[こちら](https://colab.research.google.com/github/hiroshi0530/wa-src/blob/master/ml/data100/05/05_nb.ipynb)

### 筆者の環境

In [1]:
!sw_vers

ProductName:	Mac OS X
ProductVersion:	10.14.6
BuildVersion:	18G6020


In [2]:
!python -V

Python 3.7.3


基本的なライブラリをインポートしそのバージョンを確認しておきます。

In [3]:
%matplotlib inline
%config InlineBackend.figure_format = 'svg'

import matplotlib
import matplotlib.pyplot as plt
import scipy
import numpy as np
import pandas as pd

print('matplotlib version :', matplotlib.__version__)
print('scipy version :', scipy.__version__)
print('numpy version :', np.__version__)
print('pandas version :', pd.__version__)

matplotlib version : 3.0.3
scipy version : 1.4.1
numpy version : 1.16.2
pandas version : 1.0.3


## 解答

### ノック : 41 データを読み込んで利用で他を整形しよう

In [4]:
customer = pd.read_csv('customer_join.csv')
uselog_months = pd.read_csv('use_log_months.csv')

In [5]:
customer.head()

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,オールタイム,10500,通常,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,オールタイム,10500,通常,5.083333,5.0,7,3,1,2019-04-30,47
2,OA974876,XXXXX,C01,M,2015-05-01,,CA1,0,オールタイム,10500,通常,4.583333,5.0,6,3,1,2019-04-30,47
3,HD024127,XXXXX,C01,F,2015-05-01,,CA1,0,オールタイム,10500,通常,4.833333,4.5,7,2,1,2019-04-30,47
4,HD661448,XXXXX,C03,F,2015-05-01,,CA1,0,ナイト,6000,通常,3.916667,4.0,6,1,1,2019-04-30,47


In [6]:
uselog_months.head()

Unnamed: 0,年月,customer_id,count
0,201804,AS002855,4
1,201804,AS009013,2
2,201804,AS009373,3
3,201804,AS015315,6
4,201804,AS015739,7


In [7]:
year_months = list(uselog_months['年月'].unique())
uselog = pd.DataFrame()

for i in range(1, len(year_months)):
  tmp = uselog_months.loc[uselog_months['年月'] == year_months[i]].copy()
  tmp.rename(columns={'count': 'count_0'}, inplace=True)
  tmp_before = uselog_months.loc[uselog_months['年月'] == year_months[i - 1]].copy()
  del tmp_before['年月']
  tmp_before.rename(columns={'count': 'count_1'}, inplace=True)
  tmp = pd.merge(tmp, tmp_before, on='customer_id', how='left')
  uselog = pd.concat([uselog, tmp], ignore_index=True)

In [8]:
uselog.head()

Unnamed: 0,年月,customer_id,count_0,count_1
0,201805,AS002855,5,4.0
1,201805,AS009373,4,3.0
2,201805,AS015233,7,
3,201805,AS015315,3,6.0
4,201805,AS015739,5,7.0


### ノック : 42 大会前日の大会顧客データを作成しよう

In [9]:
from dateutil.relativedelta import relativedelta
exit_customer = customer.loc[customer['is_deleted'] == 1].copy()

exit_customer['exit_date'] = None
exit_customer['end_date'] = pd.to_datetime(exit_customer['end_date'].copy())

for i in range(len(exit_customer)):
  col_id_exit_date = exit_customer.columns.get_loc('exit_date')
  col_id_end_date = exit_customer.columns.get_loc('end_date')
  exit_customer.iloc[i, col_id_exit_date] = exit_customer.iloc[i, col_id_end_date] - relativedelta(months=1)

exit_customer['年月'] = exit_customer['exit_date'].dt.strftime('%Y%m')
uselog['年月'] = uselog['年月'].astype(str)
exit_uselog = pd.merge(uselog, exit_customer, on=['customer_id', '年月'], how='left')

In [10]:
len(uselog)

33851

In [11]:
exit_uselog.head()

Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period,exit_date
0,201805,AS002855,5,4.0,,,,,NaT,,...,,,,,,,,,,
1,201805,AS009373,4,3.0,,,,,NaT,,...,,,,,,,,,,
2,201805,AS015233,7,,,,,,NaT,,...,,,,,,,,,,
3,201805,AS015315,3,6.0,,,,,NaT,,...,,,,,,,,,,
4,201805,AS015739,5,7.0,,,,,NaT,,...,,,,,,,,,,


欠損値を除去します。

In [12]:
exit_uselog = exit_uselog.dropna(subset=['name'])
print(len(exit_uselog))
print(len(exit_uselog['customer_id'].unique()))
exit_uselog.head()

1104
1104


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period,exit_date
19,201805,AS055680,3,3.0,XXXXX,C01,M,2018-03-01,2018-06-30,CA1,...,10500.0,通常,3.0,3.0,3.0,3.0,0.0,2018-06-30,3.0,2018-05-30 00:00:00
57,201805,AS169823,2,3.0,XX,C01,M,2017-11-01,2018-06-30,CA1,...,10500.0,通常,3.0,3.0,4.0,2.0,1.0,2018-06-30,7.0,2018-05-30 00:00:00
110,201805,AS305860,5,3.0,XXXX,C01,M,2017-06-01,2018-06-30,CA1,...,10500.0,通常,3.333333,3.0,5.0,2.0,0.0,2018-06-30,12.0,2018-05-30 00:00:00
128,201805,AS363699,5,3.0,XXXXX,C01,M,2018-02-01,2018-06-30,CA1,...,10500.0,通常,3.333333,3.0,5.0,2.0,0.0,2018-06-30,4.0,2018-05-30 00:00:00
147,201805,AS417696,1,4.0,XX,C03,F,2017-09-01,2018-06-30,CA1,...,6000.0,通常,2.0,1.0,4.0,1.0,0.0,2018-06-30,9.0,2018-05-30 00:00:00


### ノック : 43 継続顧客のデータを作成しよう

In [13]:
conti_customer = customer.loc[customer['is_deleted'] == 0]
conti_uselog = pd.merge(uselog, conti_customer, on=['customer_id'], how='left')

In [14]:
conti_uselog.head()

Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,201805,AS002855,5,4.0,XXXX,C03,F,2016-11-01,,CA1,...,ナイト,6000.0,通常,4.5,5.0,7.0,2.0,1.0,2019-04-30,29.0
1,201805,AS009373,4,3.0,XX,C01,F,2015-11-01,,CA1,...,オールタイム,10500.0,通常,5.083333,5.0,7.0,3.0,1.0,2019-04-30,41.0
2,201805,AS015233,7,,XXXXX,C01,M,2018-05-13,,CA2,...,オールタイム,10500.0,入会費半額,7.545455,7.0,11.0,4.0,1.0,2019-04-30,11.0
3,201805,AS015315,3,6.0,XXXXX,C01,M,2015-07-01,,CA1,...,オールタイム,10500.0,通常,4.833333,5.0,7.0,3.0,1.0,2019-04-30,45.0
4,201805,AS015739,5,7.0,XXXXX,C03,M,2017-06-01,,CA1,...,ナイト,6000.0,通常,5.583333,5.5,8.0,4.0,1.0,2019-04-30,22.0


In [15]:
print(len(conti_uselog))

33851


欠損値を削除します。

In [16]:
conti_uselog = conti_uselog.dropna(subset=['name'])
print(len(conti_uselog))

27422


pandasのsampleメソッドで、fracオプションを使うと、任意の割合のデータをサンプリングする事が出来ます。

In [17]:
conti_uselog = conti_uselog.sample(frac=1).reset_index(drop=True)
conti_uselog = conti_uselog.drop_duplicates(subset='customer_id')
print(len(conti_uselog))
conti_uselog.head()

2842


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,class_name,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period
0,201807,OA501813,7,4.0,XXXX,C03,M,2017-03-01,,CA1,...,ナイト,6000.0,通常,5.0,5.0,7.0,3.0,1.0,2019-04-30,25.0
1,201902,HI140455,3,1.0,XXXX,C02,F,2016-01-01,,CA1,...,デイタイム,7500.0,通常,4.75,5.0,8.0,1.0,1.0,2019-04-30,39.0
2,201805,AS069821,2,5.0,XXXXXX,C03,F,2015-05-01,,CA1,...,ナイト,6000.0,通常,4.083333,3.5,7.0,2.0,1.0,2019-04-30,47.0
3,201809,HI270880,6,1.0,XX,C02,F,2015-09-01,,CA1,...,デイタイム,7500.0,通常,4.0,3.0,7.0,1.0,1.0,2019-04-30,43.0
4,201811,AS929514,5,6.0,XXXXXX,C01,M,2017-04-01,,CA1,...,オールタイム,10500.0,通常,5.5,5.0,9.0,3.0,1.0,2019-04-30,24.0


退会顧客と継続顧客のデータの結合を行います。

In [18]:
predict_data = pd.concat([conti_uselog, exit_uselog], ignore_index=True)
print(len(predict_data))
predict_data.head()

3946


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,routine_flg,calc_date,membership_period,exit_date
0,201807,OA501813,7,4.0,XXXX,C03,M,2017-03-01,,CA1,...,6000.0,通常,5.0,5.0,7.0,3.0,1.0,2019-04-30,25.0,
1,201902,HI140455,3,1.0,XXXX,C02,F,2016-01-01,,CA1,...,7500.0,通常,4.75,5.0,8.0,1.0,1.0,2019-04-30,39.0,
2,201805,AS069821,2,5.0,XXXXXX,C03,F,2015-05-01,,CA1,...,6000.0,通常,4.083333,3.5,7.0,2.0,1.0,2019-04-30,47.0,
3,201809,HI270880,6,1.0,XX,C02,F,2015-09-01,,CA1,...,7500.0,通常,4.0,3.0,7.0,1.0,1.0,2019-04-30,43.0,
4,201811,AS929514,5,6.0,XXXXXX,C01,M,2017-04-01,,CA1,...,10500.0,通常,5.5,5.0,9.0,3.0,1.0,2019-04-30,24.0,


### ノック : 44 予測する月の在籍期間を作成しよう

In [19]:
predict_data['period'] = 0
predict_data['now_date'] = pd.to_datetime(predict_data['年月'], format="%Y%m")

predict_data['start_date'] = pd.to_datetime(predict_data['start_date'])

for i in range(len(predict_data)):
  delta = relativedelta(predict_data['now_date'][i], predict_data['start_date'][i])
  predict_data.iloc[i, predict_data.columns.get_loc('period')] = int(delta.years * 12 + delta.months)

predict_data.head()

Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,mean,median,max,min,routine_flg,calc_date,membership_period,exit_date,period,now_date
0,201807,OA501813,7,4.0,XXXX,C03,M,2017-03-01,,CA1,...,5.0,5.0,7.0,3.0,1.0,2019-04-30,25.0,,16,2018-07-01
1,201902,HI140455,3,1.0,XXXX,C02,F,2016-01-01,,CA1,...,4.75,5.0,8.0,1.0,1.0,2019-04-30,39.0,,37,2019-02-01
2,201805,AS069821,2,5.0,XXXXXX,C03,F,2015-05-01,,CA1,...,4.083333,3.5,7.0,2.0,1.0,2019-04-30,47.0,,36,2018-05-01
3,201809,HI270880,6,1.0,XX,C02,F,2015-09-01,,CA1,...,4.0,3.0,7.0,1.0,1.0,2019-04-30,43.0,,36,2018-09-01
4,201811,AS929514,5,6.0,XXXXXX,C01,M,2017-04-01,,CA1,...,5.5,5.0,9.0,3.0,1.0,2019-04-30,24.0,,19,2018-11-01


### ノック : 45 欠損値を除去しよう

欠損値の確認をします

In [20]:
predict_data.isna().sum()

年月                      0
customer_id             0
count_0                 0
count_1               267
name                    0
class                   0
gender                  0
start_date              0
end_date             2842
campaign_id             0
is_deleted              0
class_name              0
price                   0
campaign_name           0
mean                    0
median                  0
max                     0
min                     0
routine_flg             0
calc_date               0
membership_period       0
exit_date            2842
period                  0
now_date                0
dtype: int64

これを見ると、count_1とend_date、exit_dateに欠損値が存在していることがわかります。end_dateとexit_dateは退会顧客しか値を持っていません。count_1に欠損値を持っているデータだけを削除します。

In [21]:
predict_data = predict_data.dropna(subset=['count_1'])
predict_data.isna().sum()

年月                      0
customer_id             0
count_0                 0
count_1                 0
name                    0
class                   0
gender                  0
start_date              0
end_date             2627
campaign_id             0
is_deleted              0
class_name              0
price                   0
campaign_name           0
mean                    0
median                  0
max                     0
min                     0
routine_flg             0
calc_date               0
membership_period       0
exit_date            2627
period                  0
now_date                0
dtype: int64

### ノック : 46 文字列型の変数を処理できるように整形しよう

In [22]:
target_col = ['campaign_name', 'class_name', 'gender', 'count_1', 'routine_flg', 'period', 'is_deleted']
predict_data = predict_data[target_col]
predict_data.head()

Unnamed: 0,campaign_name,class_name,gender,count_1,routine_flg,period,is_deleted
0,通常,ナイト,M,4.0,1.0,16,0.0
1,通常,デイタイム,F,1.0,1.0,37,0.0
2,通常,ナイト,F,5.0,1.0,36,0.0
3,通常,デイタイム,F,1.0,1.0,36,0.0
4,通常,オールタイム,M,6.0,1.0,19,0.0


カテゴリカル変数を利用して、ダミー変数を作成します。get_dummyメソッドは文字列データを読み取って、それをダミー変数化してくれます。データ分析の現場ではしばしば利用されるとても便利な関数です。

In [23]:
predict_data = pd.get_dummies(predict_data)
predict_data.head()

Unnamed: 0,count_1,routine_flg,period,is_deleted,campaign_name_入会費半額,campaign_name_入会費無料,campaign_name_通常,class_name_オールタイム,class_name_デイタイム,class_name_ナイト,gender_F,gender_M
0,4.0,1.0,16,0.0,0,0,1,0,0,1,0,1
1,1.0,1.0,37,0.0,0,0,1,0,1,0,1,0
2,5.0,1.0,36,0.0,0,0,1,0,0,1,1,0
3,1.0,1.0,36,0.0,0,0,1,0,1,0,1,0
4,6.0,1.0,19,0.0,0,0,1,1,0,0,0,1


In [24]:
predict_data.columns

Index(['count_1', 'routine_flg', 'period', 'is_deleted', 'campaign_name_入会費半額',
       'campaign_name_入会費無料', 'campaign_name_通常', 'class_name_オールタイム',
       'class_name_デイタイム', 'class_name_ナイト', 'gender_F', 'gender_M'],
      dtype='object')

文字列をデータとして持つカラムだけダミー変数化されています。

本書では、わざわざ明示的に示されてなくてもわかるデータ（gender_Fの0か1がわかれば、gender_Mがわかるので、gender_Mは必要ない）を削除しています。
個人的にはあっても問題ないと思いますが、本書に従って削除します。

In [25]:
del predict_data['campaign_name_通常']
del predict_data['class_name_ナイト']
del predict_data['gender_M']

predict_data.head()

Unnamed: 0,count_1,routine_flg,period,is_deleted,campaign_name_入会費半額,campaign_name_入会費無料,class_name_オールタイム,class_name_デイタイム,gender_F
0,4.0,1.0,16,0.0,0,0,0,0,0
1,1.0,1.0,37,0.0,0,0,0,1,1
2,5.0,1.0,36,0.0,0,0,0,0,1
3,1.0,1.0,36,0.0,0,0,0,1,1
4,6.0,1.0,19,0.0,0,0,1,0,0


### ノック : 47 決定木を用いて大会予測モデルを作成してみよう

実際に決定木のアルゴリズムを実行してみます。

In [26]:
from sklearn.tree import DecisionTreeClassifier
import sklearn.model_selection

exit = predict_data.loc[predict_data['is_deleted'] == 1]

# 退会人数と同じ数だけサンプリング
conti = predict_data.loc[predict_data['is_deleted'] == 0].sample(len(exit))

X = pd.concat([exit, conti], ignore_index=True)
y = X['is_deleted']

# ターゲット変数を削除
del X['is_deleted']

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X,y)

model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)

# 予測値
y_test_pred = model.predict(X_test)

print(y_test_pred)

[1. 0. 1. 1. 0. 0. 1. 1. 1. 0. 1. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0. 1. 1. 1.
 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0. 0. 1. 0. 1. 0. 1. 1. 1. 0. 1. 0. 1.
 0. 1. 1. 0. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1.
 1. 0. 1. 1. 1. 1. 1. 1. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0.
 0. 1. 0. 1. 0. 1. 0. 1. 0. 1. 1. 0. 1. 0. 0. 1. 1. 0. 1. 0. 1. 1. 1. 1.
 0. 1. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 1. 0. 0. 1.
 1. 0. 0. 0. 1. 1. 1. 0. 1. 0. 1. 1. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.
 1. 0. 0. 1. 1. 0. 1. 1. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 0. 1.
 0. 0. 0. 1. 0. 0. 1. 1. 1. 1. 1. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0.
 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 1. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0.
 1. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 1. 0. 0. 0. 1. 1. 1. 1. 0. 0. 1. 1. 1.
 0. 0. 1. 0. 0. 1. 0. 1. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 1. 0. 1. 1.
 1. 1. 1. 1. 0. 0. 1. 0. 1. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0.
 1. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 1. 0. 0.

正解データと予測されたデータの比較を行います。

In [27]:
results_test = pd.DataFrame({
  'y_test': y_test,
  'y_pred': y_test_pred,
})
results_test.head()

Unnamed: 0,y_test,y_pred
233,1.0,1.0
1443,0.0,0.0
297,1.0,1.0
944,1.0,1.0
1579,0.0,0.0


### ノック : 48 予測モデルの評価を行い、モデルのチューニングをしてみよう

予測データと実際のデータが一致する割合を計算します。

In [28]:
correct = len(results_test.loc[results_test['y_test'] == results_test['y_pred']])

data_count = len(results_test)

score_test = correct / data_count
print(score_test)

0.8859315589353612


In [29]:
model.score(X_test, y_test)

0.8859315589353612

In [30]:
model.score(X_train, y_train)

0.976552598225602

学習用データを用いた場合が98％の一致率で、テスト用データの場合は89％となっています。学習用データに過剰適合（過学習）しています。過学習を防ぐためによく利用される深さの最大値を5に設定します。

In [31]:
X = pd.concat([exit, conti], ignore_index=True)
y = X['is_deleted']

# ターゲット変数を削除
del X['is_deleted']

X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X,y)

model = DecisionTreeClassifier(random_state=0, max_depth=5)
model.fit(X_train, y_train)

print(model.score(X_test, y_test))
print(model.score(X_train, y_train))

0.9201520912547528
0.9226869455006337


モデルを作る際に考慮されていないテスト用データに対しても、同じ一致率を得ることが出来ました。

### ノック : 49 モデルに寄与している変数を確認しよう

決定木を利用している場合はfeature_importances_で変数の寄与度を得ることが出来ます。

In [32]:
importance = pd.DataFrame({
  'feature_names': X.columns,
  'coefficient': model.feature_importances_
})
print(importance)

         feature_names  coefficient
0              count_1     0.344085
1          routine_flg     0.131421
2               period     0.523109
3  campaign_name_入会費半額     0.000000
4  campaign_name_入会費無料     0.001385
5    class_name_オールタイム     0.000000
6     class_name_デイタイム     0.000000
7             gender_F     0.000000


1ヶ月前の利用回数、定期利用、利用期間のそれぞれの寄与度が高いことがわかります。

### ノック : 50 顧客の退会を予測しよう

実際に未知のデータに対して予測してみます。予測したい適当なデータを作ります。

In [33]:
count_1 = 3
routing_flg = 1
period = 10
campaign_name = '入会費無料'
class_name = 'オールタイム'
gender = 'M'

カテゴリカル変数を利用しているので、与えられた変数をカテゴライズ化します。

In [34]:
if campaign_name == '入会費半額':
  campaign_name_list = [1,0]
elif campaign_name == '入会費無料':
  campaign_name_list = [0,1]
elif campaign_name == '通常':
  campaign_name_list = [0,0]

In [35]:
if class_name == 'オールタイム':
  class_name_list = [1,0]
elif class_name == 'デイタイム':
  class_name_list = [0,1]
elif class_name == 'ナイト':
  class_name_list = [0,0]

In [36]:
if gender == 'F':
  gender_list = [1]
elif gender == 'M':
  gender_list = [0]

In [37]:
input_data = [count_1, routing_flg, period]
input_data.extend(campaign_name_list)
input_data.extend(class_name_list)
input_data.extend(gender_list)

input_data

[3, 1, 10, 0, 1, 1, 0, 0]

In [38]:
print(model.predict([input_data]))
print(model.predict_proba([input_data]))

[1.]
[[0.02484472 0.97515528]]


今回の決めたデータでは1で退会が予想されています。その確率も96％でかなり高い確率です。

## 関連記事
- [第1章 ウェブからの注文数を分析する10本ノック](/ml/data100/01/)
- [第2章 小売店のデータでデータ加工を行う10本ノック](/ml/data100/02/)
- [第3章 顧客の全体像を把握する10本ノック](/ml/data100/03/)
- [第4章 顧客の行動を予測する10本ノック](/ml/data100/04/)
- [第5章 顧客の退会を予測する10本ノック](/ml/data100/05/)
- [第6章 物流の最適ルートをコンサルティングする10本ノック](/ml/data100/06/)
- [第7章 ロジスティクスネットワークの最適設計を行う10本ノック](/ml/data100/07/)
- [第8章 数値シミュレーションで消費者行動を予測する10本ノック](/ml/data100/08/)
- [第9章 潜在顧客を把握するための画像認識10本ノック](/ml/data100/09/)
- [第10章 アンケート分析を行うための自然言語処理10本ノック](/ml/data100/10/)