行動パターンを分析できるということは退会の時期もある程度予測でき、退会を避けるための施策を前もって講じることができる。

本章では**決定木**を使用し、原因の分析を行っていく。

## ノック41：データを読み込んで利用データを整形しよう

In [3]:
import pandas as pd
customer = pd.read_csv('customer_join.csv')
uselog_months = pd.read_csv('uselog_months.csv')

当月と1ヶ月前までの利用履歴のみのデータを作成していく。理由としては、過去6か月分のデータから予測する場合、5ヶ月以内に退会する予測が立てられないため。

In [5]:
year_months = list(uselog_months['年月'].unique())
uselog = pd.DataFrame()
for i in range(1,len(year_months)):
    tmp = uselog_months.loc[uselog_months['年月']==year_months[i]]
    tmp.rename(columns={'count':'count_0'},inplace=True)
    tmp_before = uselog_months.loc[uselog_months['年月']==year_months[i-1]]
    del tmp_before['年月']
    tmp_before.rename(columns={'count':'count_1'},inplace=True)
    tmp = pd.merge(tmp,tmp_before,on='customer_id',how='left')
    uselog = pd.concat([uselog,tmp],ignore_index=True)
uselog.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  return super(DataFrame, self).rename(**kwargs)


Unnamed: 0,年月,customer_id,count_0,count_1
0,201805,AS002855,5,4.0
1,201805,AS009373,4,3.0
2,201805,AS015233,7,
3,201805,AS015315,3,6.0
4,201805,AS015739,5,7.0


## ノック42：退会前月の退会顧客データを作成しょう
このジムでは月末までに退会申請を提出することで、翌月末で退会できる。例えば、2018年9月30日で退会したとする、その場合8月には退会申請を提出しており、9月のデータを用いても未然に防ぐことはできない。そのため退会月を2018年8月として、その1ヶ月前の7月のデータから8月に退会申請を提出する確率を予測する。

まずは退会した顧客を絞り込む。

In [9]:
from dateutil.relativedelta import relativedelta

exit_customer = customer.loc[customer['is_deleted']==1]
exit_customer['exit_date'] = None
exit_customer['end_date'] = pd.to_datetime(exit_customer['end_date'])

for i in range(len(exit_customer)):
    exit_customer['exit_date'].iloc[i] = exit_customer['end_date'].iloc[i] - relativedelta(months=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [13]:
uselog['年月'] = uselog['年月'].astype(str)
exit_uselog = pd.merge(uselog,exit_customer,on=['customer_id','年月'],how='left')
print(len(uselog))
exit_uselog.head()

33851


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,campaign_name,mean,median,max,min,count,routine_flg,calc_date,membership_period,exit_date
0,201805,AS002855,5,4.0,,,,,NaT,,...,,,,,,,,,,
1,201805,AS009373,4,3.0,,,,,NaT,,...,,,,,,,,,,
2,201805,AS015233,7,,,,,,NaT,,...,,,,,,,,,,
3,201805,AS015315,3,6.0,,,,,NaT,,...,,,,,,,,,,
4,201805,AS015739,5,7.0,,,,,NaT,,...,,,,,,,,,,


結合データは退会した顧客の退会前月のデータのみなので欠損値が多い。欠損値を除去していく

In [15]:
exit_uselog = exit_uselog.dropna(subset=['name'])
print(len(exit_uselog))
print(len(exit_uselog['customer_id'].unique()))
exit_uselog.head()

977
977


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,campaign_name,mean,median,max,min,count,routine_flg,calc_date,membership_period,exit_date
5,201805,AS015746,1,4.0,XXXXX,C01,M,2017-12-01,2018-08-31,CA3,...,入会費無料,2.6,3.0,4.0,1.0,2.0,0.0,2018-08-31,8.0,2018-07-31 00:00:00
10,201805,AS030404,1,1.0,XXXX,C01,M,2017-05-01,2018-05-31,CA1,...,通常,1.0,1.0,1.0,1.0,1.0,0.0,2018-05-31,12.0,2018-04-30 00:00:00
17,201805,AS047907,4,3.0,XXX,C01,M,2016-10-01,2018-08-31,CA1,...,通常,4.0,4.0,5.0,3.0,4.0,1.0,2018-08-31,22.0,2018-07-31 00:00:00
19,201805,AS055680,3,3.0,XXXXX,C01,M,2018-03-01,2018-06-30,CA1,...,通常,3.0,3.0,3.0,3.0,2.0,0.0,2018-06-30,3.0,2018-05-30 00:00:00
24,201805,AS067995,9,,XXXX,C03,M,2018-05-06,2018-08-31,CA2,...,入会費半額,5.25,5.0,9.0,2.0,4.0,1.0,2018-08-31,3.0,2018-07-31 00:00:00


## ノック43：継続顧客のデータを作成しよう
継続顧客は退会前月がないので、どの年月のデータを作成してもよい。

In [17]:
conti_customer = customer.loc[customer['is_deleted']==0]
conti_uselog = pd.merge(uselog,conti_customer,on=['customer_id'],how='left')
print(len(conti_uselog))
conti_uselog = conti_uselog.dropna(subset=['name'])
print(len(conti_uselog))

33851
27422


継続顧客はどのデータを活用してもよいが、退会データが977件、と継続顧客のデータが27422件のためこのままいくと不均衡なデータとなる。そこで、継続顧客のデータも1人1件になるようにアンダーサンプリングする。

In [18]:
# 1行目でデータのシャッフル、2行目でcustomer_idの重複しているデータは最初のデータのみ取得
conti_uselog = conti_uselog.sample(frac=1).reset_index(drop=True)
conti_uselog = conti_uselog.drop_duplicates(subset='customer_id')
print(len(conti_uselog))
conti_uselog.head()

2842


Unnamed: 0,年月,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,count,routine_flg,calc_date,membership_period
0,201812,PL902037,4,8.0,XXXX,C02,F,2017-05-01,,CA1,...,7500.0,通常,6.0,6.0,8.0,4.0,5.0,1.0,2019-04-30,23.0
1,201810,HD030810,4,7.0,XX,C03,M,2016-06-01,,CA1,...,6000.0,通常,4.25,4.0,7.0,2.0,4.0,1.0,2019-04-30,34.0
2,201812,PL085479,6,5.0,XXXXX,C01,M,2016-08-01,,CA1,...,10500.0,通常,5.0,5.0,7.0,3.0,5.0,1.0,2019-04-30,32.0
3,201811,PL617565,5,6.0,XXXX,C01,M,2016-11-01,,CA1,...,10500.0,通常,5.0,5.0,8.0,3.0,5.0,1.0,2019-04-30,29.0
4,201805,IK323455,3,3.0,XXX,C03,M,2016-12-01,,CA1,...,6000.0,通常,4.166667,4.0,7.0,2.0,5.0,1.0,2019-04-30,28.0


In [19]:
predict_data = pd.concat([conti_uselog,exit_uselog],ignore_index=True)
print(len(predict_data))
predict_data.head()

3819


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,calc_date,campaign_id,campaign_name,class,class_name,count,count_0,count_1,customer_id,end_date,...,max,mean,median,membership_period,min,name,price,routine_flg,start_date,年月
0,2019-04-30,CA1,通常,C02,デイタイム,5.0,4,8.0,PL902037,,...,8.0,6.0,6.0,23.0,4.0,XXXX,7500.0,1.0,2017-05-01,201812
1,2019-04-30,CA1,通常,C03,ナイト,4.0,4,7.0,HD030810,,...,7.0,4.25,4.0,34.0,2.0,XX,6000.0,1.0,2016-06-01,201810
2,2019-04-30,CA1,通常,C01,オールタイム,5.0,6,5.0,PL085479,,...,7.0,5.0,5.0,32.0,3.0,XXXXX,10500.0,1.0,2016-08-01,201812
3,2019-04-30,CA1,通常,C01,オールタイム,5.0,5,6.0,PL617565,,...,8.0,5.0,5.0,29.0,3.0,XXXX,10500.0,1.0,2016-11-01,201811
4,2019-04-30,CA1,通常,C03,ナイト,5.0,3,3.0,IK323455,,...,7.0,4.166667,4.0,28.0,2.0,XXX,6000.0,1.0,2016-12-01,201805
