# 5강 : "회원이 왜 탈퇴했는지 알거나, 예측할 수 있을까요?" 

### ML | 지도학습 & 분류 알고리즘 (의사결정트리 Decision Tree)

In [895]:
# 경고(warning) 비표시
import warnings
warnings.filterwarnings('ignore')

# 1. 데이터 읽기

In [896]:
import pandas as pd

customer = pd.read_csv("total_data.csv")
uselog_months = pd.read_csv("use_log_months.csv")

In [897]:
customer.head()

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,5.083333,5.0,7,3,1,2019-04-30,47
2,OA974876,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.583333,5.0,6,3,1,2019-04-30,47
3,HD024127,XXXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,4.5,7,2,1,2019-04-30,47
4,HD661448,XXXXX,C03,F,2015-05-01,,CA1,0,2_야간,6000,2_일반,3.916667,4.0,6,1,1,2019-04-30,47


In [898]:
uselog_months.head()

Unnamed: 0,연월,customer_id,count
0,201804,AS002855,4
1,201804,AS009013,2
2,201804,AS009373,3
3,201804,AS015315,6
4,201804,AS015739,7


# 2. 데이터 전처리 

# 2.1 이용데이터 (현재기준 지난달 데이터 반복문으로 추출)

In [899]:
print(uselog_months["연월"].min())
print(uselog_months["연월"].max())

201804
201903


In [900]:
# 참고로 5~6개월 다니고 그 안에 관두는 회원들이 꽤 많기에... 1달이상 다닌 사람들로 기준을 잡는다. 
# 기준이 되는달과, 기준이 되는달의 지난달 (1개월전)의 이용횟수가 들어있는 데이터 준비 
# 
#   |-------------------------------------|
#   | 현재연월 ||  회원  |  기준연월  |  1달전   |
#   |--------------------------------------|
#   | 201805 ||  ...  | 201805값 | 201804값 | 
#   | 201806 ||  ...  | 201806값 | 201805값 | 
#   | 201807 ||  ...  | 201807값 | 201806값 | 
#   | 201808 ||  ...  | 201808값 | 201807값 | 
#   |  ...   ||  ...  |   ...    |   ...   | 
#   |--------------------------------------|
#
#   <---범위--->
#    year_months
#
# 기준이 되는 현재연월의 범위 지정해주기 
year_months = list(uselog_months["연월"].unique())
year_months

[201804,
 201805,
 201806,
 201807,
 201808,
 201809,
 201810,
 201811,
 201812,
 201901,
 201902,
 201903]

In [901]:
#   |--------------------------------------|
#   |   연월  ||  회원  |  count_0 | count_1 |
#   |--------------------------------------|
#   |        ||       |          |         | 
#   |        ||       |          |         | 
#   |        ||       |          |         | 
#   |        ||       |          |         | 
#   |        ||       |          |         | 
#   |--------------------------------------|
#
# 
# 빈 데이터프레임값 만들어주기 
uselog = pd.DataFrame()

In [902]:
# 'year_months' 리스트의 두 번째 요소부터 마지막 요소까지 순회
for i in range(1, len(year_months)): 
    
    # 현재 반복중인 '연월'에 해당하는 데이터를 한개씩 추출하여 'tmp'에 저장합니다.       
    tmp = uselog_months.loc[uselog_months["연월"] == year_months[i]]      
     
    # 'count' 열의 이름을 'count_0'으로 변경하여 중복을 방지합니다.               
    tmp.rename(columns={"count": "count_0"}, inplace=True)
    
    # 현재 '연월'의 이전 달에 해당하는 데이터를 추출하여 'tmp_before'에 저장합니다.      
    tmp_before = uselog_months.loc[uselog_months["연월"] == year_months[i - 1]]

    # '연월' 열은 병합 시 필요하지 않으므로 삭제합니다.
    del tmp_before["연월"]

    # 'count' 열의 이름을 'count_1'으로 변경하여 중복을 방지합니다.               
    tmp_before.rename(columns={"count": "count_1"}, inplace=True)
    
    # 'customer_id'를 기준으로 현재 달과 이전 달의 데이터를 병합합니다.             
    tmp = pd.merge(tmp, tmp_before, on="customer_id", how="left") 

    # 병합된 데이터를 'uselog' 데이터프레임에 추가합니다.
    uselog = pd.concat([uselog, tmp], ignore_index=True)

# 최종적으로 'uselog' 데이터프레임의 상위 5개 행을 출력합니다.
uselog.head()

Unnamed: 0,연월,customer_id,count_0,count_1
0,201805,AS002855,5,4.0
1,201805,AS009373,4,3.0
2,201805,AS015233,7,
3,201805,AS015315,3,6.0
4,201805,AS015739,5,7.0


# 2.2 고객데이터 (탈퇴한 회원) 

In [903]:
# 탈퇴자 데이터 = is_deleted가 1 만 추출 
exit_customer = customer.loc[customer["is_deleted"]==1]

In [904]:
# 고객 탈퇴완료일 확인 
print(customer["end_date"].unique()) 

# end_date는 탈퇴처리된 날입니다. 
# 다음달에 end_date 탈퇴처리가 될지 안될지 예측하기위해선, 이번달에 탈퇴신청할지 기록되어 있는 컬럼을 만들어야합니다. 

[nan '2018-04-30' '2018-05-31' '2018-06-30' '2018-07-31' '2018-08-31'
 '2018-09-30' '2018-11-30' '2018-12-31' '2019-01-31' '2018-10-31'
 '2019-02-28' '2019-03-31']


In [905]:
# 탈퇴자 데이터에 "탈퇴일" 컬럼 만들고 일단 초기값으로 None 셋팅 
exit_customer["exit_date"] = None

# 탈퇴자 데이터의 "탈퇴일" 컬럼 = 종료일 컬럼값 그대로 복사 
exit_customer["end_date"] = pd.to_datetime(exit_customer["end_date"])

In [906]:
# 날짜계산 함수 불러오기 
from dateutil.relativedelta import relativedelta

# 탈퇴자 한 명 한명 씩 추출 
for i in range(len(exit_customer)):

    # 각 탈퇴자의 종료일에서 한 달 치를 뺀 뒤, 탈퇴일 컬럼에 다시 집어넣는다. 
    exit_customer["exit_date"].iloc[i] = exit_customer["end_date"].iloc[i] - relativedelta(months=1)
    
# 탈퇴일을 YYYYMM 형식의 문자열로 변환하여 저장 
exit_customer["연월"] = pd.to_datetime(exit_customer["exit_date"]).dt.strftime("%Y%m")

exit_customer.head()

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date,연월
708,TS511179,XXXXXX,C01,F,2016-05-01,2018-04-30,CA1,1,0_종일,10500,2_일반,3.0,3.0,3,3,0,2018-04-30,23,2018-03-30 00:00:00,201803
729,TS443736,XXXX,C02,M,2016-05-01,2018-04-30,CA1,1,1_주간,7500,2_일반,3.0,3.0,3,3,0,2018-04-30,23,2018-03-30 00:00:00,201803
730,HD542886,XX,C01,M,2016-05-01,2018-04-30,CA1,1,0_종일,10500,2_일반,1.0,1.0,1,1,0,2018-04-30,23,2018-03-30 00:00:00,201803
770,HD597545,XXXXX,C03,F,2016-06-01,2018-05-31,CA1,1,2_야간,6000,2_일반,3.5,3.5,4,3,1,2018-05-31,23,2018-04-30 00:00:00,201804
785,HI749296,XXXXX,C01,M,2016-06-01,2018-05-31,CA1,1,0_종일,10500,2_일반,3.0,3.0,3,3,0,2018-05-31,23,2018-04-30 00:00:00,201804


In [907]:
# 기존 데이터 "연월"을 문자형으로 바꿈 
uselog["연월"] = uselog["연월"].astype(str)

# 기존데이터와 탈퇴자 데이터를 병합 
exit_uselog = pd.merge(uselog, exit_customer, on=["customer_id", "연월"], how="left")

exit_uselog.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date
0,201805,AS002855,5,4.0,,,,,NaT,,...,,,,,,,,,,
1,201805,AS009373,4,3.0,,,,,NaT,,...,,,,,,,,,,
2,201805,AS015233,7,,,,,,NaT,,...,,,,,,,,,,
3,201805,AS015315,3,6.0,,,,,NaT,,...,,,,,,,,,,
4,201805,AS015739,5,7.0,,,,,NaT,,...,,,,,,,,,,


In [908]:
len(exit_uselog)

33851

In [909]:
# 결측치 제거 
exit_uselog = exit_uselog.dropna(subset=["name"])
len(exit_uselog)

1104

In [910]:
# 회원수와 일치하는지 
len(exit_uselog["customer_id"].unique())

1104

In [911]:
exit_uselog.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date
19,201805,AS055680,3,3.0,XXXXX,C01,M,2018-03-01,2018-06-30,CA1,...,10500.0,2_일반,3.0,3.0,3.0,3.0,0.0,2018-06-30,3.0,2018-05-30 00:00:00
57,201805,AS169823,2,3.0,XX,C01,M,2017-11-01,2018-06-30,CA1,...,10500.0,2_일반,3.0,3.0,4.0,2.0,1.0,2018-06-30,7.0,2018-05-30 00:00:00
110,201805,AS305860,5,3.0,XXXX,C01,M,2017-06-01,2018-06-30,CA1,...,10500.0,2_일반,3.333333,3.0,5.0,2.0,0.0,2018-06-30,12.0,2018-05-30 00:00:00
128,201805,AS363699,5,3.0,XXXXX,C01,M,2018-02-01,2018-06-30,CA1,...,10500.0,2_일반,3.333333,3.0,5.0,2.0,0.0,2018-06-30,4.0,2018-05-30 00:00:00
147,201805,AS417696,1,4.0,XX,C03,F,2017-09-01,2018-06-30,CA1,...,6000.0,2_일반,2.0,1.0,4.0,1.0,0.0,2018-06-30,9.0,2018-05-30 00:00:00


# 2.4 고객데이터 (이용중인 회원)

In [912]:
customer.loc[customer["is_deleted"]==0]    # 을 별도로 저장 

conti_customer = customer.loc[customer["is_deleted"]==0] 
conti_customer.head()

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period
0,OA832399,XXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,5.0,8,2,1,2019-04-30,47
1,PL270116,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,5.083333,5.0,7,3,1,2019-04-30,47
2,OA974876,XXXXX,C01,M,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.583333,5.0,6,3,1,2019-04-30,47
3,HD024127,XXXXX,C01,F,2015-05-01,,CA1,0,0_종일,10500,2_일반,4.833333,4.5,7,2,1,2019-04-30,47
4,HD661448,XXXXX,C03,F,2015-05-01,,CA1,0,2_야간,6000,2_일반,3.916667,4.0,6,1,1,2019-04-30,47


In [913]:
uselog.head()             

Unnamed: 0,연월,customer_id,count_0,count_1
0,201805,AS002855,5,4.0
1,201805,AS009373,4,3.0
2,201805,AS015233,7,
3,201805,AS015315,3,6.0
4,201805,AS015739,5,7.0


In [914]:
# 이용중인 회원 데이터(탈퇴자 제외)와 이용데이터를 합칩니다. == 아직 탈퇴하지 않은 회원들의 이용데이터 
pd.merge(uselog, conti_customer, on=["customer_id"], how="left") 

# 을 저장합니다. 
conti_uselog = pd.merge(uselog, conti_customer, on=["customer_id"], how="left")
conti_uselog.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,class_name,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period
0,201805,AS002855,5,4.0,XXXX,C03,F,2016-11-01,,CA1,...,2_야간,6000.0,2_일반,4.5,5.0,7.0,2.0,1.0,2019-04-30,29.0
1,201805,AS009373,4,3.0,XX,C01,F,2015-11-01,,CA1,...,0_종일,10500.0,2_일반,5.083333,5.0,7.0,3.0,1.0,2019-04-30,41.0
2,201805,AS015233,7,,XXXXX,C01,M,2018-05-13,,CA2,...,0_종일,10500.0,0_입회비반액할인,7.545455,7.0,11.0,4.0,1.0,2019-04-30,11.0
3,201805,AS015315,3,6.0,XXXXX,C01,M,2015-07-01,,CA1,...,0_종일,10500.0,2_일반,4.833333,5.0,7.0,3.0,1.0,2019-04-30,45.0
4,201805,AS015739,5,7.0,XXXXX,C03,M,2017-06-01,,CA1,...,2_야간,6000.0,2_일반,5.583333,5.5,8.0,4.0,1.0,2019-04-30,22.0


In [915]:
conti_uselog.isnull().sum()

연월                       0
customer_id              0
count_0                  0
count_1               1201
name                  6429
class                 6429
gender                6429
start_date            6429
end_date             33851
campaign_id           6429
is_deleted            6429
class_name            6429
price                 6429
campaign_name         6429
mean                  6429
median                6429
max                   6429
min                   6429
almost_visit          6429
end_date_calc         6429
membership_period     6429
dtype: int64

In [916]:
print(len(conti_uselog))
conti_uselog = conti_uselog.dropna(subset=["name"])
print(len(conti_uselog))

33851
27422


In [917]:
conti_uselog.isnull().sum()

연월                       0
customer_id              0
count_0                  0
count_1                688
name                     0
class                    0
gender                   0
start_date               0
end_date             27422
campaign_id              0
is_deleted               0
class_name               0
price                    0
campaign_name            0
mean                     0
median                   0
max                      0
min                      0
almost_visit             0
end_date_calc            0
membership_period        0
dtype: int64

In [918]:
print(len(conti_uselog))   # 이용중인 회원 수 27422 명 
print(len(exit_uselog))    # 탈퇴한 회원 수  1104 명 

27422
1104


In [919]:
# 이용중인 회원수와 탈퇴한 회원수 차이가 너무 납니다. 
# 이용중인 회원수 다시 무작위로 섞습니다. (frac=1 은 100% 전체 섞기)
conti_uselog = conti_uselog.sample(frac=1).reset_index(drop=True)

# 이용중인 회원에 대해서 중복되는 값 모두 제거해서 규모 축소하기 
conti_uselog = conti_uselog.drop_duplicates(subset="customer_id")

print(len(conti_uselog))
conti_uselog.head()

2842


Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,class_name,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period
0,201806,IK142972,9,8.0,XXXXX,C01,F,2017-12-01,,CA3,...,0_종일,10500.0,1_입회비무료,7.166667,8.0,9.0,4.0,1.0,2019-04-30,16.0
1,201903,AS385315,7,6.0,XX,C02,F,2018-01-01,,CA1,...,1_주간,7500.0,2_일반,7.166667,7.0,9.0,6.0,1.0,2019-04-30,15.0
2,201809,OA694533,7,6.0,XXXX,C02,F,2018-04-08,,CA3,...,1_주간,7500.0,1_입회비무료,8.166667,8.0,10.0,6.0,1.0,2019-04-30,12.0
3,201902,AS712913,7,4.0,XXXX,C01,M,2015-09-01,,CA1,...,0_종일,10500.0,2_일반,5.0,5.0,7.0,2.0,1.0,2019-04-30,43.0
4,201806,TS554037,4,6.0,XXXXXX,C03,F,2015-07-01,,CA1,...,2_야간,6000.0,2_일반,4.833333,5.0,7.0,2.0,1.0,2019-04-30,45.0


In [920]:
print(len(exit_uselog))    # 탈퇴한 회원 수  
print(len(conti_uselog))   # 이용중인 회원 수 
# 두 개의 데이터 갯수를 맞춥니다. 
# is_deleted가 0인 기존 유지자 데이터는 2842개이지만, 탈퇴자들 1104개 맞춰 임의로 추출하여 1:1 로 갯수 맞춥니다. 
exit_uselog = exit_uselog.loc[exit_uselog["is_deleted"]==1]
conti_uselog = conti_uselog.loc[conti_uselog["is_deleted"]==0].sample(len(exit_uselog))

1104
2842


In [921]:
print(len(exit_uselog))    # 탈퇴한 회원 수  
print(len(conti_uselog))   # 이용중인 회원 수 

1104
1104


# 2.5 지속&탈퇴 회원들 합치기 

In [922]:
# 이용중인 회원들 목록과 탈퇴한 회원들 목록을 세로로 합칩니다. 
predict_data = pd.concat([conti_uselog, exit_uselog], ignore_index= True)

len(predict_data)

2208

In [923]:
predict_data.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date
0,201902,HI770056,7,,XXXX,C01,M,2019-02-13,NaT,CA1,...,10500.0,2_일반,8.5,8.5,10.0,7.0,1.0,2019-04-30,2.0,
1,201807,TS364512,8,6.0,XXXX,C03,M,2015-09-01,NaT,CA1,...,6000.0,2_일반,5.25,5.0,8.0,2.0,1.0,2019-04-30,43.0,
2,201811,PL397039,8,7.0,XXX,C01,M,2018-09-07,NaT,CA1,...,10500.0,2_일반,7.428571,8.0,10.0,4.0,1.0,2019-04-30,7.0,
3,201812,OA261861,5,4.0,XXXX,C02,M,2015-06-01,NaT,CA1,...,7500.0,2_일반,5.416667,5.5,8.0,1.0,1.0,2019-04-30,46.0,
4,201806,PL407755,2,4.0,XXXXXX,C03,M,2016-04-01,NaT,CA1,...,6000.0,2_일반,3.916667,4.0,6.0,1.0,1.0,2019-04-30,36.0,


In [924]:
predict_data.columns

Index(['연월', 'customer_id', 'count_0', 'count_1', 'name', 'class', 'gender',
       'start_date', 'end_date', 'campaign_id', 'is_deleted', 'class_name',
       'price', 'campaign_name', 'mean', 'median', 'max', 'min',
       'almost_visit', 'end_date_calc', 'membership_period', 'exit_date'],
      dtype='object')

# 2.6 이용기간 변수 추가 

In [925]:
predict_data.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,price,campaign_name,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date
0,201902,HI770056,7,,XXXX,C01,M,2019-02-13,NaT,CA1,...,10500.0,2_일반,8.5,8.5,10.0,7.0,1.0,2019-04-30,2.0,
1,201807,TS364512,8,6.0,XXXX,C03,M,2015-09-01,NaT,CA1,...,6000.0,2_일반,5.25,5.0,8.0,2.0,1.0,2019-04-30,43.0,
2,201811,PL397039,8,7.0,XXX,C01,M,2018-09-07,NaT,CA1,...,10500.0,2_일반,7.428571,8.0,10.0,4.0,1.0,2019-04-30,7.0,
3,201812,OA261861,5,4.0,XXXX,C02,M,2015-06-01,NaT,CA1,...,7500.0,2_일반,5.416667,5.5,8.0,1.0,1.0,2019-04-30,46.0,
4,201806,PL407755,2,4.0,XXXXXX,C03,M,2016-04-01,NaT,CA1,...,6000.0,2_일반,3.916667,4.0,6.0,1.0,1.0,2019-04-30,36.0,


In [926]:
# 이용기간 컬럼 = 현재시간으로 기준이 되는 "연월" 날짜형 - 가입일을 나타내는 start_date 날짜형의 차이 
# 날짜간의 사이를 구하는 함수 relativedelta (A, B)

# 이용기간 컬럼 생성 후 일단 0값으로 초기화 (조건문으로 하나씩 채워줄 예정)
predict_data["period"] = 0

# yyyymm 문자형으로 되어있는 "연월"컬럼을 "yyyy-mm-dd" 형태로 컬럼 만들기
predict_data["now_date"] = pd.to_datetime(predict_data["연월"], format="%Y%m")

# 날짜간의 사이를 구하는 함수로 하나씩 채워줘야 하니깐, start_date 컬럼을 날짜형으로 변환 
predict_data["start_date"] = pd.to_datetime(predict_data["start_date"])

# 이제 조건문으로 하나의 row씩 꺼내서 차이를 구한 뒤, predict_data의 period 컬럼에 넣어주자. 

for i in range(len(predict_data)):
    delta = relativedelta(predict_data["now_date"][i], predict_data["start_date"][i])
    predict_data["period"][i] = int(delta.years*12 + delta.months)
    
predict_data.head()

Unnamed: 0,연월,customer_id,count_0,count_1,name,class,gender,start_date,end_date,campaign_id,...,mean,median,max,min,almost_visit,end_date_calc,membership_period,exit_date,period,now_date
0,201902,HI770056,7,,XXXX,C01,M,2019-02-13,NaT,CA1,...,8.5,8.5,10.0,7.0,1.0,2019-04-30,2.0,,0,2019-02-01
1,201807,TS364512,8,6.0,XXXX,C03,M,2015-09-01,NaT,CA1,...,5.25,5.0,8.0,2.0,1.0,2019-04-30,43.0,,34,2018-07-01
2,201811,PL397039,8,7.0,XXX,C01,M,2018-09-07,NaT,CA1,...,7.428571,8.0,10.0,4.0,1.0,2019-04-30,7.0,,1,2018-11-01
3,201812,OA261861,5,4.0,XXXX,C02,M,2015-06-01,NaT,CA1,...,5.416667,5.5,8.0,1.0,1.0,2019-04-30,46.0,,42,2018-12-01
4,201806,PL407755,2,4.0,XXXXXX,C03,M,2016-04-01,NaT,CA1,...,3.916667,4.0,6.0,1.0,1.0,2019-04-30,36.0,,26,2018-06-01


# 2.7 결측치 제거 

In [927]:
predict_data.isnull().sum()

# 결측치가 있는 컬럼들 
# count_1         --> 123개 
# end_date        --> 1104개  (탈퇴고객 데이터라서, 결측칙 == 아직 다니고 있는 회원들) 
# exit_date       --> 1104개  (탈퇴고객 데이터라서, 결측칙 == 아직 다니고 있는 회원들) 

연월                      0
customer_id             0
count_0                 0
count_1               140
name                    0
class                   0
gender                  0
start_date              0
end_date             1104
campaign_id             0
is_deleted              0
class_name              0
price                   0
campaign_name           0
mean                    0
median                  0
max                     0
min                     0
almost_visit            0
end_date_calc           0
membership_period       0
exit_date            1104
period                  0
now_date                0
dtype: int64

In [928]:
# count_1  컬럼의 결측치만 제거
predict_data = predict_data.dropna(subset=["count_1"])
predict_data.isna().sum()

연월                      0
customer_id             0
count_0                 0
count_1                 0
name                    0
class                   0
gender                  0
start_date              0
end_date             1016
campaign_id             0
is_deleted              0
class_name              0
price                   0
campaign_name           0
mean                    0
median                  0
max                     0
min                     0
almost_visit            0
end_date_calc           0
membership_period       0
exit_date            1016
period                  0
now_date                0
dtype: int64

# 2.8 피쳐 선정 

In [929]:
# 다음달에 회원이 탈퇴하는지 예측하는 알고리즘 모델을 만들 때, 사용할 피쳐(컬럼)을 알아봅니다. 
predict_data.columns

# X 설명변수에 들어갈 피쳐들 
# count_1       :  1달 전 이용 횟수 
# campaign_name :  가입시 이벤트 (0_입회비반액할인,1_입회비무료, 2_일반) 
# class_name    :  회원권 (0_종일, 1_주간, 2_야간) 
# gender        :  성별
# almost_visit  :  주기적으로 방문하는지 여부 (1이면 yes) 
# period        :  가입한 달로부터의 이용기간 (월단위) 

# y 예측값 
# is_deleted    : 탈퇴여부 

Index(['연월', 'customer_id', 'count_0', 'count_1', 'name', 'class', 'gender',
       'start_date', 'end_date', 'campaign_id', 'is_deleted', 'class_name',
       'price', 'campaign_name', 'mean', 'median', 'max', 'min',
       'almost_visit', 'end_date_calc', 'membership_period', 'exit_date',
       'period', 'now_date'],
      dtype='object')

In [930]:
# X 설명변수에 들어갈 피쳐들과 Y 예측변수 
target_col = ["count_1","campaign_name","class_name","gender","almost_visit","period","is_deleted"]
#                                                                                      --------- Y값도 꼭! 
# 데이터에 반영 
predict_data = predict_data[target_col]

predict_data.head()

Unnamed: 0,count_1,campaign_name,class_name,gender,almost_visit,period,is_deleted
1,6.0,2_일반,2_야간,M,1.0,34,0.0
2,7.0,2_일반,0_종일,M,1.0,1,0.0
3,4.0,2_일반,1_주간,M,1.0,42,0.0
4,4.0,2_일반,2_야간,M,1.0,26,0.0
5,5.0,2_일반,2_야간,M,1.0,21,0.0


# 2.9 문자/카테고리변수 -> 원핫인코딩 | 더미변수 (다중공선성 예방)

In [931]:
# 예측알고리즘에 쓰일 데이터는 무조건 수치형 데이터여야 합니다. 
# 위의 문자열/카테고리 변수들을 수치화하는 작업을 합니다.

print(predict_data["campaign_name"].unique())
print(predict_data["class_name"].unique())
print(predict_data["gender"].unique())

['2_일반' '1_입회비무료' '0_입회비반액할인']
['2_야간' '0_종일' '1_주간']
['M' 'F']


In [932]:
# 대표적으론 pandas의 get_dummies 를 이용하여, 일괄적으로 더미 변수를 만듭니다. 

predict_data = pd.get_dummies(predict_data, drop_first=True, dtype=int)
#                                           ----------- 위에처럼 값이 2개이상일때, 중복을 피하기위해 첫 번째 범주 열 생성 X 
#                                                더 많은 피쳐(컬럼) == 더 많은 차원 == 다중공선성 문제 발생! 
predict_data.head()

Unnamed: 0,count_1,almost_visit,period,is_deleted,campaign_name_1_입회비무료,campaign_name_2_일반,class_name_1_주간,class_name_2_야간,gender_M
1,6.0,1.0,34,0.0,0,1,0,1,1
2,7.0,1.0,1,0.0,0,1,0,0,1
3,4.0,1.0,42,0.0,0,1,1,0,1
4,4.0,1.0,26,0.0,0,1,0,1,1
5,5.0,1.0,21,0.0,0,1,0,1,1


In [933]:
predict_data.columns

Index(['count_1', 'almost_visit', 'period', 'is_deleted',
       'campaign_name_1_입회비무료', 'campaign_name_2_일반', 'class_name_1_주간',
       'class_name_2_야간', 'gender_M'],
      dtype='object')

In [934]:
predict_data.head()

Unnamed: 0,count_1,almost_visit,period,is_deleted,campaign_name_1_입회비무료,campaign_name_2_일반,class_name_1_주간,class_name_2_야간,gender_M
1,6.0,1.0,34,0.0,0,1,0,1,1
2,7.0,1.0,1,0.0,0,1,0,0,1
3,4.0,1.0,42,0.0,0,1,1,0,1
4,4.0,1.0,26,0.0,0,1,0,1,1
5,5.0,1.0,21,0.0,0,1,0,1,1


# 3. 탈퇴 예측 모델(의사결정트리 DecisionTreeClassifier)

In [935]:
# 함수 불러오기 
from sklearn.tree import DecisionTreeClassifier  # 적용할 알고리즘 
import sklearn.model_selection                   # 테스트셋 분할 

# X 변수값은 y 빼고 ! 
X = predict_data.drop(columns=['is_deleted'])

# y 예측값 목표변수  == 탈퇴했는지 안했는지 
y = predict_data["is_deleted"]

# 훈련용과 테스트용 분할 
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X,y)

# 모델 구축
model = DecisionTreeClassifier(random_state=0)

# 학습용 데이터로 모델 학습
model.fit(X_train, y_train)

# 평가용 데이터로 예측결과 출력 
y_test_pred = model.predict(X_test)

# 결과 
print(y_test_pred)

# 1이면 탈퇴 / 0이면 유지 

[0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0. 1. 1. 0. 0. 1. 0. 1. 0. 0. 1.
 0. 0. 1. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 1. 1. 0. 0. 0. 0. 1. 1. 0. 1. 1.
 0. 0. 1. 0. 1. 1. 1. 0. 0. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 1. 0.
 1. 0. 0. 1. 1. 0. 0. 1. 0. 0. 1. 1. 1. 1. 0. 0. 1. 0. 0. 1. 0. 0. 1. 0.
 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 1. 0. 1. 1. 0. 1.
 0. 1. 1. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 1. 1. 1. 1. 0. 1. 0. 0. 0. 0. 0.
 0. 1. 1. 0. 1. 1. 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 1. 0.
 0. 0. 0. 1. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 0. 1. 0. 0. 1. 1. 1. 1. 0. 1.
 1. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 1. 1. 1. 0. 0. 1. 1.
 1. 1. 1. 1. 0. 0. 1. 1. 0. 1. 1. 1. 1. 1. 1. 0. 0. 1. 0. 0. 1. 1. 1. 0.
 1. 0. 0. 0. 1. 1. 0. 0. 0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 1. 1. 0. 1.
 1. 1. 1. 0. 1. 1. 0. 0. 1. 0. 1. 1. 0. 1. 0. 1. 1. 0. 0. 0. 0. 1. 0. 1.
 0. 1. 1. 1. 0. 1. 1. 1. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 0. 1.
 0. 0. 1. 1. 1. 0. 0. 1. 1. 1. 0. 1. 0. 0. 0. 1. 1.

# 4. 모델 평가

In [936]:
# 간단하게 성능 확인하기 

results_test = pd.DataFrame({"y_test":y_test ,"y_pred":y_test_pred })
results_test.head()

# y_test값과 y_pred값이 서로 일치하면 정답 ! 
# 아니라면 오답입니다. 

# 실행할 때마다 결과가 달라지는데, 현재로선 1개만 오답으로 좋은 성능을 보여주고 있습니다. 

Unnamed: 0,y_test,y_pred
282,0.0,0.0
2198,1.0,0.0
408,0.0,0.0
1946,1.0,0.0
1944,1.0,0.0


In [937]:
# 정답률 계산하기 

# 정답의 수 == results_test의 y_test와 y_pred의 일치하는 갯수 
correct = len(results_test.loc[results_test["y_test"]==results_test["y_pred"]])

# 전체 데이터 갯수 
data_count = len(results_test)

# 정답률 == 정답의 수 / 전체 데이터의 수 
score_test = correct / data_count

print(score_test)     # 0.8921001926782274 == 약 90%의 정확도를 보여줍니다. (할때마다 수치 달라짐)

0.9168278529980658


In [938]:
# 정확도 

print(model.score(X_train, y_train))   # 훈련용 
print(model.score(X_test, y_test))     # 테스트용 

# 훈련용이 0.98이고 테스트용이 0.89이라면, 
# 훈련용 데이터에 맞춘 과적합된 경향이 있는 것이다. 

# 과적합된 상황일 경우 다른 방법을 추가줄 수 있다. 
# 데이터 늘리기, 변수 재검토, 모델의 파라미터 변경 등 

0.9819471308833011
0.9168278529980658


# 5. 모델 튜닝해서 성능 높이기

# 5.1 모델의 파라미터 변경

In [939]:
################## 모델의 파라미터 변경해보기 1

# 모델 
# model = DecisionTreeClassifier(random_state=0)     # 기존 
model = DecisionTreeClassifier(random_state=0, max_depth=5)

# 학습용 데이터로 모델 학습
model.fit(X_train, y_train)

# 정확도 확인 
print(model.score(X_test, y_test))
print(model.score(X_train, y_train))

0.9187620889748549
0.927143778207608


In [940]:
################## 모델의 파라미터 변경해보기 2

# 모델 
# model = DecisionTreeClassifier(random_state=0)     # 기존 
model = DecisionTreeClassifier(random_state=0, max_depth=10)

# 학습용 데이터로 모델 학습
model.fit(X_train, y_train)

# 정확도 확인 
print(model.score(X_test, y_test))
print(model.score(X_train, y_train))

0.9187620889748549
0.968407479045777


In [941]:
################## 모델의 파라미터 변경해보기 3

# 모델 
# model = DecisionTreeClassifier(random_state=0)     # 기존 
model = DecisionTreeClassifier(random_state=0, max_depth=16)

# 학습용 데이터로 모델 학습
model.fit(X_train, y_train)

# 정확도 확인 
print(model.score(X_test, y_test))
print(model.score(X_train, y_train))


################## 의사결정트리의 경우, 깊이를 얕게하여 모델을 단순화 하는것이 좋다. 

0.9168278529980658
0.9819471308833011


# 5.2 상관계수 높은 중요 변수 찾기

In [942]:
importance = pd.DataFrame({"feature_names":X.columns, "coefficient":model.feature_importances_})
importance

# 실행할 때마다 달라지겠지만, 여기에선 
# period	0.495339 
# count_1	0.314106 
# 두 변수가 상관계수가 다소 있게 나왔다. (높은건 아님) 

Unnamed: 0,feature_names,coefficient
0,count_1,0.328372
1,almost_visit,0.112984
2,period,0.465578
3,campaign_name_1_입회비무료,0.008282
4,campaign_name_2_일반,0.023482
5,class_name_1_주간,0.01942
6,class_name_2_야간,0.015145
7,gender_M,0.026737


# 6. 회원 탈퇴 예측하기

In [974]:
# 한 명의 새로운 회원 데이터를 모델에 적용하여 탈퇴 예측해보자. 
#
# |---------------------------------------------|
# | 회원명 : 백혜진                                |
# |---------------------------------------------|
# | 한 달 전 이용 횟수 |   count_1      |   4       |
# | 정기적으로 이용여부 | almost_visit   |   2       |
# | 가입후 이용기간(m) |   period       |   14      |
# | 가입시 할인여부    |  campaign_name |  입회비무료  |
# |     회원권       |  class_name    |   야간     |
# |      성별       |    gender      |    W      |
# |---------------------------------|-----------|
#
# 여기서 카테고리 피쳐값은 "campain_name" , "class_name", "gender" 이다.

count_1 = 23
routing_flg = 3
period = 10
campaign_name = "입회비무료"
class_name = "종일"
gender = "W"

In [975]:
if campaign_name == "입회비반값할인":
    campaign_name_list = [1, 0]
elif campaign_name == "입회비무료":
    campaign_name_list = [0, 1]
elif campaign_name == "일반":
    campaign_name_list = [0, 0]
if class_name == "종일":
    class_name_list = [1, 0]
elif class_name == "주간":
    class_name_list = [0, 1]
elif class_name == "야간":
    class_name_list = [0, 0]
if gender == "F":
    gender_list = [1]
elif gender == "M":
    gender_list = [0]
input_data = [count_1, routing_flg, period]
input_data.extend(campaign_name_list)
input_data.extend(class_name_list)
input_data.extend(gender_list)

In [976]:
print(model.predict([input_data]))            # 1 이라면 곧 탈퇴 예상! 
print(model.predict_proba([input_data]))      # 유지율 , 탈퇴율 

[0.]
[[1. 0.]]
