# Prediction of travel products

## 1. 프로젝트 주제 : 여행 패키지 상품 신청 예측 프로젝트

* 해결하고자 하는 문제 : 어떤 특성에 따라 고객이 여행 패키지상품을 고객이 신청할 지 여부를 예측하여 회사의 광고비를 줄이고, 매출을 극대화하는 방향을 모색하고자 한다.    
* 데이터 
    * 데이콘의 데이터 (train : 1955개의 데이터)
    * 선정이유 : 코로나시국 이후로 관광을 많이 못한 사람들의 여행수요가 증가하고 있다. 많은 수요자 중 어떤 고객의 특성이 여행상품을 선택할 지 예측해보고자 한다.   
    * 사용할 Target 특성은 ProdTaken(여행 패키지 신청 여부)로, binary 분류문제이다.

## 2. Import Library and Data

In [None]:
import numpy as np
import pandas as pd
import pandas_profiling
import matplotlib.pyplot as plt

from catboost import CatBoostClassifier
from category_encoders import OneHotEncoder,OrdinalEncoder

from eli5.sklearn import PermutationImportance

from matplotlib import rcParams

from pdpbox.pdp import pdp_isolate, pdp_plot

import shap

import seaborn as sns
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn.impute import SimpleImputer # 결측치를 평균으로 대체
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, RandomizedSearchCV, GridSearchCV
from sklearn.metrics import ConfusionMatrixDisplay, classification_report, plot_confusion_matrix, accuracy_score, f1_score,roc_curve, roc_auc_score
from sklearn import preprocessing
from sklearn.pipeline import make_pipeline
from sklearn.utils.class_weight import compute_sample_weight

from xgboost import XGBClassifier


In [None]:
raw_data = pd.read_csv('data/train.csv')
df = raw_data.copy()
df.head(5)

In [None]:
# id만 없는 raw_data저장
raw_data = raw_data.drop(['id'],axis=1)

In [None]:
print(df.shape)

In [None]:
df.info() # 1955*20

### 특성 설명(데이콘)

id : 샘플 아이디  
Age : 나이  
TypeofContact : 고객의 제품 인지 방법 (회사의 홍보 or 스스로 검색)  
CityTier : 주거 중인 도시의 등급. (인구, 시설, 생활 수준 기준) (1등급 > 2등급 > 3등급)  
DurationOfPitch : 영업 사원이 고객에게 제공하는 프레젠테이션 기간  
Occupation : 직업  
Gender : 성별  
NumberOfPersonVisiting : 고객과 함께 여행을 계획 중인 총 인원  
NumberOfFollowups : 영업 사원의 프레젠테이션 후 이루어진 후속 조치 수  
ProductPitched : 영업 사원이 제시한 상품  
PreferredPropertyStar : 선호 호텔 숙박업소 등급  
MaritalStatus : 결혼여부  
NumberOfTrips : 평균 연간 여행 횟수  
Passport : 여권 보유 여부 (0: 없음, 1: 있음)  
PitchSatisfactionScore : 영업 사원의 프레젠테이션 만족도  
OwnCar : 자동차 보유 여부 (0: 없음, 1: 있음)  
NumberOfChildrenVisiting : 함께 여행을 계획 중인 5세 미만의 어린이 수  
Designation : (직업의) 직급  
MonthlyIncome : 월 급여  
ProdTaken : 여행 패키지 신청 여부 (0: 신청 안 함, 1: 신청함)  

## 3. 데이터를 이용한 가설, 기준모델(Baseline Model), 평가지표설명

* 가설(탐색적데이터분석)  
    * 가설1 : 결혼 후, 여행을 계획중인 아이들이 있으면 가족패키지에 대한 수요가 있어 패키지신청확률이 높을 것이다.  
    * 가설2 : 영업 사원의 프레젠테이션 만족도는 가족패키지에 대한 수요와 연관성이 높을 것이다.  
      
    
* 기준모델 및 평가지표설명
    * Baseline Model은 초기 최빈값인 0.79에서 Logistic Regression의 AUC Score로 변경

## 4. EDA & Datapreprocessing

    * Gender 컬럼의 'Fe Male'->'Female'로 수정  
    * 결측치제거  
    * unique 컬럼 제거(id)
    * age특성 age로 구간설정
    * DurationOfPitch을 구간별로 설정
    * Monthly Income을 구간별로 설정


In [None]:
# 결측치확인

df.isnull().sum()

In [2]:
def data_preprocessing(df_):
    
    # Gender 특성 데이터정리
    df_['Gender'] = df_['Gender'].str.replace('Fe Male', 'Female')
    
    df_ = df_.dropna()
    
    # 나이를 기준으로 나이대별 컬럼생성
    df_['Ages'] = (df_['Age']//10*10).astype(int)
    # Age컬럼 삭제하기(시각화 후 모델링 직전에 삭제.)
    
    df_['DurationOfPitchSection'] = pd.cut(df_['DurationOfPitch'], 
                                        bins = [0,5,10, 15, 20,25,30,35,40], 
                                        labels = ['~5', '~10', '~15', '~20','~25','~30','~35','~40'])

    
    df_['MonthlyIncomeSection'] = pd.cut(df_['MonthlyIncome'], 
                                        bins = [0,15000,20000, 25000, 30000,35000,40000,45000,50000,100000], 
                                        labels = ['~15000', '~20000', '~25000', '~30000','~35000','~40000','~45000','~50000','~100000'])

    # high cardinality로 불필요한 컬럼 삭제
    # df = df.drop(['id'],axis=1)
    
    return df_


In [3]:
# 테스트데이터도 추후 전처리 해줘야함!!!! 모델링하는거 봐서 더 잘 먹는걸로 전처리하기!

In [4]:
# 컬럼별 데이터내용 확인
df.describe()

NameError: name 'df' is not defined

In [None]:
# 컬럼별 데이터 내용 확인
for i in df.columns:
    print(df[i].value_counts())

In [None]:
data = data_preprocessing(df).reset_index(drop=True)
data.head(5)

## 5. Visualization

In [None]:
# 특성별 상관관계 히트맵으로 표현.

# seaborn setting
rcParams['figure.figsize'] = 15,8
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['font.size'] = 15
colors = sns.color_palette('pastel')

sns.heatmap(data=raw_data.corr(), annot=True, fmt='.2f', linewidths=.5, cmap='Blues');

* 특성간 상관관계가 높을수록 진한색을 띄는데, 데이터를 확인시, 특성간 뚜렷한 상관관계가 보이지 않음을 확인하였다.   


* 타겟인 ProdTaken와 상관관계가 가장 높은 것은 여권소지유무로 0.32가 가장 높은 값이다.  
* 함께 여행을 계획 중인 5세 미만의 어린이 수 고객과 함께 여행을 계획 중인 총 인원은 0.6의 상관관계로 상관관계수치 중 가장 높은 값을 보인다.  


* 타겟의 상관관계가 음수로 나타난 경우  
    * 나이와 타겟의 상관관계 : 이는 고령일수록 패키지여행신청을 하지 않음을 보여준다.  
    * 차량과 타겟의 상관관계 : 차가 없는 경우가 패키지여행을 더 고려하는 것을 보여준다.
    * 월별소득과 타겟의 상관관계 : 소득이 적을 때 패키지여행을 더 고려하는 것을 보여준다.


In [None]:
# 연관분석
from matplotlib import rc
rc('axes', unicode_minus=False)

plt.figure(figsize=(8, 10))
heatmap = sns.heatmap(data.corr()[['ProdTaken']].sort_values(by='ProdTaken', ascending=False), vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Features Correlating with ProdTaken', fontdict={'fontsize':18}, pad=16);

In [None]:
# 범주형 변수는 주성분분석불가, 데이터를 수치형 데이터로 변경 후, 카테고리로 데이터타입을 변경하여 주성분분석에 사용
# 주성분분석을 통해 전체 열 중에 중요 열을 추리는 것이 목적EDA로 구간별로 구분한 컬럼을 카테고리화하기

category_data = data.drop(['MonthlyIncome','Age','DurationOfPitch'],axis=1)
category_data

category_data_fac = category_data.apply(lambda x: pd.factorize(x)[0])
category_data_fac = category_data.astype('category')

encoder = OrdinalEncoder()

category_data_fac_encoded = encoder.fit_transform(category_data_fac)

category_data_fac_encoded_catego = category_data_fac_encoded.astype('category')

In [None]:
# 주성분분석을 통해 특정 컬럼이 주성분분석결과를 설명할 수 있다고 보여지지 않음

from psynlig import pca_explained_variance_pie
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale

rcParams['figure.figsize'] = 15,8
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['font.size'] = 15
colors = sns.color_palette('pastel')

data_for_pca = scale(category_data_fac_encoded_catego)

pca = PCA(n_components=16) # 
pca.fit_transform(data_for_pca)

fig, axi = pca_explained_variance_pie(pca, cmap='Spectral')
axi.set_title('Explained variance by principal components',fontsize=30)

plt.show()


In [None]:
# 타겟 구성비율확인
print(data['ProdTaken'].value_counts())

print(data['ProdTaken'].value_counts(normalize=True))

In [None]:
# 타겟의 imbalance 확인
%matplotlib inline

sns.countplot(x=data['ProdTaken']);

In [None]:
# ProdTaken이 1로 나온 특성별 분포확인(여행패키지 신청한 경우)

dataa = data[data['ProdTaken']==1]
dataa.shape

In [None]:
data['Occupation'].value_counts()

### 데이터 분포확인1

In [None]:
for i in dataa.columns:
    sns.displot(x=dataa[i],kde=True) # kde : 커널밀도추정. 커널함수와 데이터를 바탕으로 연속성있는 확률밀도함수를 추정하는것.

### 데이터 분포확인2

In [None]:
plt.figure(figsize=(10,50))

sns.set_theme(style="white") 
cols=['TypeofContact', 'CityTier', 'DurationOfPitch', 'Occupation', 'Gender',
       'NumberOfPersonVisiting', 'NumberOfFollowups', 'ProductPitched',
       'PreferredPropertyStar', 'MaritalStatus', 'NumberOfTrips', 'Passport',
       'PitchSatisfactionScore', 'OwnCar', 'NumberOfChildrenVisiting',
       'Designation', 'ProdTaken', 'Ages', 'MonthlyIncomeSection']
for i, variable in enumerate(cols):
                     ax=plt.subplot(15,2,i+1)
                     #order = data[variable].value_counts(ascending=False).index   
                     #sns.set_palette(list_palette[i]) # to set the palette
                     sns.set_palette('Set2')
                    
                     ax=sns.countplot(x=data[variable], data=data )
                     sns.despine(top=True,right=True,left=True) # 그래프위,양옆선삭제
                     for p in ax.patches:
                           percentage = '{:.1f}%'.format(100 * p.get_height()/len(data[variable]))
                           x = p.get_x() + p.get_width() / 2 - 0.05
                           y = p.get_y() + p.get_height()
                           plt.annotate(percentage, (x, y),ha='center') # 주석
                     plt.tight_layout()
                     #plt.title(cols[i].upper())
                                     

In [None]:
data['DurationOfPitch'].value_counts(normalize=True).head(10)

### * 특성별 분포도 분석

회사 제품의 인지방법(TypeofContact) : 고객 스스로 검색이 70%로 반 회사의 홍보(30%)보다 2배 많음  
주거 중인 도시의 등급(CityTier)이 1등급이 가장 많은데, 생활수준이 가장 좋은 곳의 사람들을 대상으로 수집한 정보임을 알 수 있다.(1등급 > 2등급 > 3등급)  
영업 사원이 고객에게 제공하는 프레젠테이션 기간(DurationOfPitch)은 17이상으로는 급격히 떨어짐을 확인할 수 있다.  
조사된 사람들의 대부분의 직업(Occupation) 중 반은 직장인, 그리고 두번째는 작은사업을 하고 있다고 하는 경우가 많았고,  
Designation을 보면 가장 높은 직급이 Executive, Manager인 것으로 보아 생활수준이 좋은 사람들의 데이터라볼 수 있다.  
  
성별(Gender)은 60%이상이 남자고,  
고객과 함께 여행을 계획 중인 총 인원은 3명이 과반수를 넘었으며,   
프레젠테이션 후 이루어진 후속 조치 수(NumberOfFollowups)는 4점이 44%로 가장 높았고,  
영업 사원이 제시한 상품(ProductPitched)은 basic, delux순으로 많았으며,  
선호 호텔 숙박업소 등급(PreferredPropertyStar)은 3점이 가장 많았고,  
결혼여부(MaritalStatus)는 결혼한 경우가 많았다. (unmarried는 사실혼의 경우로 본다)  
평균 연간 여행 횟수(NumberOfTrips)는 2번, 그 다음 3번이 가장 많았고,   
여권 보유 여부(Passport)은 없는 경우가 70%를 넘었다.  
영업 사원의 프레젠테이션 만족도(PitchSatisfactionScore)는 3점이 가장 높았으며,  
자동차 보유 여부(OwnCar)는 있는 경우가 61%를 넘었다.  
함께 여행을 계획 중인 5세 미만의 어린이 수(NumberOfChildrenVisiting)는 1명, 2명 순으로 많았다.  
여행 패키지 신청 여부(ProdTaken)는 20%의 고객만이 진행됐고,  
나이대(Ages)는 30대가 44%로 가장 높았으며,  
월 급여구간(MonthlyIncomeSection)은 20000~25000이 가장 많았다.  

In [None]:
sns.boxplot(data=data, x="ProdTaken", y="MonthlyIncome")

### 데이터분포3

In [None]:
### Function to plot distributions and Boxplots of customers
rcParams['figure.figsize'] = 15,8
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['font.size'] = 15
colors = sns.color_palette('pastel')

def plot(x,target='ProdTaken'):
    
    fig,axs = plt.subplots(2,2,figsize=(12,10))
    
    axs[0, 0].set_title(f'패키지상품 미선택한\n {x} 특성 분포도',fontsize=12,fontweight='bold')
    sns.histplot(data[(data[target] == 0)][x],ax=axs[0,0],color='teal')
    
    axs[0, 1].set_title(f"패키지상품 선택한\n {x}특성 분포도",fontsize=12,fontweight='bold')
    sns.histplot(data[(data[target] == 1)][x],ax=axs[0,1],color='orange')
    
    axs[1,0].set_title(f'패키지상품 선택한 {x} 특성 boxplot',fontsize=12,fontweight='bold')
    
    line = plt.Line2D((.1,.9),(.5,.5), color='grey', linewidth=1.5,linestyle='--')
    fig.add_artist(line)
    sns.boxplot(data=data, x=target, y=x, ax=axs[1,0],palette='gist_rainbow',showmeans=True)
    
    axs[1,1].set_title(f'이상치 제거한 {x} 특성의 boxplot',fontsize=12,fontweight='bold')
    sns.boxplot(data=data, x=target, y=x,ax=axs[1,1],showfliers=False,palette='gist_rainbow',showmeans=True) #turning off outliers from boxplot
    sns.despine(top=True,right=True,left=True) # to remove side line from graph
    
    plt.tight_layout(pad=4)
    plt.show()

In [None]:
#select all quantitative columns for checking the spread
#list_col=  ['Age','DurationOfPitch','MonthlyIncome']

list_col=data.select_dtypes(include='number').columns.to_list()

#print(list_col)
#plt.figure(figsize=(14,23))

for j in range(len(list_col)):
   plot(list_col[j])
   

In [None]:
['TypeofContact','Occupation','Gender','ProductPitched','MaritalStatus','Designation']

# seaborn setting

rcParams['figure.figsize'] = 15,8
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['font.size'] = 15
colors = sns.color_palette('pastel')

# 패키지 선택한 성 비율
yes = data[data.ProdTaken==1]

# 패키지 미선택한 성비율 
no = data[data.ProdTaken==0]

# 한번에 piechart 2개 보여주기
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(20,20)) #ax1,ax2 refer to your two pies
# 1,2 denotes 1 row, 2 columns - if you want to stack vertically, it would be 2,1

pie_data=yes['TypeofContact'].value_counts()
labels=yes['TypeofContact'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)
    
ax1.pie(pie_data,labels = labels,colors = colors,explode=explode, autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot first pie
ax1.set_title('패키지 선택한 고객의 제품인지방법 비율',fontsize=30)


pie_data=no['TypeofContact'].value_counts()
labels=no['TypeofContact'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)

ax2.pie(pie_data,labels = labels,colors = colors,explode=explode, autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot second pie
ax2.set_title('패키지 미선택한 고객의 제품인지방법 비율',fontsize=30)


In [None]:
sns.countplot(data=data,x='ProdTaken')

### 가설1 : 결혼 후, 여행을 계획중인 아이들이 있으면 가족패키지에 대한 수요가 있어 여행상품신청확률이 높을 것이다.

In [None]:
# 결혼한 경우의 데이터를 추린다.
condition=data[(data.MaritalStatus=='Married')] #| (data.MaritalStatus=='Divorced')]
condition['MaritalStatus'].value_counts()

In [None]:
# 함께 여행을 계획 중인 5세 미만의 어린이 수가 있는 경우의 조건을 추가한다.
data_travel_children = condition[condition['NumberOfChildrenVisiting']>0]

# 타겟의 imbalance 확인
%matplotlib inline

sns.countplot(x=data_travel_children['ProdTaken']);

In [None]:
# 타겟 구성비율확인
print(data_travel_children['ProdTaken'].value_counts())
print(data_travel_children['ProdTaken'].value_counts(normalize=True))

해당가설의 최빈값은 당초 원데이터의 최빈값 정확도보다 0.5% 높아지는 것을 보이며, 이는 결혼 후, 여행에 계획중인 아이들이 여행상품선택과는 무관함을 보여준다.  
(결혼을 하고 애가 있는 경우(이혼한 경우도) 진행했으나 married와 비슷한 수치를 보였다.)

### 가설2 : 영업 사원의 프레젠테이션 만족도는 가족패키지에 대한 수요와 연관성이 높을 것이다.

In [None]:
# 결혼한 경우의 데이터를 추린다.
condition=data[(data.MaritalStatus=='Married')] #| (data.MaritalStatus=='Divorced')]
condition['MaritalStatus'].value_counts()

In [None]:
# 가설2에 따른 영업사원의 프레젠테이션만족도는 가족패키지에 대한 수요를 높일 것이다로 했을 시, 최빈값보다 0.03이 오른 것을 확인할 수 있다.

condition2 = data[data['PitchSatisfactionScore']>=3]
condition2[condition2['NumberOfChildrenVisiting']>0]['ProdTaken'].value_counts(normalize=True)

In [None]:

# 타겟의 imbalance 확인
%matplotlib inline

sns.countplot(x=data_travel_children['ProdTaken']);

In [None]:
# 패키지여행상품선택여부와 소득의 관계표현
sns.boxplot(data=data, x="ProdTaken", y="MonthlyIncome")

In [None]:
data.describe()

In [None]:
# seaborn setting

rcParams['figure.figsize'] = 15,8
plt.rcParams['font.family'] = 'NanumGothic'
plt.rcParams['font.size'] = 15
colors = sns.color_palette('pastel')

# 패키지 선택한 성 비율
yes = data[data.ProdTaken==1]

# 패키지 미선택한 성비율 
no = data[data.ProdTaken==0]

# 한번에 piechart 2개 보여주기
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(20,20)) #ax1,ax2 refer to your two pies
# 1,2 denotes 1 row, 2 columns - if you want to stack vertically, it would be 2,1

pie_data=yes['TypeofContact'].value_counts()
labels=yes['TypeofContact'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)
    
ax1.pie(pie_data,labels = labels,colors = colors,explode=explode, autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot first pie
ax1.set_title('패키지 선택한 고객의 상품인지방법 비율',fontsize=30)


pie_data=no['TypeofContact'].value_counts()
labels=no['TypeofContact'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)

ax2.pie(pie_data,labels = labels,colors = colors,explode=explode, autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot second pie
ax2.set_title('패키지 미선택한 고객의 상품인지방법 비율',fontsize=30)


In [None]:
# 한번에 piechart 2개 보여주기
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(20,20)) #ax1,ax2 refer to your two pies
# 1,2 denotes 1 row, 2 columns - if you want to stack vertically, it would be 2,1

pie_data=yes['MaritalStatus'].value_counts()
labels=yes['MaritalStatus'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)
    
ax1.pie(pie_data,labels = labels,colors = colors,explode=explode,autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot first pie
ax1.set_title('패키지 선택한 결혼여부 비율',fontsize=30)


pie_data=no['MaritalStatus'].value_counts()
labels=no['MaritalStatus'].value_counts().index
ax2.pie(pie_data,labels = labels,colors = colors,explode=explode,autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot second pie
ax2.set_title('패키지 미선택한 결혼여부 비율',fontsize=30)


In [None]:
# 결혼상태별 영업사원판매상품과 비율
sns.countplot(x="ProductPitched", data=yes,  hue="MaritalStatus")
sns.despine(top=True,right=True,left=True) 

In [None]:
# 한번에 piechart 2개 보여주기
fig, (ax1,ax2) = plt.subplots(1,2,figsize=(20,20)) #ax1,ax2 refer to your two pies
# 1,2 denotes 1 row, 2 columns - if you want to stack vertically, it would be 2,1

pie_data=yes['Designation'].value_counts()
labels=yes['Designation'].value_counts().index

explode = []
for i in range(len(labels)):
    explode.append(0.01)
    
ax1.pie(pie_data,labels = labels,colors = colors,explode=explode,autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot first pie
ax1.set_title('패키지 선택한 직급 비율',fontsize=30)


pie_data=no['Designation'].value_counts()
labels=no['Designation'].value_counts().index
ax2.pie(pie_data,labels = labels,colors = colors,explode=explode,autopct = '%1.1f%%', textprops={'fontsize': 15}) #plot second pie
ax2.set_title('패키지 미선택한 직급 비율',fontsize=30)


In [None]:
# 직급 영업사원판매상품과 비율
sns.countplot(x="ProductPitched", data=yes,  hue="Designation")
sns.despine(top=True,right=True,left=True) 

직함에 매니저라고 적어도 직업에 작은 사업, 큰 사업으로 기재된 경우가 많아, 직함은 큰 의미가 없는 것으로 파악하기로 한다.
(기업의 규모마다 매니저의 역할/역량이 다른 경우도 많으니 큰 의미를 두지 않기로 하며, 매니저 이상의 고객군으로 파악하기로 한다.)

In [None]:
# 매니저 직함의 직업 종류 분포
designation_manager = data[data['Designation']=='Manager']
designation_manager['Occupation'].value_counts()

In [None]:
# 경영진 직함의 직업 종류 분포
designation_executive = data[data['Designation']=='Executive']
designation_executive['Occupation'].value_counts()

In [None]:
# 나이대 분포도

%matplotlib inline

sns.countplot(x=data['Age']);

In [None]:
# high cardinality 및 특성생성하고 난 후 베이스된 특성 제거
data = data.drop(['id','Age','MonthlyIncome','DurationOfPitch'],axis=1).reset_index(drop=True)

In [None]:
data.head()

## 6. Modeling

### 모델의 유용성과 한계

* 목적 : 주어진 특성을 분석하여 패키지 여행을 신청할 지, 말 지 예측
* 유용성 : 잠재고객을 파악하여 영업/광고방향 설정 가능
* 한계 : 
* 모델링에 사용할 데이터는 아래의 4가지 종류로 각 모델링에 적용하였다.
    1. 전처리한 data  
    2. id값만 없앤 raw_data  
    3. EDA로 생성한 컬럼/데이터를 카테고리화하여 수치형으로 변경한 data
    4. id컬럼만 없앤 raw_data null값에 최빈값으로 대체하고, 수치 data를 없애고 카테고리화하여 수치형으로 변경한 data

    

In [None]:
# EDA로 구간별로 구분한 컬럼을 카테고리화하기
category_columns=['Ages','MonthlyIncomeSection','DurationOfPitchSection']
numerical_columns=['MonthlyIncome','Age','DurationOfPitch']

data[category_columns] = data[category_columns].astype('category')

In [None]:
# 1. 전처리한 data 훈련/검증셋 나누기

train, test = train_test_split(data, test_size=0.2, random_state=2)
train, val = train_test_split(train, test_size=0.2, random_state=2)

target = 'ProdTaken'
features = data.columns.drop([target])

X_train = train[features]
y_train = train[target]
X_val = val[features]
y_val = val[target]
X_test = test[features]
y_test = test[target]

train.shape, val.shape, test.shape

In [None]:
# 2. id컬럼만 없앤 raw_data 훈련/검증셋 나누기

train2, test2 = train_test_split(raw_data, test_size=0.2, random_state=2)
train2, val2 = train_test_split(train2, test_size=0.2, random_state=2)


target = 'ProdTaken'
features = raw_data.columns.drop([target])

X_train2 = train2[features]
y_train2 = train2[target]
X_val2 = val2[features]
y_val2 = val2[target]
X_test2 = test2[features]
y_test2 = test2[target]

train2.shape, val2.shape, test2.shape

In [None]:
# 3. EDA한 DATA의 수치데이터 없애고 카테고리화한 데이터로 훈련검증데이터셋 만들기

category_columns=['Ages','MonthlyIncomeSection','DurationOfPitchSection']
numerical_columns=['MonthlyIncome','Age','DurationOfPitch']

data[category_columns] = data[category_columns].astype('category')

# 카테고리화한 데이터를 수치형으로 변경하기
category_data=pd.get_dummies(data,drop_first=True)

# 훈련/검증셋 나누기

train_dumm, test_dumm = train_test_split(category_data, test_size=0.2, random_state=2)
train_dumm, val_dumm = train_test_split(train_dumm, test_size=0.2, random_state=2)

target = 'ProdTaken'
features = category_data.columns.drop([target])

X_train_dumm = train_dumm[features]
y_train_dumm = train_dumm[target]
X_val_dumm = val_dumm[features]
y_val_dumm = val_dumm[target]
X_test_dumm = test_dumm[features]
y_test_dumm = test_dumm[target]

train_dumm.shape, val_dumm.shape, test_dumm.shape

In [None]:
### 4. raw_data에 수치형데이터 제거하고 수치형으로 변경(_get_dummies 말고 pd.factorize)후 category타입으로 변경하고 ordinal encoderㅅ


imputer=SimpleImputer(strategy='most_frequent')
result = imputer.fit_transform(raw_data)
imputed_df = pd.DataFrame(result, columns=raw_data.columns)

category_raw_data = imputed_df.drop(['MonthlyIncome','Age','DurationOfPitch'],axis=1)
category_raw_data 

category_data_ff = category_raw_data.apply(lambda x: pd.factorize(x)[0])
category_data_ff = category_raw_data.astype('category')

encoder = OrdinalEncoder()

category_data_ff_encoded = encoder.fit_transform(category_data_ff)

train_ff_encoded, test_ff_encoded = train_test_split(category_data_ff_encoded, test_size=0.2, random_state=2)
train_ff_encoded, val_ff_encoded = train_test_split(train_ff_encoded, test_size=0.2, random_state=2)

target = 'ProdTaken'
features = category_data_ff_encoded.columns.drop([target])

X_train_ff_encoded = train_ff_encoded[features]
y_train_ff_encoded = train_ff_encoded[target]
X_val_ff_encoded = val_ff_encoded[features]
y_val_ff_encoded = val_ff_encoded[target]
X_test_ff_encoded = test_ff_encoded[features]
y_test_ff_encoded = test_ff_encoded[target]

train_ff_encoded.shape, val_ff_encoded.shape, test_ff_encoded.shape

### 1-1. Logistic Regression (AUC:0.77)

In [None]:
# logisticregression, ordinalencoder

pipe_log_o = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서ㅁ가 상관없어서 괜찮다!
    LogisticRegression(class_weight="balanced"))

pipe_log_o.fit(X_train, y_train)
y_pred = pipe_log_o.predict(X_val)

print('훈련 정확도 :', pipe_log_o.score(X_train,y_train))
print('검증 정확도 :', pipe_log_o.score(X_val, y_val))
print('F1 score :', f1_score(y_val, y_pred))
print('AUC 점수 :', roc_auc_score(y_val, y_pred))
print('REPORT',classification_report(y_val, y_pred))

In [None]:
ConfusionMatrixDisplay.from_estimator(pipe_log_o,X_val,y_val)
plt.show()

In [None]:
tp = 14
tn = 200
fn = 42
fp = 8
total = tp+tn+fp+fn

In [None]:
# 1로 예측할 확률
y_train.value_counts(normalize=True)[1]

### 1-2. Logistic Regression(null->most_frequent)  (AUC:0.75)

In [None]:
# logisticregression, ordinalencoder

pipe_log_o2 = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서ㅁ가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),
    LogisticRegression(class_weight="balanced",max_iter=1000))

pipe_log_o2.fit(X_train2, y_train2)
y_pred = pipe_log_o2.predict(X_val2)

print('훈련 정확도 :', pipe_log_o2.score(X_train2,y_train2))
print('검증 정확도 :', pipe_log_o2.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2, y_pred))

### 1-3. Logistic Regression Hyper Parameter Tuning (null->most_frequent) (AUC:0.73)

로지스틱회귀에는 실제로 조정할 중요한 파라미터가 없고, 때로는 다른 solver를 사용하여 성능이나 수렴에서 유용한 차이를 볼 수 있다.  
정규화(패널티)가 때때로 도움이 될 수 있다.  
cf. 모든 solver가 모든 정규화를 지원하지는 않음.  
C매개변수는 패널티강도를 제어하며 이또한 효과적일 수 있다.  
ex. C in [100, 10, 1.0, 0..1, 0.01]  

In [None]:
# logistic model hyper parameter tuning
model = LogisticRegression(max_iter=5000)
solvers = ['newton-cg', 'lbfgs', 'liblinear']
penalty = ['l2']
c_values = [100, 10, 1.0, 0.1, 0.01]

# define grid search
grid = dict(solver=solvers,penalty=penalty,C=c_values)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1,  scoring='roc_auc',error_score=0)
grid_result = grid_search.fit(X_train_dumm, y_train_dumm)

# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
    print("%f (%f) with: %r" % (mean, stdev, param))

In [None]:
# logistic model에 최적의 hyper parameter 적용

# 파라미터설명
# C = 정규화강도(값이 작을수록 더 강한 정규화 지정, penalty = 너무 많은 변수를 갖는 로지스틱모델에 벌점부과. 덜 기여하는 변수의 계수가 0으로 축소. 이것이 정규화임.
# solver = 최적화 문제에 사용할 알고리즘.클래스의 종류에따라 사용하는 알고리즘이 다름. max_iter = solver의 수렴하는데 최대 반복횟수)

log_reg_clf=LogisticRegression(C=0.1, penalty='l2',solver='newton-cg',class_weight='balanced', max_iter=1000)

log_reg_clf.fit(X_train_dumm, y_train_dumm)

y_pred = log_reg_clf.predict(X_val_dumm)

print('훈련 정확도 :', log_reg_clf.score(X_train_dumm,y_train_dumm))
print('검증 정확도 :', log_reg_clf.score(X_val_dumm, y_val_dumm))
print('F1 score :', f1_score(y_val_dumm, y_pred))
print('AUC 점수 :', roc_auc_score(y_val_dumm, y_pred))
print('REPORT',classification_report(y_val_dumm, y_pred))

### 1-4 Logistic Regression Hyper Parameter Tuning (null->most_frequent, category화한 data) (AUC:0.76)

In [None]:
# logistic model에 최적의 hyper parameter 적용

# 파라미터설명
# C = 정규화강도(값이 작을수록 더 강한 정규화 지정, penalty = 너무 많은 변수를 갖는 로지스틱모델에 벌점부과. 덜 기여하는 변수의 계수가 0으로 축소. 이것이 정규화임.
# solver = 최적화 문제에 사용할 알고리즘.클래스의 종류에따라 사용하는 알고리즘이 다름. max_iter = solver의 수렴하는데 최대 반복횟수)

log_reg_clf=LogisticRegression(C=0.1, penalty='l2',solver='newton-cg',class_weight='balanced', max_iter=1000)

log_reg_clf.fit(X_train_ff_encoded, y_train_ff_encoded)

y_pred = log_reg_clf.predict(X_val_ff_encoded)

print('훈련 정확도 :', log_reg_clf.score(X_train_ff_encoded,y_train_ff_encoded))
print('검증 정확도 :', log_reg_clf.score(X_val_ff_encoded, y_val_ff_encoded))
print('F1 score :', f1_score(y_val_ff_encoded, y_pred))
print('AUC 점수 :', roc_auc_score(y_val_ff_encoded, y_pred))
print('REPORT',classification_report(y_val_ff_encoded, y_pred))

### 2-1. RandomForest  (AUC:0.70) 

In [None]:
#### randomforest_ordinal encoding

pipe_rf_o = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    RandomForestClassifier(random_state=2))

pipe_rf_o.fit(X_train, y_train)
y_pred = pipe_rf_o.predict(X_val)

print('훈련 정확도 :', pipe_rf_o.score(X_train,y_train))
print('검증 정확도 :', pipe_rf_o.score(X_val, y_val))
print('F1 score :', f1_score(y_val, y_pred))
print('AUC 점수 :', roc_auc_score(y_val, y_pred))
print('REPORT',classification_report(y_val,y_pred))

### 2-2. RandomForest(null->most_frequent)  (AUC:0.74)

In [None]:
# randomforest_ordinal encoding

pipe_rf_o2 = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),
    RandomForestClassifier(random_state=2))

pipe_rf_o2.fit(X_train2, y_train2)
y_pred = pipe_rf_o2.predict(X_val2)

print('훈련 정확도 :', pipe_rf_o2.score(X_train2,y_train2))
print('검증 정확도 :', pipe_rf_o2.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2,y_pred))

### 2-3. RandomForest Hyperparameter Tuning  (AUC:0.76)

In [None]:
###### pipe라인 랜덤포레스트 모델의 파라미터튜닝
pipe = make_pipeline(
      OrdinalEncoder(),
      RandomForestClassifier(random_state=2))

# 튜닝할 하이퍼파라미터의 범위를 지정
parameters = {'randomforestclassifier__max_depth': range(1, 5, 2), 
              'randomforestclassifier__max_features': range(1, 5, 2), 
              'randomforestclassifier__min_samples_leaf' : range(1, 5, 2)}
    
# 최적의 hyper parameter를 찾기 위한 RandomizedSearchCV
rf_classifier = RandomizedSearchCV(pipe, 
                                    param_distributions=parameters, #  param_distributions : 사전/사전목록
                                    n_iter=8, # 정수, 기본값=10인데, parameter만큼으로 8로함.
                                    cv=5, # 교차검증생성기 또는 반복가능 default=None
                                    scoring='roc_auc', # 평가방법
                                    verbose=1) # 진행상황표시. 높을수록 더 많은 메세지표시.
rf_classifier.fit(X_train, y_train);

In [None]:
# RandomSearchCV 결과 확인
print('Best Parameters :', rf_classifier.best_params_)
print('검증정확도 :', rf_classifier.best_score_)

In [None]:
# randomforest_ordinal encoding

pipe_rf_o = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    RandomForestClassifier(random_state=2, min_samples_leaf=1, max_features=3, max_depth=3,class_weight="balanced"))

pipe_rf_o.fit(X_train, y_train)
y_pred = pipe_rf_o.predict(X_val)

print('훈련 정확도 :', pipe_rf_o.score(X_train,y_train))
print('검증 정확도 :', pipe_rf_o.score(X_val, y_val))
print('F1 score :', f1_score(y_val, y_pred,average='weighted'))
print('AUC 점수 :', roc_auc_score(y_val, y_pred))
print('REPORT',classification_report(y_val,y_pred)) 

In [None]:
ConfusionMatrixDisplay.from_estimator(pipe_rf_o,X_val,y_val)
plt.show()

### 2-4. RandomForest Hyperparameter Tuning (null -> most_frequent)  (AUC:0.75)

In [None]:
###### pipe라인 랜덤포레스트 모델의 파라미터튜닝
pipe = make_pipeline(
      OrdinalEncoder(),
      SimpleImputer(strategy='most_frequent'),
      RandomForestClassifier(random_state=2))

# 튜닝할 하이퍼파라미터의 범위를 지정
parameters = {'randomforestclassifier__max_depth': range(1, 5, 2), 
              'randomforestclassifier__max_features': range(1, 5, 2), 
              'randomforestclassifier__min_samples_leaf' : range(1, 5, 2)}
    
# 최적의 hyper parameter를 찾기 위한 RandomizedSearchCV
rf_classifier = RandomizedSearchCV(pipe, 
                                    param_distributions=parameters, #  param_distributions : 사전/사전목록
                                    n_iter=8, # 정수, 기본값=10
                                    cv=5, # 교차검증생성기 또는 반복가능 default=None
                                    scoring='roc_auc', # 평가방법
                                    verbose=1) # 진행상황표시. 높을수록 더 많은 메세지표시.
rf_classifier.fit(X_train2, y_train2);

In [None]:
# RandomSearchCV 결과 확인
print('Best Parameters :', rf_classifier.best_params_)
print('검증정확도 :', rf_classifier.best_score_)

In [None]:
# randomforest_ordinal encoding

pipe_rf_or = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),    
    RandomForestClassifier(random_state=2, min_samples_leaf=3, max_features=1, max_depth=3,class_weight='balanced'))

pipe_rf_or.fit(X_train2, y_train2)
y_pred = pipe_rf_or.predict(X_val2)

print('훈련 정확도 :', pipe_rf_or.score(X_train2,y_train2))
print('검증 정확도 :', pipe_rf_or.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2,y_pred))

In [None]:
ConfusionMatrixDisplay.from_estimator(pipe_rf_or,X_val2,y_val2)
plt.show()

### 3-1. XGBoost  (AUC:0.73)

In [None]:
# from xgboost import XGBClassifier,XGBRegressor

pipe_xgb_o = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    XGBClassifier())

pipe_xgb_o.fit(X_train, y_train)
y_pred = pipe_xgb_o.predict(X_val)

print('훈련 정확도 :', pipe_xgb_o.score(X_train,y_train))
print('검증 정확도 :', pipe_xgb_o.score(X_val, y_val))
print('F1 score :', f1_score(y_val, y_pred))
print('AUC 점수 :', roc_auc_score(y_val, y_pred))
print('REPORT',classification_report(y_val, y_pred))

### 3-2. XGBoost (null->most_frequent)  (AUC:0.76)

In [None]:
# from xgboost import XGBClassifier,XGBRegressor

pipe_xgb_o2 = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),
    XGBClassifier())

pipe_xgb_o2.fit(X_train2, y_train2)
y_pred = pipe_xgb_o2.predict(X_val2)

print('훈련 정확도 :', pipe_xgb_o2.score(X_train2,y_train2))
print('검증 정확도 :', pipe_xgb_o2.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2, y_pred))

In [None]:
data['ProdTaken'].value_counts(normalize=True)

In [None]:
ratio0 = data['ProdTaken'].value_counts(normalize=True)[0]
ratio1 = data['ProdTaken'].value_counts(normalize=True)[1]
ratio = ratio1/ratio0
ratio

### 3-3. XGBoost Hyperparameter (null -> most_frequent) Tuning (AUC : 0.82)

In [None]:
xgb_tuned = XGBClassifier(random_state=25,eval_metric='logloss') # 조기 중단을 위한 평가지표 eval_metric

# Grid of parameters to choose 

parameters = {
    "n_estimators": np.arange(10,100,20),
    "scale_pos_weight":[0,5],
    "colsample_bylevel":[0.5,1],
    "learning_rate":[0.001,0.01,0.1,0.5]
}
# Type of scoring used to compare parameter combinations
acc_scorer = metrics.make_scorer(metrics.roc_auc_score)

In [None]:
xgb_tuned = XGBClassifier(random_state=25,eval_metric='logloss') # 조기 중단을 위한 평가지표 eval_metric

# Grid of parameters to choose 

parameters = {
    "n_estimators": np.arange(10,100,20),
    "scale_pos_weight":[0,5],
    "colsample_bylevel":[0.5,1],
    "learning_rate":[0.001,0.01,0.1,0.5]
}
# Type of scoring used to compare parameter combinations
acc_scorer = metrics.make_scorer(metrics.roc_auc_score)

# Run the grid search
grid_obj = GridSearchCV(xgb_tuned, parameters,scoring=acc_scorer,cv=5,n_jobs=-1)
grid_obj = grid_obj.fit(X_train_dumm, y_train_dumm,sample_weight=compute_sample_weight("balanced", y_train_dumm))

# Set the clf to the best combination of parameters
xgb_tuned = grid_obj.best_estimator_

# Fit the best algorithm to the data.->이 코딩과 무관하게 정확도 등 값은 동일하게 나옴.
xgb_tuned.fit(X_train_dumm, y_train_dumm,sample_weight=compute_sample_weight("balanced", y_train_dumm))

y_pred = xgb_tuned.predict(X_val_dumm)

print('훈련 정확도 :', xgb_tuned.score(X_train_dumm,y_train_dumm))
print('검증 정확도 :', xgb_tuned.score(X_val_dumm, y_val_dumm))
print('F1 score :', f1_score(y_val_dumm, y_pred))
print('AUC 점수 :', roc_auc_score(y_val_dumm, y_pred))
print('REPORT',classification_report(y_val_dumm,y_pred)) 

### 4-1. CatBoost  (AUC:0.72)

In [None]:
# catboost, ordinalencoder

pipe_cat_o = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    CatBoostClassifier(random_state=2))

pipe_cat_o.fit(X_train, y_train)
y_pred = pipe_cat_o.predict(X_val)

print('훈련 정확도 :', pipe_cat_o.score(X_train,y_train))
print('검증 정확도 :', pipe_cat_o.score(X_val, y_val))
print('F1 score :', f1_score(y_val, y_pred))
print('AUC 점수 :', roc_auc_score(y_val, y_pred))
print('REPORT',classification_report(y_val, y_pred))

### 4-2. CatBoost (null->most_frequent)  (AUC:0.73)

In [None]:
# catboost, ordinalencoder

pipe_cat_o2 = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),
    CatBoostClassifier(random_state=2))

pipe_cat_o2.fit(X_train2, y_train2)
y_pred = pipe_cat_o2.predict(X_val2)

print('훈련 정확도 :', pipe_cat_o2.score(X_train2,y_train2))
print('검증 정확도 :', pipe_cat_o2.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2, y_pred))

### 4-3. CatBoost Hyper Parameter (null->most_frequent)  (AUC:0.67)

In [None]:
cbc=CatBoostClassifier(random_state=2)

grid = {'depth': [4,5,6,7,8,9, 10],
        'learning_rate' : [0.01,0.02,0.03,0.04],
        'iterations'    : [10, 20,30,40,50,60,70,80,90, 100]}

gscv = GridSearchCV (estimator = cbc, param_grid = grid, scoring ='roc_auc', cv = 5)

gscv.fit(X_train_dumm,y_train_dumm,sample_weight=compute_sample_weight("balanced", y_train_dumm))

print(gscv.best_estimator_)
print(gscv.best_score_)
print(gscv.best_params_)



In [None]:
# catboost, ordinalencoder

pipe_cat_o2_h = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    SimpleImputer(strategy='most_frequent'),
    CatBoostClassifier(random_state=2,depth=9,iterations=100,learning_rate=0.04))

pipe_cat_o2_h.fit(X_train_dumm, y_train_dumm)
y_pred = pipe_cat_o2_h.predict(X_val_dumm)

print('훈련 정확도 :', pipe_cat_o2_h.score(X_train_dumm,y_train_dumm))
print('검증 정확도 :', pipe_cat_o2_h.score(X_val_dumm, y_val_dumm))
print('F1 score :', f1_score(y_val_dumm, y_pred))
print('AUC 점수 :', roc_auc_score(y_val_dumm, y_pred))
print('REPORT',classification_report(y_val_dumm, y_pred))

### 4-4. CatBoost Hyper Parameter (null->most_frequent)  (AUC:0.72)

In [None]:
###### catboost, ordinalencoder

pipe_cat_o2_h = make_pipeline(
    OrdinalEncoder(), # 범주형 자료를 모델링할 때는 원핫보다 오디널이 좋음! 중요한 노드가 상위에서 선택되어야하는데 원핫을하면 적용이 잘 안됨! 한가지 특성이 여러가지로 나눠지기 때문에! 그래서 노미널인코딩이라도 오디널을 사용함! 트리에서는 순서가 상관없어서 괜찮다!
    CatBoostClassifier(random_state=2,loss_function='MultiClass',depth=10,iterations=100,learning_rate=0.04))

pipe_cat_o2_h.fit(X_train2, y_train2)
y_pred = pipe_cat_o2_h.predict(X_val2)

print('훈련 정확도 :', pipe_cat_o2_h.score(X_train2,y_train2))
print('검증 정확도 :', pipe_cat_o2_h.score(X_val2, y_val2))
print('F1 score :', f1_score(y_val2, y_pred))
print('AUC 점수 :', roc_auc_score(y_val2, y_pred))
print('REPORT',classification_report(y_val2, y_pred))

### 최종 모델링

In [None]:
xgb_tuned = XGBClassifier(random_state=25,eval_metric='logloss') # 조기 중단을 위한 평가지표 eval_metric

# Grid of parameters to choose 

parameters = {
    "n_estimators": np.arange(10,100,20),
    "scale_pos_weight":[0,5],
    "colsample_bylevel":[0.5,1],
    "learning_rate":[0.001,0.01,0.1,0.5]}

# Type of scoring used to compare parameter combinations
acc_scorer = metrics.make_scorer(metrics.roc_auc_score)

# Run the grid search
grid_obj = GridSearchCV(xgb_tuned, parameters,scoring=acc_scorer,cv=5,n_jobs=-1)
grid_obj = grid_obj.fit(X_train_dumm, y_train_dumm,sample_weight=compute_sample_weight("balanced", y_train_dumm))

# Set the clf to the best combination of parameters
xgb_tuned = grid_obj.best_estimator_

# Fit the best algorithm to the data.->이 코딩과 무관하게 정확도 등 값은 동일하게 나옴.
xgb_tuned.fit(X_train_dumm, y_train_dumm,sample_weight=compute_sample_weight("balanced", y_train_dumm))

y_pred = xgb_tuned.predict(X_val_dumm)

print('훈련 정확도 :', xgb_tuned.score(X_train_dumm,y_train_dumm))
print('검증 정확도 :', xgb_tuned.score(X_val_dumm, y_val_dumm))
print('F1 score :', f1_score(y_val_dumm, y_pred))
print('AUC 점수 :', roc_auc_score(y_val_dumm, y_pred))
print('REPORT',classification_report(y_val_dumm,y_pred)) 

In [None]:
# roc_curve(타겟값, prob of 1)

model = xgb_tuned

y_pred_proba = model.predict_proba(X_val_dumm)[:, 1]
fpr, tpr, thresholds = roc_curve(y_val_dumm, y_pred_proba)

roc = pd.DataFrame({
    'FPR(Fall-out)': fpr, 
    'TPRate(Recall)': tpr, 
    'Threshold': thresholds
})
# print(roc)

# roc 시각화
plt.rcParams["figure.figsize"] = (10,4)
plt.subplot(121)
plt.scatter(fpr, tpr)
plt.title('ROC curve')
plt.xlabel('FPR(Fall-out)')
plt.ylabel('TPR(Recall)');

# threshold 최대값의 인덱스, np.argmax()
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]
print('idx:', optimal_idx, ', threshold:', optimal_threshold)

# auc 시각화
plt.subplot(122)
plt.plot(tpr-fpr);

# threshold 설정 및 레포트
y_pred_optimal = y_pred_proba >= optimal_threshold
print('Report \n',classification_report(y_val_dumm, y_pred_optimal))

# auc 점수
auc_score = roc_auc_score(y_val_dumm, y_pred_optimal)
print('최종 검증 정확도: ', accuracy_score(y_val_dumm, y_pred_optimal))
print('최종 f1 스코어',f1_score(y_val_dumm, y_pred_optimal))
print('최종 auc점수 : ', auc_score)


In [None]:
# 테스트 데이터 성능확인
model = xgb_tuned

y_pred_proba = model.predict_proba(X_test_dumm)[:, 1]
fpr, tpr, thresholds = roc_curve(y_test_dumm, y_pred_proba)

roc = pd.DataFrame({
    'FPR(Fall-out)': fpr, 
    'TPRate(Recall)': tpr, 
    'Threshold': thresholds
})
# print(roc)

# roc 시각화
plt.rcParams["figure.figsize"] = (10,4)
plt.subplot(121)
plt.scatter(fpr, tpr)
plt.title('ROC curve')
plt.xlabel('FPR(Fall-out)')
plt.ylabel('TPR(Recall)');

# threshold 최대값의 인덱스, np.argmax()
optimal_idx = np.argmax(tpr - fpr)
optimal_threshold = thresholds[optimal_idx]
print('idx:', optimal_idx, ', threshold:', optimal_threshold)

# auc 시각화
plt.subplot(122)
plt.plot(tpr-fpr);

# threshold 설정 및 레포트
y_pred_optimal = y_pred_proba >= optimal_threshold
print('Report \n',classification_report(y_test_dumm, y_pred_optimal))

# auc 점수
auc_score = roc_auc_score(y_test_dumm, y_pred_optimal)
print('최종 검증 정확도: ', accuracy_score(y_test_dumm, y_pred_optimal))
print('최종 f1 스코어',f1_score(y_test_dumm, y_pred_optimal))
print('최종 auc점수 : ', auc_score)


# 머신러닝모델해석

### Feature Importance

In [None]:
# 3. EDA한 DATA의 수치데이터 없애고 카테고리화한 데이터로 훈련검증데이터셋 만들기-> 재실행

category_columns=['Ages','MonthlyIncomeSection','DurationOfPitchSection']
numerical_columns=['MonthlyIncome','Age','DurationOfPitch']

data[category_columns] = data[category_columns].astype('category')

# 카테고리화한 데이터를 수치형으로 변경하기
category_data=pd.get_dummies(data,drop_first=True)

# 훈련/검증셋 나누기

train_dumm, test_dumm = train_test_split(category_data, test_size=0.2, random_state=2)
train_dumm, val_dumm = train_test_split(train_dumm, test_size=0.2, random_state=2)

target = 'ProdTaken'
features = category_data.columns.drop([target])


In [None]:
train_dumm_=train_dumm[features]

In [None]:
importances = pd.Series(model.feature_importances_, train_dumm_.columns)
plt.figure(figsize=(10,10))
importances.sort_values().plot.barh();

In [None]:
new_category_data=['CityTier', 'NumberOfPersonVisiting', 'NumberOfFollowups',
       'PreferredPropertyStar', 'NumberOfTrips', 'Passport',
       'PitchSatisfactionScore', 'OwnCar', 'NumberOfChildrenVisiting',
       'TypeofContact_Self Enquiry', 'Occupation_Large Business',
       'Occupation_Salaried', 'Occupation_Small Business', 'Gender_Male',
       'ProductPitched_Deluxe', 'ProductPitched_King',
       'ProductPitched_Standard', 'ProductPitched_Super Deluxe',
       'MaritalStatus_Married', 'MaritalStatus_Single',
       'MaritalStatus_Unmarried', 'Designation_Executive',
       'Designation_Manager', 'Designation_Senior Manager', 'Designation_VP',
       'Ages_20', 'Ages_30', 'Ages_40', 'Ages_50', 'Ages_60',
       'DurationOfPitchSection_~10', 'DurationOfPitchSection_~15',
       'DurationOfPitchSection_~20', 'DurationOfPitchSection_~25',
       'DurationOfPitchSection_~30', 'DurationOfPitchSection_~35',
       'DurationOfPitchSection_~40', 'MonthlyIncomeSection_~20000',
       'MonthlyIncomeSection_~25000', 'MonthlyIncomeSection_~30000',
       'MonthlyIncomeSection_~35000', 'MonthlyIncomeSection_~40000',
       'MonthlyIncomeSection_~45000', 'MonthlyIncomeSection_~50000',
       'MonthlyIncomeSection_~100000']

In [None]:
plt.rcParams['figure.dpi'] = 144

for i in new_category_data:
    feature = i
    isolated = pdp_isolate(
        model=model, 
        dataset=train_dumm_, 
        model_features=train_dumm_.columns, 
        feature=feature,
        grid_type='percentile', # default='percentile', or 'equal'
        num_grid_points=10 # default=10
    )
    pdp_plot(isolated, feature_name=feature);

In [None]:
shap.initjs()
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(train_dumm_.iloc[:100])
shap.force_plot(explainer.expected_value, shap_values, train_dumm_.iloc[:100])

In [None]:
shap_values = explainer.shap_values(train_dumm_.iloc[:300])
shap.summary_plot(shap_values, train_dumm_.iloc[:300])

In [None]:
shap.summary_plot(shap_values, train_dumm_.iloc[:300], plot_type="violin")


In [None]:
shap.summary_plot(shap_values, train_dumm_.iloc[:300], plot_type="bar")


### 결론

데이터가 다음 아래의 내용이 없어 분석하는데 아쉬운 부분이 있었다.
1. 어떤 사람 대상인지, 
2. 수집된 시점은 언제인지(코로나 전/후), 
3. 어디서 수집 됐는지(어느 지역(나라), 
4. 고객이 만족도를 어떻게 표시한 부분인지,
5. 데이터의 단위누락(소득이 개인인지, 가정인지, 프레젠테이션 기간의 단위는 일인건지)
6. 고객이 선택한 여행을 위해 지출한 비용

하지만 모든 데이터가 완벽할 수 없는 것처럼 우리가 확보한 가장 좋은 것은 VIP에 대한 정보이다.  
각 그래프 확인 결과 당초 특성의 연관분석에 대해 시각화한 것과 마찬가지로 PassPort가 가장 상위에서 연관성이 있음을 확인할 수 있다.  
현재 사용가능한 데이터를 사용한 것이 1955개의 데이터만 사용했음에도 고객이 여행상품을 선택할지에 대한 괜찮은 성능의 Modeling을 했다.  

현재 다뤄본 데이터는 일반적인 여행사가 고객의 소득자료까지는 알 수 없으니 고소득자의 금융권 데이터와 여행사의 합성데이터라고 간주하였다.  
또한 우리나라의 경우 해당 소득군에 있는 사람들은 해외여행을 즐기기에 여권이 있는 경우가 많다고 보아, 여권이 필요없고 고소득자가 많은 곳은 미국으로 간주하였다.   
회사에서 해당 VIP의 고객유치를 확충하기 위해서는 여행을 스스로 알아볼 수 있도록 SNS 바이럴마케팅을 이용하는 것이 효과적일 것으로 보인다.
나이대별로 아이와 같이 지내기 좋은 basic한 등급을 여름휴가, 겨울휴가에 맞춰 바이럴마케팅을 하여 패키지여행을 할 수 있도록 광고해야하는데, 고객군 대부분이 남자인 것을 볼 때, 육아에 지친 엄마를 위해서 아빠가 어떤 특징을 고려하는지 부각시킨다면 효과적으로 보일 것이라 기대한다.  

프레젠테이션 이후 이뤄진 조치의 만족도 또한 고객이 선택하는데 중요한 요소이기에 높이기 위해서는 회사에서 영업사원을 위한 교육이 필요할 것으로 보인다.   
만족도를 높이기 위해 어떤 식으로 말해야하는지 교육을 하며, 주력상품을 홍보하기 위해 리플렛, 홈페이지는 어떤 식으로 관리되고 있는지 확인하고,  
홈페이지에서는 가능한한 어렵지 않게 고객이 여행상품을 구입할 수 있도록 ux-ui를 관리하는 것이 필요할 것으로 보인다.

위의 분석을 바탕으로 여행사에서 갖고있는 추가적인 내부 데이터를 활용하여  
여행사입장에서는 고객에게 맞춤형서비스를 제공하며, 소비자는 추가적인 조사 없이 여행상품을 선택한다면,  
여행사는 광고비용을, 소비자는 시간을 절감하는 데이터분석이 가능할 것으로 기대한다.
