### 은행 마케팅
* 은행의 데이터를 모델링하여 고객의 정기예금 가입 여부를 예측하고자 한다
* train, test셋 7:3
* 성능이 제일 좋은 모델을 찾으시오
> 최적의 모델을 이용하여 임의의 데이터를 넣고 예측하시오
* 요약
    - 데이터는 포르투칼 은행 기관의 직접 마케팅 전화통화와 관련이 있다
    - 분류 목표는 고객이
        * 정기예금에 가입할지 여부를 예측하는 것이다
* 컬럼
    - age : 나이(숫자)
    - duration : 지속 시간. 마지막 접촉 지속 시간(초)(숫자). 중요 
        * 참고 사항: 이 속성은 통화 대상에 큰 영향을 미칩니다(예:duration=0이면 y=0 => 가입하지 않음). 
    - campaign(마케팅 전화통화) : 이 캠페인 동안 클라이언트에 대해 가입(컨택) 제의를 받은 수 (숫자, 마지막 컨택 포함)
    - Pdays : 이전 통화에서 클라이언트가 마지막으로 연락 된 후 경과한 일 수 
        * (숫자, 999는 클라이언트가 이전에 연락 되지 않았음을 의미함 )
    - previous : 현재 통화 이전에 이 클라이언트에 대해 수행된 가입(컨택) 제의를 받은 수 (숫자)
    - y : 고객이 정기 예금에 가입했습니까? ( 예 : 1, 아니요 : 0)

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv('data/bank_cleaning.csv')
df.head()

Unnamed: 0,age,duration,campaign,pdays,previous,y
0,56,261,1,999,0,0
1,57,149,1,999,0,0
2,37,226,1,999,0,0
3,40,151,1,999,0,0
4,56,307,1,999,0,0


In [2]:
df.columns

Index(['age', 'duration', 'campaign', 'pdays', 'previous', 'y'], dtype='object')

In [3]:
df['y'].unique()

array([0, 1], dtype=int64)

In [4]:
features = ['age', 'duration', 'campaign', 'pdays', 'previous']
label = 'y'

X, y = df[features], df[label]
print(X)
y

       age  duration  campaign  pdays  previous
0       56       261         1    999         0
1       57       149         1    999         0
2       37       226         1    999         0
3       40       151         1    999         0
4       56       307         1    999         0
...    ...       ...       ...    ...       ...
41183   73       334         1    999         0
41184   46       383         1    999         0
41185   56       189         2    999         0
41186   44       442         1    999         0
41187   74       239         3    999         1

[41188 rows x 5 columns]


0        0
1        0
2        0
3        0
4        0
        ..
41183    1
41184    0
41185    0
41186    1
41187    0
Name: y, Length: 41188, dtype: int64

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.3)

In [6]:
print('총 개수 : ', X.shape, y.shape)
print('train 개수 : ', X_train.shape, y_train.shape )
print('test 개수 : ', X_test.shape, y_test.shape )

총 개수 :  (41188, 5) (41188,)
train 개수 :  (28831, 5) (28831,)
test 개수 :  (12357, 5) (12357,)


In [7]:
from sklearn.neighbors import KNeighborsClassifier

#모델 생성
kn = KNeighborsClassifier()

#학습
kn.fit(X_train, y_train)

#평가
kn.score(X_test, y_test)

0.896495913247552

In [8]:
from sklearn.tree import DecisionTreeClassifier

# 모델 생성
dt_clf = DecisionTreeClassifier()

# 학습
dt_clf.fit( X_train, y_train )

# 평가
dt_clf.score( X_test, y_test )

0.865582261066602

In [9]:
import sklearn.svm as svm
svm_rbf = svm.SVC(kernel='rbf')
svm_rbf.fit(X_train, y_train)
svm_rbf.score(X_test, y_test)

0.9056405276361577

In [10]:
svm_rbf = svm.SVC(kernel='rbf')
svm_rbf.fit(X_train, y_train)
svm_rbf.score(X_test, y_test)

0.9056405276361577

In [11]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc.score( X_test, y_test)

0.8915594399935259

In [12]:
svm_rbf = svm.SVC(kernel='rbf', probability=True)
svm_rbf.fit(X_train, y_train)

kn = KNeighborsClassifier()
kn.fit(X_train, y_train)

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier()

In [13]:
from sklearn.ensemble import VotingClassifier
vo = VotingClassifier(estimators=[('svc',svm_rbf),('knn',kn),('DecisionTree',dt_clf)] , voting='soft' )
vo.fit(X_train, y_train)
print('svm rbf : ', svm_rbf.score(X_test, y_test))
print('kn ', kn.score(X_test, y_test))
print('dt_clf ', dt_clf.score(X_test, y_test))
print('vo : ', vo.score(X_test, y_test))

svm rbf :  0.9056405276361577
kn  0.896495913247552
dt_clf  0.8649348547382051
vo :  0.8998138706805859


In [14]:
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc.score(X_test,y_test)

0.8888888888888888

In [15]:
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc.score(X_test,y_test)

0.907825523994497

In [16]:
df.head(2)

Unnamed: 0,age,duration,campaign,pdays,previous,y
0,56,261,1,999,0,0
1,57,149,1,999,0,0


In [17]:
gbc.predict([[56,261,1,999,0]])

array([0], dtype=int64)

In [18]:
pred = rfc.predict(X_test)

In [19]:
#예측 정확도 평가(Accuracy 를 통한 성능평가)
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
accuracy = accuracy_score(y_test, pred) #정확도
precision = precision_score(y_test, pred) #정밀도
recall = recall_score(y_test, pred) #재현율
f1 = f1_score(y_test, pred) #f1 score

print('정확도 : ',accuracy)
print('재현율 : ',recall)
print('정밀도 : ',precision)
print('f1_score : ',f1)

정확도 :  0.8888888888888888
재현율 :  0.3813372520205731
정밀도 :  0.4942857142857143
f1_score :  0.43052675238490257
