## 분류 (Classification)

##### 분류 알고리즘1. KNN (K-Nearest-Neighbors)

In [None]:
# 모델 학습
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=7) # n_neighbors 의 값을 바꾸어서 모델의 정확도를 향상시킬 수 있다(하이퍼파라미터 튜닝)
knn.fit(x_train,y_train)

In [None]:
# 예측
y_knn_pred=knn.predict(x_test)
print('예측값:',y_knn_pred[:5])

In [None]:
# 성능 평가
from sklearn.metrics import accuracy_score
knn_acc=accuracy_score(y_test,y_knn_pred)
print('Accuracy:%.4f' % knn_acc)

##### 분류 알고리즘2. SVN (Support Vector Machine)

In [None]:
# 모델 학습
from sklearn.svm import SVC
svc=SVC(kernel='rbf')
svc.fit(x_train,y_train)

# 예측
y_svc_pred=svc.predict(x_test)
print('예측값:',y_svc_pred[:5])

# 성능 평가
svc_acc=accuracy_score(y_test,y_svc_pred)
print('Accuracy:%.4f' % svc_acc)

##### 분류 알고리즘3. 로지스틱 회귀 (Logistic Regression)

In [1]:
# 모델 학습
from sklearn.linear_model import LogisticRegression
lrc=LogisticRegression()
lrc.fit(x_train,y_train)

# 예측
y_lrc_pred=lrc.predict(x_test)
print('예측값:',y_lrc_pred[:5])

# 성능 평가
lrc_acc=accuracy_score(y_test,y_lrc_pred)
print('Accuracy:%.4f' % lrc_acc)

# 확률값 예측
y_lrc_prob=lrc.predict_proba(x_test)
y_lrc_prob

##### 분류 알고리즘4. 의사결정나무 (Decision Tree)

In [None]:
# 모델 학습
from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier(max_depth=3, random_state=20)
dtc.fit(x_train,y_train)

# 예측
y_dtc_pred=dtc.predict(x_test)
print('예측값:',y_dtc_pred[:5])

# 성능 평가
dtc_acc=accuracy_score(y_test,y_dtc_pred)
print('Accuracy:%.4f' % dtc_acc)

##### 앙상블 모델1. 보팅 (Voting)

In [None]:
# Hard Voting 모델 학습 및 예측
from sklearn.ensemble import VotingClassifier
hvc=VotingClassifier(estimators=[('KNN',knn),('SVM',svc),('DT',dtc)],voting='hard')
hvc.fit(x_train,y_train)

# 예측
y_hvc_pred=hvc.predict(x_test)
print('예측값:',y_hvc_pred[:5])

# 성능 평가
hvc_acc=accuracy_score(y_test,y_hvc_pred)
print('Accuracy:%.4f' % hvc_acc)

##### 앙상블 모델2. 배깅 (Bagging)

In [None]:
# 모델 학습 및 검증
from sklearn.ensemble import RandomForestClassifier
rfc=RandomForestClassifier(n_estimators=50,max_depth=3,random_state=20)
rfc.fit(x_train,y_train)

# 예측
y_rfc_pred=rfc.predict(x_test)
print('예측값:',y_rfc_pred[:5])

# 모델 성능 평가
rfc_acc=accuracy_score(y_test,y_rfc_pred)
print('Accuracy:%.4f' % rfc_acc)

##### 앙상블 모델3. 부스팅 (Boosting)

In [None]:
# 모델 학습 및 예측
from xgboost import XGBClassifier
xgbc=XGBClassifier(n_estimators=50,max_depth=3,random_state=20)
xgbc.fit(x_train,y_train)

# 예측
y_xgbc_pred=xgbc.predict(x_test)
print('예측값:',y_xgbc_pred[:5])

# 모델 성능 평가
xgbc_acc=accuracy_score(y_test,y_xgbc_pred)
print('Accuracy:%.4f' % xgbc_acc)

##### 교차 검증1. Hold-out

###### 학습(training) 데이터의 일부를 검증(validation) 데이터로 사용하는 방법입니다.

In [None]:
# 검증용 데이터셋 분리
x_tr,x_val,y_tr,y_val=train_test_split(x_train,y_train,
                                       test_size=0.3,
                                       shuffle=True,
                                       random_state=20) 
# shuffle 옵션을 True로 설정하면 데이터를 랜덤하게 섞은 후 분리 추출함
# 데이터 순서와 관계없는 예측모델의 일반성을 확인해 볼 수 있음
print(x_tr.shape,y_tr.shape)
print(x_val.shape,y_val.shape)

# 학습
rfc=RandomForestClassifier(max_depth=3,random_state=20)
rfc.fit(x_tr,y_tr)

# 예측
y_tr_pred=rfc.predict(x_tr)
y_val_pred=rfc.predict(x_val)

# 검증
tr_acc=accuracy_score(y_tr,y_tr_pred)
val_acc=accuracy_score(y_val,y_val_pred)
print('Train Accuracy:%.4f' % tr_acc)
print('Validation Accuracy:%.4f' % val_acc)

# 테스트 데이터 예측 및 평가
y_test_pred=rfc.predict(x_test)
test_acc=accuracy_score(y_test,y_test_pred)
print('Test Accuracy:%.4f' % test_acc)

##### 교차 검증2. K-fold

###### Hold-out 방법을 여러번 반복하는 방법입니다.

In [None]:
# 데이터셋을 5개의 Fold로 분할하는 KFold 클래스 객체 생성
from sklearn.model_selection import KFold
kfold=KFold(n_splits=5,shuffle=True,random_state=20)

# 훈련용 데이터와 검증용 데이터의 행 인덱스를 각 Fold별로 구분하여 생성
num_fold=1
for tr_idx,val_idx in kfold.split(x_train):
    print('%s Fold----------------------------------------------' % num_fold)
    print('훈련:',len(tr_idx),tr_idx[:10])
    print('검증:',len(val_idx),val_idx[:10])
    num_fold=num_fold+1

# 훈련용 데이터와 검증용 데이터의 행 인덱스를 각 Fold별로 구분하여 생성
val_scores=[]
num_fold=1
for tr_idx,val_idx in kfold.split(x_train,y_train):
    # 훈련용 데이터와 검증용 데이터를 행 인덱스 기준으로 추출
    x_tr,x_val=x_train.iloc[tr_idx,:],x_train.iloc[val_idx,:]
    y_tr,y_val=y_train.iloc[tr_idx],y_train.iloc[val_idx]
    
    # 학습
    rfc=RandomForestClassifier(max_depth=5,random_state=20)
    rfc.fit(x_tr,y_tr)
    
    # 검증
    y_val_pred=rfc.predict(x_val)
    val_acc=accuracy_score(y_val,y_val_pred)
    print('%d Fold Accuracy:%.4f' % (num_fold,val_acc))
    val_scores.append(val_acc)
    num_fold+=1

# 평균 Accuracy 계산
import numpy as np
mean_score=np.mean(val_scores)
print('평균 검증 Accuracy:',np.round(mean_score,4))