## <b>■ 모델성능개선</b>
### <b>※ 데이터 분석 5가지 단계</b>
    1. 데이터 수집
    2. 데이터 탐색(결측치, 이상치, 시각화->종속변수가 정규성 확인)
    3. 머신러닝 모델 훈련
    4. 모델 성능 평가 (정확도, 카파지수(일치도), 민감도, 특이도, 정밀도, 재현율, F척도, ROCC, AUC)
                                               Y축: 민감도     공격적예측
                                               X축: 1-특이도   보수적예측

### <b>□ 모델성능개선을 위한 방법</b>
    1. K-holdout
    2. caret을 통한 자동튜닝
    3. 앙상블(Ensemble)
    4. 배깅(Bagging)
    5. 부스팅(Boosting)

### <b>■ K-Holdout</b>
    1. train data와 test data를 나눌 때 비율은 8:2, 7:3 등으로 시행
![k-ho](https://mblogthumb-phinf.pstatic.net/MjAyMDAxMTBfMjE4/MDAxNTc4NjE5NTA0NTc5.Ub3YttdSVVHvReojJPpxGQbugP-xK_R6oG64vxLW0A0g.sDE6aGiiaCyiIXito3qhJgysytoI2VO6NUt8zE9Uv_Eg.PNG.sjc02183/image.png?type=w800)
<center><b>1:1 비율 시행 시 training 양이 적음 -> under fitting 발생</b><br>
    <b>2:1 비율 시행 시 training data 양이 많으므로 훈련 data에만 최적화된 모델이 생성 -> over fitting 발생</b></center><br><br>
    
![validation](https://blogfiles.pstatic.net/MjAxOTExMDlfMjA3/MDAxNTczMzAzOTU2MDIy.phxU3c8U0hnkP67vbwztLyA7byhQ7ePjuKa04YJCp0Ag.M8p1TZapTG0aItcZzfKQvPwGuK6P9z0qBZDIMPCBmZMg.PNG.sjc02183/image.png?type=w1)
    <center><b>Validation : training set의 일부를 모델의 성능 평가를 위해 희생</b></center>
    
#### <b>■ Validation을 사용하는 이유?</b>
    모델의 성능 평가를 위해서 
        훈련을 한 후 만들어진 모형이 잘 예측을 하는지 그 성능을 평가하기 위해서 사용
        
#### <b>■ Validation data로 모델의 성능을 평가하면 좋은점</b>
    1. test accuracy를 가늠해 볼 수 있다
    2. over fitting을 막을 수 있다.
        training 정확도 ≒ Validation 정확도
            -> Generalization
            
#### <b>■ train data의 양이 작을 떄는 어떻게 하는가?</b>
    Cross Validation을 사용
    
### <b>■ K-fold 교차 검정 : 모든 training data를 training과 validation으로 사용</b>
![kfold](https://miro.medium.com/max/1202/1*PdwlCactbJf8F8C7sP-3gw.png)
<center><b> 1-fold : 첫번째 모델(Fold1)은 첫번째 폴드를 테스로 활용하고 나머지 Fold2~5까지를 훈련 세트로 사용</b><br>
    $\vdots$<br>
    <b>반복 시행하면서 hyper parameter 도출</b></center>

    1. kNN : k
    2. naiveBeyes : Laplace
    3. Decision Tree : trials
    4. neural netword : hidden, learning rate
    5. SVM : lambda, gamma
    
![bpara](https://scikit-learn.org/stable/_images/grid_search_workflow.png)

    각각의 k-fold가 모델이 되고 data set에서 test data는 따로 남겨 둔 후 확인

    지난번 분류를 위해 사용한 ML 모델 : 의사결정트리
    지난번 훈련시킬 때 데이터 나눔 방식 : 훈련과 테스트로만 분리
    
    데이터 나눔 방식:
        1. 훈련 데이터 75%(훈련 50%, 검정 25%)
        2. 테스트 데이터 25%

In [None]:
# ■ 홀드 아웃 과 k 홀드 아웃 
## Estimating Future Performance ----
# partitioning data

#install.packages("caret") 
library(caret)
credit <- read.csv("credit.csv") # 독일 은행의 채무 불이행자를 예측하기 위한 데이터 

# Holdout method
# using random IDs

random_ids <- order(runif(1000)) # 난수 1000개 생성 

credit_train <- credit[random_ids[1:500],]  # 훈련 50%
credit_validate <- credit[random_ids[501:750], ] # 검정 25%
credit_test <- credit[random_ids[751:1000], ]  # 테스트 25%
 

    위 처럼 시행시 클래스가 2개(채무이행자, 채무 불이행자)라면 어떤 클래스에 편중되는 문제가 발생
    훈련데이터: 75% 중 채무이행자:채무 불이행자 = 70:30
    테스트 데이터: 25% 중 채무이행자:채무 불이행자 = 70:30 로 분류
    
    이를 해결하는 방법이 층별 랜덤 샘플링 
        createDataPartition 함수

In [None]:
# using caret function

in_train <- createDataPartition(credit$default, p = 0.75, list = FALSE) # credit$default : 라벨

credit_train <- credit[in_train, ] # 훈련 데이터 구성
credit_test <- credit[-in_train, ] # 테스트 데이터 구성 

# 10-fold CV

folds <- createFolds(credit$default, k = 10) # 전체 10폴드 교차검증을 수행하기 위해 샘플링 된 인덱스
str(folds)

In [None]:
credit01_test <- credit[folds$Fold01, ]
credit01_train <- credit[-folds$Fold01, ]

전체 10폴드 교차검증을 수행하려면 이 단계는 10회 반복되어야한다. 

## Automating 10-fold CV for a C5.0 Decision Tree using lapply() ----

library(caret)
library(C50)
library(irr)

credit <- read.csv("credit.csv")

set.seed(123)

folds <- createFolds(credit$default, k = 10)
cv_results <- lapply(folds, function(x) {
  credit_train <- credit[-x, ]
  credit_test <- credit[x, ]
  credit_model <- C5.0(default ~ ., data = credit_train)
  credit_pred <- predict(credit_model, credit_test)
  credit_actual <- credit_test$default
  kappa <- kappa2(data.frame(credit_actual, credit_pred))$value
  return(kappa)
})

str(cv_results)

### ※ 문제295. (점심시간 문제)저자는 전체 데이터를 다 써서 k-foldout 검정교차를 했지만 우리는 80%만 사용해서 10 foldout 교차검정을 할 수 있도록 코드를 수정하시오

In [None]:
library(caret)
library(C50)
library(irr)

credit <- read.csv("credit.csv",stringsAsFactors = T)

#set.seed(123)
#random_ids <- order(runif(800))
#credit <- credit[random_ids[1:800],]

in_train <- createDataPartition(credit$default,p = 0.8, list = FALSE) 
in_train
credit_train <- credit[in_train, ] # 훈련 데이터 구성
credit_test <- credit[-in_train, ] # 테스트 데이터 구성

nrow(credit_train) #601
nrow(credit_test) #199

folds <- createFolds(credit$default, k = 10)

cv_results <- lapply(folds, function(x) {
  credit_train <- credit[-x, ]
  credit_test <- credit[x, ]
  credit_model <- C5.0(default ~ ., data = credit_train)
  credit_pred <- predict(credit_model, credit_test)
  credit_actual <- credit_test$default
  kappa <- kappa2(data.frame(credit_actual, credit_pred))$value
  return(kappa)
})

str(cv_results)

### <b>■ 머신러닝 데이터 분석 시 k-fold를 사용하는 목적</b>
    1. 데이터를 전부 다 써서 k fold하고 최고의 하이퍼 파라미터를 알아내고 어떤 모델이 더 좋은지 알아내기 위한게 k fold의 주 목적
    2. 훈련 데이터와 테스트 데이터로 전체 데이터를 나누고 테스트 데이터의 정확도를 확인하고 싶을 때 createDataPartition으로 확인
```R
in_train <- createDataPartition(credit$default,p=0.75,list=FALSE)
```

### ※ 문제296. 독일 은행 채무 불이행자를 예측하기 위한 의사결정트리 모델의 성능을 높이기 위해 k-fold를 이용하는데 이번에는 kappa지수가 아니라 정확도로 출력되게 하시오

In [2]:
install.packages('irr')

Installing package into 'C:/Users/knitwill/Documents/R/win-library/3.6'
(as 'lib' is unspecified)
also installing the dependency 'lpSolve'



package 'lpSolve' successfully unpacked and MD5 sums checked
package 'irr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\knitwill\AppData\Local\Temp\Rtmp0WyeTC\downloaded_packages


In [4]:
library(caret)
library(C50)
library(irr)

credit <- read.csv("credit.csv",stringsAsFactors = T)

set.seed(123)
folds <- createFolds(credit$default, k = 10)

cv_results <- lapply(folds, function(x) {
  credit_train <- credit[-x, ]
  credit_test <- credit[x, ]
  credit_model <- C5.0(default ~ ., data = credit_train)
  credit_pred <- predict(credit_model, credit_test)
  credit_actual <- credit_test$default
  
  x <- data.frame(credit_actual, credit_pred)
  rs <- sum(x$credit_actual==x$credit_pred)/length(x$credit_actual==x$credit_pred)
  return(rs)
})
str(cv_results)
mean(unlist(cv_results))

List of 10
 $ Fold01: num 0.76
 $ Fold02: num 0.81
 $ Fold03: num 0.72
 $ Fold04: num 0.74
 $ Fold05: num 0.75
 $ Fold06: num 0.76
 $ Fold07: num 0.67
 $ Fold08: num 0.66
 $ Fold09: num 0.65
 $ Fold10: num 0.76


### ※ 문제297. 위의 의사결정트리 머신러닝 모델의 최적의 하이퍼 파라미터가 무엇인지 알아내기 위해서 trials를 주고 실행해보시오
    trials=50으로 실행해보고 정확도의 평균값을 출력하시오

In [6]:
library(caret)
library(C50)
library(irr)

credit <- read.csv("credit.csv",stringsAsFactors = T)

set.seed(123)
folds <- createFolds(credit$default, k = 10)

cv_results <- lapply(folds, function(x) {
  credit_train <- credit[-x, ]
  credit_test <- credit[x, ]
  credit_model <- C5.0(default ~ ., data = credit_train,trials=50)
  credit_pred <- predict(credit_model, credit_test)
  credit_actual <- credit_test$default
  
  x <- data.frame(credit_actual, credit_pred)
  rs <- sum(x$credit_actual==x$credit_pred)/length(x$credit_actual==x$credit_pred)
  return(rs)
})
str(cv_results)
print(mean(unlist(cv_results)))

List of 10
 $ Fold01: num 0.74
 $ Fold02: num 0.77
 $ Fold03: num 0.72
 $ Fold04: num 0.76
 $ Fold05: num 0.77
 $ Fold06: num 0.8
 $ Fold07: num 0.76
 $ Fold08: num 0.72
 $ Fold09: num 0.73
 $ Fold10: num 0.67
[1] 0.744


## ■ caret을 이용한 모델 자동튜닝
    이전에는 머신러닝 모델의 성능을 높이기 위해서 우리가 직접 모델의 성능을 높이는 하이퍼 파라미터(예: c50의 trials)를 직접 알아내야 함
    caret을 이용하면 이 패키지가 알아서 최적의 파라미터를 찾아준다.
    
http://topepo.github.io/caret/available-models.html
    
    의사결정트리의 튜닝은 model, trials, winnow 설정에 대해 3의 3제곱(27개)의 조합으로 정확도를 각각 계산해서 가장 정확도가 높은 조합을 찾아내야하는데
    caret 패키지가 이를 자동으로 찾아준다.

In [None]:
# caret 패키지 사용
credit <- read.csv('credit.csv',stringsAsFactors = T)
set.seed(300)
# C5.0 의 하이퍼 파라미터인 trials, winnow, model의 27개의 조합에 대한 각각의 정확도를 구하는 작업
m <- train(default~., data=credit, method='C5.0')
m

p <- predict(m,credit)
table(p,credit$default)

### <b>■ 튜닝 절차 customizing하기</b>
    튜닝 절차를 customizing해서 성능 향상 가능
        1. 기존 방법:
```R
m <- train(default~., data=credit,method='C5.0')
```
        2. customzing
```R
ctrl <- trainControl(method='cv',number=10,selectionFunction='oneSE')
# method='cv'               : k-fold 교차검증
# number=10                 : fold 수
# selectionFunction='oneSE' : 다양한 후보 중에서 최적의 모델을 선택하는 방법 중 하나
    best  : 후보 중 단순히 성능척도 값 중 최고값을 갖는 후보를 선택(default)
    oneSE : 최고 성능의 1 표준오차내의 가장 단순한 후보 선택
    tolerance : 사용자 지정 비율 내에 가장 단순한 후보 선택
grid <- expand.grid(.model='tree',
                    .trials=c(1,5,10,15,20,25,30,35), # trials를 8개로 제한하겠다
                    .winnow='FALSE')
m_test <- train(default~., data=credit, method='C5.0',
                metric='kappa',
                trControl=ctrl,
                truneGrid=grid)
```

In [10]:
m <- train(default~., data=credit,method='C5.0')
ctrl <- trainControl(method='cv',number=10,selectionFunction='oneSE')
grid <- expand.grid(.model='tree',
                    .trials=c(1,5,10,15,20,25,30,35), # trials를 8개로 제한하겠다
                    .winnow='FALSE')

In [8]:
m <- train(default~., data=credit, method='C5.0',
           metric='kappa',
           trControl=ctrl,
           truneGrid=grid)
p <- predict(m_test, credit)

"The metric "kappa" was not in the result set. Accuracy will be used instead."

In [11]:
ctrl <-  trainControl( method="cv", number=10,
                      selectionFunction="oneSE" )

In [12]:
grid <-  expand.grid( .model="tree",.trials= c(1, 5, 10, 15, 20, 25, 30, 35),.winnow="FALSE" )
m <- train( default~ . , data=credit, method="C5.0",metric="Kappa",trControl= ctrl,truneGrid= grid )
p <- predict( m, credit )
table( p, credit$default )

"'trials' should be <= 6 for this object. Predictions generated using 6 trials"

     
p      no yes
  no  696  12
  yes   4 288