# **빅데이터 개론 Lab 14 - Support Vector Machine(SVM)**

참고자료 : https://www.notion.so/TA-2689a38b5289413a82671d3956fea103

- - -




### **Support Vector Machine(SVM)**

* 분류와 회귀를 수행 가능하며, 딥러닝이 나온 이후에도 여전히 활발히 사용되고 있는 머신 러닝 알고리즘이다. 
* 분류를 위한 결정 경계 (Decision Boundary) 를  정의하는 모델이다.
* 직관적으로 자료를 클래스별로 가장 잘 분리하는 결정 경계는 가장 가까운 훈련용 자료까지의 거리(이를 마진(margin)이라 함)가 가장 큰 경우이며, 마진이 가장 큰 결정 경계를 분류기(classifier)로 사용할 때, 새로운 자료에 대한 오류율이 가장 낮아진다.
즉, 최대 마진을 가지는 선형분류별에 기초하며, 속성들 간의 의존성은 고려하지 않는 방법이다.
* 서포트 벡터들은 두 클래스 사이의 경계에 위치한 데이터 포인트들을 말한다. 이 데이터들이 결정경계를 지지(support)하고 있다고 말할 수 있으므로 서포트 벡터라고 부른다. 

<br>

<p align="center"><img src="https://github.com/Jin0331/TA/blob/master/image/svm1.png?raw=true" width="425"/> </p>

<br>

* 선형분류 뿐 아니라, 커널 트릭(kernel trick)이라 불리는 다차원 공간상으로의 맵핑(mapping) 기법을 사용하여 비선형분류도 효율적으로 수행한다.

<br>

<p align="center"><img src="https://github.com/Jin0331/TA/blob/master/image/svm2.png?raw=true" width="425"/> <img src="https://github.com/Jin0331/TA/blob/master/image/svm3.png?raw=true" width="425"/> </p>


* 커널 트릭 (Kernel Trick)

<br>

<p align="center"><img src="https://github.com/Jin0331/TA/blob/master/image/k_1.png?raw=true" width="300"/> <img src="https://github.com/Jin0331/TA/blob/master/image/k_2.png?raw=true" width="425"/> </p>

<br>

* SVM을 수행하는 R 패키지에는 {e1071}, {kernlab}, {klaR}, {svmpath}, {shogun} 등이 있다.
이 가운데 {e1071} 패키지가 R에서 가장 먼저 소개되었으며 가장 직관적

### **SVM 예시**


In [None]:
install.packages(c("tidyverse", "caret", "e1071"))

- - -

#### **A. Heart Disease**

* https://archive.ics.uci.edu/ml/datasets/heart+disease

* 변수 설명

```
Age : age in years
Sex: sex (1 = male; 0 = female) # Factor
ChestPain : (typical angina, atypical angina, non-anginal pain, asymptomatic # Factor
RestBP(혈압) : resting blood pressure
Chol(콜레스테롤 수치) : serum cholestoral in mg/dl
Fbs(혈당) : (fasting blood sugar > 120 mg/dl) (1 = true; 0 = false) # Factor
Restecg(심전도) : (0 = normal, 1 = having ST-T wave abnormality, 2 =  showing probable or definite left ventricular hypertrophy by Estes' criteria) # Factor
MaxHR : maximum heart rate achieved
ExAng(협심증?): exercise induced angina (1 = yes; 0 = no) # Factor
Oldpeak = ST depression induced by exercise relative to rest
Slope: the slope of the peak exercise ST segment(1 = upsloping, 2 = flat, 3 = downsloping) # Factor
Ca: number of major vessels (0-3) colored by flourosopy # Factor
Thal: 3 = normal; 6 = fixed defect; 7 = reversable defect # Factor

# the predicted attribute(반응변수)

AHD : diagnosis of heart disease (angiographic disease status)(0 = < 50% diameter narrowing, 1 =  > 50% diameter narrowing)

# http://archive.ics.uci.edu/ml/datasets/heart+Disease
```

In [None]:
library(tidyverse)
heart_df <- read_csv("https://raw.githubusercontent.com/Jin0331/TA/master/data/heart/Heart.csv") 
str(heart_df)

* mutate를 이용한 데이터 타입 변경(int or chr ---> factor)

In [None]:
heart_df <- heart_df %>% 
 mutate_at(`.vars` = c("Sex", "ChestPain", "Fbs", "RestECG", "ExAng", "Slope", "Ca", "Thal", "AHD"), `.funs` = as.factor)
heart_df %>% str()

In [None]:
summary(heart_df)

In [None]:
heart_df <- heart_df %>% na.omit()

In [None]:
summary(heart_df)

* **train-test split**

In [None]:
library(caret) 
set.seed(51)
index <- createDataPartition(y = heart_df$AHD, p = 0.7, list = FALSE) 
train <- heart_df[index, ]
test <- heart_df[-index, ]

* e1071 package - svm

```
* type : svm()의 수행 방법(분류, 회귀 또는 novelty detection)을 정한다. 반응변수() 가 범주형인지
의 여부에 따라 정해지며, 디폴트는 C-classification 또는 eps-regression 이다. 
* kernel : 훈련과 예측에 사용되는 커널로, "radial" 옵션은 가우시안 RBF를 의미한다. 실제 문제에서 커
널의 선택이 결과의 정확도에 큰 영향을 주지는 않는다
* gamma : 선형을 제외한 모든 커널에 요구되는 모수로, 디폴트는 1/(데이터 차원) 이다.
* cost : 제약 위배의 비용으로, 디폴트는 1 이다.
```

In [None]:
# rbf
svm_AHD <- svm(formula = AHD ~ ., data = train, type = "C-classification", kernel = "radial")
summary(svm_AHD)

In [None]:
# rbf parameter
svm_AHD2 <- svm(formula = AHD ~ ., data = train, type = "C-classification", kernel = "radial",
               cost = 1000, gamma = 0.1)
summary(svm_AHD2)

* test를 이용한 예측 및 평가(svm_AHD, svm_AHD2)

In [None]:
test %>% show()

* svm_AHD

In [None]:
predict_value <- predict(svm_AHD, test) %>% 
 tibble(predict_value = .)
predict_check <- test %>% select(AHD) %>% dplyr::bind_cols(., predict_value) 
predict_check %>% show()

In [None]:
cm <- caret::confusionMatrix(predict_value$predict_value, test$AHD)
draw_confusion_matrix(cm)

* svm_AHD2

In [None]:
predict_value <- predict(svm_AHD2, test) %>% 
 tibble(predict_value = .)
predict_check <- test %>% select(AHD) %>% dplyr::bind_cols(., predict_value) 
predict_check %>% show()

In [None]:
cm <- caret::confusionMatrix(predict_value$predict_value, test$AHD)
draw_confusion_matrix(cm)

* tune()
  * gamma 범위 : 1e-08 ~ 10
  * cost 범위 : 1 ~ 30
  * 총 10 * 30 = 300개의 조합

In [None]:
tuned <- tune.svm(AHD ~ ., data = train, gamma = 10^(-8:1), cost = 1:30)

In [None]:
tune_summary <- summary(tuned)
tune_summary

In [None]:
best_parameter <- tune_summary$best.parameters
best_parameter # best_parameter[1,1] == gamma / best_parameter[1,2] == cost

In [None]:
svm_AHD_tune <- svm(AHD ~ ., data = train, type = "C-classification", kernel = "radial",
 gamma = best_parameter[1,1], cost = best_parameter[1,2])

In [None]:
summary(svm_AHD_tune)

In [None]:
predict_value <- predict(svm_AHD_tune, test) %>% 
 tibble(predict_value = .)
predict_check <- test %>% select(AHD) %>% dplyr::bind_cols(., predict_value) 
predict_check %>% show()

In [None]:
cm <- caret::confusionMatrix(predict_value$predict_value, test$AHD)
draw_confusion_matrix(cm)

- - -

#### **B. titanic**

* https://www.kaggle.com/c/titanic/data

**<kaggle의 타이타닉 data>**

  * survived : 생존=1, 죽음=0
  * pclass : 승객 등급. 1등급=1, 2등급=2, 3등급=3
  * sibsp : 함께 탑승한 형제 또는 배우자 수
  * parch : 함께 탑승한 부모 또는 자녀 수
  * ticket : 티켓 번호
  * cabin : 선실 번호
  * embarked : 탑승장소 S=Southhampton, C=Cherbourg, Q=Queenstown

In [None]:
train <- read_csv("https://raw.githubusercontent.com/Jin0331/TA/master/data/titanic/train.csv")

In [None]:
str(train)

In [None]:
train %>% summary()

* 범주형 변수 확인

In [None]:
train <- train %>% 
 select(-PassengerId, -Name, -Cabin, -Ticket) %>% mutate_at(c("Survived","Sex","Embarked", "Pclass"), factor)
summary(train)

* Hmisc::impute을 이용한 NA 값 대체(평균, 중앙값, 특정 숫자)

* https://m.blog.naver.com/PostView.nhn?blogId=tjdudwo93&logNo=221142961499&proxyReferer=https:%2F%2Fwww.google.com%2F

In [None]:
install.packages("Hmisc")

In [None]:
library(Hmisc)
train$Age <- impute(train$Age, median)

In [None]:
train %>% summary()

In [None]:
train <- train %>% na.omit()

In [None]:
train %>% summary()

* **train을 이용한 SVM 모델 생성**

In [None]:
tuned <- tune.svm(Survived ~ ., data = train, gamma = 10^(-8:1), cost = 1:30)
tune_summary <- summary(tuned)
tune_summary

In [None]:
tuned_l <- tune.svm(Survived ~ ., data = train, cost = 8^(-10:1), kernel = "linear")
tune_summary_l <- summary(tuned_l)
tune_summary_l

In [None]:
best_parameter <- tune_summary$best.parameters
best_parameter # best_parameter[1,1] == gamma / best_parameter[1,2] == cost

In [None]:
best_parameter_l <- tune_summary_l$best.parameters
best_parameter_l # best_parameter[1,1] == cost

In [None]:
svm_tune <- svm(Survived ~ ., data = train, type = "C-classification", kernel = "radial",
 gamma = best_parameter[1,1], cost = best_parameter[1,2])

In [None]:
svm_linear <- svm(Survived ~ ., data = train, type = "C-classification", kernel = "linear",
 cost = best_parameter[1,1])

* 생성한 2개의 SVM 모델을 이용하여 kaggle에 제출 및 평가받기

In [None]:
test <- read_csv("https://raw.githubusercontent.com/Jin0331/TA/master/data/titanic/test.csv")
test %>% summary()

* NA 값 추정(median)

In [None]:
test$Age <- impute(test$Age, median)
test$Fare <- impute(test$Age, median)
test %>% summary()

* 범주형 변수

In [None]:
test <- test %>% 
 select(-Name, -Cabin, -Ticket) %>% mutate_at(c("Sex","Embarked", "Pclass"), factor)
summary(test)

* 예측(model_grid 모델, model_linear)

In [None]:
# model
predict_value <- predict(svm_tune, test) %>% tibble(Survived = .)
submission1 <- test %>% select(PassengerId) %>% dplyr::bind_cols(., predict_value) %>% 
 write_csv(path = "submission1.csv")

 # model
predict_value <- predict(svm_linear, test) %>% tibble(Survived = .)
submission1 <- test %>% select(PassengerId) %>% dplyr::bind_cols(., predict_value) %>%
  write_csv(path = "submission2.csv")

* https://rpubs.com/mohammedkb/Titanic

### Confusion Matrix plot code

In [None]:
#https://stackoverflow.com/questions/23891140/r-how-to-visualize-confusion-matrix-using-the-caret-package

draw_confusion_matrix <- function(cm) {

  total <- sum(cm$table)
  res <- as.numeric(cm$table)

  # Generate color gradients. Palettes come from RColorBrewer.
  greenPalette <- c("#F7FCF5","#E5F5E0","#C7E9C0","#A1D99B","#74C476","#41AB5D","#238B45","#006D2C","#00441B")
  redPalette <- c("#FFF5F0","#FEE0D2","#FCBBA1","#FC9272","#FB6A4A","#EF3B2C","#CB181D","#A50F15","#67000D")
  getColor <- function (greenOrRed = "green", amount = 0) {
    if (amount == 0)
      return("#FFFFFF")
    palette <- greenPalette
    if (greenOrRed == "red")
      palette <- redPalette
    colorRampPalette(palette)(100)[10 + ceiling(90 * amount / total)]
  }

  # set the basic layout
  layout(matrix(c(1,1,2)))
  par(mar=c(2,2,2,2))
  plot(c(100, 345), c(300, 450), type = "n", xlab="", ylab="", xaxt='n', yaxt='n')
  title('CONFUSION MATRIX', cex.main=2)

  # create the matrix 
  classes = colnames(cm$table)
  rect(150, 430, 240, 370, col=getColor("green", res[1]))
  text(195, 435, classes[1], cex=1.2)
  rect(250, 430, 340, 370, col=getColor("red", res[3]))
  text(295, 435, classes[2], cex=1.2)
  text(125, 370, 'Predicted', cex=1.3, srt=90, font=2)
  text(245, 450, 'Actual', cex=1.3, font=2)
  rect(150, 305, 240, 365, col=getColor("red", res[2]))
  rect(250, 305, 340, 365, col=getColor("green", res[4]))
  text(140, 400, classes[1], cex=1.2, srt=90)
  text(140, 335, classes[2], cex=1.2, srt=90)

  # add in the cm results
  text(195, 400, res[1], cex=1.6, font=2, col='white')
  text(195, 335, res[2], cex=1.6, font=2, col='white')
  text(295, 400, res[3], cex=1.6, font=2, col='white')
  text(295, 335, res[4], cex=1.6, font=2, col='white')

  # add in the specifics 
  plot(c(100, 0), c(100, 0), type = "n", xlab="", ylab="", main = "DETAILS", xaxt='n', yaxt='n')
  text(10, 85, names(cm$byClass[1]), cex=1.2, font=2)
  text(10, 70, round(as.numeric(cm$byClass[1]), 3), cex=1.2)
  text(30, 85, names(cm$byClass[2]), cex=1.2, font=2)
  text(30, 70, round(as.numeric(cm$byClass[2]), 3), cex=1.2)
  text(50, 85, names(cm$byClass[5]), cex=1.2, font=2)
  text(50, 70, round(as.numeric(cm$byClass[5]), 3), cex=1.2)
  text(70, 85, names(cm$byClass[6]), cex=1.2, font=2)
  text(70, 70, round(as.numeric(cm$byClass[6]), 3), cex=1.2)
  text(90, 85, names(cm$byClass[7]), cex=1.2, font=2)
  text(90, 70, round(as.numeric(cm$byClass[7]), 3), cex=1.2)

  # add in the accuracy information 
  text(30, 35, names(cm$overall[1]), cex=1.5, font=2)
  text(30, 20, round(as.numeric(cm$overall[1]), 3), cex=1.4)
  text(70, 35, names(cm$overall[2]), cex=1.5, font=2)
  text(70, 20, round(as.numeric(cm$overall[2]), 3), cex=1.4)
}