# SVM

[참고하면 좋은 글](https://hleecaster.com/ml-svm-concept/)

* SVM 알고리즘
 - 분류를 위한 기준선을 정의하는 모델
 - 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류 과제를 수행

<br>

[![](https://i0.wp.com/hleecaster.com/wp-content/uploads/2020/01/svm01.png?fit=1024%2C806)](https://hleecaster.com/ml-svm-concept/)|  
---|---


* SVM 알고리즘
 - 속성이 3개로 늘어난다면 이렇게 3차원이 된다.
 - **결정 경계**는 '선'이 아닌 '평면'이 된다.

 <br>

 [![](https://hleecaster.com/wp-content/uploads/2020/01/svm02.png)](https://hleecaster.com/ml-svm-concept/)

* 최적의 결정 경계(Decision Boundary)

 - 결정 경계는 데이터 군으로부터 최대한 멀리 떨어지는 게 좋다.
 - Support Vectors는 결정 경계와 가까이 있는 데이터 포인트들을 의미한다.

 <br>

 [![](https://hleecaster.com/wp-content/uploads/2020/01/svm03.png)](https://hleecaster.com/ml-svm-concept/)

* 마진

 - 마진(margin)은 결정 경계와 서포트 벡터 사이의 거리를 의미
 - 서포르 벡터를 이용하여 결정 경계를 정의함으로 서포트 벡터만 적합하게 선정한다면 나머지 쓸데 없는 포인트들을 무시할 수 있다. 때문에 빠르다.

<br>

[![](https://hleecaster.com/wp-content/uploads/2020/01/svm04.png)](https://hleecaster.com/ml-svm-concept/)

* 이상치(Outlier)

 - 하드 마진(hard margin): 서포트 벡터와 결정 경계 사이의 거리가 매우 좁다. 즉, 마진이 매우 작아진다. **오버피팅(overfitting)** 문제가 발생
 - 소프트 마진(soft margin): 서포트 벡터와 결정 경계 사이의 거리가 멀어졌다. 즉 마진이 커진다. **언더피팅(underfitting)** 문제가 발생

<br>

[![](https://i1.wp.com/hleecaster.com/wp-content/uploads/2020/01/svm06.png?fit=1024%2C768)](https://m.blog.naver.com/ojune575/222071492645)

* 커널(Kernel)

 - 다항식(Polynomial)

<br>

 - 방사 기저 함수
  - siklit-learn에서 모델을 불러올 때 kernel 옵션의 기본 값은 'rbf'다.
  - RBF 커널은 2차원의 점을 무한한 차원의 점으로 변환
  - 상당히 복잡한 선형대수가 사용됨

* 파라미터 C
  - scikit-learn에서는 SVM 모델이 오류를 어느 정도 혀용할 것인지 파라미터 C를 통해 지정
  - C 값이 클수록 하드마진(오류 허용 안 함), 작을수록 소프트마진(오류를 허용함)

* 파라미터 gamma
  - gamma는 결정 경계를 얼마나 유연하게 그을 것인지 정함

<br>

[![](https://hleecaster.com/wp-content/uploads/2020/01/svm11.png)](https://hleecaster.com/ml-svm-concept/)|[![](https://hleecaster.com/wp-content/uploads/2020/01/svm12.png)](https://hleecaster.com/ml-svm-concept/)|[![](https://hleecaster.com/wp-content/uploads/2020/01/svm13.png)](https://hleecaster.com/ml-svm-concept/)
---|---|---

## 1. 데이터 준비/ 기본 설정

In [1]:
### 기본 라이브러리 불러오기
import pandas as pd
import seaborn as sns

# load_dataset 함수를 사용하여 데이터프레임으로 변환
df = sns.load_dataset('titanic')

In [2]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## 2. 데이터 탐색

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


category  데이터 타입은 범주형 데이터타입임  
파이썬에서 제공하는 타입은 아니고 판다스에서 제공하는 데이터 타입  

In [4]:
# NaN 값이 많은 deck 열을 삭제, embarked와 내용이 겹치는 embark_town 열을 삭제
rdf = df.drop(['deck', 'embark_town'], axis=1)
rdf.columns.values

array(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'alive', 'alone'],
      dtype=object)

In [5]:
# age 열에 나이 데이터가 없는 모든 행을 삭제 - age 열 (891개 중 177 개의 NaN 값)
rdf = rdf.dropna(subset=['age'], how='any', axis=0)
rdf.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 714 entries, 0 to 890
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   survived    714 non-null    int64   
 1   pclass      714 non-null    int64   
 2   sex         714 non-null    object  
 3   age         714 non-null    float64 
 4   sibsp       714 non-null    int64   
 5   parch       714 non-null    int64   
 6   fare        714 non-null    float64 
 7   embarked    712 non-null    object  
 8   class       714 non-null    category
 9   who         714 non-null    object  
 10  adult_male  714 non-null    bool    
 11  alive       714 non-null    object  
 12  alone       714 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(4)
memory usage: 63.6+ KB


In [6]:
rdf['embarked'].unique()

array(['S', 'C', 'Q', nan], dtype=object)

In [7]:
rdf['embarked'].value_counts()

S    554
C    130
Q     28
Name: embarked, dtype: int64

In [8]:
# embarked 열의 NaN 값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기
most_freq = rdf['embarked'].value_counts().idxmax()
most_freq

'S'

In [9]:
rdf['embarked'].fillna(most_freq, inplace=True)

In [10]:
df.describe(include='all')    # include='all' 을 사용하면 문자열과 같이 연산할 수 없는 것들도 보여줌

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
count,891.0,891.0,891,714.0,891.0,891.0,891.0,889,891,891,891,203,889,891,891
unique,,,2,,,,,3,3,3,2,7,3,2,2
top,,,male,,,,,S,Third,man,True,C,Southampton,no,True
freq,,,577,,,,,644,491,537,537,59,644,549,537
mean,0.383838,2.308642,,29.699118,0.523008,0.381594,32.204208,,,,,,,,
std,0.486592,0.836071,,14.526497,1.102743,0.806057,49.693429,,,,,,,,
min,0.0,1.0,,0.42,0.0,0.0,0.0,,,,,,,,
25%,0.0,2.0,,20.125,0.0,0.0,7.9104,,,,,,,,
50%,0.0,3.0,,28.0,0.0,0.0,14.4542,,,,,,,,
75%,1.0,3.0,,38.0,1.0,0.0,31.0,,,,,,,,


## 3. 분석에 사용할 속성을 선택

In [11]:
# 분석에 활용할 열(속성)을 선택
ndf = rdf[['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'embarked']]
ndf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,embarked
0,0,3,male,22.0,1,0,S
1,1,1,female,38.0,1,0,C
2,1,3,female,26.0,0,0,S
3,1,1,female,35.0,1,0,S
4,0,3,male,35.0,0,0,S


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [13]:
# 원핫인코딩 - 범주형 데이터를 모형이 인식할 수 있도록 숫자형으로 변환
onehot_sex = pd.get_dummies(ndf['sex'])
onehot_sex.head()

Unnamed: 0,female,male
0,0,1
1,1,0
2,1,0
3,1,0
4,0,1


In [14]:
ndf = pd.concat([ndf, onehot_sex], axis=1)
ndf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,embarked,female,male
0,0,3,male,22.0,1,0,S,0,1
1,1,1,female,38.0,1,0,C,1,0
2,1,3,female,26.0,0,0,S,1,0
3,1,1,female,35.0,1,0,S,1,0
4,0,3,male,35.0,0,0,S,0,1


In [15]:
onehot_embarked = pd.get_dummies(ndf['embarked'], prefix='town')
onehot_embarked.head()

Unnamed: 0,town_C,town_Q,town_S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1


In [16]:
ndf = pd.concat([ndf, onehot_embarked], axis=1)
ndf.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,embarked,female,male,town_C,town_Q,town_S
0,0,3,male,22.0,1,0,S,0,1,0,0,1
1,1,1,female,38.0,1,0,C,1,0,1,0,0
2,1,3,female,26.0,0,0,S,1,0,0,0,1
3,1,1,female,35.0,1,0,S,1,0,0,0,1
4,0,3,male,35.0,0,0,S,0,1,0,0,1


In [17]:
ndf.drop(['sex', 'embarked'], axis=1, inplace=True)
ndf.head()

Unnamed: 0,survived,pclass,age,sibsp,parch,female,male,town_C,town_Q,town_S
0,0,3,22.0,1,0,0,1,0,0,1
1,1,1,38.0,1,0,1,0,1,0,0
2,1,3,26.0,0,0,1,0,0,0,1
3,1,1,35.0,1,0,1,0,0,0,1
4,0,3,35.0,0,0,0,1,0,0,1


## 4. 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

In [18]:
# 속성(변수) 선택
X = ndf[list(ndf.columns)[1:]]    # 독립 변수 X
y = ndf[list(ndf.columns)[0]]

In [19]:
X.shape

(714, 9)

In [20]:
y.shape

(714,)

In [21]:
X.head()

Unnamed: 0,pclass,age,sibsp,parch,female,male,town_C,town_Q,town_S
0,3,22.0,1,0,0,1,0,0,1
1,1,38.0,1,0,1,0,1,0,0
2,3,26.0,0,0,1,0,0,0,1
3,1,35.0,1,0,1,0,0,0,1
4,3,35.0,0,0,0,1,0,0,1


In [22]:
# 특성 정규화(normalization)
from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit(X).transform(X)

In [23]:
X[:, 4][:5]

array([-0.75905134,  1.31743394,  1.31743394,  1.31743394, -0.75905134])

In [24]:
# train data와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.3,
                                                    random_state=10)

In [25]:
print('train data 개수:', X_train.shape)
print('test data 개수: ', X_test.shape)

train data 개수: (499, 9)
test data 개수:  (215, 9)


In [26]:
print('y_train data 개수:', y_train.shape)
print('y_test data 개수: ', y_test.shape)

y_train data 개수: (499,)
y_test data 개수:  (215,)


## 5. SVM 분류 모형 - sklearn 사용

In [27]:
# sklearn 라이브러리에서 SVM 분류 모형 가져오기
from sklearn import svm
# from sklearn.svm import SVC
# 모형 객체 생성 (기본값 kernel='rbf' 적용)
svm_model = svm.SVC(C=2.0, gamma=0.2)
# train data를 가지고 모형 학습
svm_model.fit(X_train, y_train)

SVC(C=2.0, gamma=0.2)

- C(cost): 이론에서 배운 주요 파라미터로써 어느 정도의 오차를 허용할지에 대한 파라미터입니다.
- kernel: 어떤 커널함수를 사용할지에 대한 파라미터입니다. 'linear', 'sigmoid', 'rbf', 'poly'가 활용
- degree: 어느 차수까지의 다항차수로 분류를 할지에 대한 파라미터입니다. 커널함수가 'poly'일 때 사용
- gamma: 곡률 경계에 대한 파라미터입니다. 'rbf', 'poly', 'sigmoid'일 때 튜닝하는 값
- coef0: 상수값으로써 'poly', 'sigmoid'일 때 사용

In [28]:
# test data를 가지고 y_hat을 예측 (분류)
y_hat = svm_model.predict(X_test)

In [29]:
from sklearn import metrics
svm_matrix = metrics.confusion_matrix(y_test, y_hat)
svm_matrix

array([[120,   5],
       [ 32,  58]])

In [30]:
# 모형 성능 평가 - 평가지표 계산
svm_report = metrics.classification_report(y_test, y_hat)
print(svm_report)

              precision    recall  f1-score   support

           0       0.79      0.96      0.87       125
           1       0.92      0.64      0.76        90

    accuracy                           0.83       215
   macro avg       0.86      0.80      0.81       215
weighted avg       0.84      0.83      0.82       215

