SVM
- Support Vector Machine
- 벡터 개념을 사용
- 데이터프레임의 각 열(분석 대상) -> 열 벡터 형태
- 속성(열 벡터) n개 -> n차원 벡터로 표시

In [10]:
# <예제 7-5> SVM 모형

import pandas as pd
import seaborn as sns

'''
step 1 데이터 준비 / 기본 설정
'''

df = sns.load_dataset("titanic")

# Ipython 디스플레이 설정 변경 - 출력할 열의 개수 늘리기
pd.set_option("display.max_columns",15)

'''
step 2 데이터 탐색 / 전처리
'''

# NaN값이 많은 "deck"열과, 중복 열인"embark_town"열 삭제
rdf = df.drop(["deck","embark_town"],axis = 1)

# age열에 나리 데이터가 없는 모든 행 삭제
rdf = rdf.dropna(subset = ["age"],how = "any",axis = 0)

# embarked열의 NaN값을 최빈값으로 변경
most_freq = rdf["embarked"].value_counts(dropna = True).idxmax()
rdf["embarked"].fillna(most_freq,inplace = True)

'''
step 3 분석에 사용할 속성(열) 선택
'''
ndf = rdf[["survived","pclass","sex","age","sibsp","parch","embarked"]]

# 원핫인코딩 - 범주형 데이터를 숫자형으로 변경(0,1)
# "sex","embarked"열 변경
onehot_sex = pd.get_dummies(ndf["sex"])
ndf = pd.concat([ndf,onehot_sex],axis = 1)

onehot_embarked = pd.get_dummies(ndf["embarked"],prefix = "town")
ndf = pd.concat([ndf,onehot_embarked],axis = 1)

ndf.drop(["sex","embarked"],axis = 1, inplace = True)

'''
step 4 데이터 셋 구분 - 훈련용(train data) / 검증용(test data)
'''

# 속성 선택
# 독립 변수 X
X = ndf[["pclass","age","sibsp","parch","female","male",
        "town_C","town_Q","town_S"]]
# 종속 변수 y
y = ndf["survived"]

# 독립변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

# train data 와 test data 분리 (7:3)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,
                                                    test_size = 0.3,
                                                    random_state = 10)

print("train data 개수", X_train.shape)
print("test data 개수", X_test.shape)
print("\n")

'''
step 5 SVM 분류 모형 - sklearn 사용
'''

# sklearn 라이브러리에서 SVM 분류 모형 가져오기
from sklearn import svm

# 모형 객체 생성
# SVC() 함수 사용 (kernel = "rbf" 적용)
svm_model = svm.SVC(kernel = "rbf")

#trian data 를 가지고 모형 학습
svm_model.fit(X_train, y_train)

# test data와 모델을 가지고 y_hat 예측(분류)
y_hat = svm_model.predict(X_test)

print(y_hat[0:10])
print(y_test.values[0:10])

print("\n")

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
svm_matrix = metrics.confusion_matrix(y_test,y_hat)
print(svm_matrix)
print("\n")

# 모형 성능 평가 - 평가 지표 계산
svm_report = metrics.classification_report(y_test, y_hat)
print(svm_report)

train data 개수 (499, 9)
test data 개수 (215, 9)


[0 0 1 0 0 0 1 0 0 0]
[0 0 1 0 0 1 1 1 0 0]


[[120   5]
 [ 35  55]]


              precision    recall  f1-score   support

           0       0.77      0.96      0.86       125
           1       0.92      0.61      0.73        90

    accuracy                           0.81       215
   macro avg       0.85      0.79      0.80       215
weighted avg       0.83      0.81      0.81       215

