<a href="https://colab.research.google.com/github/choeuneheol/honrongmachine/blob/main/PART07_SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
#-*- coding: utf-8 -*-

### 기본 라이브러리 불러오기
import pandas as pd
import seaborn as sns

###[Step 1] 데이터 준비/기본 설정

In [2]:
# load_dataset 함수를 사용하여 데이터프레임으로 변환
df = sns.load_dataset('titanic')

# Ipython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns',15)

###[Step 2] 데이터 탐색/전처리

In [3]:
# NaN 값이 많은 deck 열 삭제, embarked와 내용이 겹치는 embark_town 열 삭제 
rdf = df.drop(['deck','embark_town'],axis=1)

# age 열에 나이 데이터가 없는 모든 행 삭제 - age 열 (891개 중 177개의 NaN 값)
rdf = rdf.dropna(subset=['age'],how='any',axis=0)

# embarked 열의 NaN 값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기
most_freq = rdf['embarked'].value_counts(dropna=True).idxmax()
rdf['embarked'].fillna(most_freq, inplace=True)

###[Step 3] 분석에 사용할 속성 선택

In [4]:
#분석에 활용할 열(속성) 선택
ndf = rdf[['survived','pclass','sex','age','sibsp','parch','embarked']]

# 원핫인코딩 - 범주형 데이터를 모형이 인식할 수 있도록 숫자형으로 변환
onehot_sex = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf,onehot_sex], axis=1)

onehot_embarked = pd.get_dummies(ndf['embarked'], prefix='town')
ndf = pd.concat([ndf, onehot_embarked], axis=1)

ndf.drop(['sex','embarked'], axis=1, inplace=True)

###[Step 4] 데이터셋 구분 - 훈련용(train data) / 검증용(test data)

In [5]:
# 속성(변수) 선택
x=ndf[['pclass','age','sibsp','parch','female','male',
       'town_C','town_Q','town_S']]     # 독립 변수 x
y=ndf['survived']                       # 종속 변수 y

#설명 변수 데이터를 정규화(normalization)
from sklearn import preprocessing
x = preprocessing.StandardScaler().fit(x).transform(x)

# train data 와 test data로 구분 (7:3 비율)
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.3, random_state=10)

print('train data 개수:', x_train.shape)
print('test data 개수:', x_test.shape)

train data 개수: (499, 9)
test data 개수: (215, 9)


###[Step 5] SVM 분류 모형 - sklearn 사용

In [6]:
# sklearn 라이브러리에서 SVM 분류 몸형 가져오기
from sklearn import svm

# 모형 객체 생성(kernel='rbf' 적용)
svm_model = svm.SVC(kernel='rbf')

#train data를 가지고 모형 학습
svm_model.fit(x_train, y_train)

#test data를 가지고 y_hat 예측(분류)
y_hat = svm_model.predict(x_test)

print(y_hat[0:10])
print(y_test.values[0:10])

[0 0 1 0 0 0 1 0 0 0]
[0 0 1 0 0 1 1 1 0 0]


In [7]:
# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
svm_matrix = metrics.confusion_matrix(y_test, y_hat)
print(svm_matrix)
print('\n')

# 모형 성능 평가 - 평가 지표 계산
svm_report = metrics.classification_report(y_test, y_hat)
print(svm_report)

[[120   5]
 [ 35  55]]


              precision    recall  f1-score   support

           0       0.77      0.96      0.86       125
           1       0.92      0.61      0.73        90

    accuracy                           0.81       215
   macro avg       0.85      0.79      0.80       215
weighted avg       0.83      0.81      0.81       215

