### SVM ( Support Vector Machine )


#### SVM의 종류 : 3개 모두 레이블 분류에 사용


- SVC : Classification(분류) 알고리즘

- LinearSVC : 선형 커널을 빠르게 계산하는 알고리즘
    
- NuSVC : SVC와 비슷하지만 오류처리 방식이 다르다는데
    

----------------------------------------------------

### + 사용알고리즘 SVC

    from sklearn import svm

    model = svm.SVC()

    * 매개변수
    
        1) gamma
            - 데이터포인트 사이의 거리는 가우시안 커널에 의해 계산되는데, 가우시안 커널의 폭을 제어하는 매개변수    
            - 하나의 훈련 샘들이 미치는 영향의 범위를 결정
            - gamma값이 크면 모델이 더 복잡해진다
        2) C
            - 각 포인트의 중요도를 제한
            
### + 머신러닝 프로그램의 기본 흐름

    (1) 데이타 읽기
    
    (2) 데이터와 레이블 분리 변수 선언 - 데이타와 타켓(레이블)
         * 데이타 분리 (열)
        
    (3) 학습데이터와 검증데이터셋 분류 - train_test_split()
         * 데이타 분리 (행)
    
    (4) 알고리즘 적용하여  학습 - fit()
    
    (5) 예측 - predict()
    
    (6) 정확도 - accuracy_score()
    
    (7) 검증하기 - score()

In [1]:
import pandas as pd

from sklearn import datasets
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

In [3]:
#  1. 데이타로딩
iris = datasets.load_iris()

# 2. 데이터와 레이블 분리 변수 선언
X= iris.data   # 데이터
y= iris.target # 레이블(답)
print(X)
print(y)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [5]:
# 3. 데이터셋 분리 ( 학습데이타:검증데이타 = 7:3 )
# 학습데이터 / 검증데이터로 분리 (데이터와 레이블은 앞단계에서 이미 되어있음)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.7) 

In [8]:
# 4. 알고리즘 데이터를 학습시키고 예측하기
model = svm.SVC()
model.fit(X_train, y_train)


# 5. 예측하기
y_predict =  model.predict(X_test)

# 6. 정확도
ac_score = metrics.accuracy_score(y_test, y_predict) # 실제 답과 예측값
ac_score

# 7. 검증하기 
# 학습한 결과를 바탕으로 내부적으로 args1을 바탕으로 내부적으로 값들을 예측하고 예측한 값들과 y_train과 비교
print('학습용 데이터의 정확도 : {:.3f}'.format(model.score(X_train, y_train))) 
print('검증용 데이터의 정확도 : {:.3f}'.format(model.score(X_test, y_test)))



학습용 데이터의 정확도 : 0.956
학습용 데이터의 정확도 : 0.933


---
---

# [참고] 일반 데이타셋인 경우  
## scikit-learn에서 제공하는 데이타셋이 아닌 경우

In [None]:
""" 
	` scikit-learn의 model_selection 모듈에 train_test_split()
	` sklearn 라이브러리에서 분류 모델에 관련하여 SVM과 KNN 중 SVM 이용
"""

import pandas as pd
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

# (1) 데이타 읽어오기 (pandas 이용)
csv = pd.read_csv('../data/iris/iris.csv')
print(csv[:10]) # 컬럼명이 0번째 레코드(샘플)과 분리되어 있음

# (2) 데이터와 레이블 분리 변수 선언 (실제 iris.csv 파일 컬럼명 확인)
csv_data = csv[['sepal.length','sepal.width','petal.length','petal.width']]
csv_label = csv['variety']
print(csv_data.head())
print(csv_label.head())

# (3) 훈련데이터와 테스트 데이터로 분리하기
X_train, X_test, y_train, y_test = train_test_split(csv_data, csv_label)

# (4) 분류모델로 학습하기
clf = svm.SVC(gamma='auto')
clf.fit(X_train, y_train)

# (5) 예측하기
y_predict = clf.predict(X_test)

# (6) 정확도
ac_score = metrics.accuracy_score(y_test, y_predict)
print('정확도:{}'.format(ac_score))


---
---


# [참고만] 일반 데이타셋인 경우  

#### 학습데이타와 테스트데이타로 나누고 데이타 분리한다면

###   ## train_test_split 함수 사용하지 않는 경우

In [None]:
from sklearn import svm, metrics
import random, re   # re : 정규표현식

# 1. 붓꽃 데이터 읽어 들이기
csv = []

with open('../data/iris/iris.csv','r', encoding='utf-8') as fp: 
	# iris.csv 파일을 r(읽기모드)로 열다
	for line in fp: # 한 줄씩 읽어오기
		line = line.strip()   # 줄바꿈 제거
		cols = line.split(',')# 쉼표로 컬럼을 구분

		# 문자열 데이터를 숫자(실수)로 변환하기
        # 파이썬의 삼항연산자
        # (값)=(True일 때의 값) if (조건) else (False일 때의 값)
        
		fn = lambda n:float(n) if re.match(r'^[0-9\.]+$',n) else n
		cols = list(map(fn, cols))
		csv.append(cols)
		# 추후에 pandas로 간편하게 데이타셋 읽어올 수 있음


# 헤더(컬럼명) 제거
del csv[0]

# 품종별로 데이타 순서로 있기에 학습데이타와 테스트데이타를 나누기 전에 섞는다
# 그래야 각각의 데이타에 품종별로 골로루 데이타가 들어가도록
random.shuffle(csv)

# 학습데이타와 테스트 데이터로 분리하기
total_len = len(csv)
train_len = int(total_len*2/3) # 학습데이타 2/3, 테스트데이터 1/3

train_data=[]
train_label=[]

test_data=[]
test_label=[]


for i in range(total_len):
	data=csv[i][0:4]
	label=csv[i][4]
	if i < train_len:
		train_data.append(data)
		train_label.append(label)
	else:
		test_data.append(data)
		test_label.append(label)

print(train_data[:10])
print(train_label[:10])
print(test_data[:10])
print(test_label[:10])

In [None]:
# 분류모델을 이용하여 학습데이타를 넣고 훈련하고 예측한다
clf = svm.SVC(gamma='auto') 
clf.fit(train_data, train_label)   # 학습하기

pre_label = clf.predict(test_data) # 예측하기

# 검증하기 - 정확도 
ac_score = metrics.accuracy_score(test_label, pre_label)
print(ac_score)