 # * sklearn 라이브러리에서 간단한 분류 모델


## - SVM ( Support Vector Machine )
  

* svm(서포트벡터머신:분류, 회귀) 알고리즘 : 분류(SVC), 회귀(SVR)
		- fit() : 학습기계에 데이터를 학습시키는 메소드
		- predict() : 데이터를 넣고 예측하는 메소드
		- metrics.accuracy_score() : 정확도 측정 (검증)

<img src='./imgs/svm.png' width='500' height='380'>

    

----------------------------------------------------

### + 사용알고리즘 SVC ( 분류 )

    from sklearn import svm

    model = svm.SVC()

    * 매개변수
    
        1) gamma
            - 데이터포인트 사이의 거리는 가우시안 커널에 의해 계산되는데, 가우시안 커널의 폭을 제어하는 매개변수    
            - 하나의 훈련 샘들이 미치는 영향의 범위를 결정
            - gamma값이 크면 모델이 더 복잡해진다
        2) C
            - 각 포인트의 중요도를 제한
            
---            
            
### + 머신러닝 프로그램 절차

    (1) 데이타 읽기
    
    (2) 데이터와 레이블 분리 변수 선언 - 데이타와 타켓(레이블)
         * 데이타 분리 (열)
        
    (3) 학습데이타와 검증 데이타 분류 - train_test_split()
         * 데이타 분리 (행)
    
    (4) 알고리즘 적용하여  학습 - fit()
    
    (5) 예측 - predict()
    
    (6) 정확도 - accuracy_score()
    
    (7) 검증하기 - score()

In [18]:
import sys
!{sys.executable} -m pip install sklearn





In [19]:
!pip uninstall sklearn
import pandas as pd
from sklearn import datasets
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

In [20]:
#  1. 데이타로딩
iris = datasets.load_iris()

# 2. 데이터와 레이블 분리 변수 선언
X= iris.data
y= iris.target
iris['data'][:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [25]:
# 3. 데이터셋 분리 ( 학습데이타:검증데이타 = 7:3 )

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=0)

print(X_train[:10])
print(X_test[:10])
print(y_train[:10])
print(y_test[:10])

[[5.  2.  3.5 1. ]
 [6.5 3.  5.5 1.8]
 [6.7 3.3 5.7 2.5]
 [6.  2.2 5.  1.5]
 [6.7 2.5 5.8 1.8]
 [5.6 2.5 3.9 1.1]
 [7.7 3.  6.1 2.3]
 [6.3 3.3 4.7 1.6]
 [5.5 2.4 3.8 1.1]
 [6.3 2.7 4.9 1.8]]
[[5.8 2.8 5.1 2.4]
 [6.  2.2 4.  1. ]
 [5.5 4.2 1.4 0.2]
 [7.3 2.9 6.3 1.8]
 [5.  3.4 1.5 0.2]
 [6.3 3.3 6.  2.5]
 [5.  3.5 1.3 0.3]
 [6.7 3.1 4.7 1.5]
 [6.8 2.8 4.8 1.4]
 [6.1 2.8 4.  1.3]]
[1 2 2 2 2 1 2 1 1 2]
[2 1 0 2 0 2 0 1 1 1]


In [47]:
# 4. 알고리즘 데이터를 학습시키고 예측하기 ( 테스트 데이타로 예측 )

from sklearn import svm
import numpy as np

model = svm.SVC(gamma='auto')
model.fit(X_train, y_train)

# 5. 예측하기
newData = np.array([[5.,  2.  ,3.5 ,1. ]])
result = model.predict(newData)
print(iris['target_names'][result])

# 6. 정확도 ( 예측값과 테스트라벨의 차이 )

print('훈련점수: ', model.score(X_train, y_train))
print('테스트점수: ', model.score(X_test, y_test))

# 7. 검증하기 

y_predict = model.predict(X_test)
print('정확도:', np.mean(y_test == y_predict))


newdata = np.array([[6.5 ,3.  ,5.5 ,1.8]])
result = model.predict(newdata)
print(iris['target_names'][result])

['versicolor']
훈련점수:  0.9809523809523809
테스트점수:  0.9777777777777777
정확도: 0.9777777777777777
['virginica']


---
---


# [참고만] 일반 데이타셋인 경우  

#### 학습데이타와 테스트데이타로 나누고 데이타 분리한다면

###   ## train_test_split 함수 사용하지 않는 경우

In [45]:
from sklearn import svm, metrics
import random, re   # re : 정규표현식

# 1. 붓꽃 데이터 읽어 들이기
csv = []

with open('../data/iris/iris.csv','r', encoding='utf-8') as fp: 
	# iris.csv 파일을 r(읽기모드)로 열다
	for line in fp: # 한 줄씩 읽어오기
		line = line.strip()   # 줄바꿈 제거
		cols = line.split(',')# 쉼표로 컬럼을 구분

		# 문자열 데이터를 숫자(실수)로 변환하기
        # 파이썬의 삼항연산자
        # (값)=(True일 때의 값) if (조건) else (False일 때의 값)
        
		fn = lambda n:float(n) if re.match(r'^[0-9\.]+$',n) else n
		cols = list(map(fn, cols))
		csv.append(cols)
		# 추후에 pandas로 간편하게 데이타셋 읽어올 수 있음


# 헤더(컬럼명) 제거
del csv[0]

# 품종별로 데이타 순서로 있기에 학습데이타와 테스트데이타를 나누기 전에 섞는다
# 그래야 각각의 데이타에 품종별로 골로루 데이타가 들어가도록
random.shuffle(csv)

# 학습데이타와 테스트 데이터로 분리하기
total_len = len(csv)
train_len = int(total_len*2/3) # 학습데이타 2/3, 테스트데이터 1/3

train_data=[]
train_label=[]

test_data=[]
test_label=[]


for i in range(total_len):
	data=csv[i][0:4]
	label=csv[i][4]
	if i < train_len:
		train_data.append(data)
		train_label.append(label)
	else:
		test_data.append(data)
		test_label.append(label)

print(train_data[:10])
print(train_label[:10])
print(test_data[:10])
print(test_label[:10])

[[7.6, 3.0, 6.6, 2.1], [6.3, 2.9, 5.6, 1.8], [7.2, 3.2, 6.0, 1.8], [4.9, 3.6, 1.4, 0.1], [5.5, 2.4, 3.7, 1.0], [4.6, 3.1, 1.5, 0.2], [6.0, 2.7, 5.1, 1.6], [5.6, 3.0, 4.5, 1.5], [5.7, 3.8, 1.7, 0.3], [5.6, 2.5, 3.9, 1.1]]
['"Virginica"', '"Virginica"', '"Virginica"', '"Setosa"', '"Versicolor"', '"Setosa"', '"Versicolor"', '"Versicolor"', '"Setosa"', '"Versicolor"']
[[5.0, 3.4, 1.6, 0.4], [5.2, 2.7, 3.9, 1.4], [6.1, 2.9, 4.7, 1.4], [6.8, 2.8, 4.8, 1.4], [6.1, 3.0, 4.6, 1.4], [4.8, 3.1, 1.6, 0.2], [5.8, 4.0, 1.2, 0.2], [6.3, 3.4, 5.6, 2.4], [6.6, 3.0, 4.4, 1.4], [7.2, 3.0, 5.8, 1.6]]
['"Setosa"', '"Versicolor"', '"Versicolor"', '"Versicolor"', '"Versicolor"', '"Setosa"', '"Setosa"', '"Virginica"', '"Versicolor"', '"Virginica"']


In [46]:
# 분류모델을 이용하여 학습데이타를 넣고 훈련하고 예측한다
clf = svm.SVC(gamma='auto') 
clf.fit(train_data, train_label)   # 학습하기

pre_label = clf.predict(test_data) # 예측하기

# 검증하기 - 정확도 
ac_score = metrics.accuracy_score(test_label, pre_label)
print(ac_score)

1.0
