In [41]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import metrics


In [42]:
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pd.read_csv('../data/iris.data', names=names)
dataset

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [43]:
#X = dataset.iloc[:, :-1].values # 모든 행의 마지막 열을 제외한 모든 열
X = dataset.values[:, :-1] 
Y= dataset.values[:, -1] # 모든 행의 마지막 열

In [44]:
# 사이키런으로 훈련 데이터와 테스트 데이터를 나눈다

from sklearn.model_selection import train_test_split # 사이킷런의 train_test_split 함수를 사용하면 편리하게 데이터를 나눌 수 있다.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2) # 80%는 훈련 데이터, 20%는 테스트 데이터로 나눈다.
print(X_train.shape, X_test.shape, Y_train.shape, Y_test.shape)

# result: train - 120개, test - 30개

(120, 4) (30, 4) (120,) (30,)


In [45]:
X_train[0:10] 

array([[6.8, 3.2, 5.9, 2.3],
       [6.2, 2.9, 4.3, 1.3],
       [7.4, 2.8, 6.1, 1.9],
       [4.8, 3.4, 1.9, 0.2],
       [5.4, 3.4, 1.7, 0.2],
       [6.3, 3.3, 6.0, 2.5],
       [6.5, 3.0, 5.2, 2.0],
       [5.8, 2.7, 5.1, 1.9],
       [6.4, 2.9, 4.3, 1.3],
       [6.0, 2.7, 5.1, 1.6]], dtype=object)

In [46]:
from sklearn.preprocessing import StandardScaler # 특성 스케일링을 위해 StandardScaler를 사용한다.
# scale 할때 표준 편차를 1로, 평균을 0로 만들어준다 
s = StandardScaler() 

X_train = s.fit_transform(X_train) # 훈련 데이터를 스케일링
X_test = s.transform(X_test) # 테스트 데이터를 스케일링
print(X_train[0:5]) # 전체 값이 -1 ~ 1 사이로 변환된 것을 확인할 수 있다 -> 정규화
print(X_test[0:5]) 

[[ 1.11461214  0.37523436  1.19623716  1.44218577]
 [ 0.41002852 -0.32468466  0.30080818  0.1291183 ]
 [ 1.81919576 -0.557991    1.30816579  0.91695879]
 [-1.23399992  0.84184705 -1.04233531 -1.31525592]
 [-0.5294163   0.84184705 -1.15426393 -1.31525592]]
[[-1.11656932  0.14192802 -1.26619255 -1.44656267]
 [-0.88170811  1.77507241 -1.04233531 -1.05264242]
 [ 0.76232033  0.37523436  0.74852267  1.04826553]
 [-0.17712449 -0.09137832  0.24484386 -0.00218845]
 [-0.5294163   2.00837875 -1.37812118 -1.05264242]]


In [47]:
from sklearn.neighbors import KNeighborsClassifier # KNN 알고리즘을 사용하기 위해 KNeighborsClassifier를 사용한다.
knn = KNeighborsClassifier(n_neighbors=50) # 이웃의 개수를 50개로 설정
knn.fit(X_train, Y_train) # 훈련 데이터를 사용하여 모델을 훈련

In [48]:
from sklearn.metrics import accuracy_score
Y_pred = knn.predict(X_test) # 테스트 데이터를 사용하여 예측
print("accuracy: {}".format(accuracy_score(Y_test, Y_pred))) # 정확도를 출력

accuracy: 0.8


In [49]:
print(Y_pred[0:10])
print(Y_test[0:10])

['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-setosa' 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa'
 'Iris-virginica' 'Iris-versicolor']
['Iris-setosa' 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor'
 'Iris-setosa' 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa'
 'Iris-virginica' 'Iris-versicolor']


In [50]:
# 좋은 K값을 찾기 위해 K값을 변화시키면서 정확도를 측정

k=50 
acc_array=np.zeros(k)
for k in np.arange(1,k+1,1):
    classiier=KNeighborsClassifier(n_neighbors=k).fit(X_train,Y_train)
    Y_pred=classiier.predict(X_test)
    acc=metrics.accuracy_score(Y_test,Y_pred) # 정확도를 계산     
    acc_array[k-1]=acc

max_acc=np.amax(acc_array)
acc_list=list(acc_array)
k=acc_list.index(max_acc)
print(acc_list)
print("Best accuracy is",max_acc,"with k=",k+1)       

[0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9666666666666667, 0.9333333333333333, 0.9666666666666667, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667, 0.9666666666666667, 0.9333333333333333, 0.9333333333333333, 0.9, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667, 0.9666666666666667, 0.9333333333333333, 0.8666666666666667, 0.9333333333333333, 0.9, 0.9666666666666667, 0.9333333333333333, 0.9333333333333333, 0.8666666666666667, 0.8666666666666667, 0.8333333333333334, 0.8, 0.8333333333333334, 0.8, 0.8, 0.8, 0.7666666666666667, 0.7666666666666667, 0.7666666666666667, 0.7666666666666667, 0.8, 0.8, 0.8, 0.7666666666666667, 0.7666666666666667, 0.7666666666666667, 0.8, 0.8, 0.8, 0.7666666666666667, 0.8]
Best accuracy is 0.9666666666666667 with k= 4


SVM

In [51]:
! pip install tensorflow 



In [52]:
from sklearn import svm
from sklearn import metrics
from sklearn import datasets
from sklearn import model_selection

import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

# TF_CPP_MIN_LOG_LEVEL 환경 변수 사용
# 로깅 제어 (기본값 0)
#INFO 로그 필터링하려면 1,
#WARNING 필터링하려면 2,
#ERROR 필터링하려면 3
#환경 변수 값 바꾸어 가면서 실행해 보는 것도 좋음 

In [53]:
iris = datasets.load_iris()  # 제이슨 형태로 데이터를 불러온다
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [54]:
x_train, x_test, y_train, y_test = model_selection.train_test_split(iris.data, 
                                                                    iris.target, 
                                                                    test_size=0.5,
                                                                    random_state=42)


In [55]:
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

(75, 4) (75, 4) (75,) (75,)


In [56]:
svm_model = svm.SVC(kernel='linear', C=1.0, gamma=0.5)  # 직선, C 값은 어느 정도 오차를 허용할 것인지, gamma는 커널의 폭을 결정하는 매개변수
svm_model.fit(X_train, Y_train)

# 예측
predictions = svm_model.predict(X_test)

# 정확도 계산
score = metrics.accuracy_score(Y_test, predictions)
print('Accuracy: {0:f}'.format(score))  # 정확도를 출력

Accuracy: 0.933333
