In [None]:
import numpy as np # 연산을 위한 numpy
import pandas as pd # 데이터프레임을 위한 pandas

In [None]:
from sklearn.datasets import load_iris # scikit-learn iris 데이터셋.
from sklearn.model_selection import train_test_split # 데이터셋을 train 데이터와 test 데이터로 나눠주는 함수.
from sklearn import svm # svm 분류 알고리즘을 사용.
from sklearn.metrics import accuracy_score # 성능 비교를 위한 함수.

In [None]:
dataset = load_iris() # iris 데이터셋을 불러오는 함수. 데이터셋 변수에 저장.

print(dataset.DESCR) # 해당 데이터셋에 대한 정보를 출력.

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [None]:
x_data = pd.DataFrame(dataset.data, columns=dataset.feature_names) # 데이터셋의 데이터를 데이터프레임의 형태로 변환하여 져장.
y_data = pd.DataFrame(dataset.target) # 데이터셋의 타겟을 데이터프레임의 형태로 변환하여 저장.

# 데이터 출력.
print(x_data)
print(y_data)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                  5.1               3.5                1.4               0.2
1                  4.9               3.0                1.4               0.2
2                  4.7               3.2                1.3               0.2
3                  4.6               3.1                1.5               0.2
4                  5.0               3.6                1.4               0.2
..                 ...               ...                ...               ...
145                6.7               3.0                5.2               2.3
146                6.3               2.5                5.0               1.9
147                6.5               3.0                5.2               2.0
148                6.2               3.4                5.4               2.3
149                5.9               3.0                5.1               1.8

[150 rows x 4 columns]
     0
0    0
1    0
2    0
3    0
4    

In [None]:
# x_data 의 행과 열의 크기를 출력.
print(x_data.shape)

(150, 4)


In [None]:
# x_data 에서 샘플의 개수, 평균, 표준 편차, 최소값, 샘플 중 25%의 값, 50%의 값, 75%의 값, 최대값 출력.
print(x_data.describe())

       sepal length (cm)  sepal width (cm)  petal length (cm)  \
count         150.000000        150.000000         150.000000   
mean            5.843333          3.057333           3.758000   
std             0.828066          0.435866           1.765298   
min             4.300000          2.000000           1.000000   
25%             5.100000          2.800000           1.600000   
50%             5.800000          3.000000           4.350000   
75%             6.400000          3.300000           5.100000   
max             7.900000          4.400000           6.900000   

       petal width (cm)  
count        150.000000  
mean           1.199333  
std            0.762238  
min            0.100000  
25%            0.300000  
50%            1.300000  
75%            1.800000  
max            2.500000  


In [None]:
# train, test 데이터를 8 : 2 로 나눔.
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, random_state=22)

# train 데이터 출력.
print(x_train)
print(y_train)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
30                 4.8               3.1                1.6               0.2
31                 5.4               3.4                1.5               0.4
89                 5.5               2.5                4.0               1.3
90                 5.5               2.6                4.4               1.2
55                 5.7               2.8                4.5               1.3
..                 ...               ...                ...               ...
102                7.1               3.0                5.9               2.1
100                6.3               3.3                6.0               2.5
44                 5.1               3.8                1.9               0.4
132                6.4               2.8                5.6               2.2
117                7.7               3.8                6.7               2.2

[120 rows x 4 columns]
     0
30   0
31   0
89   1
90   1
55   

In [None]:
# test 데이터 출력.
print(x_test)
print(y_test)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
10                 5.4               3.7                1.5               0.2
115                6.4               3.2                5.3               2.3
54                 6.5               2.8                4.6               1.5
146                6.3               2.5                5.0               1.9
63                 6.1               2.9                4.7               1.4
76                 6.8               2.8                4.8               1.4
86                 6.7               3.1                4.7               1.5
138                6.0               3.0                4.8               1.8
64                 5.6               2.9                3.6               1.3
35                 5.0               3.2                1.2               0.2
120                6.9               3.2                5.7               2.3
95                 5.7               3.0                4.2     

In [None]:
# 선형 SVM 을 통한 분류.
estimator = svm.SVC(kernel='linear')

In [None]:
# 인공지능 모델을 학습시킴.
estimator.fit(x_train, y_train)

  y = column_or_1d(y, warn=True)


SVC(kernel='linear', random_state=22)

In [None]:
y_predict = estimator.predict(x_train) # 학습시킨 인공지능 모델에 x_train 데이터를 입력으로 하여 예측.
score = accuracy_score(y_train, y_predict) # 실제 정답과 인공지능이 예측하여 출력한 답과 비교하여 정확도를 계산.
print(score) # 점수 출력.

0.9833333333333333


In [None]:
y_predict = estimator.predict(x_test) # 학습시킨 인공지능 모델에 x_test 데이터를 입력으로 하여 예측.
score = accuracy_score(y_test, y_predict) # 실제 정답과 인공지능이 예측하여 출력한 답과 비교하여 정확도를 계산.
print(score) # 점수 출력.

0.9333333333333333
