In [1]:
#!pip install scikit-learn

In [29]:
import pandas as pd
import numpy as np

## scikit learn의 공통 interface (머신러닝 지도 학습 모델에 공통적으로 사용되는 메서드)
- fit : 학습 시키기 <br><br>
- predict : 예측 시키기 <br><br>
- score : 예측률 확인하기 <br><br>

---

### scikit learn을 이용하여 iris 데이터 가져오기

In [2]:
from sklearn.datasets import load_iris
iris_datasets = load_iris()

### iris 데이터 구성 확인하기
- 딕셔너리와 유사한 Bunch 클래스의 객체 <br><br>
- 키와 값으로 구성되어 있다.

In [5]:
print(type(iris_datasets))
print(iris_datasets.keys())

<class 'sklearn.utils._bunch.Bunch'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [6]:
# DESCR 에 간단한 설명이 들어있다. 
print(iris_datasets['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [7]:
# target_names : class가 들어 있다. 
iris_datasets.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
# feature_names : feature column이 들어있다. 
iris_datasets.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [11]:
# data의 타입 확인하기
type(iris_datasets.data)

numpy.ndarray

### 성과 측정 하기
- scikit-learn 의 train_test_split 함수를 이용하여 적절하게 train data와 test data를 나눈다. 

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
X_train , X_test , y_train , y_test = train_test_split(
    iris_datasets['data'], # feature data
    iris_datasets['target'], # target data
    random_state=0 # 책에서만 사용되는 코드이다.
)

In [14]:
print(X_train.shape , X_test.shape , y_train.shape , y_test.shape)

(112, 4) (38, 4) (112,) (38,)


In [28]:
# y_train class 개수 세기
pd.Series(y_train).value_counts()

2    41
0    37
1    34
dtype: int64

### 머신러닝 모델 만들기
- scikit-learn의 k-최근접 이웃 알고리즘 이용하기 <br><br>
- scikit-learn의 모든 머신러닝 모델은 Estimator라는 파이썬 클래스로 각각 구현되어 있다. <br><br>

In [30]:
from sklearn.neighbors import KNeighborsClassifier

In [31]:
# k-최근접 이웃 알고리즘 이용하여 머신러닝 모델 만들기
# k = 1
knn = KNeighborsClassifier(n_neighbors=1)

- knn 객체 자체에는 훈련 데이터 자체를 저장한다. <br><br>
- 저장하기 위해서는 fit 메서드를 이용해야 된다. <br><br>

In [32]:
# 이부분이 데이터를 학습시킨 것과 같은 의미이다.
knn.fit(X_train, y_train)

### 예측하기
- 5 , 2.9 , 1 ,0.2 인 데이터 줘서 예측시켜보기 <br><br>
- 예측할 데이터는 항상 2차원 배열이여야 한다.

In [43]:
X_new = np.array([[5 , 2.9 , 1 , 0.2]])

In [44]:
X_new.shape

(1, 4)

In [45]:
# 예측하기
prediction = knn.predict(X_new)

print(prediction , iris_datasets['target_names'][prediction])

[0] ['setosa']


### test 데이터로 모델 평가하기

In [51]:
y_pred = knn.predict(X_test)

예측률 :  97.36842105263158


In [53]:
# 예측률 확인하기
# np.mean 이용하기
print(np.mean(y_pred == y_test))

# knn 의 score 이용하기 
print(knn.score(X_test,y_test))

0.9736842105263158
0.9736842105263158
