<a href="https://colab.research.google.com/github/jg116907/NLPstudy/blob/master/Scikit_learn_basic_intro_and_classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Scikit-learn Basic
- 파이썬용 머신러닝 라이브러리
- 크게 5가지의 모듈로 나뉜다.
  - 지도학습을 위한 모듈
    - 나이브 베이즈(Naive Bayes)
    - 의사결정 트리(Decision Tree)
    - 서포트 벡터 머신(SVM)
  - 비지도학습을 위한 모듈
    - 군집화(Clustering)
    - 가우시안 혼합 모델(Gaussian mixture models)
  - 모델 선택 및 평가를 위한 모듈
    - 교차 검증(Cross validation)
    - 모델 평가(Model evaluation)
    - 모델 저장과 불러오기
  - 데이터 변환 및 데이터 불러오기를 위한 모듈
    - 파이프라인(Pipeline)
    - 특징 추출(Feature extraction)
    - 데이터 전처리(Preprocessing data)
    - 차원 축소(dimensionality reduction)
  - 계산 성능 향상을 위한 모듈

In [1]:
# 버전 확인
import sklearn
sklearn.__version__

'0.21.3'

## Scikit-learn으로 Iris 데이터 분류하기

- 데이터 정보 확인

In [13]:
from sklearn.datasets import load_iris

iris_dataset = load_iris()
print("iris_dataset key : {}".format(iris_dataset.keys()))

iris_dataset key : dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [14]:
print(iris_dataset['data'][:5]) # 독립 변수의 데이터를 5행 까지만 확인
print("shape of data : {}".format(iris_dataset['data'].shape)) # 150행 4열

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
shape of data : (150, 4)


In [9]:
print(iris_dataset['feature_names']) # 독립 변수들의 이름

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [10]:
print(iris_dataset['target']) # 종속 변수 데이터, label 값
print(iris_dataset['target_names']) # 종속 변수들의 이름

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [15]:
print(iris_dataset['DESCR']) # iris 데이터에 대한 전체적인 요약정보

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

- Train / Test 분리

In [0]:
from sklearn.model_selection import train_test_split

In [0]:
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'],iris_dataset['target'],test_size=0.25,random_state=42) # 25%를 test로 분리

In [18]:
# 3:1로 나눠진 것을 확인
print("shape of train_input : {}".format(train_input.shape))
print("shape of test_input : {}".format(test_input.shape))
print("shape of train_label : {}".format(train_label.shape))
print("shape of test_input : {}".format(test_label.shape))

shape of train_input : (112, 4)
shape of test_input : (38, 4)
shape of train_label : (112,)
shape of test_input : (38,)


### KNN 모델 사용

In [0]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 1) # k = 1 인 분류기를 생성

In [20]:
knn.fit(train_input, train_label) # 학습 데이터에 적용

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')

- 새로운 input 데이터를 분류해보기

In [0]:
import numpy as np
new_input = np.array([[6.1,2.8,4.7,1.2]]) # 새로운 input 값 생성

In [22]:
knn.predict(new_input) # Versicolor로 예측한다

array([1])

- 모델 성능 측정

In [23]:
predict_label = knn.predict(test_input) # test 데이터를 분류
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [24]:
print('test accuracy {:.2f}'.format(np.mean(predict_label==test_label))) # 정확도 산출

test accuracy 1.00


### K-means 모델 사용

In [0]:
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3)

In [26]:
k_means.fit(train_input) # 비지도 학습이기 때문에 input data만 받는다

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [27]:
k_means.labels_ # 분류된 cluster를 확인

array([1, 1, 0, 0, 0, 1, 1, 0, 0, 2, 0, 2, 0, 2, 0, 1, 2, 0, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 2, 1, 0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 2, 1,
       1, 0, 2, 1, 0, 1, 1, 0, 0, 2, 0, 2, 2, 0, 1, 1, 0, 2, 1, 1, 1, 0,
       2, 1, 2, 2, 1, 0, 0, 0, 2, 2, 1, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 0,
       2, 2, 1, 0, 2, 2, 1, 2, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 2], dtype=int32)

In [28]:
print("0 cluster : ",train_label[k_means.labels_==0])
print("1 cluster : ",train_label[k_means.labels_==1])
print("2 cluster : ",train_label[k_means.labels_==2])

0 cluster :  [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]
1 cluster :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
2 cluster :  [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]


In [0]:
import numpy as np
new_input = np.array([[6.1,2.8,4.7,1.2]]) # 새로운 input 값 생성

In [30]:
prediction = k_means.predict(new_input)
print(prediction)

[0]


In [32]:
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[0 1 2 0 0 1 0 2 0 0 2 1 1 1 1 0 2 0 0 2 1 0 1 2 2 2 2 2 1 1 1 1 0 1 1 0 0
 1]


In [34]:
# 라벨링을 제대로 해준 뒤 성능 측정
np_arr = np.array(predict_cluster)
np_arr[np_arr==0],np_arr[np_arr==1],np_arr[np_arr==2] = 3,4,5
np_arr[np_arr==3] = 1
np_arr[np_arr==4] = 0
np_arr[np_arr==5] = 2
predict_label = np_arr.tolist()
print(predict_label)

[1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0]


In [35]:
print('test accuracy {:.2f}'.format(np.mean(predict_label==test_label))) # 정확도 산출

test accuracy 0.95
