# 사이킷런(scikit-learn)

- 파이썬용 머신러닝 라이브러리
- 모듈 구성
    - 지도학습을 위한 모듈
    - 비지도학습을 위한 모듈
    - 모델 선택 및 평가를 위한 모듈
    - 데이터 변환 및 데이터를 불러오기 위한 모듈
    - 계산 성능 향상을 위한 모듈

- 지도학습 모듈
    - 나이브 베이즈
    - 의사결정 트리
    - 서포트 벡터 머신
    
- 비지도학습 모듈
    - 군집화
    - 가우시안 혼합 모델
    
- 모델 선택과 평가 모듈
    - 교차 검증
    - 모델 평가
    - 모델 저장과 불러오기
    
- 데이터 변환 모듈
    - 파이프라인
    - 특징 추출
    - 데이터 전처리
    - 차원 축소

### 사이킷런 설치

In [1]:
# pip install scikit-learn

In [2]:
import sklearn
sklearn.__version__

'0.22.1'

# Iris 데이터를 이용한 머신러닝 기초 공부

In [3]:
# 사이킷런에 내장된 데이터 이용
from sklearn.datasets import load_iris

In [4]:
# 변수에 할당
iris_dataset = load_iris()
print(f"iris_dataset key: {iris_dataset.keys()}")

iris_dataset key: dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


### 각각 키의 값 확인

In [5]:
# data 값 확인 - 임의로 3개만 출력
print(iris_dataset['data'][:3])
print(f"shape of data: {iris_dataset['data'].shape}")

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]]
shape of data: (150, 4)


- 각 데이터마다 4개의 특징(feature)을 가지고 있음
- shape를 보면 150개의 데이터가 각각 4개의 특징을 가지고 있음을 확인 할 수 있음

In [6]:
# feature_names 값 확인 - 특징값이 가지는 의미 확인
print(iris_dataset['feature_names'])

['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


- sepal length : 꽃받침 길이
- sepal width : 꽃받침 너비
- petal length : 꽃잎 길이
- petal width : 꽃잎 너비

In [7]:
# target 값과 target_names 값 확인
print(iris_dataset['target'])
print(iris_dataset['target_names'])

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


- target
    - 데이터에 대한 정답, 즉 라벨값을 가짐
    - 3개의 라벨을 가지고 있음
    
- target_names
    - iris의 세 가지 종(setosa, versicolor, virginica)을 나타냄

In [8]:
# DESCR 값 확인
print(iris_dataset['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

- DESCR = Description
    - 해당 데이터에 대한 전체적인 요약 정보
    

### 사이킷런을 이용한 데이터 분리

In [9]:
# 데이터 분리를 위한 함수 불러오기
from sklearn.model_selection import train_test_split

In [10]:
train_input, test_input, train_label, test_label = train_test_split(iris_dataset['data'], iris_dataset['target'], test_size=0.25, random_state=42)

- 함수에 나누고 싶은 데이터(데이터값, 타겟값)을 넣는다.
- 평가 데이터의 크기 설정 = test_size
    - 0 과 1 사이의 값
    - 여기서는 0.25
    - 전체 데이터의 25%를 분리 한다는 의미임
- random_state
    - 무작위로 데이터를 선택하는데 이 것을 제어하는 값
    - 함수를 여러번 사용할때 이 값이 일정하면 동일한 데이터를 선택해서 분리함

In [11]:
# 분리한 데이터들 확인
print(f"shape of train_input: {train_input.shape}")
print(f"shape of test_input: {test_input.shape}")
print(f"shape of train_label: {train_label.shape}")
print(f"shape of test_label: {test_label.shape}")

shape of train_input: (112, 4)
shape of test_input: (38, 4)
shape of train_label: (112,)
shape of test_label: (38,)


## 사이킷런을 이용한 지도학습

- 지도학습
    - 각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정
    - 즉, 모델이 예측하는 결과를 각 데이터의 정답과 비교해서 모델을 반복적으로 학습시킨다.

### K-nearest neighbor classifier(k-최근접 이웃 분류기)

- 예측하고자 하는 데이터에 대해 가장 가까운 거리에 있는 데이터의 라벨과 같다고 예측하는 방법
- 데이터에 대한 사전지식이 없는 경우의 분류에 많이 사용됨
- k 값은 예측하고자 하는 데이터와 가까운 몇 개의 데이터를 참고할 것인지를 의미함

- 특징
    - 데이터에 대한 가정이 없어 단순하다.
    - 다목적 분류와 회귀에 좋다.
    - 높은 메모리를 요구한다.
    - k값이 커지면 계산이 늦어질 수 있다.
    - 관련 없는 기능의 데이터의 규모에 민감하다.

In [12]:
# 분류기 객체를 불러와 변수에 할당
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

- n_neighbors = k 값

In [13]:
# 생성한 분류기에 학습 데이터 적용
knn.fit(train_input, train_label)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=1, p=2,
                     weights='uniform')

- 모델 학습 끝
- 학습된 모델을 이용해서 새로운 데이터의 라벨을 예측

In [14]:
# 임의의 4개의 feature값으로 테스트하기
import numpy as np
new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

- 꽃받침 길이와 너비가 6.1 이고 2.8
- 꽃잎의 길이와 너비가 4.7 이고 1.2

In [15]:
# 리스트 안에 리스트를 하지 않고 하나의 리스트로된 값을 사용하면 에러가 발생함 - 체크용
error_input = np.array([6.1, 2.8, 4.7, 1.2])

In [16]:
knn.predict(new_input)

array([1])

In [17]:
# knn.predict(error_input)

In [18]:
# 평가 데이터를 이용해서 결과값 예측하기
predict_label = knn.predict(test_input)
print(predict_label)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0 0 0 1 0 0 2 1
 0]


In [19]:
# 예측한 결과값과 실제 결과값을 비교해서 정확도 계산하기
print(f"test accuracy: {np.mean(predict_label == test_label)}")

test accuracy: 1.0


- 100%의 정확도

In [20]:
test_label

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0])

In [21]:
predict_label

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0])

## 사이킷런을 이용한 비지도학습

- 비지도학습
    - 지도학습과는 다르게 데이터에 대한 정답, 즉 라벨을 사용하지 않고 만들 수 있는 모델

### K-means Clustering(k-평균 군집화)

- clustering(군집)
    - 데이터를 특성에 따라 여러 집단으로 나누는 방법
    
- 데이터 안에서 대표하는 군집의 중심을 찾는 알고리즘

- 사이킷런 라이브러리의 k-평균 군집화 함수를 사용해 Iris 데이터를 군집화

In [22]:
from sklearn.cluster import KMeans

k_means = KMeans(n_clusters=3)

- n_clusters
    - k 값을 의미하는 군집의 개수를 설정

In [23]:
k_means.fit(train_input)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=None, tol=0.0001, verbose=0)

In [24]:
k_means.labels_

array([1, 1, 0, 0, 0, 1, 1, 0, 0, 2, 0, 2, 0, 2, 0, 1, 2, 0, 1, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 0, 2, 1, 0, 0, 1, 0, 0, 0, 0, 2, 0, 1, 0, 2, 1,
       1, 0, 2, 1, 0, 1, 1, 0, 0, 2, 0, 2, 2, 0, 1, 1, 0, 2, 1, 1, 1, 0,
       2, 1, 2, 2, 1, 0, 0, 0, 2, 2, 1, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 0,
       2, 2, 1, 0, 2, 2, 1, 2, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 2])

- 각 데이터에 라벨링이 되있는 것을 확인 할 수 있다.
- 하지만 이것은 Iris의 라벨이 아닌 3개의 군집으로 k-평균 군집화한 각 군집을 나타낸다.
- 즉, kmeans.labels_ 에 나오는 0 은 0번째 군집을 의미하지 Iris 라벨 0 setosa종을 나타내지 않는다.

### 각 군집의 종을 확인

In [25]:
print("0 cluster: ", train_label[k_means.labels_ == 0])
print("1 cluster: ", train_label[k_means.labels_ == 1])
print("2 cluster: ", train_label[k_means.labels_ == 2])

0 cluster:  [2 1 1 1 2 1 1 1 1 1 2 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 1 1 1 1 1 2 2 1 2 1]
1 cluster:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
2 cluster:  [2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 1 2 2 2 2]


- 위 결과를 보면 
    - 0번째 군집에는 라벨 0 이 주로 분포
    - 1번째 군집에는 레벨 1 이 주로 분포
    - 2번째 군집에는 라벨 2 이 주로 분포 
- 단, 위 결과는 군집화를 할때마다 변경될 수도 있음

### 임의의 데이터로 예측해보기

In [27]:
import numpy as np

new_input = np.array([[6.1, 2.8, 4.7, 1.2]])

In [28]:
# 임의의 데이터를 앞에서 학습시킨 모델에 적용해서 결과값 예측하기
prediction = k_means.predict(new_input)
print(prediction)

[0]


In [29]:
# 성능 측정
predict_cluster = k_means.predict(test_input)
print(predict_cluster)

[0 1 2 0 0 1 0 2 0 0 2 1 1 1 1 0 2 0 0 2 1 0 1 2 2 2 2 2 1 1 1 1 0 1 1 0 0
 1]


In [30]:
# 각 Iris의 종을 의미하는 라벨값으로 변경
np_arr = np.array(predict_cluster)
np_arr[np_arr == 0], np_arr[np_arr == 1], np_arr[np_arr == 2] = 3, 4, 5
np_arr[np_arr == 3] = 1
np_arr[np_arr == 4] = 0
np_arr[np_arr == 5] = 2

In [31]:
predict_label = np_arr.tolist()
print(predict_label)

[1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 1, 0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0]


In [36]:
# 예측값과 실제값을 비교해서 성능 확인
print(f"test accuracy: {np.mean(predict_label == test_label):.2f}")

test accuracy: 0.95
