## sklearn Toy dataset 활용

`sklearn(scikit-learn, 사이킷런)`은 2007년 구글 썸머 코드에서 처음 구현됐으며, python으로 구현된 가장 유명한 기계학습 오픈소스 라이브러리이다.

웹사이트에서 파일을 다운로드할 필요 없이 토이 데이터셋(Toy dataset)이 함께 제공되어 바로 기계학습을 진행해 볼 수 있다.

### Toy dataset 종류
- load_boston
- load_iris
- load_diabetes
- load_digits
- load_linnerud
- load_wine
- load_breast_cancer

https://scikit-learn.org/stable/datasets/toy_dataset.html

### Toy dataset 조회
Toy dataset은 `sklearn.utils.Bunch`라는 자료구조를 사용한다.

**Bunch**  
key-value 형식으로 구성된 확장된 사전형(dict) 타입으로,  
아래와 같이 두 가지 형태로 데이터를 조회할 수 있다.  
ex) ```bunch['value_key']```, ```bunch.value_key```  

**Bunch 공통 key**  
- **data**: 샘플 데이터, Numpy 배열.
- **target**: Label 데이터, Numpy 배열.
- **feature_names**: 샘플 데이터의 이름
- **target_names**: Label 데이터의 이름
- DESCR: 데이터 셋의 설명
- filename: 데이터 셋의 파일 저장 위치 (csv)

<br>

### sklearn의 Toy dataset 활용해보기
sklearn에서 제공하는 toy dataset 중 iris를 활용해보려고 한다.

`iris`는 통계학자인 피셔가 소개한 데이터로,  
붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침(sepal)과 꽃잎(petal)의 길이와 너비를 정리한 데이터다.  
크기가 작고 이해하기 쉬우며 기계 학습 분야 중 하나인 분류(Classification)에 적합하다.  

아래와 같은 과정으로 데이터를 다뤄보자
- iris(붓꽃) 데이터 로드하기
- iris 데이터 살펴보기
- iris 데이터를 trainDataSet과 testDataSet으로 분리해보기

#### iris 데이터 로드하기

In [10]:
from sklearn.datasets import load_iris

In [14]:
iris = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

`iris`를 보면 'data', 'target', 'target_names', 'feature_names' 을 key로 가지고 있는 것을 확인할 수 있다.  
- 'data': 샘플 데이터
- 'target': 샘플 데이터에 대한 라벨 데이터
- 'target_names': ['setosa', 'versicolor', 'virginica']  
    => 3가지로 구성
- 'feature_names': ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']  
    => 꽃받침의 길이, 너비, 꽃잎의 길이, 너비. 총 4개의 컬럼으로 구성  
    
특이사항 : target 데이터를 보면 순서대로 정렬되어 있는 것을 볼 수 있음  
=> 그대로 기계학습에 넣게되면 높은 정확성을 얻기 힘듦  
=> shuffle하여 임의값을 선정해서 기계학습을 할 수 있도록 해주어야 함  

<br>

In [13]:
print(iris['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [None]:
#### Summary Statistics (요약 통계) 살펴보기

# ============== ==== ==== ======= ===== ====================
#                 Min  Max   Mean    SD   Class Correlation
# ============== ==== ==== ======= ===== ====================
# sepal length:   4.3  7.9   5.84   0.83    0.7826            => 낮은편
# sepal width:    2.0  4.4   3.05   0.43   -0.4194            => 낮은편(가장 낮음)
# petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)   => 높은편
# petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)   => 높은편
# ============== ==== ==== ======= ===== ====================

# > Class Correlation 을 통해 petal이 상관계수가 높은 것을 확인할 수 있다.