# 사이킷런의 주요 모듈 (3) datasets 모듈

---

#### 사이킷런은 데이터셋을 모듈로 제공하고 있으며 데이터에 대한 내용은 아래 공식 문서를 참고하세요.

[Dataset loading utilities](https://scikit-learn.org/stable/datasets/index.html#datasets)

<mark>sklearn.datasets</mark> 모듈은 크게 <mark>dataset loaders</mark>와 <mark>dataset fetchers</mark>로 나뉘며,     
각각 <mark>Toy dataset</mark>과 <mark>Real Word dataset</mark>을 제공하고 있습니다.    

우리는 Toy dataset을 다뤄볼 예정입니다.

**Toy dataset의 예시입니다:**    

* datasets.load_boston(): 회귀 문제, 미국 보스턴 집값 예측   
* datasets.load_breast_cancer(): 분류 문제, 유방암 판별    
* datasets.load_digits(): 분류 문제, 0 ~ 9 숫자 분류    
* datasets.load_iris(): 분류 문제, iris 품종 분류    
* datasets.load_wine(): 분류 문제, 와인 분류      

우리는 와인 데이터셋을 이용하겠습니다.

- - -

## datasets.load_wine() 뜯어보기

와인 분류 데이터를 다운로드한 다음 <mark>data</mark>란 변수에 할당합니다.    
그리고 자료형을 한번 확인해 보세요.

In [1]:
from sklearn.datasets import load_wine
data = load_wine()
type(data)

sklearn.utils.Bunch

<mark>sklearn.utils.Bunch</mark>라고 하는 데이터 타입이네요?     
이 타입이 무엇인지 [공식문서](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html?highlight=bunch#sklearn.utils.Bunch)를 통해 확인해 봅시다.

> ### sklearn.utils.Bunch(**kwargs)
Container object exposing keys as attributes

Bunch objects are sometimes used as an output for functions and methods.      
They extend dictionaries by enabling values to be accessed by key, bunch["value_key"], or by an attribute, bunch.value_key.

In [13]:
print(data.DESCR)
print(data)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

In [9]:
data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])

키값 data는 <mark>특성 행렬</mark>입니다. 파이썬의 딕셔너리와 유사하다고 했죠?     
키에 접근하기 위해서 .을 사용할 수 있습니다. 한번 확인해 보세요.

In [14]:
print(data.DESCR)
data.data

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

특성 행렬은 2차원이며 행에는 <mark>데이터의 개수(n_samples)</mark>가 열에는 <mark>특성의 개수(n_features)</mark>가 들어 있습니다.