# Scikit Learn Datasets

- sklearn 은 공부를 위한 데이터셋을 api형식으로 제공
- [설명 문서](https://scikit-learn.org/stable/datasets/toy_dataset.html)에서 'Toy Dataset'이라고 표현하고 있으며, 용량이 크지 않고 깔끔해서 공부할 때 사용하기 좋음
- 회귀(예측)를 위한 데이터, 분류를 위한 데이터가 잘 나뉘어 있음

## Iris Data

통계학 공부하면 가장 많이 보는 데이터셋이라 예시로 사용, 적절한 분류(Classification)가 목적인 데이터

In [8]:
from sklearn.datasets import load_iris
# 딕셔너리 형태로 데이터가 전달됨
iris = load_iris()
print(iris.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


### 독립변수 X

In [16]:
# numpy array 형태로 데이터가 들어있음
print(type(iris.data))
# 처음 10개의 데이터만 보면
print(iris.data[:10])

<class 'numpy.ndarray'>
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]


보통 다음과 같은 방법으로 사용
```python
X = iris.data
```
하지만 `feature_names`가 있으므로, 판다스를 이용해 조금 더 편하게 볼 수 있음

In [17]:
import pandas as pd
X = pd.DataFrame(iris.data, columns=iris.feature_names)
X.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


### 종속변수 y

In [18]:
# numpy array 형태로 데이터가 들어있음
print(type(iris.target))
# 처음 10개의 데이터만 보면
print(iris.target[:10])

<class 'numpy.ndarray'>
[0 0 0 0 0 0 0 0 0 0]


<span style="color:red;"><b>주의</b></span> : 정렬이 되어있음  
이 역시 다음과 같이 쓸 수 있음
```python
y = iris.target
```
하지만 `target_names`를 이용해 다음과 같이 쓸 수도 있다.

In [24]:
import numpy as np
y = pd.Series(map(lambda x: iris.target_names[x], iris.target))
y

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Length: 150, dtype: object

### 모델 평가에 사용

In [30]:
# 데이터를 학습 데이터, 평가 데이터로 나누기 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
X_train

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
50,7.0,3.2,4.7,1.4
149,5.9,3.0,5.1,1.8
67,5.8,2.7,4.1,1.0
36,5.5,3.5,1.3,0.2
...,...,...,...,...
144,6.7,3.3,5.7,2.5
106,4.9,2.5,4.5,1.7
75,6.6,3.0,4.4,1.4
111,6.4,2.7,5.3,1.9


알아서 셔플이 됨! 이제 모델에 적용해보자

In [31]:
# DT 모델 적용
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

DecisionTreeClassifier()

In [37]:
# ACC 를 통해 정확도 확인 
from sklearn.metrics import accuracy_score
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)
print(f'Acc : {acc}')

Acc : 0.9333333333333333


### 참고 : 데이터 설명

In [10]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :