# 사이킷런으로 시작하는 머신러닝
* Anaconda를 설치하면 자동적으로 설치되며, 가능하면 conda로 셋업할 것을 권장함.(사이킷런에 필요한 넘파이, 사이파이등을 동시 설치해줌)
* `conda install scikit-learn` 혹은 `pip install scikit-learn`

In [4]:
import sklearn

In [6]:
sklearn.__version__

'0.23.1'

## 붓꽃 품종 예측하기
* 붓꽃의 꽃잎의 길이(sepal length) 및 너비(width), 꽃받침(petal)의 길이(length)와 너비(width)로 이루어진 데이터셋을 통한 품종 예측
* 분류는 대표적인 지도학습으로 정답을 계속 학습시킴으로 예측 성공률을 높이는 학습법
* 학습데이터와 평가를 위한 테스트 데이터셋트로 나뉨

### 관련 모듈 설명
* sklearn.datasets - 사이킷런에서 제공하는 데이터세트를 생성하는 모듈의 모임
* `sklearn.model_selection` : 학습데이터, 검증데이터,예측데이터로 데이터를 분리 혹은 최적으로 하이퍼 파라미터로 평가하기 위한 모듈 모임
* `sklearn.tree import DecisionTreeClassifier`

### 1. library load

In [11]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

### 2. 붓꽃 데이터셋 로드 
* feature들과 데이터값이 어떻게 구성되어있는지 확인

In [7]:
import pandas as pd

# 붓꽃 데이터 세트를 로드
iris = load_iris()

# 해당 값은 dictionary타입
# data키는 : 실제 붓꽃의 데이터, target - label값, target_names : 붓꽃의 품종(setosa, vesicolor, veriginical)
# DSCR - 설명
# iris_data : Iris데이터 셋트에서 피처(feature)만으로 된 데이터를 numpy로 가지고있음.
iris_data = iris.data

# IRIS.target값은 붓꽃 데이터세트에서 레이블(결정)값을 가지고있음.
iris_label = iris.target
print('iris target 값 : ', iris_label)
print('irls target 명 : ', iris.target_names)
#print(iris)

iris target 값 :  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
irls target 명 :  ['setosa' 'versicolor' 'virginica']


sepal length : 꽃받침 길이, sepal width: 꽃받침 너비, petal length: 꽃잎 길이, petal width : 꽃잎 너비,

#### Bunch
- extends builtins.dict , same as the usage of Dictionary data collection.

In [9]:
help(iris)

Help on Bunch in module sklearn.utils object:

class Bunch(builtins.dict)
 |  Bunch(**kwargs)
 |  
 |  Container object exposing keys as attributes
 |  
 |  Bunch objects are sometimes used as an output for functions and methods.
 |  They extend dictionaries by enabling values to be accessed by key,
 |  `bunch["value_key"]`, or by an attribute, `bunch.value_key`.
 |  
 |  Examples
 |  --------
 |  >>> b = Bunch(a=1, b=2)
 |  >>> b['b']
 |  2
 |  >>> b.b
 |  2
 |  >>> b.a = 3
 |  >>> b['a']
 |  3
 |  >>> b.c = 6
 |  >>> b['c']
 |  6
 |  
 |  Method resolution order:
 |      Bunch
 |      builtins.dict
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __dir__(self)
 |      Default dir() implementation.
 |  
 |  __getattr__(self, key)
 |  
 |  __init__(self, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __setattr__(self, key, value)
 |      Implement setattr(self, name, value).
 |  
 |  __setstate__(self, state)
 |  
 |  ----------

In [12]:
help(train_test_split)

Help on function train_test_split in module sklearn.model_selection._split:

train_test_split(*arrays, **options)
    Split arrays or matrices into random train and test subsets
    
    Quick utility that wraps input validation and
    ``next(ShuffleSplit().split(X, y))`` and application to input data
    into a single call for splitting (and optionally subsampling) data in a
    oneliner.
    
    Read more in the :ref:`User Guide <cross_validation>`.
    
    Parameters
    ----------
    *arrays : sequence of indexables with same length / shape[0]
        Allowed inputs are lists, numpy arrays, scipy-sparse
        matrices or pandas dataframes.
    
    test_size : float or int, default=None
        If float, should be between 0.0 and 1.0 and represent the proportion
        of the dataset to include in the test split. If int, represents the
        absolute number of test samples. If None, the value is set to the
        complement of the train size. If ``train_size`` is also Non

#### 3. 학습용 데이터와 테스트 데이터 분리
* 학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가 필요.
* 사이킷런의 `train_test_split() ` 사용

In [17]:
import numpy as np
from sklearn.model_selection import train_test_split

X, y = np.arange(10).reshape(5, 2), range(5)
X, list(y)

(array([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]]),
 [0, 1, 2, 3, 4])

In [24]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size =0.2, random_state = 42)
X_train, X_test

(array([[8, 9],
        [4, 5],
        [0, 1],
        [6, 7]]),
 array([[2, 3]]))

In [27]:
train_test_split(y, shuffle = True)

[[2, 0, 1], [3, 4]]

In [28]:
# test_size = 0.4 테스트 데이터의 비율을 40%, 학습 데이터를 80%로 분할
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                   test_size= 0.2, random_state = 11)

### 4. 학습과 예측 수행
* 사이킷런의 의사결정트리 클래스인 DecisionTreeClassifier를 객체로 생성
* 학습 : **`fit()`**

#### 4.1 학습 수행

In [31]:
# DecisionTreeClassifier 객체 생성 
dt_clf = DecisionTreeClassifier(random_state = 11)
# 학습수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

#### 4.2 예측 수행
* 학습이 완료된 DecisionTreeClassifiler객체를 이용해 반드시 학습된 데이터가 아닌 테스트 데이터를 이용해야 함.
* 예측  : **`predict`**

In [32]:
# 학습이 완료된 DecisionTreeClassifier객체에서 테스트 데이터 세트로 예측 수행
pred = dt_clf.predict(X_test)

#### 4.2 예측결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가 지표(정확도 평가)
* accuracy_score : 사이킷런의 정확도평가의 한 기준.

In [37]:
from sklearn.metrics import accuracy_score

In [38]:
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도 : 0.9333


#### 붓꽃 데이터 세트로 분류 예측 프로세스 정리
- 1.데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리
- 2.모델학습 : 학습 데이터를 기반으로 ML알고리즘을 적용해 모델을 학습시킴
- 3.예측 수행 : 학습된 ML모델을 이용해 테스트 데이터의 분류(즉,붓꽃 종류)를 예측
- 4.평가 : 이렇게 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML모델 성능 평가 