## 사이킷런
- machine learning을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크과 API를 제공
    - API: 응용 프로그램 프로그래밍 인터페이스, 컴퓨터나 컴퓨터 프로그램 사이의 연결. 일종의 소프트웨어 인터페이스이며 다른 종류의 소프트웨어에 서비스를 제공.
- numpy와 Scipy기반 위에서 구축된 라이브러리
- [링크](https://scikit-learn.org/stable/)

## 사이킷런 이용해서 붓꽃(Iris) 데이터 품종 예측하기

### 붓꽃 데이터 셋으로 붓꽃의 품종을 분류(Classification)하기
- **피처(Feature)**: 속성
    - 데이터 셋의 일반 속성, 타겟값을 제외한 나머지 속성
    - 여기서는 **Sepal(꽃받침) length, Sepal width, Petal(꽃잎) length, Petal width**
- **레이블(label)**: 타겟(값), 결정값
    - 지도 학습 시 데이터의 학습을 위해 주어지는 정답 데이터
    - 분류의 경우에는 이 결정값을 레이블 또는 클래스로 지칭
    - 여기서는 **iris setosa, iris versicolor, iris virginica**

### 분류
- 대표적인 **지도학습(Supervised Learning)** 방법 중 하나
    - 지도 학습은 학습을 위한 다양한 **피처**와 분류 결정값인 **레이블** 데이터로 **모델 학습**한 뒤,
    - 별도 테스트 셋에서 미지의 레이블을 **예측**
    - 즉, 지도 학습은 **명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식**
    - 이때 학습을 위해 주어진 데이터 셋을 **학습 데이터 셋**, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 셋을 **테스트 데이터 셋**

- 분류 예측 프로세스
    - 데이터세트 분리
    - 모델 학습
    - 예측 수행
    - 평가

- 분류 구현 클래스
    - `DecisionTreeClassifier`
    - `RandomForestClassifier`
    - `GradientBoostingClassifier`
    - `GaussianNB`
    - `SVC`

In [1]:
# 사이킷런 버전 확인
import sklearn
print(sklearn.__version__)

1.2.1


- 사이킷런 필요 모듈 로딩

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

- 데이터 세트 로딩

In [3]:
import pandas as pd

iris = load_iris()

In [6]:
# iris.data는 iris 데이터 셋에서 피쳐(feature)만으로 된 데이터를 numpy로 가지고 있음
iris_data = iris.data

# iris.target은 붓꽃 데이터 셋에서 레이블(label) 즉 결정값 데이터를 numpy로 가지고 있음
iris_label = iris.target
print('iris target 값:', iris_label)
print('iris target 명:', iris.target_names)

iris target 값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명: ['setosa' 'versicolor' 'virginica']


- 데이터 셋 DataFrame으로 변환

In [5]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- **학습 데이터**와 **테스트 데이터 셋**으로 분리

In [7]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

- `X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target)`
    - `test_size`: 전체 데이터에서 테스트 데이터 셋의 크기 (디폴트는 0.25)
    - `train_size`: 전체 데이터에서 학습 데이터 셋의 크기
    - `shuffle`: 데이터를 분리하기 전에 데이터를 미리 섞을지 결정 (디폴트는 True), 데이터를 분산시켜서 더 효율적인 학습 및 테스트 데이터 셋을 만들 수 있음
    - `random_state`: 호출할 때마다 동일한 학습 및 테스트용 데이터 셋을 생성하기 위해 주어지는 난수 값

- Train data set으로 **학습(Train)** 수행

In [8]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

- Test data set으로 **예측(Predict)** 수행

In [9]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 셋으로 예측 수행
pred = dt_clf.predict(X_test)
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

- 예측 정확도 평가

In [11]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333


### +) 사이킷런의 기반 프레임워크 익히기

In [13]:
print(type(iris))

<class 'sklearn.utils._bunch.Bunch'>


In [15]:
keys = iris.keys()
print('붓꽃 데이터 셋의 키들:', keys)

붓꽃 데이터 셋의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


- 키는 data, target, target_names, DESCR, feature_names로 구성되어 있음
    - data는 피처의 데이터 셋
    - target은 분류시 레이블 값, 회귀일 때는 숫자 결과 값 데이터 셋
    - target_names은 개별 레이블의 이름
    - feature_names는 피처의 이름
    - DESCR은 데이터 셋에 대한 설명과 각 피처의 설명

In [17]:
print('feature_names 의 type:', type(iris.feature_names))
print('feature_names 의 shape:', len(iris.feature_names))
print(iris.feature_names)

print('target_names 의 type:', type(iris.target_names))
print('target_names 의 shape:', len(iris.target_names))
print(iris.target_names)

print('data 의 type:', type(iris.data))
print('data 의 shape:', iris.data.shape)
print(iris['data'])

print('target 의 type:', type(iris.target))
print('target 의 shape:', iris.target.shape)
print(iris.target)

feature_names 의 type: <class 'list'>
feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
target_names 의 type: <class 'numpy.ndarray'>
target_names 의 shape: 3
['setosa' 'versicolor' 'virginica']
data 의 type: <class 'numpy.ndarray'>
data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 