# 사이킷런 소개와 특징

---

`사이킷런(scikit-learn)`은 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리입니다.

파이썬 기반의 머신러닝은 사이킷런으로 개발한다는 것을 의미할 정도로 오랫동안, 널리 사용된 머신러닝 라이브러리입니다. 그정도로 파이썬 환경에서 머신러닝을 위한 매우 효율적인 개발 라이브러리를 제공하기 때문입니다.

하지만 최근 텐서플로우, 케라스 등 딥러닝 라이브러리들이 많이 사용되면서 대중적인 관심이 많이 줄어들기는 했지만 아직도 많이 사용되는 ML라이브러리입니다.

먼저 사이킷런을 임포트합니다.

In [1]:
import sklearn

print(sklearn.__version__) # __version__ : 라이브러리 버전

0.24.1


사이킷런은 Anaconda를 설치하면 기본적으로 동시에 설치되지만 혹시라도 설치가 되지 않은 경우 `!pip install sklearn` 으로 사이킷런을 인스톨합니다.

# IRIS 데이터를 이용한 붖꽃 품종 예측

---

사이킷런 라이브러리를 이용해 만들어 볼 머신러닝 모델은 붖꽃 데이터 세트를 이용한 붖꽃 품종 **분류(Classification)모델**입니다.

붓꽃 데이터세트는 꽃잎의 길이와 너비, 꽃받침의 길이와 너비를 특성(Feature)로 갖습니다.

`분류(Classification)`는 대표적인 `지도학습(Supervised Learning)` 방법의 하나입니다. 지도학습이란 학습을 위한 `다양한 피처`와 분류 결정값인 `레이블(Label)` 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측합니다.

**즉 지도학습은 명확한 정답(label)이 주어진 데이터로 먼저 학습한 뒤 미지의 데이터(새로운 데이터)를 예측하는 방식입니다.**

**머신러닝 모델에 사용되는 데이터는 크게 두가지로 구분할 수 있습니다.**

`학습을 위해 주어진 데이터`
- 학습 데이터 세트(Traning Set)

`머신러닝 모델의 예측 성능을 평가하기 위한 데이터`
- 테스트 데이터 세트(Test set)

## 사이킷런 모듈 임포트 및 데이터 로드

----

머신러닝 모델을 생성하기 위한 사이킷런에서 제공하는 모듈을 몇가지 소개합니다.

- **`sklearn.datasets (사이킷런에서 자체적으로 제공하는 데이터세트)`**

- **`sklearn.tree (트리기반 ML알고리즘을 구현한 클래스의 모임)`**


- **`sklearn.model_selection (학습 데이터와 검증데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임)`**

**`하이퍼파라미터란?`**

하이퍼파라미터는 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파이터들을 의미합니다.

즉, 하이퍼파라미터를 조정하는 것으로 머신러닝 알고리즘의 성능을 튜닝하는 것이 가능합니다.

붖꽃 품종 예측을 위해 load_iris()를 이용하며, ML알고리즘은 의사결정트리(Decision Tree)알고리즘으로, 이를 구현한 `DecisionTreeClassifier`를 적용합니다.

In [11]:
from sklearn.datasets import load_iris # IRIS 데이터 로드
from sklearn.tree import DecisionTreeClassifier # DecisionTreeClassifier 모델
from sklearn.model_selection import train_test_split # 데이터분리

In [18]:
import pandas as pd

# 붖꽃 데이터 세트를 로드합니다.

iris = load_iris()

# iris.data는 IRIS 데이터 세트에서 피쳐(Feature)만으로 된 데이터를 numpy로 가지고 있습니다.
iris_data = iris.data

# iris.target은 붖꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다.
iris_label = iris.target
print('iris target값: ', iris_label)
print('iris target명: ', iris.target_names)

# 붖꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target

iris_df.head(3)

iris target값:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명:  ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- 레이블 설명

0 : Setosa

1 : versicolor

2 : virginica

# 학습용 데이터, 테스트용 데이터 분리

----

이버에는 학습용 데이터와 테스트용 데이터를 분리해보곘습니다. 위에서 로드한 `train_test_split()` 함수를 사용해 간단하게 데이터를 분리할 수 있습니다.

`머신러닝을 할 때는 반드시 데이터를 학습용과 테스트용으로 분리하는 작업이 선행되어야합니다.`

이후에 다루겠지만 머신러닝에는 과적합이라는 문제가 있어 머신러닝 모델이 학습하지 못한 새로운 데이터로 성능을 평가해야합니다.
이 때 사용하는 데이터가 바로 테스트 데이터 세트입니다.

In [19]:
# train, test세트를 8:2로 분할

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)

In [34]:
print("학습데이터: :",X_train.size)
print("테스트데이터 :",y_train.size)

학습데이터: : 480
테스트데이터 : 120


train_test_split() 함수의 파라미터는 `피쳐 데이터 세트, 레이블 데이터 세트, (학습)테스트 데이터세트 비율, random_state`로 입력합니다.

random_state는 옵션이지만 이를 지정하지 않는 경우 데이터를 분리할 때마다 다른 학습, 테스트 데이터 세트가 생겨나기 때문에 실습을 위해 random_state를 지정합니다.(random.seed와 같은 의미입니다.)

# Decision Tree 모델 생성

---

먼저 사이킷런의 분류 알고리즘의 하나인 Decision Tree 모델을 생성해 학습과 예측을 수행해봅시다.

In [36]:
# Decision Tree Classifier 객체 생성

dt_clf = DecisionTreeClassifier(random_state=11) # random_state는 예제이기 때문에 동일한 결과를 위해 사용합니다.

Decision Tree Classifier 객체를 생성했으니 fit 메소드를 통해 학습을 진행해봅시다.

In [37]:
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

이제 우리가 생성한 의사 결정 트리 기반의 Decision Tree Classifier 객체는 학습 데이터를 기반으로 학습을 진행했습니다.

모델을 생성했으니 이제는 예측을 수행해봅시다.

앞서 설명했듯이 예측을 위해선 학습에 사용되지 않은 테스트 데이터세트를 이용해야합니다.

In [39]:
# 예측을 위해 predict() 메소드를 사용합니다.

pred = dt_clf.predict(X_test)

예측 결과를 기반으로 의사결정 트리 기반의 Decision Tree Classfier의 예측 성능을 평가해 보겠습니다.

머신러닝 모델의 성능 평가 지표는 여러 가지가 있지만, 이번에는 `정확도`를 기준으로 측정해보겠습니다.

정확도란 예측 결과 (pred)가 얼마나 실제 레이블(정답)과 일치하는지를 평가하는 지표입니다.

사이킷런은 정확도 측정을 위한 방법으로 **`accuracy_score()`** 함수를 제공합니다.

이 함수의 **첫 번째 파라미터로 실제 레이블(정답), 두 번째 파라미터로 예측 레이블(예측결과)**을 입력합니다.

In [50]:
# accuracy_score() 메소드를 통한 성능평가

from sklearn.metrics import accuracy_score

print('예측 정확도: {:.3f}%'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.933%


학습한 Decision Tree 알고리즘의 예측 정확도가 약 0.933%로 측정되었습니다.

지금까지 진행한 프로세스를 정리하면 아래와 같습니다.

**`1. 데이터 세트 분리: 원본 데이터를 학습 데이터 세트와 테스트 데이터 세트로 분리합니다.`**

**`2. 모델 학습: 학습 데이터를 기반으로 ML알고리즘을 적용해 모델을 학습시킵니다.`**

**`3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류를 예측합니다.`**

**`4. 평가: 예측된 결괏괎과 테스트 데이터의 실제 결괏값을 비교해 ML 모델의 성능을 평가합니다.`**