# 2021/12/31/FRI

> Scikit-Learn : 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리

> $\to$ 머신러닝을 위한 다양한 알고리즘과 편리한 프레임 워크, API를 제공

In [1]:
import sklearn

> ### `붓꽃 품종 예측하기`

- 붓꽃 데이터 세트로 붓꽃의 품종을 분류

- 분류(Classification)는 대표적인 지도학습(Supervised Learning) 방법 중 하나

- 지도학습은 학습을 위한 `다양한 feature`와 분류 결정값인 `레이블 데이터`로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측

- 학습을 위해 주어진 데이터 세트를 `학습 데이터 세트`, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 `테스트 데이터 세트`라 함

---

- sklearn.datasets내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임

- sklearn.tree내의 모듈은 트리 기반 ML 알고리즘을 구현한 클래스의 모임

- sklearn.model_selection은 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임

- 하이퍼 파라미터 : 머신 러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터를 통칭, 하이퍼 파라미터를 통해 머신 러닝 알고리즘의 성능을 튜닝할 수 있다. 

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

In [7]:
iris = load_iris()
# 붓꽃 데이터 세트 로딩

In [47]:
iris.keys()
# 따라서 iris.키이름  또는 iris['키이름']을 통해 해당 값들을 확인할 수 있다.

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [42]:
iris_data = iris.data
# iris 데이터 세트에서 feature만으로 구성된 데이터를 numpy로 로딩

In [13]:
iris_label = iris.target
# 데이터 세트에서 레이블(결정값) 데이터를 numpy로 로딩

In [16]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

- 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환

In [17]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [18]:
iris_df = pd.DataFrame(data=iris_data,columns=iris.feature_names)

In [21]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [23]:
iris_df['label']=iris_label

In [25]:
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


- feature : columns를 의미함
- label(결정값) : 0,1,2 세 가지 값응로 돼 있으며 순서대로 Setosa,versicolor,virginica 품종을 의미

---

- 학습용 데이터와 테스트용 데이터를 분리해보자

- 학습용 데이터와 테스트용 데이터는 반드시 분리해야 함, 이를 위해 Scikit-learn에선 train_test_split() API를 제공, 해당 API를 이용하면 학습 데이터와 테스트 데이터를 test_size 파라미터 입력 값의 비율로 쉽게 분할함

- 예를 들어보자, teat_size=0.2로 입력 파라미터를 설정하면 전체 데이터 중 테스트 데이터가 20%, 학습 데이터가 80%로 데이터를 분할함

In [26]:
X_train,X_test,y_train,y_test=train_test_split(iris_data,iris_label,test_size=0.2, random_state=11)

- train_test_split의 첫 번째 파라미터인 iris_data는 feature 데이터 세트이며, 두 번째 파라미터인 iris_label은 Label 데이터 세트. random_state=11은 호출할 때마다 같은 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수 발생 값.

- train_test_split은 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트 용 데이터를 만듦.

- X_train,X_test,y_train,y_test = 학습용 feature데이터 세트, 테스트용 feature데이터 세트, 학습용 레이블 데이터 세트, 테스트용 레이블 데이터 세트를 의미

---

> 이제 이 데이터를 기반으로 머신 러닝 분류 알고리즘의 하나인 의사 결정 트리를 이용해 학습과 예측을 수행

In [28]:
dt_clf=DecisionTreeClassifier(random_state=11)

In [29]:
dt_clf.fit(X_train,y_train)
# 학습용 feature 데이터 세트와 학습용 레이블 데이터 세트를 입력해 학습 수행중

DecisionTreeClassifier(random_state=11)

- 학습 완료/ 예측을 수행해야하는데 학습 데이터가 아닌 다른 데이터를 이용해야 하며, 일반적으로 테스트 데이터 세트를 이용함

In [34]:
pred=dt_clf.predict(X_test)
# 예측 수행 중
# 예측 label data set

- 예측 성능 평가, 여러 평가 방법 중 정확도를 측정해보자. 정확도는 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표 

In [36]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333


- 학습한 의사 결정 트리의 알고리즘 예측 정확도가 약 93.33%

---

### `Conclusion`

1) 데이터 세트 분리 : 데이터를 학습 데이터와 테스트 데이터로 분리
2) 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습
3) 예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측
4) 평가 : 이렇게 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능을 평가

---

> 간단한 실습을 해보았으니 전체적 틀을 review해보자

- ML 모델 학습을 위해서 fit(), 학습된 모델의 예측을 위해 predict()를 사용
- Scikit Learn에서는 `분류 알고리즘`을 구현한 클래스를 `Classifier`로, 그리고 `회귀 알고리즘`을 구현한 클래스를 `Regressor`로 지칭
- Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부름. 즉, 지도학습의 모든 알고리즘을 구현한 클래스를 통칭해서 Estimator라고 부름

> Scikit-Learn의 다양한 모듈은 교재 94p,95p 참고


- ***머신러닝 모델을 구축하는 주요 프로세스 = feature의 가공, 변경, 추출을 수행하는 `feature processing`, `ML 알고리즙 학습/예측 수행`, 그리고 `모델 평가 단계`를 반복적으로 수행하는 것***

- 사이킷런에 내장되어 있는 데이터 세트는 일반적으로 dict형태
- 이때 key는 data(feature의 데이터 세트),target(레이블 값, 숫자 결과값 데이터 세트),target_names(개별 레이블의 이름), feature_names(feature의 이름), DESCR 데이터 세트에 대한 설명과 각 feature의 설명

- 앞에 두 key는 ndarray, 다음 두개는 ndarray 또는 list 그 다음은 str