<a href="https://colab.research.google.com/github/ouguro3/Study/blob/main/ML_Guide/chapter_2/02_sklearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 사이킷런으로 시작하는 머신러닝

### 사이킷런의 소개 및 특징

파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리  

파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 개발 라이브러리를 제공한다  

많은 데이터 분석가가 의존하는 대표적인 파이썬 ML 라이브러리

사이킷런의 특징

- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고,  
가장 파이썬스러운 API를 제공한다  

- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다
- 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다 

사이킷런 설치  

pip 또는 Anaconda의 conda 명령어를 통해 설치 가능하다
```
conda install scikit-learn
```
```
pip install scikit-learn
```

### 첫번째 머신러닝 - 붓꽃 품종 예측

사이킷런을 통해 머신러닝으로 붓꽃의 품종을 분류하는 예제이다  

꽃잎의 길이, 너비, 꽃받침의 길이와 너비 피처(feature)를 기반으로 꽃의 품종을 예측한다

In [14]:
# 라이브러리 불러오기

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

In [15]:
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()

# iris.data는 iris 데이터 세트에서 피처(feature) 만으로 된 데이터를 numpy로 가지고 있다
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있다
iris_label = iris.target
print('iris target 값 :', iris_label)
print('iris target 명 :', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환한다
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target 값 : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명 : ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


피처에는 sepla length, sepal width, petal length, petal width 가 있다 

label은 0,1,2로 구성되어 있고 0이 Setosa, 1이 versicolor, 2가 virginica 품종을 의미한다

#### 학습용 데이터와 테스트용 데이터 나누기  

학습용 데이터와 테스트용 데이터는 반드시 분리해야 한다  

학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면  
테스트 데이터 세트가 필요하기 때문이다  

이를 위해서 사용하는것이 사이킷런 API `train_test_split()` 이다  

`train_test_split`은 학습용 데이터와 테스트용 데이터를 test_size 파라미터로 쉽게 나누어준다

In [16]:
# 학습용 데이터를 80%, 테스트용 데이터를 20% 로 나누기
X_train, X_test, y_train, y_test = train_test_split(iris_data,iris_label,
                                                    test_size=0.2, random_state = 11)

학습용 피처 데이터 : X_train  
테스트용 피처 데이터 : X_test

학습용 레이블 데이터 : y_train  
테스트용 레이블 데이터 : y_test

#### 의사결정 트리를 이용해 학습과 예측 수행

In [17]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=11, splitter='best')

학습된 DecisionTreeClassifier 객체를 이용해 예측을 수행한다  

예측은 반드시 학습 데이터가 아닌 다른 데이터를 사용해야하며,  
일반적으로 테스트 데이터 세트를 이용한다  

DecisionTreeClassifier 객체의 predict() 메서드에 테스트용 피처 데이터 세트를 입력해  
호출하면 학습된 모델기반에서 테스트 데이터 세트에 대한 예측값을 반환한다

In [18]:
# 예측 수행
pred = dt_clf.predict(X_test)

예측 결과를 기반으로 DecisionTreeClassifier의 예측 성능을 평가해본다  

머신러닝 모델의 성능 평가 방법은 여러가지가 있으나, 여기서는 정확도를 측정했다  

정확도는 예측 결과가 실제 레이블 값과 얼마나 정확하게 맞는지를 평가하는 지표이다  

사이킷런은 정확도 측정을 위해 `accuracy_score()` 함수를 제공한다

`accuracy_score()`의 첫번째 파라미터로 실제 레이블 데이터 세트,  
두번째 파라미터로 예측 레이블 데이터 세트를 입력하면 된다  

In [19]:
# 예측 정확도 확인
from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도 : 0.9333


#### 붓꽃 데이터 세트 예측 프로세스

1. 데이터 세트 분리 : 데이터 세트를 학습용과 테스트용으로 분리한다  

2. 모델 학습 : 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다  

3. 예측 수행 : 학습된 ML 모델을 이용해 테스트 데이터의 분류(여기서는 붓꽃 종류)를 예측한다  

4. 평가 : 예측된 결과값과 테스트 데이터의 실제 결과값을 비교해 ML 모델 성능을 평가한다