## 사이킷런 소개와 특징

Scikit-learn은 머신러닝 라이브러리중에 가장 많이 사용되고 있다. 최근 텐서플로, 케라스 등 딥러닝 전문 라이브러리가 있어 관심이 줄어들지만 데이터 분석가가 많이 의존하는 댚표적 ML 라이브러리이다.

특징:

- 다른 머신러닝 라이브러리가 사이킷런 스타일 API를 지향할 정도로 파이썬 같은 API 제공.
- 머신러닝 위한 다양한 알고리즘 개발을 위한 편리한 프레임워크와 API 제공
- 오랜 시간 실전 환경에서 사용되온 성숙한 라이브러리

### 필수 라이브러리와 도구들

이 코드를 실행하려면 numpy, scipy, scikit-learn, matplotlib, pandas와 pillow 패키지가 필요합니다. 결정 트리와 신경망 구조에 대한 그래프를 그리려면 graphviz도 필요합니다.

- Anaconda 를 설치하면 기본으로 사이킷런까지 설치된ㄷ.

#### conda를 사용한 패키지 설치

설치된 파이썬이 있다면 conda 패키지 매니저를 사용하여 다음 명령을 실행하면 필요한 패키지를 모두 얻을 수 있습니다.

```terminal
$ conda install numpy scipy scikit-learn matplotlib pandas pillow graphviz python-graphviz
```

#### pip를 사용한 패키지 설치

파이썬이 있고 pip를 사용하여 패키지를 설치하려면 다음 명령을 사용합니다.

```terminal
$ pip install numpy scipy scikit-learn matplotlib pandas pillow graphviz
```

여기서 테스트한 도구들 버전 정보 확인,

NumPy: 1.18.1 / SciPy: 1.4.1 / Matplotlib: 3.0.2 / Sklearn: 0.22.1

In [1]:
import numpy as np
import pandas as pd
import scipy as sp

import matplotlib
import matplotlib.pyplot as plt
import sklearn

%matplotlib inline

##### 사용버전

```python
print(f"NumPy: {np.__version__} / SciPy: {sp.__version__}"
      f" / Matplotlib: {matplotlib.__version__} / Sklearn: { sklearn.__version__}")
```

테스트한 버전: NumPy: 1.18.1 / SciPy: 1.4.1 / Matplotlib: 3.0.2 / Sklearn: 0.22.1
 

In [None]:
"""
시스템에 따라 기본 한글 폰트를 읽어 들인다.
"""
import platform
from matplotlib import font_manager, rc
import re

pattern = re.compile("Linux|Ubuntu")
    
# 폰트를 적재한다.
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
# elif pattern.search(platform.platform()):
elif 'Ubuntu' in platform.platform() or 'Linux' in platform.platform():
    path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif 'SuSE' in platform.platform():
    path = "/usr/share/fonts/truetype/NanumGothic.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~') 

---

# 첫 번째 - 의사결정 트리를 이용한 붓꽃의 품종 분류


scikit-learn 에는 전통적인 데이터 세트로 붓꽃 데이터를 제공하고 있다.  이 데이터는 전문 식물학자가 식별한 종인  Setosa, Versicolor, Virginica 에 속하는 붓꽃을 측정한 결과를 붓꽃에 대한 꽃잎(petal)의 폭과 길이, 꽃받침(sepal)의 폭과 길이가 있다. 이를 학습을 통해 어떤 붓꽃 데이터 세트로 붓꽃의 품종을 분류(classification)하는 것이다.

<img src='https://tensorflowkorea.files.wordpress.com/2017/06/1-2.png' width='250'>

어떤 종에 대한 데이터 세트를 아는 상태에서 새로 측정한 데이터를 입력해서 어떤 종의 꽃인지 예측하는 학습 가능한 머신러닝 모델을 구축하는 것이다. 결과적으로 새로 측정한 데이터로 붗꽃임을 알수 있다. 

### 사이킷런 데이터 세트

`sklearn.datasets` 모듈은 사이킷런에서 제공하는 데이트 세트, 붓꽃 데이터는 아래 같이 구성되어 있다.

Data features (붓꽃 특징)
 - Sepal length
 - Sepal width
 - Petal length
 - Petal width

Data label(붗꽃 품종)
 - Setosa
 - Vesicolor
 - virginica





 - sklearn.tree : 트리 기반 ML  알고리즘 클래스 
 - sklearn.model_selectino: 학습 데이터, 검증 데이터, 예측 데이터로 분리하나 최적의 하이퍼 파라미터로 평가하기 위한 모듈
 - 하이퍼 파라미터: 머신러닝 알로기즘 별로 최적의 학습을 위해 직접 입력하는 파라미터들을 통칭하며 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있다.


붓꽃 데이터 세트에 대한 각 키 값에 대한 비교.



<img src='attachment:26dddd4f-7f07-456c-a997-b926e07d0f28.png' width='600'>
