1.머신러닝 라이브러리 개요

Contents
<div id="toc"></div>

# 1.기계학습의 구분

## 1.1.지도학습(Supervised Learning)
- 데이터에 정답이 존재하여, 이 정답을 기반으로 학습한다.
- 이 정답을 레이블(label) 또는 클래스(class)라고 한다.
- 지도 학습의 종류
    - 회귀 분석
    - 분류 (의사결정 나무, 랜덤 포레스트, SVM 등)
    - 대부분의 기존 신경망


## 1.2.비지도 학습 (Unsupervised Learning)
- 데이터에 정답이 없어서, 아무런 도움 없이 학습한다.
- 비지도 학습의 종류
    - 군집화
    - PCA
    - 패턴 탐사 (연관규칙, 빈발항목집합 등)

# 2.사이킷런 (Scikit-learn)

- 대표적인 파이썬 머신러닝 라이브러리로서, 회귀 분석을 비롯하여 다양한 분석 알고리즘과 기능들을 제공한다.
- 웹사이트 https://scikit-learn.org 에서 관련 정보 및 문서, 예제 등을 확인할 수 있다.

- 아나콘다를 설치하면 자동적으로 사이킷런까지 설치되므로
별도의 추가 설치 또는 설정 없이 사용할 수 있다.
- 만약 별도로 재설치하고자 할 경우에는 Anaconda Prompt
에서 다음 명령어 중 하나를 입력하여 설치한다.
```
$ pip install scikit-learn
$ conda install scikit-learn
```

In [4]:
import sklearn
help(sklearn)

Help on package sklearn:

NAME
    sklearn

DESCRIPTION
    Machine learning module for Python
    
    sklearn is a Python module integrating classical machine
    learning algorithms in the tightly-knit world of scientific Python
    packages (numpy, scipy, matplotlib).
    
    It aims to provide simple and efficient solutions to learning problems
    that are accessible to everybody and reusable in various contexts:
    machine-learning as a versatile tool for science and engineering.
    
    See http://scikit-learn.org for complete documentation.

PACKAGE CONTENTS
    __check_build (package)
    _build_utils (package)
    _config
    _distributor_init
    _isotonic
    _loss (package)
    base
    calibration
    cluster (package)
    compose (package)
    conftest
    covariance (package)
    cross_decomposition (package)
    datasets (package)
    decomposition (package)
    discriminant_analysis
    dummy
    ensemble (package)
    exceptions
    experimental (package)
    ext

## 2.1. 주요 모듈들의 개요

![image.png](img/ch1_1.png)

## 2.2.내장 예제 데이터

- 사이킷런 내에는 분석을 수행할 때 사용할 수 있는 기본적인 예제 데이터 집합들이 들어 있다.
- 이 데이터들은 크게 세 가지로 분류할 수 있다.

|종류|의미|함수 접두어|
| :---: | :---: | :---:|
Toy dataset |  크기가 작고 간단한 샘플 데이터를 불러온다.  | load_
Real dataset | 레코드가 더 많은 실제 데이터를 다운로드하여 사용한다. | fetch_
Generated dataset | 사용자가 원하는 특성에 맞도록 데이터를 생성한다. | make_

- 내장 데이터는 대부분 사전 또는 그와 유사한 형태로 저장되어 있으며, 각 키들의 의미는 다음과 같다.

|키|의미|자료형|
| :---: | :---: | :---:|
data|데이터 집합의 특성(또는 독립변수) 값들이다.|ndarray
target|데이터 집합의 레이블(또는 종속변수) 값들이다.|ndarray
feature_names|특성(또는 독립변수)들의 이름이다.|ndarray 또는 list
target_names|레이블(또는 종속변수)들의 이름이다.|ndarray 또는 list
DESCR|데이터에 대한 전체적인 설명이다.|str

#### 붓꽃 데이터 IRIS 살펴보기

In [5]:
import sklearn.datasets as d

iris = d.load_iris()

In [16]:
# 속성, feature, 독립변수

print("속성 :", iris.feature_names)
print("레이블 :", iris.target_names)

속성 : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
레이블 : ['setosa' 'versicolor' 'virginica']


In [18]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [19]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [11]:
print("레코드 수 :", len(iris.data))  # len(iris.target)과 같다.

레코드 수 : 150


## 2.3.학습/검증 데이터 분리

- **model_selection** 모듈에 있는 **train_test_split** 함수를 이용하여 원본 데이터를 학습용과 검증용으로 분리한다.
- 첫 번째 매개변수는 원본 데이터의 특성 집합이다.
- 두 번째 매개변수는 원본 데이터의 레이블 집합이다.   

   
- 다음과 같은 옵션들을 추가할 수 있다.
    - test_size : 검증용 데이터의 크기를 결정한다. 기본값은 0.25(즉, 25%)이다.
    - shuffle : 데이터를 섞어서 분리할 것인지의 여부를 결정한다. 기본값은 True이다.
    - random_state : 분리할 때마다 동일한 집합으로 생성할 것인지 결정하는 정수 값이다.

#### 붓꽃 데이터 IRIS 분리하기

In [21]:
import sklearn.model_selection as ms

X_train, X_test, y_train, y_test = ms.train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

In [22]:
print("학습용 데이터 수: ", len(X_train))
print("검증용 데이터 수: ", len(X_test))

학습용 데이터 수:  105
검증용 데이터 수:  45


- 분리된 결과는 학습용 데이터의 **특성 집합**, **검증용 데이터의 특성 집합**,   
**학습용 데이터의 레이블 집합**, **검증용 데이터의 레이블 집합**을   
순서대로 항목들로 가지는 1개의 튜플이다.


## 2.4.사이킷런의 분석 수행 절차

1. 분석을 수행하기 위한 추정자(Estimator) 객체를 생성한다.
2. 생성된 객체에 대하여 fit 메소드(함수)를 호출하여 학습을 수행한다.
3. 생성된 객체 또는 학습이 수행된 분석 결과에 대하여 predict 메소드(함수)를 호출하여 예측 결과를 도출한다.
4. 생성된 객체 또는 학습이 수행된 분석 결과에 대하여 적합한 성능 평가 지표를 도출한다.

# 3.스탯츠모델(Statsmodels)

- 다양한 통계 검정 및 추정, 회귀 분석, 시계열 분석 기능을 제공하는 통계 분석 라이브러리이다.
- 웹사이트 https://www.statsmodels.org 에서 관련 정보 및 문서, 예제 등을 확인할 수 있다

- 아나콘다를 설치하면 자동적으로 스탯츠모델이 설치되므로 별도의 추가 설치 또는 설정 없이 사용할 수 있다.
- 만약 별도로 재설치하고자 할 경우에는 Anaconda Prompt에서 다음 명령어 중 하나를 입력하여 설치한다.
    -  pip install statsmodels
    - conda install statsmodels
  
  
- 스탯츠모델을 불러올 때의 모듈명은 statsmodels이다.

```
import statsmodels

help(statsmodels)
```

- 기존의 R Studio에서 제공하는 것과 동일한 명령어들을 이용하여 통계 분석과 시계열 분석, 검정 통계량 계산 등을 수행할 수 있다.
- 따라서, 회귀 분석(OLS) 또는 주성분 추출(PCA) 등의 기법은 상황에 따라 사이킷런 외에 스탯츠모델을 이용하여 수행하는 것도 무방하다.
- 분석 기법들은 서브 모듈 api를 이용한다.  

```
import statsmodels.api as sm

help(sm)
```

In [23]:
%%javascript
$.getScript('https://kmahelona.github.io/ipython_notebook_goodies/ipython_notebook_toc.js')

<IPython.core.display.Javascript object>