# 기존 프로그래밍 방식과 머신러닝 간의 차이
![mr_tr](images/01_ml_tr.png)


모델 : 현실(또는 데이터)의 구조를 단순화해 표현한 것

### 모델을 만드는 과정
1. 모델을 정하여 수식화 한다. 
2. 모델을 데이터를 이용해 학습(Train) 시킨다. 
    - 모델을 데이터의 패턴에 맞춘다. (fit)
3. 학습된 모델이 얼마나 데이터 패턴을 잘 표현하는지 평가한다.(Test)

![image.png](attachment:image.png)
<p>


<center><font size=5><b> 머신러닝이란 입력변수와 출력변수간의 패턴(함수)을 데이터학습을 통해 만드는 것</b></font></center>

## 데이터 셋 구성
### Feature
- 추론하기 위한 근거가 되는 값들을 표현하는 용어.
- 입력 변수(Input), 독립변수라고도 한다.
- 일반적으로 X로 표현한다.

### Label
- 예측하거나 분류해야 하는 값들을 표현하는 용어
- 출력 변수(Output), 종속변수, Target 이라고도 한다.
- 일반적으로 y로 표현한다.

### 데이터 포인트
- 개별 데이터를 표현하는 용어. 

![image.png](images/01_feature_label_1.png)
![image-2.png](images/01_feature_label_2.png)

# 머신러닝 알고리즘 분류

## 지도학습(Supervised Learning)
- 모델에게 데이터의 특징(Feature)와 정답(Label)을 알려주며 학습시킨다.
- 대부분의 머신러닝은 지도학습이다.

- ### 분류(Classification):
    - **두개 이상의 클래스(범주)에서 선택을 묻는 지도 학습방법**
        - **이진 분류** : Yes or No로 나눠지는 문제들. 예)메일이 스팸이냐 아니냐.
        - **다중 분류** : 여러개의 클래스중 하나를 분류
- ### 회귀(Regression):
    - **숫자(연속된값)를 예측 하는 지도학습** 
        - 실수와 실수 사이 값들이 무한하므로 맞추기 어려움
    - 예) 집값 맞추기

## 비지도학습 (Unsupervised Learning)
- **정답이 없이 데이터의 특징만 학습하여 데이터간의 관계를 찾는 학습방법**
- ### 군집(Clustering)
    - 비슷한 유형의 데이터 그룹을 찾는다.
- ### 차원축소(Dimensionality Reduction)
    - 최대한 특징을 유지하면서 변수(Feature)를 축소한다.
    

# 머신러닝 개발 절차 (Machine Learning Process)
<br><br>
<br>
<img align="left" src="images/01_crisp.png">


1. 비지니스 이해 : 머신러닝으로 얻고자 하는 것

2. 데이터 이해:데이터 수집, 탐색을 통해 데이터 파악.
예) 고객 분석할 때는 고객데이터만 있으면 됨. 시스템 로그 기록은 필요 없음.

3. 데이터 전처리

4. 모델링 : 전처리한 데이터로 학습. 데이터가 쌓이면 모델링.

5. 평가 : 평가 결과에 따라 1번으로 되돌아감.

6. 실제 업무 적용

## 데이터셋 확인하기

### scikit-learn 내장 데이터셋 가져오기
- scikit-learn은 머신러닝 모델을 테스트 하기위한 데이터셋을 제공한다.
    - 이런 데이터셋을 Toy dataset이라고 한다.
- 패키지 : sklearn.datasets
- 함수   : 
    - load_xxxx() : 사이킷 런 설치시 같이 설치되는 작은 데이터셋
    - patch_xxx() : 공개 데이터셋
    - make_xxx() : 학습용 데이터셋

### scikit-learn 내장 데이터셋의 구성
- scikit-learn의 dataset은 딕셔너리 구조의 Bunch 클래스 객체이다.
    - keys() 함수로 key값들을 조회
- 구성
    - **target_names**: 예측하려는 값(class)을 가진 문자열 배열
    - **target**: Label(출력데이터)
    - **data**: Feature(입력변수)
    - **feature_names**: 입력변수 각 항목의 이름
    - **DESCR**: 데이터셋에 대한 설명

![image.png](images/decision_tree.png)

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[참조] www.packtpub.com

결정 트리 알고리즘

#### 결정트리 모델을 이용해 머신러닝 구현
1. import 모델
2. 모델 생성
3. 모델 학습시키기
4. 예측 

In [5]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
print(type(iris))

df = pd.DataFrame(
    iris['data'], 
    columns=iris['feature_names']
) #(150,4)
df['품종'] = iris['target'] # 품종 컬럼 추가
df.head()

<class 'sklearn.utils._bunch.Bunch'>


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [6]:

# 1. import model
from sklearn.tree import DecisionTreeClassifier #모델들은 클래스로 정의
# xxxxxClassifier: 분류 모델.  xxxxxRegressor : 회귀

In [7]:
# 2. 모델 생성
model = DecisionTreeClassifier()

In [8]:
#3. 모델 학습
model.fit(iris['data'], iris['target'])
model

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [9]:
#4. 예측
import numpy as np

new_data = np.array([
    [5, 3.5, 1.4, 0.25], 
    [2, 2.2, 5.3, 2.2], 
    [1.2, 5, 3.2, 7.6]
])
print(new_data.shape) #150개 모델 학습 결과

pred = model.predict(new_data) #x를 입력해서 y를 예측
print(pred)
print(iris['target_names'][pred])

(3, 4)
[0 2 1]
['setosa' 'virginica' 'versicolor']


# 그런데 이 결과가 맞을까?
- 모델이 추론한 결과가 맞다는 것을 어떻게 보증할 수 있을까?
- 모델을 최종 서비스에 적용하기 전에 모델의 성능을 확인하는 작업이 필요하다.

위의 예는 만든 모델의 성능을 평가하기가 어렵다. 전체 데이터셋을 두 개로 나눠 하나는 모델을 훈련할 때, 그리고 나머지 하나는 그 모델을 평가할 때 사용한다.

보통 훈련데이터와 테스트 데이터 비율은 8:2 또는 7:3 으로 나누는데, 데이터셋이 많으면 6:4까지 나눈다.

이 때, 훈련데이터와 테스트 데이터의 값의 비율은 같은 비율이어야 한다.

train_test_split 함수를 이용하여 두 가지로 나눈다.

## 머신러닝 프로세스

![image.png](attachment:image.png)

In [10]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris['data'],   # input data (X)
    iris['target'], # output data(y)
    test_size=0.2 , # train/test 나눌 비율. test: 0.2, train: 1 - 0.2. 정수는 갯수. 0~1사이의 실수는 비율.
    stratify=iris['target'], # 분류 데이터셋일 경우 넣어주는 설정. iris['target'] 의 class 별 구성 비율과 동일한 비율로 나눈다. 원본과 동일한 비율
)

### 모델생성

In [12]:
from sklearn.tree import DecisionTreeClassifier
model2 = DecisionTreeClassifier()

### 모델학습

In [13]:
model2.fit(X_train, y_train)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


### 평가
- 머신러닝 평가지표 함수들은 sklearn.metrics 모듈에 있다.
- 정확도(accuracy)
    - accuracy_score() 함수 이용    
    - 전체 예측한 개수 중 맞춘 개수의 비율

In [14]:
from sklearn.metrics import accuracy_score
# 모델을 이용해서 추론(예측)
pred_test = model2.predict(X_test) #test set으로 평가
print(pred_test.shape) # 모델이 추정한 결과.

# 정답, 추정결과를 넣어서 평가.
result = accuracy_score(y_test, pred_test)

# 정확도: 0 ~ 1 실수. 정확도 기준을 정해서, 평가할 때 정확도 기준이 넘는지 안넘는지 판단. 
# 데이터 종류에 따라 정확도 기준이 다름
# 보통 90프로 넘어가면 잘 안틀림
print("정확도:", result) 

(30,)
정확도: 0.9666666666666667


# Hold Out - Data분리 방식 1

https://blog.naver.com/ksryong00700/224066226189