# 0.

*헨릭 브링크, 리얼월드 머신러닝, 위키북스, 2017*

# 1. 머신러닝 소개

- 1장 에서는 머신러닝의 소개
- 2장 에서는 데이터 전처리 단계
- 3장 에서는 간단한 머신러닝 모델의 구축
- 4장 모델의 성능을 평가하고 최적화하는 방법
- 5장 feature engineering(특성 공학)

## 1.1. 머신러닝이란?

전통적인 의사결정 방식과는 다르게 데이터를 바탕으로 자체적인 모델을 형상한다는 점에서 구별됩니다, 기본적인 작업흐름은 다음과 같습니다.
1. 데이터 준비
2. 모델 만들기
3. 모델 평가하기
4. 최적화 및 데이터 예측

머신러닝의 학습방법은 다음과 같이 크게 두가지로 분류할 수 있습니다.
- supervised learning : 레이블이 있는 데이터를 사용한 학습법, 대부분의 머신러닝이 해당
     + 목표가 범주형: 분류 문제
     + 목표가 수치형: 회귀 문제
- unsupervied learning :  레이블이 없는 데이터에서 규칙을 찾는 학습법, 다음과 같은 두가지 접근법이 있습니다.
    + 군집화(clustering): K-means, 계층 군집화, 가우스 혼합 모델 
    + 차원축소: 주성분 분석, 다차원 척도법, 다면체 학습

## 1.2. 데이터의 중요성
아무리 최신의 알고리즘이어도 무엇 보다도 데이터가 성능에 가장큰 영향을 줍니다. 훈련 데이터를 수집하는 단계는 아래와 같습니다.
1. 포함할 입력 특성 결정
2. 목표 변수를 위한 실측 자료값을 어떻게 얻을지 결정
3. 훈련 데이터를 모을 시기를 결정
4. 훈련 데이터는 편향되지 않고 전체를 대표해야 합니다.

훈련 데이터의 전처리 단계는 다음과 같습니다.
1. 법주형 특성 기록
2. 결측 자료 처리
3. 특성의 정규화
4. 특성 추출

## 1.3. 학습 모델의 구축
머신러닝의 주요 목표는 다음 두가지 입니다. 예측(prediction)과 추론(inference). 

머신러닝의 모델의 주요 형태는 두 가지 입니다. 매개변수 모델과 비매개변수 모델. 두가지의 본질 적인 차이는, 매개 변수 모델을 *f*가 특정한 함수의 형태를 가지고 있다고 가정하는 반면에, 비매개변수 모델은 그러한 가정을 하지 않는다는 점에 있습니다. 따라서 매개변수 접근법이 상대적으로 단순하지만 정확성이 낮다는 특성이 있습니다.
### 1.3.1. 매개변수(parametric) 방식
- 선형회귀
- 로지스틱 회귀
- 다항식 회쉬
- 선형 판별 분석
- 이차 판별 분석
- 혼합모형
- 나이브 베이즈

매개변수 모델과 함께 모델 선택에 사용되는 접근법으로는 
- ridge regression
- lasso regression
- PCA
// 각각의 설명은 부록을 참고
### 1.3.2. 비매개변수(nonparametric) 방식
비매개변수 방식은 실제 데이터 분석에 많이 사용되는 방법입니다. 접근법의 예로는
- 분류트리
- k 최근접 이웃
- 기저확장법
- 신경망
- 커널 스무딩
- 일반화 가법 모형
- 배깅
- 부스팅
- 랜덤 포레스트
- 서포트 벡터 머신
//부록 참조


## 1.4. 모델 평가와 최적화
머신러닝의 모델을 평가할때는 훈련용 데이터로 오차율을 구하면 안됩니다. 따라서 신규 데이터로 **교차 검증**(cross-validation)을 해야 합니다.
교차검정을 위해 사용되는 두가지 방법이 있습니다.
1. 홀드아웃 방법
    - 훈련 데이터 중 임의의 부분을 나누어서 훈련용과 테스트용으로 따로 사용하는 방법입니다.
2. K-fold 교차 검증
    - 홀드 아웃보다는 탁월하지만, 계산량이 더 많은 방법입니다. 위의 방법과 유사하나, K개의 부분집합들로 데이터를 분활해서 사용한다는 것입니다.

분류 모델
- 간단한 계산 정확도
- 혼동 행렬
- 수신자 조작 특성
- ROC 곡선

회귀모델
- RMSE
- R<sup>2</sup>

그리드 탐색
## 1.5. 특성 공학 feature engineering
입력 데이터를 수학적으로 변환해 머신러닝에 알맞는 특성으로 만드는 것입니다. 특성 추출은 모델을 만들기전에 하는 것이 좋습니다. 

### 1.5.1. 유용한 이유 
1. 데이터를 변형해 목표와 관련 짓기
2. 외부 데이터 가져오기
3. 비정형 데이터 자료 사용
4. 해석하기 쉬운 특성 만들기
5. 많은 특성 집합을 사용해 창조성 향상

어떻게 하는 것인가?b

In [3]:
# Simple feature engineering of the Titanic dataset
import numpy as np
cabin_data = np.array(["C65", "", "E36", "C54", "B57 B59 B63 B66"])
def cabin_features(data):
    features = []
    for cabin in data:
        cabins = cabin.split(" ")
        n_cabins = len(cabins)
        # First char is the cabin_char
        try:
            cabin_char = cabins[0][0]
        except IndexError:
            cabin_char = "X"
            n_cabins = 0
        # The rest is the cabin number
        try:
            cabin_num = int(cabins[0][1:]) 
        except:
            cabin_num = -1
        # Add 3 features for each passanger
        features.append( [cabin_char, cabin_num, n_cabins] )
    return features

cabin_features(cabin_data)


[['C', 65, 1], ['X', -1, 0], ['E', 36, 1], ['C', 54, 1], ['B', 57, 4]]

In [5]:
# Feature normalization
num_data = np.array([1, 10, 0.5, 43, 0.12, 8])
def normalize_feature(data, f_min=-1, f_max=1):
    d_min, d_max = min(data), max(data)
    factor = (f_max - f_min) / (d_max - d_min)
    normalized = f_min + data*factor
    return normalized, factor
normalize_feature(num_data)

(array([-0.95335821, -0.53358209, -0.9766791 ,  1.00559701, -0.99440299,
        -0.62686567]), 0.046641791044776115)

In [9]:
# Converting categorical data to numerical features
cat_data = np.array(['male', 'female', 'male', 'male', 'female', 'male', 'female', 'female'])
def cat_to_num(data):
    categories = np.unique(data)
    features = []
    for cat in categories:
        binary = (data == cat)
        features.append(binary.astype("int"))
    return features

cat_to_num(cat_data)

[array([0, 1, 0, 0, 1, 0, 1, 1]), array([1, 0, 1, 1, 0, 1, 0, 0])]

# 실제 적용

