## Machine Learning Big Picture

- 데이터 추출
- 데이터 전처리
  - 데이터 정제 및 벡터화
  - 샘플 클래스 불균형 문제 해결
  - 훈련셋과 테스트셋 분할
  - 특성 스케일 조정
    - 정규화: 최소-최대 스케일 변환
    - 표준화: 평균 0, 표준편차 1
  - 효츌적인 특성 선택
    - L1, L2를 통한 복잡도 제한
    - 특성 선택을 통한 차원 축소
      - 순차 특성 선택(Sequential Feature Selection, SFS)
      - 순차 후진 선택(Sequential Backward Selection, SBS)
      - 랜덤포레스트(Random Forest)
      - 재귀적 특성 제거(Recursive Feature Elimination)
      - 일변량 통계 테스트(Univariate Statistical Test)
    - 특성 추출을 통한 차원 축소
      - 주성분 분석(Principal Component Analysis, PCA)
      - 선형 판별 분석(Linear Discriminant Analysis, LDA)
      - 커널 PCA
- 학습 알고리즘 선택
  - 로지스틱 회귀(Logistic Regression)
  - 서포트 벡터 머신(Support Vector Machine, SVM)
  - 커널 SVM
  - 의사결정 트리
  - 랜덤포레스트
  - K-최근접 이웃(K-Nearest Neighbor, KNN)
- 학습 모델 성능 평가 지표 선택
  - 정확도(accuracy)
  - 예측 오차(error rate)
  - 정밀도(precision)
  - 재현율(recall)
  - F1-점수
  - 마이크로(micro) 평균
  - 마크로(macro) 평균
- 학습 모델 성능 평가 및 파라미터 튜닝
  - 홀드아웃 교차 검증(Holdout Cross Validation)
  - K-겹 교차 검증(K-fold Cross Validation)
  - 계층적 K-겹 교차 검증(Stratified K-fold Cross Validation)
  - 중첩 교차 검증(Nested Cross Validation)
  - 학습 곡선(Learning Curve)
  - 검증 곡선(Validation Curve)
  - 그리드 서치(Grid Search)
  - ROC 곡선(Receiver Operating Characteristic)

  
## 파이파라인을 사용한 효율적인 워크플로 구성하기

사이킷런의 Pipeline 클래스를 사용하면 여러 개의 변환 단계를 하나의 워크플로로 구성할 수 있다.<br/>
다음은 위스콘신 유방암 데이터셋의 30개의 특성으로 종양이 악성인지 양상이지 예측하는 모델 만든 것 이다.<br/>

In [3]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 위스콘신 유방암 데이터셋 로딩
df = pd.read_csv(
    'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data', 
    header=None
)

x = df.loc[:, 2:].values    # 30개의 특성을 x에 할당
y = df.loc[:, 1].values     # 클래스 레이블을 y에 할당
# 클래스 레이블을 정수로 변환(악성: 1, 양성: 0)
labelEncoder = LabelEncoder()
y = labelEncoder.fit_transform(y)
print(labelEncoder.classes_)               # 원본 문자열 확인
print(labelEncoder.transform(['M', 'B']))    # 매핑 결과 확인

['B' 'M']
[1 0]


In [4]:
from sklearn.model_selection import train_test_split

# 훈련셋(80%)과 테스트셋(20%)로 나눈다.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, stratify=y, random_state=1)

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline

pipe_lr = make_pipeline(
    StandardScaler(),       # 표준화를 사용한 특성 스케일 조정
    PCA(n_components=2),    # PCA를 사용해서 2차원 부분공간으로 데이터 압축
    LogisticRegression(solver='liblinear', random_state=1)  # 로지스틱회귀 알고리즘으로 학습
)
pipe_lr.fit(x_train, y_train)           # 표준화 및 차원 축소
y_predicate = pipe_lr.predict(x_test)   # 변환된 데이터에 대한 예측 반환

print('테스트 정확도: %.3f' % pipe_lr.score(x_test, y_test))

테스트 정확도: 0.956
