# 지도학습과 비지도학습 
학습: 데이터를 특별한 알고리즘에 적용해 ML모델을 정의된 문제에 최적화 (Optimizing, 가장 근접한 답을 내놓는 것) 시키는 과정  

### 지도학습 (SL, Supervised Learning)  
- 비지도학습을 제외하고는 모두 지도학습
- 정답을 알려주면서 진행하는 학습
- 데이터의 원래 값: 실제값, 정답-레이블(label), 타겟(target)-클래스, y값
- ML 모델을 통해 예측한 값: 예측값, 분류값, y^(hat)
- ex) 분류, 회귀

### 비지도학습 (UL, Unsupervised Learning)  
- 정답(label) 없이 진행하는 학습
- 데이터 자체에서 패턴을 찾아내야 할 때 사용
- ex) 군집화, 차원축소 (주성분분석)

### 분류와 회귀
- 범주형 데이터 vs 연속형 데이터 (객관 vs 주관)

##### 분류 (Classification)
- 데이터가 입력되었을 때 지도학습을 통해 학습된 Label중 하나 또는 여러개의 Label로 예측
- 이진분류 (binary classification)  
  :둘 중 하나의 값으로 분류하는 경우 (sigmoid함수) (titanic-survivied, spam mail)
- 다중분류(multi classification)
  :여러 개의 분류값 중 하나로 예측 (softmax함수) (iris)

## 과대적합 (overfitting) vs 과소적합 (underfitting)
- 과대적합: 필요 이상의 특징으로 학습하는 경우 (Training 예측력 > Test 예측력)
- 과소적합: 데이터에서 충분히 특징을 찾아 내지 못하고 ML모델을 학습할 경우 (Training 예측력 < Test 예측력)


#### 과대적합
- 학습 데이터 외의 데이터에서 정확도가 낮게 나오는 모델 (배운 것은 잘하지만 실전에 약한 경우)   
- 데이터 특징들의 수치값을 정규화 함으로써 특정 특징에 의한 편향 (bias)을 줄이는 것이 과대적합을 피하는 좋은 방법
- 딥러닝의 경우 조기종료 (early stopping), 드롭아웃 (drop out)을 사용헤 과대적합을 피할 수 있다.
  - 조기종료: 더 이상 개선의 여지가 없을 때 학습을 종료시키는 콜백함수
  - 드롭아웃: 노드를 학습에서 무시함으로써 과적합 완화, 학습속도 향상

#### 과소적합
- 보통 테스트 데이터뿐 만 아니라 학습 데이터에 대해서도 정확도가 낮게 나올경우, 과소적합 모델일 가능성이 높음   
- 과소적합은 드문 일이고, 우연의 결과이므로 절대 사용하면 안 됨. 차라리 과대적합에서 맞춰가는 게 낫다.

---
### 혼동행렬 (confusion matrix)
- 모델의 성능을 평가할 때 사용하는 지표 (예측값-실제값으로 정오표 테이블)
- 실제값과 예측값을 비교하여 실제값에 예측값이 얼마나 일치하는지 파악
- 모델의 성능은 혼동행렬에 기반한 단 하나의 수치로 표현 가능

### 머신러닝 모델의 성능 평가
- TP (True Positive): 맞는 것을 올바르게 예측한 것
- TN (True Negative): 틀린 것을 올바르게 예측한 것
- FP (False Positive): 틀린 것을 맞다고 잘못 예측한 것
- FN (False Negative): 맞는 것을 틀렸다고 잘못 에측한 것

### 정확도 (Accuracy)
- 혼동행렬 상 TP를 전체 셀로 나눈 값 (TP/all)

In [1]:
print(f'정확도: {(9+15+24+15)/80*100}')

정확도: 78.75


### 정밀도 (Precision)
- 각 모델의 예측값이 얼마나 정확하게 예측되었는가를 나타내는 지표
- TP/(TP+FP)

In [15]:
print(f'암환자 정밀도A: {9/(9+30)}')
print(f'암환자 정밀도B: {1/(1+20)}')

암환자 정밀도A: 0.23076923076923078
암환자 정밀도B: 0.047619047619047616


### 재현율 (Recall)
- 실제값 중에서 모델이 검출한 실제 값의 비율을 나타내는 지표
- 실제 암환자 중에서 암환자로 예측한 값 TP/(TP+FN)

In [14]:
print(f'암환자 재현율A: {9/(9+1)}')
print(f'암환자 재현율B: {1/(1+9)}')

암환자 재현율A: 0.9
암환자 재현율B: 0.1


### F1 점수 (F1 Score)
F1 Score = 2 * 재현율 * 정밀도 / (재현율 + 정밀도)

In [18]:
print(f'암환자 F1 A: {2*0.9*0.23/(0.9+0.23)}')
print(f'암환자 F1 B: {2*0.1*0.04/(0.1+0.04)}')

암환자 F1 A: 0.3663716814159292
암환자 F1 B: 0.05714285714285714
