# 지도학습과 비지도학습
- 학습 : 데이터를 특별한 알고리즘에 적용해 머신러닝 모델을 정의된 문제에 최적화(Y*) 과정을 의미

### 지도 학습(Supervised Learning)
- 정답을 알려주면서 진행되는 학습.
- 정답, 실제값, 레이블, 타깃, 클래스, y값 : 동일한 의미
- 머신러닝 모델을 통해 예측된 값을 예측값, 분류값, Y^(hat) 등으로 표현
- 지도학습의 예로는 분류(classification)와 회귀(regression)이 대표적

### 비지도학습(Unsupervised Learning)
- 정답(레이블)이 없이 진행되는 학습
- 데이터 자체에서 패턴을 찾아내야 할 때 사용
- 예로는 군집화와 차원축소가 대표적


---
# 분류와 회귀
- 분류와 회귀의 큰 차이점은 데이터가 입력되었을때 분류는 분리된 값으로 예측하고 회귀는 연속된 값으로 예측한다.

### 분류(Classification)
- 분류는 데이터가 입력되었을때 지도학습을 통해 미리 학습된 레이블중 하나 또는 여러개의 레이블로 예측하는 것이다.

##### 이진 분류
- 둘 중 하나의 값으로 분류하는 경우 (sigmoid 함수)

##### 다중 분류
- 여러개의 분류값 중에서 하나의 값으로 예측하는 경우 (softmax 함수)

---
# 과대적합(overfitting)과 과소적합(underfitting)
- 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델 학습을 할 경우 모델이 과소적합이 되기 쉽고 
- 필요 이상의 특징으로 학습할 경우 모델이 과대적합이 되기 싶습니다.

### 과소적합
- 보통 테스트 데이터 뿐만 아니라 학습 데이터에 대해서도 정확도가 낮게 나올 경우 과소적합된 모델이  나올경우 과소적합된 모델일 가능성이 높음.

### 과대적합
- 학습 데이터와의 데이터에는 정확도가 낮게 나오는 모델
- 데이터의 특징들을 수치값을 정규화함으로써 특정 특징에 의한 편향(bias)를 줄이는 것도 과대적합을 피하는 좋은 방법이다.
- 딥러닝같은 경우 조기종료(early stopping), 드롭아웃(drop out)을 사용해 과대적합을 피할 수 있다.



---
# 혼동행렬(confusion matrix)
- 모델의 성능을 평가할 때 사용되는 지표
- 실제값과 예측값을 비교하여 실제값에 예측값이 어느정도 일치되었는지를 파악
- 모델의 성능은 이 혼동행렬을 기반으로 단 하나의 수치로 표현 가능하다.

# 머신러닝 모델의 성능 평가
##### TP(True Positive) : 맞는것을 올바르게 예측한것
##### TN(True Nagative) : 틀린것을 올바르게 예측한것
##### FP(False Positive) : 틀린것을 맞다고 잘못 예측한것
##### FN(False Nagative) : 맞는것을 틀렸다고 잘못 예측한것
##### 정확도(Accuracy)
- 가장 일반적인 모델 성능 평가 지표
- 혼동행렬상에서는 TP를 전체 셀로 나눈값에 해당
- 정확도 = 예측값결과와 실제값이 동일한 건수 / 전체 데이터수 = (TP+TN) / (TP+TN+FN+FP)


In [4]:
# 정확도
print(f'정확도 : {(9+15+24+15)/(9+1+1+15+3+1+5+24+1+4+1+15)*100}%')


정확도 : 78.75%


---
### 정밀도(Precision)
- 각 모델들의 예측값이 얼마나 정확하게 예측 됐는가를 나타내는 지표

In [7]:
# 2가지 모델의 정학도
print(f'A Model 정확도 : {((9+60)/100 *100)}%')
print(f'B Model 정확도 : {((1+70)/100 *100)}%')

A model 정확도 : 69.0%
A model 정확도 : 71.0%


In [10]:
# 2가지 모델의 암 환자 정밀도 : TP / (TP + FP)
    # 정밀도는 백분율이 아니고 1일수록 좋은 것이다.
print(f'A Model 암환자 정밀도 : {(9/(9+30))}')
print(f'B Model 암환자 정밀도 : {(1/(1+20))}')

A Model 암환자 정밀도 : 0.23076923076923078
B Model 암환자 정밀도 : 0.047619047619047616


> 암환자의 예측력의 정밀도는 A 모델이 더 우수하다.

### 재현율(Recall)
- 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표
- 재현율 = TP / (TP + FN)

In [18]:
# 2가지 모델의 암 환자 재현율 : TP / (TP + FN)
    # 재현율도 백분율이 아니고 1일수록 좋은 것이다.
print(f'A Model 암환자 재현율 : {(9/(9+1))}')
print(f'B Model 암환자 재현율 : {(1/(1+9))}')

A Model 암환자 재현율 : 0.9
B Model 암환자 재현율 : 0.1


> 암환자 재현율을 기준으로 보면 A 모델이 더 우수하다.

### F1점수(F1 Score)
- 정밀도도 중요하고 재현율도 중요한데 어떤것을 선택할지 혼돈시 ㄷ이 두값을 조화평균 내서 수치로 나타낸 지료를 F1 Score라고 한다.
- 조화평균 = 2 * a * b / (a + b)
- F1점수 = 2 * 정밀도 * 재현율 / (정밀도 + 재현율)

In [20]:
# A Model F1-Score

print(f'A Model의 F1 Score : {(2*(9/(9+1))*(9/(9+30)))/((9/(9+1))+(9/(9+30)))}')

A Model의 F1 Score : 0.3673469387755102


In [21]:
# B Model F1-Score
print(f'B Model의 F1 Score : {(2*(1/(1+20))*(1/(1+9)))/((1/(1+20))+(1/(1+9)))}')

B Model의 F1 Score : 0.06451612903225806


---
### k-폴드 교차 검증(k-fold cross validation)
- 모든 학습 데이터를 한번씩 검증 데이터로 활용해 검증 데이터가 한쪽 데이터에 편향되있지 않아 검증데이터를 분리하지 않고도 학습데이터에 대한 전반적인 검증 정확도를 구할 수 있음.