# 지도학습과 비지도학습
- 학습 : 데이터를 특별한 알고리즘에 적용해 머신러닝 모델을 정의된 문제에 최적화 과정을 의미

### 지도 학습(Supervised Learning)
- 정답을 알려주면서 진행되는 학습
- 정답, 실제값, 레이블, 타깃, 클래스, y값 : 동일한 의미
- 머신러닝 모델을 통해 예측된 값을 예측값, 분류값, Y^(hat) 등으로 표현
- 지도학습의 예로는 분류(Classification)와 회귀(regression)이 대표적

### 비지도 학습(Unsupervised Learning)
- 정답(레이블)이 없이 진행되는 학습
- 데이터 자체에서 패턴을 찾아내야할 때 사용
- 예로는 군집화와 차원축소가 대표적


---
# 분류와 회귀
- 분류와 회귀의 큰 차이점은 데이터가 입력되었을때 분류는 분리된 값(객관식)으로 예측, 회귀는 연속된 값(범주, 주관식)으로 예측하다.

### 분류(Classification)
- 분류는 데이터가 입력되었을때 지도학습을 통해 미리 학습된 레이블 중 하나 또는 여러개의 레이블(정답)로 예측하는 것

##### 이진분류
- 둘 중 하나의 값으로 분류하는 경우 (sigmoid)

##### 다중분류
- 여러개의 분류값 중에서 하나이 값으로 예측하는 경우 (softmax)


---
# 과대적합(overfitting)과 과소적합(underfitting)
- 데이터에서 충분히 특징을 찾아내지 못하고 머신러닝 모델 학습을 할 경우 모델이 과소접합이 되기 쉽고
- 필요 이상의 특징으로 학습할 경우 모델이 과대적합이 되기 쉽다.

### 과소적합 
- 보통 테스트 데이터 뿐만 아니라 학습 데이터에 대해서도 정확도가 낮게  나올 경우 과속적합된 모델일 가능성이 높음 

### 과대 적합 
- 학습 데이터외의 데이터에는 정확도가 낮게 나오는 모델
- 데이터의 특징들의 수치값을 정규화함으로써 특정 특징에 의한 편항(bias)을 줄이는 것도 과대적합을 피하는 좋은 방법이다.
- 딥러닝 같은 경우 조기종료(early stopping), 드롭 아웃(drop out)을 사용해 과대적합을 피할 수 있다.


---
# 혼돈행렬(confusion matrix)
- 모델의 성능을 평가할 때 사용되는 지표
- 실제값과 예측값을 비교하여 실제값에 예측값이 어느정도 일치되었는지를 파악
- 모델의 성능은 이 혼동행렬을 기반으로 단 하나의 수치로 표현 가능하다.

# 머신러닝 모델의 성능 평가
- TP(True Positive) : 맞는것을 올바르게 예측한것
- TN(True Negative) : 틀린것을 올바르게 예측한것
- FP(False Positive) : 틀린것을 맞다고 잘못 예측한것
- FN(False Negative) : 맞는것을 틀렸다고 잘못 예측한것
### 정확도(Accuracy) 
- 가장 일반적인 모델 성능 평가 지표
- 혼돈행렬상에서는 TP를 전체 셀로 나눈 값에 해당


![](../Image/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%20%EC%B2%AB%EA%B1%B8%EC%9D%8C(2).png)

In [11]:
ovr = [[9,1,0,0],[1,15,3,1],[5,0,24,1],[0,4,1,15]]
sum = 0
tp = 0
num1 = 1
for i in ovr:
    num2 = 0
    for j in i:
       num2 +=1 
       sum +=j
       if num2==num1:
        tp+=j
    num1 += 1

print(tp/sum*100,"%") 

78.75 %


---
# 정밀도(Precision)
- 각 모델들의 예측값이 얼마나 정확하게 얘측 됐는가를 나타내는 지표

In [13]:
# 2가지 모델의 정확도
ovr = [[9,1],[30,60]]
sum = 0
tp = 0
num1 = 1
for i in ovr:
    num2 = 0
    for j in i:
       num2 +=1 
       sum +=j
       if num2==num1:
        tp+=j
    num1 += 1

print("A Model 정확도 :",tp/sum*100,"%") 

ovr = [[1,9],[20,70]]
sum = 0
tp = 0
num1 = 1
for i in ovr:
    num2 = 0
    for j in i:
       num2 +=1 
       sum +=j
       if num2==num1:
        tp+=j
    num1 += 1

print("B Model 정확도 :",tp/sum*100,"%") 

A Model 정확도 : 69.0 %
B Model 정확도 : 71.0 %


In [49]:
### 2가지 모델의 암환자 정밀도 : TP / (TP+FP)
print("A Model의 암환자 정밀도 :",9/39)
print("A Model의 암환자 정밀도 :",1/21)

A Model의 암환자 정밀도 : 0.23076923076923078
A Model의 암환자 정밀도 : 0.047619047619047616


> 암확자의 예측력의 정밀도는 A모델이 더 우수하다.    
> 정밀도는 1과 가까울수록 높다고 봄

# 재현율(Recall)
- 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표
- 재현율 = TP/(TP+FN)

In [27]:

print("A Model의 암환자 재현율 :",9/10)
print("B Model의 암환자 재현율 :",1/10)

A Model의 암환자 재현율 : 0.9
B Model의 암환자 재현율 : 0.1


> 암확자의 재현율은 A모델이 더 우수하다.    
> 정밀도는 1과 가까울수록 높다고 봄

# F1점수(F1 Score)
- 정밀도도 중요하고 재현율도 중요한데 어떤것을 선택할지 혼돈시 이 두값의 조화 평균내서 수치로 나타낸 지표를 F1 Score라고 한다.
- 조화평균 2 * a * b / (a + b)
- F1점수 = 2 * 재현율 * 정밀도 / (재현율 + 정밀도)

In [40]:
# A Model 
2 * 0.9 * (9/39) / (0.9 + 9/39)

0.3673469387755102

In [41]:
# B Model 
2 * 0.1 * (1/21) / (0.1 + 1/21)

0.06451612903225806

---
### k-폴드 교차 검증(k-fold cross validation)
- 모든 학습 데이터를 한번씩 검증 데이터로 활용해 검증 데이터가 한쪽 데이터에 편향되어 있지 않아 검증데이터를 분리하지 않고도 학습 데이터에 대한 전반적인 검증 정확도를 구할 수 있음

![](../Image/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D%20%EC%B2%AB%EA%B1%B8%EC%9D%8C(3).png)