# 지도학습과 비지도 학습
학습 : 데이터를 특별한 알고리즘에 적용해 ML모델을 정의된 문제에 최적화 (가장 근접한 답을 내놓는 것) 시키는 과정

### 지도학습 (SL , Supervised Learning)
- 비지도학습을 제외하곤 모두 지도학습 <br><br>
- 정답을 알려주면서 진행하는 학습 <br><br> 
- 데이터의 원래값 : 실제값, 정답-레이블(label), 타겟-클래스(class), y값 <br><br>
- ML모델을 통해 예측한 값 : 예측값 , 분류값 , y^(hat) <br><br>
- 예 ) 분류 , 회귀 

### 비지도학습(UL, Unsupervised Learning)
- 정답(레이블) 없이 진행하는 학습 <br><br>
- 데이터 자체에서 패턴을 찾아내야 할 때 사용 <br><br>
- 예 ) 군집화 , 차원축소 (주성분 분석) 

### 분류와 회귀
- 분류 : 범주형 데이터로 예측 <br><br>
- 회귀 : 연속형 데이터로 예측 <br><br>

##### 분류 (classification)
- 데이터가 입력 되었을 때, 지도학습을 통해 학습된 Label 중 하나 또는 여러개의 Label로 예측 <br><br>
- 이진 분류 (binary classification) : 둘 중 하나의 값으로 분류하는 경우 <br><br>
    - <strong>sigmoid</strong> 함수를 사용한다. <br><br>
    - <strong>sigmoid</strong> 함수는 0에서 1사이의 값을 갖는다. <br><br>
- 다중 분류 (multiple classification) : 세개 이상의 값으로 분류하는 경우 <br><br>
    - <strong>softmax</strong> 함수를 사용한다. <br><br>

## 과대적합 (overfitting) vs 과소적합 (underfitting)
- 과대적합 <br><br>
    - 필요 이상의 특징으로 학습하는 경우(Training 예측력 >> Test 예측력) <br><br>
    - 훈련 데이터와 비슷해서 모델링이 복잡하게 된 경우를 말한다. <br><br>
- 과소적합 <br><br>
    - 데이터에서 충분히 특징을 찾아 내지 못하고 ML모델을 학습한 경우 (Training 예측력 << Test 예측력) <br><br>
    - 모델링이 너무 심플해 진 경우다.

#### 과소적합
- 보통 테스트 데이터뿐만 아니라 학습 데이터에 대해서도 정확도가 낮게 나올경우, 과소적합 모델일 가능성이 높음 <br><br>
- 과소적합은 드문 일이고, 절대 사용하면 안된다. 차라리 과대적합에서 맞춰가는 것이 낫다. <br><br>

#### 과대적합
- 학습 데이터 외의 데이터에서 정확도가 낮게 나오는 모델 (배운 것 잘하고 실전에 약한 경우) <br><br>
- 데이터 특징들의 수치값을 정규화 함으로써 특정 특징에 의한 편향(bias)을 줄이는 것이 과대적합을 피하는 좋은 방법 <br><br>
    - 편향이 범위를 의미한다. <br><br>
- 딥러닝의 경우 조기종료(early stopping), 드롭아웃(drop out)을 사용해 과대적합을 피할 수 있다. <br><br>
    - 조기 종료 : 트레이닝 데이터에 맞춰 가는 것 같으면 멈춰버리게 하는 것 <br><br>
    - 드롭 아웃 : 컬럼들이 너무 많아서 몇 개씩 빼 버리는 것을 말한다. <br><br>

---
### 혼동행렬 (confusion matrix)
- 모델의 성능을 평가할 때 사용하는 지표 (예측값 - 실제값 으로 정오표를 만드는 것) <br><br>
- 실제값과 예측값을 비교하여 실제값에 예측값이 얼마나 일치하는지 파악하는 것 <br><br>
- 모델의 성능은 혼동행렬에 의해 기반한 단 하나의 수치로 표현 가능하다. <br><br>
- 과대적합과 과소적합을 벗어날 때 그 다음 판단하는 것이 혼동행렬이다. <br><br>

### 머신러닝 모델의 성능 평가
- TP (True Positive) : 맞는 것을 올바르게 예측한 것 <br><br>
- TN (True Negative) : 틀린 것을 올바르게 예측한 것 <br><br>
- FP (False Postive) : 틀린 것을 맞다고 잘못 예측한 것 <br><br>
- FN (False Negative) : 맞는 것을 틀렸다고 잘못 예측한 것 <br><br>

### 정확도(Accuracy)
- 혼동행렬 상 TP를 전체 셀로 나눈 값 (TP / All)

In [2]:
63 / 80 * 100

78.75

In [1]:
import pandas as pd

In [4]:
df=pd.DataFrame(
    [
        [9,1,0,0],
        [1,15,3,1],
        [5,0,24,1],
        [0,4,1,15]
    ],
    columns=['p_A','p_B','p_C','p_D'],
    index=['r_A','r_B','r_C','r_D']
)

In [5]:
df

Unnamed: 0,p_A,p_B,p_C,p_D
r_A,9,1,0,0
r_B,1,15,3,1
r_C,5,0,24,1
r_D,0,4,1,15


In [None]:
# A라고 예측한 것에 대한 TP 구하기 [p_A , r_A]

# A라고 예측한 것에 대한 TN [ p_B : p_D , r_B : r_D]

# A라고 예측한 것에 대한 FP [p_A, r_B : r_D]

# A라고 예측한 것에 대한 FN [p_B:p_D , r_A]

### 정밀도 (Precision)
- 각 모델의 예측값이 얼마나 정확하게 예측되었는가를 나타내는 지표 <br><br>
- TP / TP + FP <br><br>
- 예시 ) 암환자로 예측한 것 중에 진짜 암환자 인 것 <br><br>

### 재현율 (Recall)
- 실제값 중에서 모델이 검출한 실제값의 비율을 나타내는 지표 <br><br>
- TP / TP + FN <br><br>
- 예시 ) 실제 암환자 중에서 암환자로 예측한 값 <br><br>

### F1 점수 (F1 Score)
- 조화평균 이용하여 평균 구하기 <br><br>
$${2ab / (a+b)}$$
- F1 score를 조화평균 이용하여 구하기 <br><br>
$${F1 Score = 2 * 재현율 * 정밀도 / ( 재현율 +정밀도)}$$
- F1 score가 높은 모델을 채택하는 것이다. <br><br>

---
### K - fold 교차 검증 (k-fold cross validation)
- 머신러닝에서는 default로 사용해야 된다. <br><br>
- k = 4로 주었을 때, 데이터를 4개로 나누어서 이 중 첫번째를 test ,나머지는 train 데이터로 사용하는 것을 fold 1 이라 하고 <br><br> 두번째를 test, 나머지를 train 이라 하면 fold2 <br><br> 이런식으로 총 4가지 경우로 나누어서 train 데이터와 test 데이터를 나누어서 학습을 시키고 일반화가 되는지 안되는지 검증하는 것을 의미한다. <br><br>

---
### 머신러닝 프레임 프레임 워크 : scikit-learn
: 다양한 분류기 (인공지능 모델) 을 지원하며 검증하는 기능, 분류, 회귀, 클러스터링, 차원축소법이 가능하며 샘플 데이터도 제공한다. 

In [27]:
# XOR 연산 학습해 보기
xor_input = [
    [0,0,0],
    [0,1,1],
    [1,0,1],
    [1,1,0]
]
xor_input

[[0, 0, 0], [0, 1, 1], [1, 0, 1], [1, 1, 0]]

In [9]:
# 학습 전용 데이터와 테스트 전용 데이터로 분류
import pandas as pd

In [28]:
xor_df = pd.DataFrame(xor_input)
xor_data = xor_df.iloc[:,:2]
xor_label = xor_df.iloc[:,2]

In [14]:
# 데이터 학습과 예측하기
# svm 은 인공지능 모델이고 , metrics 정오표만들어서 정밀도와 재현율 측정하는 모듈이다. 
from sklearn import svm, metrics

In [29]:
clf=svm.SVC()
clf.fit(xor_data,xor_label)

In [32]:
pred = clf.predict(xor_data)


1.0

In [31]:
# 정답을 구하기
metrics.accuracy_score(xor_label,pred)

1.0

In [33]:
# 정답율 구하기 2 
clf.score(xor_data,xor_label)

1.0