# 학습종류와 알고리즘(Learning Style and Algorithms)

---

<center><img src='Image/DataSplit_Concept1.png' width='700'></center>

# 기초 알고리즘(Baseline): 분류분석

> **"일상 속 문제 중 여러개의 선택지 중에 정답을 고르는 문제"**
> - **회귀문제:** 데이터 변수(Feature, Variable)들을 사용하여 연속적인(Continuous) 값을 예측
> - **분류문제:** 데이터 변수(Feature, Variable)들을 사용하여 이산적인(Discrete) 분류값을 예측

---

<center><img src='Image/ML_Type_Application_Circle.jpg' width='600'></center>  

---

> **"$t$개의 값을 가지는 $k$차원 독립변수 $X_i$와 이에 대응하는 "범주형 종속변수 $Y$"와의 관계를 정량적으로 찾는 알고리즘"**   
> - 객관식 시험문제의 정답을 찾는 문제가 분류분석
> - 주관식 시험문제의 숫자형 정답을 찾는 문제가 회귀분석


| Regression Algorithms | Instance-based Algorithms | Regularization Algorithms | Decision Tree Algorithms | Bayesian Algorithms | Artificial Neural Network Algorithms |
|------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|
| <img src='Image/Regression-Algorithms.png' width='150'> | <img src='Image/Instance-based-Algorithms.png' width='150'> | <img src='Image/Regularization-Algorithms.png' width='150'> | <img src='Image/Decision-Tree-Algorithms.png' width='150'> | <img src='Image/Bayesian-Algorithms.png' width='150'> | <img src='Image/Artificial-Neural-Network-Algorithms.png' width='150'> |
| Ordinary Least Squares Regression (OLSR) | k-Nearest Neighbor (kNN) | Ridge Regression | Classification and Regression Tree (CART) | Naive Bayes | Perceptron |
| Linear Regression | Learning Vector Quantization (LVQ) | Least Absolute Shrinkage and Selection Operator (LASSO) | Iterative Dichotomiser 3 (ID3) | Gaussian Naive Bayes | Back-Propagation |
| Logistic Regression | Self-Organizing Map (SOM) | Elastic Net | C4.5 and C5.0 (different versions of a powerful approach) | Multinomial Naive Bayes | Hopfield Network |
| Stepwise Regression | Locally Weighted Learning (LWL) | Least-Angle Regression (LARS) | Chi-squared Automatic Interaction Detection (CHAID) | Averaged One-Dependence Estimators (AODE) | Radial Basis Function Network (RBFN) |
| Multivariate Adaptive Regression Splines (MARS) | - | - | Decision Stump | Bayesian Belief Network (BBN) | - |
| Locally Estimated Scatterplot Smoothing (LOESS) | - | - | M5 | Bayesian Network (BN) | - |
| - | - | - | Conditional Decision Trees | - | - |

- **Target Algorithm:**
> - Logistic Regression
> - Ordinal Regression
> - Cox Regression
> - Naïve Bayes
> - Stochastic Gradient Descent
> - K-Nearest Neighbours
> - Decision Tree
> - Random Forest
> - Support Vector Machine

## 예제 데이터셋

In [7]:
# Classification
from sklearn.datasets import load_breast_cancer
raw = load_breast_cancer()
print(raw.DESCR)
print(raw.keys())
print(raw.data.shape, raw.target.shape)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [16]:
# Classification
import statsmodels.api as sm
raw = sm.datasets.get_rdataset("Titanic", package="datasets")
print(raw.title)
print(raw.data)

Survival of passengers on the Titanic
   Class     Sex    Age Survived  Freq
0    1st    Male  Child       No     0
1    2nd    Male  Child       No     0
2    3rd    Male  Child       No    35
3   Crew    Male  Child       No     0
4    1st  Female  Child       No     0
5    2nd  Female  Child       No     0
6    3rd  Female  Child       No    17
7   Crew  Female  Child       No     0
8    1st    Male  Adult       No   118
9    2nd    Male  Adult       No   154
10   3rd    Male  Adult       No   387
11  Crew    Male  Adult       No   670
12   1st  Female  Adult       No     4
13   2nd  Female  Adult       No    13
14   3rd  Female  Adult       No    89
15  Crew  Female  Adult       No     3
16   1st    Male  Child      Yes     5
17   2nd    Male  Child      Yes    11
18   3rd    Male  Child      Yes    13
19  Crew    Male  Child      Yes     0
20   1st  Female  Child      Yes     1
21   2nd  Female  Child      Yes    13
22   3rd  Female  Child      Yes    14
23  Crew  Female  Child   

In [20]:
# Classification
import pandas as pd
location = r'.\Data\Titanic\Titanic.csv'
raw = pd.read_csv(location)
display(raw)
raw.describe().T

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.353842,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.383838,0.486592,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.308642,0.836071,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.699118,14.526497,0.42,20.125,28.0,38.0,80.0
SibSp,891.0,0.523008,1.102743,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.381594,0.806057,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.204208,49.693429,0.0,7.9104,14.4542,31.0,512.3292


## 전처리 방향(Preprocessing)

- **목표:** 
> - 대량으로 수집된 데이터는 그대로 활용 어려움
> - 잘못 수집/처리 된 데이터는 엉뚱한 결과를 발생
> - 알고리즘이 학습이 가능한 형태로 데이터를 정리
<center><img src='Image/DataAnalysis_Time.jpg' width='500'></center> 
---

> **세부항목:**  
> - 데이터 결합
> - 결측값 처리
> - 이상치 처리
> - 자료형 변환
> - 데이터 변환
> - 데이터 분리
> - 스케일 조정


## 함수세팅 및 추정 방향(Modeling): 로지스틱 회귀분석

> **"연속형 종속변수 예시"**
<center><img src='Image/Example_LinearRegression.png' width='600'></center>

> **"범주형 종속변수 예시"**
> - Outlier가 존재하면 Linear Regression의 추정은 왜곡을 발생시킴
<center><img src='Image/Example_LinearRegression_Limit.png' width='600'></center>

- **회귀분석 vs 분류분석:**

> **회귀분석:** 연속형 종속변수 Y의 값을 추론
> - 혈압의 경우 값 자체로 의미가 있지만 암발생은 발생(1)과 미발생(0) 사이의 중간값 무의미
> - 회귀분석으로 범주형 종속변수를 추론하면 범위가 맞지 않아 암발생 여부의 해석이 왜곡
>> - 나이가 많아지면 무조건 암이 걸리거나 나이가 어리면 무조건 암이 걸리지 않는 왜곡 발생
> - Y가 범주형일 경우 사용할 수 없는 문제 존재하며 이를 추정하기 위한 접근 필요

> **분류분석:** 범주형(범주/카테고리/클래스/라벨) 종속변수 Y의 소속을 추론
> - 0과 1사이의 값을 가지면서 S자 형태로 적합하는 함수가 시그모이드 함수(Sigmoid Function)
> - 종속변수 카테고리의 갯수와 방향에 따라 Binary/Multi-class/Multi-label로 구분
>> - **Binary Classification:** 각 sample 데이터가 2개의 카테고리 중 "어떤 것"인지 추론하는 문제 (ex. 성별 추론 / 스팸메일 추론)
>> - **Multi-class classification:** 각 sample 데이터가 2개 이상의 카테고리 중 "어떤 것"인지 추론하는 문제 (ex. 사진으로 동물 이름 추론)
>> - **Multi-label classification:** 각 sample 데이터가 2개 이상의 카테고리 중 "어떠한 것들"인지 추론하는 문제 (ex. 뉴스기사는 스포츠/사람/지역 관련임을 추론)
<center><img src='Image/Example_LogisticRegression.png' width='600'></center>

- **로지스틱분석(Logistic Regression):** 분류문제를 푸는 대표적인 알고리즘

> - 범주형 종속변수의 데이터를 추정하기 위한 "변환과정" 필요
> - "Logistic/Sigmoid Function"를 사용하여 곡선(S-curve) 형태로 변환
>
> <center><img src='Image/Linear_Logistic.png' width='600'></center>
>
> **(1) 회귀분석 세팅:**
>
>\begin{align*}
Y \approx \hat{Y} &= f(X_1, X_2, ..., X_k) \\
&= \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k \\
&= X\beta
\end{align*}
>
> **(2) 종속변수 변환(Logistic/Sigmoid Fitting):** Binary Classification 반영하는 곡선 형태로 변경
>
>\begin{align*}
Pr(Y) &= \dfrac{1}{1+exp(-X\beta)} \\
&= \dfrac{exp(X\beta)}{1+exp(X\beta)}
\end{align*}
>
> **(3) 로짓 변환(Logit Transformation):** 독립변수의 선형관계 형태로 일반화(데이터의 변수들로 Y=1인 확률 추정)
>
>\begin{align*}
Pr(Y) \left( 1 + exp(X\beta) \right) &= exp(X\beta) \\
Pr(Y) &= \left( 1 - Pr(Y) \right) exp(X\beta) \\
\text{Odds(ratio):} \left( \dfrac{Pr(Y)}{1 - Pr(Y)} \right) &= exp(X\beta) \\
\text{Logit(log-odds): } log \left( \dfrac{Pr(Y)}{1 - Pr(Y)} \right) &= X\beta = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_kX_k
\end{align*}

- **비용함수(Cost Function):** 계수 추정을 위해 알고리즘의 예측값($\hat{Y}$)과 실제값($Y$)의 차이를 평가하는 함수
> - **이슈: Linear Regression 비용함수 적용 어려움**    
>
>> (1) 분류문제에서는 $\hat{Y}$를 사용한 잔차(에러)계산이 무의미    
>> (2) 회귀분석의 Cost Function($Y - \hat{Y}$)에 종속변수 및 로짓 변환을 하면 Non-convex 형태가 되서 최소값(Global Minimum) 추정 어려움    
>> (3) 정확한 계수추정 방정식을 계산할 수 없기에 확률론적 접근 필요    
> <center><img src='Image/Cost_Comparison.png' width='600'></center>
>
> - **신규:** 회귀문제와 달리 새로운 비용함수가 필요하고 이를 최소로 하는 계수(coefficient)를 추정
>> - Y를 잘 분류하면 cost=0으로 그렇지 않으면 cost=$\infty$가 되어 Penalty를 주는 방향
>>> - (빨간선 예시) 실제값이 1일때 예측값이 1이면 Cost는 0
>>> - (빨간선 예시) 실제값이 1일때 예측값이 0이면 Cost는 무한대
>
> \begin{align*}
\text{Cost} = \begin{cases} -log(Pr(\hat{Y})) ~~~~ & \text{in the case of } ~~~ Y = 1 \\ -log(1-Pr(\hat{Y})) ~~~~ & \text{in the case of } ~~~ Y = 0 \end{cases}
\end{align*}
> <center><img src='Image/Cost_Logistic.png' width='600'></center>
>
>
> - **Cross Entropy: Y가 0과 1인 경우의 Cost를 결합하여 하나의 식으로 표현**
>> - 로지스틱 알고리즘은 비용함수로 Cross Entropy를 사용하고 평균을 최소로 하는 계수 추정
>> - Y=0인 경우 빨간부분이 사라지고 Y=1인 경우 파란부분이 사라져 Class별로 독립적으로 작동
>> - 분류문제의 Cost 함수는 다양하고 많지만 통계학적으로 계수 추정에 효율적인 편
>> - Convex 형태이기 때문에 Global Minimum을 찾기가 용이함
>> - 추정된 계수($\hat{\beta}$)로 방정식을 만들어 어떠한 데이터로도 Y=1인 확률을 계산할 수 있음
>>
>>\begin{align*}
\text{cost} &= \sum_{i=1}^{m} \left[ - \color{red}{\hat{Y}_{i} log (Pr(\hat{Y}_{i}))} - \color{blue}{(1-\hat{Y}_{i}) log (1-Pr(\hat{Y}_{i}))} \right] \\
\hat{\beta} &= \underset{\beta}{\arg\min} \sum_{i=1}^{m} \left[\text{cost} \right] \\
\end{align*}


### 확률론적 모형(Probabilistic Model): 통계적 모형
> **"종속변수의 발생가능성을 최대(최소)로하는 $\beta$를 추정"**
> - 범주형 분류문제를 확률로 반영하였기 때문에 확률론적 방식으로 접근
>> 1) 계수를 임의의 초기값을 사용하여 Logit 추정   
>> 2) 추정된 Logit으로 Likelihood 계산   
>> 3) Log-likelihood를 증가시키는 방향으로 $\hat{\beta}$를 업데이트하며 최적값 추정

**1) Y의 발생가능성(Likelihood):** 

\begin{align*}
Pr(Y_{i} \,\big|\, X_{i}) &= \prod_{i=1}^m Pr(Y_{i})^{Y_{i}} [1-Pr(Y_{i})]^{1-Y_{i}}
\end{align*}

**2) 더하기 사용을 위한 Log 변환(Log-Likelihood):** 

\begin{align*}
\text{LL} &= \log Pr(Y_{i} \,\big|\, X_{i}) \\
&= \sum_{i=1}^{m} \left[ Y_{i} log (Pr(Y_{i})) + (1-Y_{i}) log (1-Pr(Y_{i})) \right]
\end{align*}

**3) Log-Likelihood의 그레디언트(미분,기울기)는 "최소"가 되어야 함:** 최적화 과정

\begin{align*}
- \dfrac{d}{d\beta} \text{LL} &= \text{minimum} \\
\end{align*}

**4) 수치해석 방법론으로 초기값 $\beta$의 반복적 업데이트를 통한 $\hat{\beta}$ 추정:**

\begin{align*}
\hat{\beta}^{new} &= \hat{\beta}^{old} - (\dfrac{d^2}{d\beta d\beta^T} \text{LL})^{-1} \dfrac{d}{d\beta} \text{LL}
\end{align*}


**5) 결과 활용**

> **(1) 결과 해석:** $\hat{Logit}$과 $\hat{Odds}$ 추정으로 가능
> \begin{align*}
\text{Logit: } log \left( \dfrac{Pr(Y)}{1 - Pr(Y)} \right) &= X\hat{\beta} = \hat{\beta}_0 + \hat{\beta}_1X_1 + \hat{\beta}_2X_2 + \cdots + \hat{\beta}_kX_k \\
\text{Odds: } \left( \dfrac{Pr(Y)}{1 - Pr(Y)} \right) &= exp(X\hat{\beta}) \\
\end{align*}
>
> **(2) 회귀분석과 달리 종속변수의 로짓변환 값을 독립변수들의 선형관계로 추정하므로 해석에 주의**
>
> \begin{align*}
\left( \dfrac{Pr(Y)}{1 - Pr(Y)} \right) = exp(0.01 + 0.8 X_1)
\end{align*}
> - (회귀분석) $X_1$이 1만큼 증가하면 $Y$는 0.8만큼 증가
> - (로지스틱) $X_1$이 1만큼 증가하면 암에 걸리지 않을 확률보다 암에 걸릴 확률이 $exp(0.8) = 2.23$배 더 높음
>
> **(3) Y 확률 예측:**
>
> \begin{align*}
Pr(\hat{Y}) &= \dfrac{1}{1+exp(-X\hat{\beta})} = \dfrac{exp(X\hat{\beta})}{1+exp(X\hat{\beta})}
\end{align*}
>
> **(4) 분류 의사결정:** 기본 임계값은 0.5로 이상시 1, 그렇지 않으면 0으로 분류
>
> \begin{align*}
\hat{Y} = \begin{cases} 1 ~~~~ \text{if } ~~~ Pr(\hat{Y}) >= 0.5 \\ 0 ~~~~ \text{if } ~~~ Pr(\hat{Y}) < 0.5 \end{cases}
\end{align*}

### Multi-class 분류문제

<!-- https://mangkyu.tistory.com/36?category=767742 -->

- **Binary vs. Multi-class:**

<center><img src='Image/Classification_BinaryMuticlass.png' width='600'></center>

- **방향:** N개의 Class(Category)가 있는 문제는 N개의 Binary Classification으로 바꾸어 해결

> - 1) 세모가 Positive일때 Y가 세모에 속할 확률
> - 2) 네모가 Positive일때 Y가 네모에 속할 확률
> - 3) 엑스가 Positive일때 Y가 엑스에 속할 확률
>
> **데이터가 주어지면 3개의 경우를 모두 적용하여 최대 확률을 갖는 Class로 추정**

<center><img src='Image/Classification_Multiclass.png' width='600'></center>


## 검증지표 방향(Evaluation Metrics)

- **"문제해결 지표와 알고리즘 지표는 같을 수 있으나 대부분은 다른 편"**
> **1) 문제해결 검증지표: 실제 문제를 잘 해결하는지 평가**   
> **2) 알고리즘 검증지표: 데이터의 패턴이 잘 추출되고 예측의 정확성을 평가"**   
>> - 알고리즘 성능이 좋은것과 문제해결이 가능한 것은 다르기 때문에 문제해결 지표와 알고리즘 지표는 같을 수 있으나 대부분은 다른 편
>> - 알고리즘 검증지표는 없어도 되지만 문제해결 검증지표는 반드시 필요    
>> - (이론적)알고리즘들은 일반적으로 특정 "알고리즘 검증지표"를 향상시키는 방향으로 개발됨
<center><img src='Image/Analysis_Process.png' width='800'></center>

### 대표적인 검증지표

<center><img src='Image/DataSplit_Concept1.png' width='700'></center>

---

**1) 분류별 종류**

<center><img src='Image/Evaluation_Metric_Types.png' width='600'></center>

> - **Statistical Metrics:** Correlation
>> - 입력(Input): -무한대 ~ 무한대 범위의 연속형 값
>> - 출력(Output): 이론적으론 -1 ~ 1 범위의 연속형 값
> - **Regression Metrics:** MSE, MSPE, RMSE, RMSLE, MAE, MAPE, MPE, R^2, Adjusted R^&2, ... (Y의 범위가 무한대가 가능한 연속형일때)
>> - 입력(Input): -무한대 ~ 무한대 범위의 연속형 값
>> - 출력(Output): 이론적으론 0 ~ 무한대 범위의 연속형 값
> - **Classification Metrics:** Log Loss, Cross-entropy, ROC, AUC, Gini, Confusion Matrix, Accuracy, Precision, Recall, F1-score, Classification Report, KS Statistic, Concordant-Discordant Ratio ... (Y가 2개 또는 그 이상개수의 이산형일때)
>> - 입력(Input): -무한대 ~ 무한대 범위의 연속형 값
>> - 출력(Output): 알고리즘 종류에 따라 출력이 달라질 수 있음
>>> - 확률(Probability): 0 ~ 1 범위의 연속형 값 (Logistic Regression, Random Forest, Gradient Boosting, Adaboost, ...)
>>> - 집단(Class): 0 또는 1의 이산형 값 (SVM, KNN, ...)
> - **Ranking Metrics:** Gain, Lift, MRR, DCG, NDCG, ...
> - **Computer Vision Metrics:** PSNR, SSIM, IoU, ...
> - **NLP Metrics:** Perplexity, BLEU score, ...
> - **Deep Learning Related Metrics:** Inception score, Frechet Inception distance, ...
> - **Real Problem:** ???

#### 분류분석 검증지표 및 해석하기

---
- **Structure:**

<center><img src='Image/DataSplit_Concept1.png' width='700'></center>

<center><img src='Image/Evaluation_Yhat.PNG' width='600'></center>

- **실제 예측결과 분포(히스토그램):**

<center><img src='Image/Evaluation_Prediction_Hist.png' width='500'></center>

---

**1) 오차행렬(Confusion Matrix):** 정답 클래스와 알고리즘이 예측한 클래스가 일치하는지 갯수로 정리  

- Binary Classification

| 　 | 예측 클래스 0 | 예측 클래스 1 |
|:-:|:-:|:-:|
| 정답 클래스 0 | 정답 클래스가 0, 예측 클래스가 0인 표본의 수 <br> (3) | 정답 클래스가 0, 예측 클래스가 1인 표본의 수 <br> (0)|
| 정답 클래스 1 | 정답 클래스가 1, 예측 클래스가 0인 표본의 수 <br> (1) | 정답 클래스가 1, 예측 클래스가 1인 표본의 수 <br> (3) |

- Multi-class Classification

| 　 | 예측 클래스 0 | 예측 클래스 1 | … | 예측 클래스 K |
|:-:|:-:|:-:|:-:|:-:|
| 정답 클래스 0 | 정답 클래스가 0, 예측 클래스가 0인 표본의 수 | 정답 클래스가 0, 예측 클래스가 1인 표본의 수 | … | 정답 클래스가 0, 예측 클래스가 K인 표본의 수 |
| 정답 클래스 1 | 정답 클래스가 1, 예측 클래스가 0인 표본의 수 | 정답 클래스가 1, 예측 클래스가 1인 표본의 수 | … | 정답 클래스가 1, 예측 클래스가 K인 표본의 수 |
| … | … | … | … | … |
| 정답 클래스 K | 정답 클래스가 K, 예측 클래스가 0인 표본의 수 | 정답 클래스가 K, 예측 클래스가 1인 표본의 수 | … | 정답 클래스가 K, 예측 클래스가 K인 표본의 수 |


**2) 정확도(Accuracy):** 전체 샘플 중 정확하게 예측한 클래스의 비율(클래스 0과 1을 모두 포함)
> - 예측이 정답과 얼마나 정확한가?

| 　 | 예측 클래스 0 | 예측 클래스 1 |
|:-:|:-:|:-:|
| 정답 클래스 0 | True Negative (TN) <br> (3) | False Positive (FP) <br> (0) |
| 정답 클래스 1 | False Negative (FN) <br> (1) | True Positive (TP) <br> (3) |

\begin{align*}
\text{accuracy} = \frac{TP + TN}{TP + FN + FP + TN}
\end{align*}

**3) 정밀도(Precision):** 클래스 1로 예측한 값들 중 실제 클래스 1의 비율
> - 예측한 것중 정답의 비율은?
> - 잘못예측한 클래스 1의 비중을 파악하고 줄이는데 목적
> - 암환자가 아닌데 암에 걸릴거라고 예측하여 과도한 사람들의 검진 증가 우려

| 　 | 예측 클래스 1 |
|:-:|:-:|
| 정답 클래스 0 | False Positive (FP) <br> (0) |
| 정답 클래스 1 | True Positive (TP) <br> (3) |

\begin{align*}
\text{accuracy} = \frac{TP}{TP + FP}
\end{align*}

**4) 재현율(Recall/Sensitivity/True Positive Rate):** 실제 클래스 1 값들 중 예측 클래스 1의 비율
> - 정답 클래스 1중 예측으로 맞춘 비율은?
> - 잘못예측한 클래스 0의 비중을 파악하고 줄이는데 목적
> - 암환자인데 암이 아니라 예측하여 과도한 사망율 증가 우려

| 　 | 예측 클래스 0 | 예측 클래스 1 |
|:-:|:-:|:-:|
| 정답 클래스 1 | False Negative (FN) <br> (1) | True Positive (TP) <br> (3) |

\begin{align*}
\text{accuracy} = \frac{TP}{TP + FN}
\end{align*}

**5) F1점수(F1-score):** 정밀도와 재현율의 Trade Off관계 반영위해 (가중)평균으로 모두 잘 맞추었는지 평가
> - 정밀도과 재현율이 모두 중요한 문제의 경우 중요
> - 정밀도와 재현율을 따로 보면 한쪽으로 편중된(Bias) 의사결정이 될 수 있는 위험
> - 다양한 평균의 종류 중 조화평균을 사용하여 계산다양한 평균의 종류 중 조화평균을 사용하여 계산
> - 정밀도과 재현율 중 한쪽에 치우치지 않았을 때 높은 값

\begin{align*}
\text{accuracy} = \frac{2 * precision * recall}{precision + recall}
\end{align*}

**6) ROC커브(Receiver Operator Characteristic Curve):** 분류 기준값(Threshold)에 따라 재현율과 거짓율의 검증지표의 변화를 확인하기 위한 시각화 지표

<center><img src='Image/Evaluation_ROC_Distribution.png' width='500'></center>

- **재현율(Recall/Sensitivity/True Positive Rate):** 실제 클래스 1 값들 중 예측 클래스 1의 비율
> - 정답 클래스 1중 예측으로 맞춘 비율은?
> - 잘못예측한 클래스 0의 비중을 파악하고 줄이는데 목적
> - 암환자인데 암이 아니라 예측하여 과도한 사망율 증가 우려

| 　 | 예측 클래스 0 | 예측 클래스 1 |
|:-:|:-:|:-:|
| 정답 클래스 1 | False Negative (FN) <br> (1) | True Positive (TP) <br> (3) |

\begin{align*}
\text{accuracy} = \frac{TP}{TP + FN}
\end{align*}

- **거짓율(Fall-out/False Positive Rate):** 실제 클래스 0 값들 중 예측 클래스 1의 비율
> - 정답 클래스 0중 예측으로 틀린 비율은?
> - 다른 Metrics와 달리 낮을 수록 좋음
> - 재현율(TPR)과 거짓율(FPR)은 양의 상관관계 존재

| 　 | 예측 클래스 0 | 예측 클래스 1 |
|:-:|:-:|:-:|
| 정답 클래스 0 | True Negative (TN) <br> (3) | False Positive (FP) <br> (0) |

\begin{align*}
\text{accuracy} = \frac{FP}{FP + TN}
\end{align*}

- **RUC Curve:**

<center><img src='Image/Evaluation_ROC_Fit.png' width='500'></center>

> **예시:**

<center><img src='Image/Evaluation_ROC_Type.png' width='900'></center>