# 분석 모형 평가 및 개선

## 분석 모형 평가

### 평가지표 

1) 분석 모형 설정 
- 편향(Bias) : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
- 분산(Variance) : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 
- 낮은 평향과 낮은 분산으로 설정되어야 한다 

2) 분석 모형 평가방법
- 범주형 : 혼동 행렬(Confusion Matrix)
- 연속형 : RMSE(Root Mean Squared Error) 

3) 회귀 모형 평가 지표
- 오차 제곱합(SSE) : $SSE = \sum_{i=1}^{n}(y_i - \hat y_i)^2$
- 전체 제곱합(SST) : $SST = \sum_{i=1}^{n}(y_i - \bar y_i)^2$
- 회귀 제곱합(SSR) : $SSR = \sum_{i=1}^{n}(\hat y_i - \bar y_i)^2$
- 평균 오차(AE) : $AE = \frac{1}{n} \sum_{i=1}^{n}(y_i - \hat y_i)^2$
- 평균 절대 오차(MAE) : $MAE = \frac{1}{n} \sum_{i=1}^{n}|y_i - \hat y_i|^2$
- 평균 제곱근 오차(RMSE) : $ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n}(y_i - \hat y_i)^2}$
- 평균 절대 백분율 오차(MAPE) : $MAPE = \frac{100}{n} \sum_{i=1}^{n}|\frac{y_i - \hat y_i}{y_i}|$
- 평균 백분율 오차(MPE) : $MPE = \frac{100}{n} \sum_{i=1}^{n}(\frac{y_i - \hat y_i}{y_i})$
- 결정계수
    - Coefficient of Determination($R^2$)
    - 회귀 모형이 실제값을 얼마나 잘 나타내는지에 대한 비율 
    - 1에 가까울 수록 잘 설명
    - $R^2 = \frac{SSR}{SST}$
- 수정된 결정계수
    - 적절하지 않는 독립변수를 추가하는 것에 패널티를 부가함
    - $R_a ^ 2 = 1-(\frac{n-1}{n-p-1})\frac{SSE}{SST}$
- Mallow's $C_p$
    - 수정된 결정계수와 마찬가지로 적절하지 않는 독립변수에 패넡티를 부여 
    - 값이 작을수록 설명력이 좋음 
    
4) 분석 모형 평가지표
- 혼동 행렬(Confusion Matrix) 
    - 모델에서 구한 분류와 실제 분류를 교차표 형태로 정리한 행렬 
    - 예측 클래스
        - 예측이 정확한 경우 : TP, TN
        - 예측이 부정확한 경우 : FP, FN 
    - 평가지표 
        - 정확도(Accuracy) : $\frac{TP + TN}{TP + TN + FP + FN}$
        - 오차비율(Error rate) : $\frac{FP + FN}{TP + TN + FP + FN}$
        - 재현율(Recall) : $\frac{TP}{TP + FN}$
        - 특이도(Specify) : $\frac{TN}{TN + FP}$
        - 거짓 긍정률 : $\frac{FP}{TN + FP}$
        - 정밀도(Precision) : $\frac{TP}{TP + FP}$
        - F-Measure : $2 \times \frac{Precision \times Recall}{Precision + Recall}$
        - 카파 통계량(Kappa Statistics) : 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
- ROC 곡선
    - 가로축을 FP rate, 세로축을 TP rate로 두어 시각화한 그래프 
    - 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수 
    - AUC(Area Under the ROC curve) : ROC곡선 아래의 면적을 모형의 평가지표로 설정
    - AUC가 1에 가까울수록 좋음
    
- 이익 도표(Gain Chart) 
    

### 분석 모형 진단 

1) 분석 모형의 오류
- 일반화 오류(Generalization Error) : 주어진 데이터 집합의 특성을 지나치게 반영하여 발생하는 오류, 과대적합 되었다고 함
- 학습 오류(Training Error) : 데이터 집합의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류, 과소적합 되었다고 함

### 교차 검증

1) 교차 검증(Cross-Validation) : 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로하는 검증 기법 

2) 홀드 아웃 교차검증(Holdout Cross Validation) 

- 비복원 추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법
- 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없는 데이터 손실 발생
- 데이터를 나누는 방법에 따라 결과가 달라짐 
- trian_test_split()

3) K-Fold Cross Validation

- 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그 중 1개의 집합을 평가 데이터, 나머지 (K-1)개의 집합을 훈련 데이터로 선정하여 분석 모형을 평가
- K값이 증가하면 수행 시간과 계산량도 많아짐
- K에 다수결 또는 평균으로 분석 

4) Leave-One-Out Cross Validation(LOOCV)

- 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 (N-1)개는 훈련 데이터로 사용하는 과정을 N번 반복
- N-Fold Cross Validation과 방식이 같음 

5) Leave-p-Out Cross Validation(LpOCV)

- LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법 

6) 부트스트랩(Bootstrap) 

- 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 기법
- 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출함
- 특정 샘플이 한 번도 선택되지 않는 경우는 36.8%
- 한 번도 포함되지 않는 OOB 데이터는 검증에 사용됨

### 모수 유의성 검정 

1) 모수 유의성 검정 : 평균 및 분산에 따라 가설의 유의성 검정 

2) 모집단의 평균에 대한 유의성 검정 

- Z-검정 
    - 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정
    - 추출된 표본이 동일 모집단에 속하는지 가설검정
    - 모집단 분산을 이미 알고 있을 경우 적용
    
- T-검정
    - 귀무가설 하에서 T-분포를 따르는 통계적 가설 검정
    - 모집단이 정규분포라는 정도만 알고 모분산을 모를 경우 적용
    
- 분산 분석(ANOVA)
    - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의한 분산 비교로 얻은 F-분포를 사용하여 가설검정
    - 일원배치 분산 분석 : 독립변수(1개) + 종속변수(1개)
    - 이원배치 분산 분석 : 독립변수(2개) + 종속변수(1개) 
    - 다변량 분산 분석 : 독립변수(2개이상) + 종속변수(2개이상) 
    
3) 모집단의 분산에 대한 유의성 검정

- 카이제곱 검정 : 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지 검정 
- F-검정 : 두 표본의 분산에 대한 차이가 통계적으로 유의한지 검정, 모집단 분산 간의 비율에 대한 검정 

### 적합도 검정 

1) 적합도 검정

표본 집단의 분포가 주어진 특성 분포를 따르고 있는지 검정하는 기법 

2) 정규성 검정

- 샤피로-윌크 검정
- 콜모고로프-스미르노프 적합성 검정 
- Q-Q plot 

## 분석 모형 개선 

### 과대 적합 방지

### 매개변수 최적화 

### 분석 모형 융합 

### 최종 모형 선정 

# 분석 결과 해석 및 활용

## 분석 결과 해석

### 분석 모형 해석 

### 비즈니스 기여도 평가 

## 분석 결과 시각화

### 시공간 시각화 

### 분포 시각화 

### 관계 시각화 

### 비교 시각화 

### 인포그래픽

## 분석 결과 활용

### 분석 모형 전개

### 분석 결과 활용 시나리오 개발 

### 분석 모형 모니터링 

### 분석 모형 리모델링