# 분석 모형 설계

## 분석 절차 수립 

### 분석 모형 선정 

1. 통계기반 분석 모형 선정 
    
    - 통계분석 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계
    
    - 기술통계 
        - 수집된 데이터를 확률, 통계적으로 정리, 요약하는 기초적인 통계
        - 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
        - 그래프를 활용하여 데이터를 파악
        - 분석 초기 단계에서 데이터 분포의 특징 파악
    
    - 상관분석
        - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
        - 단순상관 분석 : 두 변수 사이의 연관 관계 분석
        - 다중상관 분석 : 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
        - 변수 간의 상관 분석 : 데이터 속성에 따라서 수치적, 명목적, 순서적 데이터 등 을 가지는 변수 간의 상관분석
    
    - 회귀분석
        - 하나 이상의 독립변수들의 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
        - 단순선형 회귀 : 독립변수가 1개, 종속변수와의 관계가 직선
        - 다중선형 회귀 : 독립변수가 K개, 종속변수와의 관계가 선형
        - 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
        - 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
        - 로지스틱 회귀 : 종속변수가 범주형인 경우 적용 
        - 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
    
    - 분산분석
        - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분선의 비교로 얻은 분포를 이용하여 가설검정을 수행
        - 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 
    
    - 주성분분석
        - 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
    
    - 판별분석
        - 집단에 대한 정보로부터 집단을 구별할 수 있는 판별 규칙을 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
        
   
2. 데이터 마이닝 기반 분석 모형 선정
    
    - 데이터 마이닝 : 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법을 활용하여 모델화 하여 정보를 추출
    
    - 분류 모델 
        - 범주형 변수 혹은 이산형 변수등의 범주를 예측하는 것
        - 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델 
    
    - 예측 모델
        - 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결과값을 예측하는 기법
        - 회귀분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 기법
        - 의사결정나무 : 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분성 방법
        - 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측
        - 인공신경망
    
    - 군집화 모델 
        - 이질적인 집단을 몇개의 동질적인 소집단으로 세분화 하는작업
        - 군집들 사이의 관계를 분석하는 다변량 분석 기법
        - 계층적 방법
            - 병합적(응집분석) 방법 : 유사한 소집단들을 합쳐 새로운 소집단을 구성 
            - 분할적(분할분석) 방법 : 전체 집단에서 유사성이 떨어지는 객체들을 분리하는 방법 
        - 비 계층적 방법
            - K-means Clustering
    
    - 연관규칙 모델 
        - 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 기법
        - 장바구니 분석, 마케팅에서 활용된다
        
        
3. 머신러닝 기반 분석 모형 선정
    
    - 지도 학습(Supervised Learning)
        - 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법
        - 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것 
        - 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀분석 모형
        - 인공신경망 분석 : 인간의 뉴런구조 모방
        - 의사결정나무 
        - 서포트 벡신 머신 : 데이터를 초평면 중에서 데이터들과 거리가 가장 먼 초 평면을 선택하여 분리하는 지도 학습
        - 랜덤 포레스트 : 의사결정나무의 배깅과 부스팅보다 더 많은 무작위성을 주어 선형 결합
        - 감성 분석 
        
    - 비지도 학습(Unsupervised Learning)
        - 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법
        - 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 사용
        - 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격과 유사 
        - 군집화, 인공신경망, 딥러닝이 적용 
        
    - 강화 학습(Reinforcement Learning)
        - 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법
        - 행동에 대한 반응에 따라 보상이 주어진다
        - 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습을 진행한다
        
        
4. 변수에 따른 분석 기법 선정 

    - 변수의 개수에 따른 분석기법 
        - 단일변수 분석(Univariate Analysis) : 연속형 변수는 히스토그램이나 박스플롯을 사용하여 평균, 최빈수, 중위수 등 과 함께 분포 확인
        - 이변수 분석 : 변수의 유형에 따라 적절한 시각화 분석 방법 선택
        - 다변수 분석 : 범주형 변수가 하나 이상 포함된 경우 변수를 범주에 따라 쪼갠 후, 답녑수나 이변수 분석 방법에 따라 분석
        
    - 데이터 유형에 따른 분석 기법 
    
        | 독립변수/종속변수 | 연속형 변수 | 이산형/범주형 변수 | 
        | : --- : | : --- : | : --- : | 
        | 연속형 변수 | 회귀분석, 인공신경망 모델, K-최근접 이웃기법 | 로지스틱 회귀분석, 판별분석, K-최근접 이웃기법 | 
        | 이산형/범주형 변수 | 회귀분석, 인공신경망 모델, 의사결정나무(회귀) | 인공신경망 모델, 의사결정나무(분류), 로지스틱 회귀분석 |     

### 분석 모형 정의  

1. 분석 모형 정의 : 분석 모형을 선정하고 모델에 적합한 변수를 선택하여 모형의 사양을 작성하는 기법


2. 매개변수 
    - 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
    - 모델에 의해 요구되어지는 값들
    - 매개변수가 모델의 성능을 결정
    - 가중치, 서포트 벡터, 결정계수
    

3. 초매개변수
    - 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아닌 사용자가 직접 설정해주는 값
    - 모델의 매개변수값을 측정하기 위해 알고리즘 구현과정에서 사용 
    - 학습률(Learning Rate), 깊이(Depth), 은닉층의 개수, KNN에서 K의 개수 
    
    
4. 분석 모형 정의 고려사항 
    - 과소적합 : 적정 수준의 학습이 부족하여 실제 성능이 떨어지는 현상 
    - 과대적합 : 학습 데이터에 대한 성능은 좋으나 실제 데이터에 성능이 떨어지는 현상 

### 분석 모형 구축 절차 

1. 요건 정의 : 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정 
    - 분석요건 도출 
        - 분석요건을 추출, 분석, 명세화하고 종합적으로 적합성을 검토
        - 데이터 분석 업무의 배경, 주요 이슈, 기대효과, 제약사항을 사전에 정의함
    
    - 수행방안 설계 
        - 탐색적 분석을 수행하여 분석 가능성을 검토
        - 데이터베이스 접근 환경을 구축하고, 분석 대상 데이터의 존재 여부를 확인하는 등 기초 분석 수행 
    
    - 요건 확정 
        - 수립된 기획안을 이해관계저와 공유하여 최종 요건을 확정
       

2. 모델링
    - 모델링 마트 설계 및 구축
        - 다양한 원천 데이터로부터 분석 대상 데이터 획득
        - 탐색, 정제, 요약 등의 전처리르 통해 변수들을 식별
        - 분석 대상 데이터를 적재해 모델 마트를 구축
    
    - 탐색적 분석과 유의 변수 도출
        - 유의미한 변수를 파악하기 위해 목표값 별로 해당 변수의 분포된 값을 보고 차이가 큰지 파악
        - 분석 모형 및 데이터의 유의성을 반복적으로 보정
        - 최소한의 시간에 탐색적 분석을 완료하여 단위 분석에 대한 소요 시간을 추정
     
    - 모델링
        - 업무 특성에 적합나 기법을 선택하거나 여러 모델링 기법을 결합해 적용 
        - 시뮬레이션과 최적화를 결합해 적용 
    
    - 모델링 성능 평가 
        - 정확도, 정밀도, 재현율, 향상도 등의 값으로 판단


3. 검증 및 평가 
    - 분석데이터를 훈련(60 ~ 80%)과 평가(20 ~ 40%) 데이터로 분리한 다음 검증 및 평가 
    - 운영 상황에서 실제 테스트 
        - 분석결과를 업무 프로세스에 가상으로 적용해 검증하는 실무 적용 직전의 활동 
        - 테스트하기 위한 유사 운영환경을 구축
        - 설계 절차에 따라 테스트하고 그 결과를 분석 
    - 비즈니스 영향도 평가 : 투자 대비 효과 정량화 기법으로 비즈니스 영향도 평가


4. 적용
    - 운영 시스템에 적용과 자동화
    - 주기적 리모델링

## 분석 환경 구축

### 분석 도구 설정 

1. R
    - 통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈 소스 프로그래밍
    - 15,000개 이상의 패키지를 직접 추가하여 기능을 확장할 수 있음
    - R Studio(IDE)
    - Windows, Mac OS, Linux 등 다양한 OS 지원
    
    
2. Python
    - C언어 기반의 오픈 소스 프로그래밍 언어    

### 데이터 분할 


- 훈련 데이터와 검증 데이터는 학습 과정에서 사용하며, 평가 데이터는 학습 과정에 사용되지 않고 평가를 위해 사용됨
- 학습이 완료된 모형에 대하여 한 번도 사용하지 않은 평가데이터 활용
- 훈련데이터 : 60 ~ 80% vs 평가데이터 : 20 ~ 40% 활용 

# 분석 기법 적용

## 분석 기법 

### 회귀 분석 

1. 회귀분석 개념
    - 독립변수와 종속변수 간에 선형적인 관계를 도출해서 종속변수를 예측하는 분석 기법
    - 변수들 사이의 인과관계를 밝히고 모형을 적합(Fit)하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법
    

2. 회귀 모형의 가정 
    - 선형성 
        - 독립변수와 종속변수가 선형적이어야 한다는 특성
        - 독립변수의 변화에 따라 종속변수도 일정 크기로 변화
        
    - 독립성 
        - 잔차와 독립변수의 값이 서로 독립적이어야 함
        - 더빈-왓슨 검정을 통해 확인 가능
        
    - 등분산성
        - 잔차의 분산이 독립변수와 무관하게 일정해야 함
    
    - 비상관성
        - 관측치와 잔차는 서로 상관이 없어야 함
        
    - 정규성
        - 잔차항이 정규분포의 형태를 이뤄야 함 
        - Q-Q plot에서 직선의 형태를 띄어야 함
        

3. 회귀 모형 검증
    - 회귀 모형이 통계적으로 유의미한가?
        - F-통계량을 통해 확인
        
    - 회귀계수들이 유의미한가?
        - t-통계량을 통해 신뢰구간 확인
        
    - 회귀 모형이 얼마나 설명력을 갖는가? 
        - 회귀식 자체의 유의성을 확인
        - 결정계수($R^2$)를 통해 판단
        
    - 회귀 모형이 데이터를 잘 적합하고 있는가?
        - 잔차를 그래프로 그리고 휘귀진단을 함
        
    - 데이터가 가정을 만족시키는가?
        - 선형성, 독립성, 등분산성, 비상관성, 정규성 가정을 만족
        
        
4. 단순 선형 회귀 분석


5. 다중 선형 회귀 분석 

### 로지스트 회귀 분석 

### 의사 결정 나무 

### 인공신경망 

### 서포트 벡신 머신 

### 연관성 분석 

### 군집 분석 

## 고급 분석 기법

### 범주형 자료 분석 

### 다변량 분석 

### 주성분 분석 

### 딥러닝 분석

### 비정형 데이터 분석 

### 앙상블 분석 

### 비모수 통계 