# 분석 모형 설계

## 분석 절차 수립 

### 분석 모형 선정 

1. 통계기반 분석 모형 선정 
    
    - 통계분석 : 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집하고, 처리, 분류, 분석 및 해석하는 일련의 체계
    
    - 기술통계 
        - 수집된 데이터를 확률, 통계적으로 정리, 요약하는 기초적인 통계
        - 데이터에 대한 대략적인 통계적 수치를 계산하고 도출
        - 그래프를 활용하여 데이터를 파악
        - 분석 초기 단계에서 데이터 분포의 특징 파악
    
    - 상관분석
        - 두 개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정하여 분석하는 방법
        - 단순상관 분석 : 두 변수 사이의 연관 관계 분석
        - 다중상관 분석 : 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
        - 변수 간의 상관 분석 : 데이터 속성에 따라서 수치적, 명목적, 순서적 데이터 등 을 가지는 변수 간의 상관분석
    
    - 회귀분석
        - 하나 이상의 독립변수들의 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
        - 단순선형 회귀 : 독립변수가 1개, 종속변수와의 관계가 직선
        - 다중선형 회귀 : 독립변수가 K개, 종속변수와의 관계가 선형
        - 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
        - 곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
        - 로지스틱 회귀 : 종속변수가 범주형인 경우 적용 
        - 비선형 회귀 : 회귀식의 모양이 선형관계로 이뤄져 있지 않은 모형
    
    - 분산분석
        - 두 개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분선의 비교로 얻은 분포를 이용하여 가설검정을 수행
        - 복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석 
    
    - 주성분분석
        - 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로 추출하는 통계 기법
    
    - 판별분석
        - 집단에 대한 정보로부터 집단을 구별할 수 있는 판별 규칙을 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법
        
   
2. 데이터 마이닝 기반 분석 모형 선정
    
    - 데이터 마이닝 : 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계 혹은 규칙 등을 탐색하고 통계적인 기법을 활용하여 모델화 하여 정보를 추출
    
    - 분류 모델 
        - 범주형 변수 혹은 이산형 변수등의 범주를 예측하는 것
        - 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델 
    
    - 예측 모델
        - 범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결과값을 예측하는 기법
        - 회귀분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 기법
        - 의사결정나무 : 의사결정 규칙을 트리구조로 도표화하여 분류와 예측을 수행하는 분성 방법
        - 시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측
        - 인공신경망
    
    - 군집화 모델 
        - 이질적인 집단을 몇개의 동질적인 소집단으로 세분화 하는작업
        - 군집들 사이의 관계를 분석하는 다변량 분석 기법
        - 계층적 방법
            - 병합적(응집분석) 방법 : 유사한 소집단들을 합쳐 새로운 소집단을 구성 
            - 분할적(분할분석) 방법 : 전체 집단에서 유사성이 떨어지는 객체들을 분리하는 방법 
        - 비 계층적 방법
            - K-means Clustering
    
    - 연관규칙 모델 
        - 데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 기법
        - 장바구니 분석, 마케팅에서 활용된다
        
        
3. 머신러닝 기반 분석 모형 선정
    
    - 지도 학습(Supervised Learning)
        - 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법
        - 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것 
        - 로지스틱 회귀 : 반응변수가 범주형인 경우 적용되는 회귀분석 모형
        - 인공신경망 분석 : 인간의 뉴런구조 모방
        - 의사결정나무 
        - 서포트 벡신 머신 : 데이터를 초평면 중에서 데이터들과 거리가 가장 먼 초 평면을 선택하여 분리하는 지도 학습
        - 랜덤 포레스트 : 의사결정나무의 배깅과 부스팅보다 더 많은 무작위성을 주어 선형 결합
        - 감성 분석 
        
    - 비지도 학습(Unsupervised Learning)
        - 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 훈련 데이터를 통해 학습시키는 방법
        - 현상의 설명이나 특징 도출, 패턴 도출 등의 문제에 사용
        - 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 데이터 마이닝의 성격과 유사 
        - 군집화, 인공신경망, 딥러닝이 적용 
        
    - 강화 학습(Reinforcement Learning)
        - 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법
        - 행동에 대한 반응에 따라 보상이 주어진다
        - 보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습을 진행한다
        
        
4. 변수에 따른 분석 기법 선정 

        
    

### 분석 모형 정의  

### 분석 모형 구축 절차 

## 분석 환경 구축

### 분석 도구 설정 

### 데이터 분할 

# 분석 기법 적용

## 분석 기법 

### 회귀 분석 

### 로지스트 회귀 분석 

### 의사 결정 나무 

### 인공신경망 

### 서포트 벡신 머신 

### 연관성 분석 

### 군집 분석 

## 고급 분석 기법

### 범주형 자료 분석 

### 다변량 분석 

### 주성분 분석 

### 딥러닝 분석

### 비정형 데이터 분석 

### 앙상블 분석 

### 비모수 통계 