# 통계모델 기본

## 통계모델

### 모델/모델링

- 모델: 현실 세계의 모형
- 모델링: 모델을 만드는 과정 

#### 예 
- 비행기 개발시 실제 비행기가 아니고 작은 모형을 이용하여 비행기 특성을 파악하고 개발함 
- 각종 기상환경(현실적으로 만날 확률이 매우 낮은 경우도 포함하여)에 대한 특성을 파악할 수 있음

#### 인과관계 보다는 상관관계에 집중
- 물리법칙은 인과관계에 바탕하지만 데이터 분석은 상관관계에 집중함
- 기온이 올라가면 맥주집 매상이 올라가는 것에 집중함.
- 왜 그런지에 대한 설명은 불가 (복잡한 세계를 위한 단순화?)
- 특정관점에서 조명할 수 있음 (맥주를 좋아하는 사람의 수와 매상 간의 관계)
- 맥주매상 ~ 맥주를 좋아하는 인구 + 기온 + ...

#### 수리모델
$$ 맥주 매상 (만원) = 20 + 4 \times 기온(^{o}C) $$

#### 확률모델
- 확률모델: 수리모델 중 특히 확률적인 표현이 있는 모델 
- 기온 20도에서 맥주매상 평균이 정확히 100 만원이 되는 것이 아니라, (왜냐면 다른 요인들도 있을테니)
- 평균이 100만원 정도가 되는 정규분포를 할 것임 (평균의 분포는 중심극한의 원리에 따라 표본평균을 평균으로 표준오차를 표준편차로 갖는 정규분포를 함)

- 혹은 맥주매상이 모평균과 분산을 갖는 정규분포를 갖는다면, 
$$ 맥주매상(만원) \sim N(20+4\times 기온,\sigma^2) $$  
$$ 맥주매상(만원) \sim 20+4\times 기온+\epsilon, \epsilon\approx N(0,\sigma^2) $$

#### 통계모델 
- 통계모델: 데이터에 적합하게 구축된 확률모델 
##### 예
- 기온이 20도인 날을 30일간 조사하여 매상의 평균값이 110만워, 분산이 2라는 것을 확인 
- 기존의 모델과 차이가 있음
- 기온 30도인 날을 며칠 조시하니 평균 160만원이 되면
$$ 맥주매상(만원) \sim N(10+5\times 기온,\sigma^2) $$  
쪽이 더 잘맞는 모델이 됨
- 데이터를 이용하여 계수가 정해진 모델을 통계모델이라 함
- 일반적으로는 확률모델과 통계모델을 구분없이 통계모델이라 함 

### 확률분포와 통계모델
- 확률분포를 가정하고 모수를 결정한 것이 통계모델 

### 통계모델의 활용
- 조사한 영역에서만 적용 (매상 변화를 모티터링한 온도 범위에서만 적용)
- 더 많은 변수를 고려하여 더 복잡한 현상을 파악할 수 있음 (모델 확장)
  - 비오는 날의 매상에의 영향을 고려하면
  - 온도가 높은날 비가 오면 매상이 더 오를지 내릴지를 판단할 수 있음 (시너지, 디너지 효과)

## 통계모델을 만드는 방법 

### 종속변수와 독립변수

- 종속변수(응답변수) 
  - 변화에 응답하는 변수 (맥주매상)
- 독립변수(설명변수)
  - 앞서의 경우에는 기온, 날씨, 맥주 가격 
  
- $종속변수 \sim 종속변수1+종속변수2\cdots $ 형식으로 나타냄

### 파라메트릭/논파라메트릭 모델
- 파라메트릭 모델: 독립변수 수가 결정된 상태의 모델 (회귀분석 등)
- 논파라메트릭 모델: 데이터 수에 따라 독립변수가 변화하는 모델 (의사결정나무 등)

### 선형모델
- 종속변수와 독립변수 간의 관계를 선형으로 보는 모델
$$ 맥주매상(만원) \sim 20+4\times 기온$$

### 계수(=가중치)

$$ 맥주매상(만원) \sim \beta_0 +\beta_1 \times 기온$$
- 계수(기계학습: 가중치): $\beta_0$, 절편, $\beta_1$, 회귀계수 

### 모델 구축(=모델 정하기 + 파라미터 추정)

#### 파라미터 추정
- 파이썬이 자동으로 완료 
#### 모델 구조를 바꾸는 방법
- 특정 독립변수를 넣거나 빼는 방법으로 구조 변경가능 
- 변수선택에 따른 모델 구조 변화 예 (A, B, C 세개의 독립변수)
  - 종속변수 ~ 독립변수 없음: NULL 모델
  - 종속변수 ~ A
  - 종속변수 ~ B
  - 종속변수 ~ C
  - 종속변수 ~ A + B
  - 종속변수 ~ A + C
  - 종속변수 ~ B + C
  - 종속변수 ~ A + B + C

##### NULL 모델

- 독립변수에 대한 종속성을 발견할 수 없음
- 평균값으로 보는 것이 가장 합당함

#### 검정을 이용한 변수 선택 (모델구조 선택 시)

$$ 맥주매상(만원) \sim \beta_0 +\beta_1 \times 기온$$

- 귀무가설: 독립변수의 계수 $\beta_1$은 0이다. (효과가 없다)
- 대립가설: 독립변수의 계수 $\beta_1$은 0이 아니다. (효과가 있다)
- 만일 모든 독립변수에 대하여 귀무가설을 채택하면 NULL 모델이 됨

#### 정보기준을 이용한 변수 선택 (모델구조 선택시)
- AIC (아카이케 정보기준)을 이용하는 방법
- AIC가 작을수록 좋은 모델
- 위의 각 모델을 만들어 AIC값을 도출하여 이를 비교하여 모델을 선정함 

### 모델평가

- 예측정확도 평가
  - 더 정확한 것이 좋은 모델
- 모델의 전제조건 평가
  - 오차가 정규분포를 가지는가?

$$ 맥주매상(만원) \sim \beta_0 + \beta_1 \times 기온+\epsilon, \epsilon\approx N(0,\sigma^2) $$

### 통계모델을 만들기 전에 분석 목적을 정할 것

- 분석 목적을 결정하고 데이터를 수집하여 모델링해야 함
- 기온과 맥주매상 간의 관계를 모델링하면 재고관리에는 도움이되지만 매상을 올릴 수는 없음
- 매상을 높이기 위한 목적이면 광고방법과 매상간의 관계등을 조사해야 함 

## 데이터의 표현과 모델의 명칭

### 정규선형모델
- 파라메트릭 모델
- **종속변수**가 정규분포를 따른다고 가정 (5장에서 공부할 내용)

### 회귀분석(모델)
- 정규선형모델 중 종속변수가 연속형 변수인 모델

### 다중회귀분석
- 회귀분석 중 독립변수가 여러개인 것 
- 독립변수가 하나인 경우 **단일**회귀분석

### 분산분석(?)
- 정규선형모델 중 독립변수가 카테고리형(범주형) 변수인 모델
- 범주형 회귀분석이라 함
- 다른 검정에도 분산분석라는 이름을 사용함
- 주로 그를 위해 분산분석이라는 이름을 사용함

### 일반선형모델
- 종속변수가 따르는 확률분포가 정규분포 외에 다양한 분포일 경우 
- 정규선형모델은 일반선형모델의 일부 

### 머신러닝(기계학습)에서의 회귀
- 회귀: 종속변수가 연속형 변수인 모델 
- 분류: 종속변수가 범주형 변수인 경우 


## 파라미터 추정:우도최대화

- 실제는 파이썬 함수를 사용하면 순식간에 완료됨
- 그 의미에 중점을 두고 설명 
- 원리 이해 시 이후 기계학습 학습시 도움

### 우도
- 우도($\mathcal{L}$:Likelihood): 파라미터가 정해져 있을 때 표본을 얻을 수 있는 확률(밀도)
- 앞면이 나올 확률이 1/2인 경우, 동전 두개를 던졌을때 앞면, 뒷면이 차례로 나올 확률 = 1/4

### 우도함수, $\mathcal{L}(\theta)$ 
- $\theta$: 파라미터 (동전의 앞면이 나올 확률)
- 위의 경우라면, 동전 앞면, 뒷면이 차례로 나오려면 
$$\mathcal{L}(\theta)=\theta(1-\theta)$$

### 로그우도
- $\log{\mathcal{L}}$
- 이후 계산을 쉽게 해줌

#### 로그의 성질
1. 단조증가한다.f(x)가 x에 따라 증가함.
2. 곱셈이 덧셈으로 바뀐다. log(xy)=log(x)+log(y)
3. 절대값이 극단적으로 작은 값이 되기 어렵다.
  - 1e-10은 -10이 되므로 작은 수라하더라도 무시되지 않고 취급됨
  - 확률을 여러번 곱하면 매우 작은수가 되는데 이를 효과적으로 취급할 수 있음 
  
### 최대우도법
- 우도나 로그우도의 결과를 최대로 하기 위한 파라미터를 추정할 때 사용하는 방법

- 동전던지기의 경우
  - $\theta = 1/2$의 경우 $\log{\mathcal{L}}=1/4$
  - $\theta = 1/3$의 경우 $\log{\mathcal{L}}=2/9$
  - 이때, $\log{\mathcal{L}}$를 최대로 만들기 위해서는 $\theta = 1/2$
  - $\theta = 1/2 =\hat{\theta}$: 최대우도추정량 
  
### 최대화 로그우도 
- 최대우도추정량을 사용했을때 $\log{\mathcal{L}}$
- 파라미터 추정량은 동일 

### 정규분포를 따르는 데이터의 우도 
- 모집단이 정규분포를 따른다고 가정할 때의 최대우도법 계산
- 가장 간단한 NULL 모델의 파라미터 추정
- $ y \sim \mathcal{N} (\mu, \sigma^2 ) $이고, 샘플사이즈 2로 표본을 얻으면 
- $ \mathcal{N} (y_1 |\mu, \sigma^2 ) $, $ \mathcal{N} (y_2 |\mu, \sigma^2 ) $
- 우도 $ \mathcal{L}=\mathcal{N} (y_1 |\mu, \sigma^2 ) \times  \mathcal{N} (y_2 |\mu, \sigma^2 )$

### 장애모수
- 직접적인 관심의 대상이 아닌 파라미터
- 정규분포의 모수는 평균과 분산 2가지지만 분산은 평균값이 정해지면 계산가능
- 분산값을 장애모수로 취급
- NULL 모델의 경우 평균 $\mu$만 추정하면 됨

### 정규선형모델의 우도

$$ 맥주매상(만원) \sim \beta_0 +\beta_1 \times 기온$$

- 만일, $(x_1,y_1)$, $(x_2,y_2)$의 두 개의 점을 샘플했다면,
- 우도 $\mathcal{L}=\prod_{i=1}^{N} \mathcal{N}\left (y_i| \beta_0 + \beta_1 x_i, \sigma^2
\right ) $
- 로그우도  $ \log \mathcal{L}=\sum_{i=1}^{N} \log \mathcal{N}\left (y_i| \beta_0 + \beta_1 x_i, \sigma^2
\right ) $
- 정규분포 $\mathcal{N}\left (y_i| \beta_0 + \beta_1 x_i, \sigma^2  \right ) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \frac{ -\left (y_i-(\beta_0+\beta_1 x_i)\right )^2 }{2\sigma^2}  $, 
$$ \log \mathcal{N} = \log \frac{1}{\sqrt{2 \pi \sigma^2}} -\frac{ \left (y_i-(\beta_0+\beta_1 x_i)\right )^2}{2\sigma^2}  $$

- 최대(로그)우도법
$$ \underset{\beta_0, \beta_1}{arg max} \log \mathcal{L} = \sum_{i=1}^{N} \left [  \log \mathcal{N} \right ]  = \sum_{i=1}^{N}\left [ \log \frac{1}{\sqrt{2 \pi \sigma^2}} - \left (y_i-(\beta_0+\beta_1 x_i)\right )^2  \right ] $$

- 주어진 두 점을 고려하면,

$$ f(\beta_0 , \beta_1 ) = \underset{\beta_0, \beta_1}{arg max} \log \mathcal{L} =  \left [2 \log \frac{1}{\sqrt{2 \pi \sigma^2}} - \frac{\left (y_1-(\beta_0+\beta_1 x_1)\right )^2}{2\sigma^2} -  \frac{ \left (y_2-(\beta_0+\beta_1 x_2)\right )^2 }{2\sigma^2} \right ] $$

$$ \frac{\partial f}{\partial \beta_0} = 0 , \frac{\partial f}{\partial \beta_1} = 0$$

- 위의 두 식을 만족하는 $\beta_0 , \beta_1 $을 결정하면 됨
