### 통계 모델링 vs 머신러닝 모델링

|순서|통계|머신러닝|
|:--:|:--|:--|
|1|변수간 관계를 수학식으로 정형화|데이터로부터 학습이 가능한 알고리즘을 사용한다(규칙기반 프로그래밍 방식이 필요 없다)|
|2|전제, 데이터에 맞는 모델 적합화 수행전, 곡선 형태를 가정한다.(선형, 다형..)|주어진 데이터로부터 복잡한 패턴을 스스로 학습한다 -> 곡선 형태의 가정은 필요 없다|
|3|어떻게 표현하는가: 85%의 정확도, 92%의 신뢰수준으로 결과를 예측했다|정확도 86%로 예측했다. 손실함수(회귀쪽읠 성능평가지수) 0.5로 수렴했다|
|4|P값의 다양한 매개변수 결과를 예측한다|통계적 유의성의 전달을 않한다. 미고려|
|5|70:30=훈련:테스트|50:25:25=훈련:검증:테스트|
|6|훈련데이터만으로 개발|훈련/검증데이터 2개가 필요|
|7|통계 모델링은 연구 목적, 증명 대부분|실제 환경을 구현하는 방점|
|8|통계학과, 수학과|전산학과|

### 통계 기본 이론

- 예측 분석학
- 대전제는 역사는 반복적이다
- 과거 데이터에 대한 적합화를 수행하여 이를 테스트
    - 결과 성능에 대한 척도가 검증되면,
    - 동일 모델에 대해서 미래 예측에 활용
- 독립 변수
    - 관측치, 입력변수, 특징, feature, 설명변수등등...
- 종속 변수
    - 결과변수, 반응변수, 응답변수, 설명된변수, 측정된변수, 레이블, 실험변수등등..
- 변수들로 이루어진 수학식
    - 이를 이용하여 계산후 실제에 적용
    - 이를 통해서 추정을 한다 -> 통계 학문
- 가정
    - 항상 모든 변수들이 만족해야하는 기본 가정으로부터 시작한다

### 기술 통계 용어 정리

<img src='./table/s_0.png' width='300'>

- 모집단
    - 데이터 **전체**, 관측값 전체, 연구중 데이터 전체
- 표본
    - 모집단의 부분집합, 분석중 모집단의 일부
    - 모집단 전수 분석은 비용이 많이 발생(시간,돈..) 표본으로 조사후 모집단에 결론에 도달 방식    
- 매개변수
    - 모집단의 관해서 계산하는 척도

<img src='./table/s_1.png' width='300'>

- 통계량
    - 표본에 대한 통계량
- 평균
    - 산술평균(모든값을 더하고, 개수로 나눈다)
    - 함정 => 이상치(특이값)이 있으면 값이 틴다
- 중간값
    - 데이터의 중간지점, 데이터를 오름/내림 차순으로 정렬후 가운데값
- 최빈값
    - 데이터 중에서 빈번하게 반복되는 데이터 포인트

In [3]:
# scipy를 이용하여 통계 처리
from scipy import stats
import numpy as np

In [2]:
# 모집합( 데이터 전체)
# 단, 데이터수가 적어서 표본을 쓰지는 않겠다
data = [ 4,5,6,7,2,4,7,8,9,1,2,3,4,5 ]

In [4]:
# 리스트 데이터는 배열로 변환한다( scipy의 기본 베이스는 numpy, 
# numpy 계산 기본 자료 구조는 배열이다)
data = np.array( data )

In [6]:
# 평균
np.mean( data ), round( np.mean( data ), 2)

(4.785714285714286, 4.79)

In [7]:
# 중간값
np.median( data )

4.5

In [10]:
# 최빈값
tmp = stats.mode( data )
tmp[0][0]

4

In [12]:
import pandas as pd

In [14]:
df = pd.DataFrame( data )
df.describe()

Unnamed: 0,0
count,14.0
mean,4.785714
std,2.391606
min,1.0
25%,3.25
50%,4.5
75%,6.75
max,9.0


### 산포도

- 산포
    - 데이터가 얼마나 퍼져 있는가(변량)
    - 데이터 변수가 부적합한 값을 가지고 있는지 측정
    - 데이터가 중심에 모이지 않고 얼마나 흩어져있는지 제공 
- 범위
    - 최대값, 최소값의 차이
- 분산
    - 평균과 관측값의 차이를 제곱한 값들의 평균
    - 기대값으로부터 얼마나 떨어진곳에 데이터가 분포하는지 가능하는 수치다
- 표준편차
    - 분산의 제곱근
    - 분산보다 더 많이 활용된다
    
- 분위수
    - 데이터를 동일한 조각으로 분할
    - 백분위 
        - 퍼센테지
        - 중간값: 50%지점
    - 십분위
        - 10번째 백분위, 전체 데이터의 10% 지점
    - 사분위
        - 첫번째 사분위 25% 지점, 
    - IQR범위
        - 1사분위, 3사분위의 차이값
        - 데이터의 중간값을 보고, 이상값을 찾아낼때 효과적으로 사용.
        - 중간값(50%지점)이 속한 데이터 포인트
    <img src='./table/s_2.png' width='300'>

### 정규분포

<img src='./table/확률변수_확률분포_확률_이산확률변수.jpg' width='200'>

- 동전을 두번 던진다, 동전은 앞면(H), 뒷면(T) 2개가 존재한다
- 동전을 두번 던졌을대, 나올수 있는 경우의 수 => S= { HH, HT, TH, TT } 이다
    - **정의역, 표본공간, S**
    
- 동전을 두번 던졌을때 앞면이 나오는 케이스는?
    - HH -> 2, HT, TH -> 1, TT -> 0에 대응되었다. 
    - 0, 1, 2 이것을 실수공간 값들중에서 HH가 0에 대응하고, HT가 TH가 1에 대응하도록
    - 규칙, 대응 식등 이런것을 정의하는 **대응방식=>관계를 정의하는 함수 => 확률변수**
    
- **실수 공간(공역)**의 어떤 값이 표본 공간(S)의 원소들과 어떻게 연결할지를 정의하는 함수
    - 확률변수이다
    - 정의역이 표본공간이고, 공역이 실수 전체의 집합인 함수가 확률변수이다

- **이산확률변수**
    - 실수 공간(공역)을 셀수 있다면 그때의 확률 변수를 이산확률변수이다라고 정의
    - 0, 1, 2 

- **확률 분포**
    - 위의 케이스에서 0, 1, 2등 공역을 정의역으로 보고
    - 확률 1/2, 1/4을 공역으로 보았을때
    - 2개가 연결되는, 대응되는관계 => 함수 => 확률분포

- 정규분포
    - 가우시안 분포
    - 연속 확률 분포의 하나
    - 정규 분포는 수집된 자료(표본)의 분포를 근사하는데 사용
    <img src='https://dbscthumb-phinf.pstatic.net/3955_000_1/20180117204936312_0S0V0BBAE.gif/EchelonApprox.gif?type=w646_fst_n' width='200'>
    - 특징
        - 중싱극한정리 : 독립적인 확률변수들의 평균이 정규분포에 가까와 지려고 하는 성질이 있다
        - 입학 시험 점수가 정규 분포를 따른다
        - 평균 점수가 52점이다. 표준편차 16.3인 경우
        - 몇 %가 67점이상을 받을 것인가?
        <img src='./table/s_4.png' width='300'>

In [15]:
xbar = 67
mu   = 52
s    = 16.3

In [16]:
# z-score 표준값
# 정규분포를 만들고, 개개개의 경우가 표준편차상의 어떤 위치를 차지하는지 보여는 수치
z  = (xbar-mu)/s
z

0.920245398773006

In [18]:
# 67점이상 면적이 어떻게 되는가? -> 곡선하 확률 면적 계산
p = 1 - stats.norm.cdf( z )
round( p*100, 2)

17.87

### 카이제곱검정

- 범주형 데이터의 통계 분석시 사용
- 2개의 범주형 변수 X, Y가 있다
- 두개의 변수 사이의 통계적인 상관성이 존재하는가?

In [19]:
import pandas as pd
from scipy import stats

In [20]:
survey = pd.read_csv('./table/survey.csv')
survey.shape

(237, 12)

In [21]:
survey.head(2)

Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
0,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25
1,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583


In [22]:
# 흡연 항목의 데이터
survey.Smoke.unique()

array(['Never', 'Regul', 'Occas', 'Heavy', nan], dtype=object)

In [23]:
survey.Exer.unique()

array(['Some', 'None', 'Freq'], dtype=object)

In [27]:
# 목적, Smoke 항목과 Exer 항목간의 상관성을 검정한다
# 빈도, 특정 변수에 대해 특정 변수의 값의 빈도를 재구성
# Smoke의 Never라는 값이 Exer의 Some일대 몇번, None일대 몇번, Freq일대 몇번인지 구성
# 인덱스가 Smoke의 값(Nan 제거, 4개),  컬럼이 Exer의 값(3개) = 4x3
tmp = pd.crosstab( survey.Smoke, survey.Exer, margins=True )
tmp

Exer,Freq,None,Some,All
Smoke,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Heavy,7,1,3,11
Never,87,18,84,189
Occas,12,3,4,19
Regul,9,1,7,17
All,115,23,98,236


In [28]:
tmp.shape

(5, 4)

In [31]:
# all 항목을 모두 제거 => shape의 최종 형태(4, 3)
src_df = tmp.iloc[ :-1 , :-1 ]
src_df

Exer,Freq,None,Some
Smoke,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Heavy,7,1,3
Never,87,18,84
Occas,12,3,4
Regul,9,1,7


In [34]:
# P값 획득
p_value = stats.chi2_contingency( observed=src_df )
p_value = round(p_value[1], 2)
p_value

0.48

In [35]:
# 0.05 => 임계값
# 판단 
if p_value  < 0.05:
    print('강한 상관 관계')
else:
    print('두 변수는 서로 독립적이다. 관계 없다')

두 변수는 서로 독립적이다. 관계 없다


### 가설검정

- 표본에 통계적 테스트를 수행시, 전체 모집단에 대한 추론을 만드는 과정
- 귀무가설
    - 검정을 직접 수행하기가 어렵다, 불가능하다
    - 처음부터 이 가설을 버릴것으로 예상하고 만드는 가설
    - 통계학적으로 증거를 통해 증명하려는 가설
    - 경찰
        - 범죄 사건이 있었고, 용의자가 있다
        - 형사는 용의자가 범죄를 저질렀다고 하는 추정의 대립가설을 세운다
        - 귀무가설은 이 용의자는 무죄
- 대립가설
    - 검정을 직접 수행하기가 어렵다, 불가능하다
    - 귀무가설을 기각함으로써 받아들어지는 반증의 과정, 결론    

- P값
    - 귀무가설이 옳다는 전제하에서,
    - 표본에서 실제로 관측된 통계값과 같거나, 더 극단적인 통계값이 관측될 확률
    - p값이 작을수록 귀무가설에 반하는 강력한 증거이다
    - P값은 귀무가설에 반하는 증거를 측정하는 수치(확률)
    - 가설검정단계
        - 귀무가설 설립
        - 표본 추출
        - 표본에 대한 통계량을 구한다
        - 귀무가설이 통계적으로 유의한지를 확인
            - 기각? 받을것이냐?
- 유의 수준
    - 판단의 기준이 되는 임계값(치)
    - 유의 수준을 a라고 하면 95% 신뢰수준이라고 한다면
    - 1 - 0.95 => 0.05 = a 가 유의수준값

- 예
    - 과자 공장 A사
    - 제품 B의 중량 1000g이상이다 <- 주장
    - 증명
        - 표본 : 과자 30개 무작위로 추출, 무게를 측정, 평균을 냈다
        - 측정치 : 990g
        - 표준편차 : 분산(평균과 관측값의 차이를 제곱한값의 평균)의 제곱근 -> 12.5g
        - 유의 수준 5% : 0.05로 설정한다면
        - A사의 주장을 기각할수 있겠는가?
        
    - 귀무가설
        - 제품 B의(과자) 중량은 1000g보다 크거나 같다
    - 대립가설
        - 제품 B의(과자) 중량은 1000g보다 작다

<img src='./table/s_3.png' width='400'>

In [36]:
from scipy import stats

In [37]:
# 표본의 평균 무게
xbar = 990
# 귀무가설에 설정한 임계값 (1000g이상이다)
mu   = 1000
# 표준편차
s    = 12.5
# 표본수
n    = 30   

In [39]:
# t-검정통계값
t_sample = (xbar-mu) / ( s / np.sqrt(float(n)) )
t_sample

-4.381780460041329

In [40]:
p_value = stats.t.sf( np.abs( t_sample ), n-1 )
p_value

7.035025729010886e-05

In [38]:
# 유의수준 : 판단의 임계값-> 
# t- 분포임계값 구할수 있다 
alpha   = 0.05
# t- 분포임계값
t_alpha = stats.t.ppf( alpha, n-1 )
t_alpha

-1.6991270265334977

In [41]:
if p_value < alpha:
    print('귀무가설을 기각 -> 제품B는 1000g 이하이다')
else:
    print('귀무가설을 승인')

귀무가설을 기각 -> 제품B는 1000g 이하이다


### 판단

- 귀무가설 기각

### 아노바 분산검정

- 둘이상의 모집단의 평균이 서로 동일한지 테스트
- 귀무가설
    - 모든 모집단의 평균은 동일하다
- 대립가설 
    - 최소 하나의 모집단의 평균은 다르다
- 사례
    - 화학회사에서 오랜시간 연구를 수행.
    - 모든 농작물에 적용이 가능한, 슈퍼 비료(만능 비료)를 개발
    - 여러 작물에 적용을 하면 비슷한 수확량을 구하는지 데이터를 획듯(fertilizers.csv)
    - 여러 작물에 각각 적용해서 효과를 테스트했다

In [42]:
import pandas as pd
from scipy import stats

In [44]:
df = pd.read_csv('./table/fetilizers.csv')
df.shape

(6, 3)

In [45]:
df

Unnamed: 0,fertilizer1,fertilizer2,fertilizer3
0,62,54,48
1,62,56,62
2,90,58,92
3,42,36,96
4,84,72,92
5,64,34,80


In [46]:
df[df.columns[0]]

0    62
1    62
2    90
3    42
4    84
5    64
Name: fertilizer1, dtype: int64

In [47]:
# 아노바 분산
anova = stats.f_oneway( df[df.columns[0]], df[df.columns[1]],df[df.columns[2]] )
anova

F_onewayResult(statistic=3.6634935025687523, pvalue=0.05063590143901569)

In [49]:
p_value = round(anova[1], 3)
p_value

0.051

In [52]:
if p_value < 0.05:
    print('귀무가설은 승인')
else:
    print('귀무가설은 기각', anova[1]-0.05, '왼쪽 수치만큼만 향상시키면 성립' )

귀무가설은 기각 0.0006359014390156861 왼쪽 수치만큼만 향상시키면 성립
