# 통계 분석

## 1. 통계

### 1.1 통계의 정의

#### - 추론 통계: 모집단에서 샘플링한 표본으로 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 점검하는 과정

#### - 가설: 모수에 대한 예상, 주장, 또는 단순한 추측
#### - 통계적 가설: 가설에 대해 증거를 수집하고 과학적으로 증명하는 과정

### 1.2 가설의 정의

#### - 귀무가설: 기각하기를 희망하여 형식화한 가설 (정확한 값을 지정하도록 진술), H0
#### - 대립가설: 표본을 통해 채택하고자 하는 새로운 가설, H1

#### - 대립가설을 채택했으나 귀무가설이 진실인 경우 = 1종 오류
#### - 대립가설을 기각했으나 귀무가설이 거짓인 경우 = 2종 오류

#### - P(유의수준) < a = 0.05: 오류 5% 이하, 95% 이상 진실, 귀무가설 기각
#### - P(유의수준) >= a = 0.05: 오류 5% 이상, 95% 이하 진실, 귀무가설 채택

### 1.3 통계 절차

#### 1. 통계 분석 방법 산정
#### 2. 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정
#### 3. 분석도구 검정통계량 실행 및 확인
#### 4. 유의수준(a) 결정: 0.1, 0.05, 0.01
#### 5. 유의확률(P) 확인
#### 6. 유의확률과 유의수준 비교
#### 7. 귀무가설과 대립가설 선택
#### 8. 분석 결론

### 1.4 T 검정

#### 두 집단의 평균을 비교하는 통계적 검정방법
#### 단순히 차이의 존재 여부가 아니라 두 집단의 비교가 통계적으로 의미가 있는가를 검정

#### - 귀무가설: 집단간의 평균 차이는 없다
#### - 대립가설: 집단간의 평균 차이는 있다

#### - 단일표본 T: 하나의 집단 중 관심있는 연속형 변수의 모평균이 어떤 특정 값과 같은지 알아보고자 할때
#### - 독립표본 T, 대응표본 T

### 1.5 카이 제곱 검정

#### 관찰된 빈도가 기대 빈도와 의미있게 다른지의 여부를 검증

## 2. 실습

### 2.1 T 검정

In [2]:
from scipy import stats
import pandas as pd
import numpy

In [10]:
group1Heights = numpy.array([162, 168, 169, 165, 166, 168, 
                             162, 172, 157, 173, 158, 169, 
                             164, 170, 163, 175, 177, 162, 175, 177])

group1Heights.mean()

167.6

#### - T 검정하기

#### statistic = 검정 통계랑 (정확도)
#### p-value = 유의수준
#### - 정확도 + 유의수준 = 1

#### - 귀무가설: height_list의 평균은 170이다
#### - 대립가설: height_list의 평균은 170이 아니다

In [11]:
tTestResult = stats.ttest_1samp(group1Heights, 170)

tTestResult

Ttest_1sampResult(statistic=-1.785204187065618, pvalue=0.09020241532870862)

In [16]:
print('t검정통계량 = %.3f, p-value = %.3f' % (tTestResult))

t검정통계량 = 2.945, p-value = 0.008


#### - 유의미하지 않다

In [17]:
group1Heights = numpy.array([162, 168, 169, 165, 166, 168, 
                             162, 172, 157, 173, 158, 169, 
                             164, 170, 163, 175, 177, 162, 175, 177])

group2Heights = numpy.array([180, 181, 163, 164, 174, 169,
                           164, 172, 162, 171, 180, 168,
                           164, 169, 178, 177, 167, 179, 
                           172, 169])

tTestResult = stats.ttest_ind(group1Heights, group2Heights)

tTestResult

Ttest_indResult(statistic=-1.8253194633881713, pvalue=0.07582039848129221)

#### - 유의미하지 않다

In [15]:
beforeWeights = numpy.array([80, 82, 76, 82, 65, 73, 77,
                            78, 61, 61, 60, 70, 60, 63,
                            89, 84, 85, 81, 67, 60])

temp_list = []
for i in beforeWeights:
    # random 가중치 부여
    temp_list.append(i * numpy.random.normal(0.99, 0.02))
    
afterWeights = numpy.array(temp_list)

tTestResult = stats.ttest_rel(beforeWeights, afterWeights)

tTestResult

Ttest_relResult(statistic=2.9445572893101475, pvalue=0.00832117538495904)

#### - 유의미한 데이터라 할 수  있다 (값이 유사하다)