<a href="https://colab.research.google.com/github/hanna-joo/statistics/blob/master/stat_python/ch_06_T_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 6장. t-검정
- 두 개 이하의 집단에서 수치형 변수의 평균의 일치성 판단하는 기법

## 6.0. 준비하기

In [1]:
# 구글 드라이브 연동
from google.colab import drive # import drive from google colab

ROOT = "/content/drive"     # default location for the drive
print(ROOT)       
          # print content of ROOT (Optional)
drive.mount(ROOT, force_remount=True)

/content/drive
Mounted at /content/drive


In [2]:
from os.path import join  

MY_GOOGLE_DRIVE_PATH = '/content/drive/My Drive/Colab Notebooks/python_stat/python_stat_data/pythondata'
PROJECT_PATH = join(ROOT, MY_GOOGLE_DRIVE_PATH)

%cd "{PROJECT_PATH}"
%ls

/content/drive/My Drive/Colab Notebooks/python_stat/python_stat_data/pythondata
'실습파일_10장 분산분석.ipynb'
'실습파일_11장 회귀분석.ipynb'
'실습파일_12장 요인분석.ipynb'
'실습파일_13장 분류예측분석.ipynb'
'실습파일_14장 군집분석.ipynb'
'실습파일_15장 포지셔닝 분석.ipynb'
'실습파일_16장 컨조인트 분석.ipynb'
'실습파일_17장 비모수 통계분석.ipynb'
'실습파일_3장 파이썬 기초.ipynb'
'실습파일_4장 데이터전처리 및 기초분석.ipynb'
'실습파일_5장 기술통계분석.ipynb'
'실습파일_6장 t 검정.ipynb'
'실습파일_7장 상관관계분석.ipynb'
'실습파일_8장 범주형 데이터 분석.ipynb'
'실습파일_9장 신뢰성 분석.ipynb'
 Ashopping.csv
 CCA.csv
 Conjoint.csv
 Correspondence.csv
 부록_통계표.docx
 MDS1.csv
 MDS3.csv
'Step by Step 파이썬 비즈니스 통계분석_정오표.xlsx'


## 6.1. t-검정 기초
- 평균 비교 분석 유형


|    |t-검정|z-검정|분산분석|
|:----:|:------:|:---:|:---:|
|집단의 수|2개 이하|2개 이하|3개 이상|
|모집단의 분산|모름|알고 있음|모름|
|표본의 수|상관 없음|30개 이상|상관 없음|
|등분산성|고려함|고려하지 않음|고려함|


- t-검정의 종류
  + 일표본 t-검정
  + 독립표본 t-검정
  + 쌍체표본 t-검정

## 6.2. 일표본 t-검정
- 개념: 단일 표본의 수치형 변수의 평균 값이 기존에 받아들여졌던 특정 값(모집단의 평균)과 실제로 일치하는지 판단하는 통계 분석 기법
  + 예시: A 통신사 고객들의 하루 평균 통화량이 60분이라고 알려진 상황에서 실제 최근 1개월간 A 통신사 고객들의 하루 평균 통화량(분) 비교

- 일표본 t-검정 값 산출방식
  + 모분산을 아는 경우: z-검정
    + 모집단의 표준편차를 사용하여 검정 통계량 산출
  + 모분산을 모르는 경우: t-검정
    + 표본의 표준편차를 사용하여 검정 통계량 산출
    + t값 = 이론적 평균(모집단 평균)과 실제 평균(표본 평균)의 차이가  
      허용 가능한 오차수준(표준오차)에 비해 몇 배 더 큰지 나타내는 값

- (예시) 작년 A 쇼핑의 VIP 고객들의 평균 구매액은 약 700만원 이었으며, 이에 A 쇼핑은 올해 VIP 그룹 고객들의 평균 구매액 목표치를 10% 성장한 770만원으로 결정한 바 있다. 올해 VIP 고객들의 평균 구매액 목표치인 770만원을 달성하였는지 판단해보자.
  + 귀무가설(H0): A 쇼핑 VIP 고객들의 총 매출액 평균은 7,700,000원이다.
  + 연구가설(H1): A 쇼핑 VIP 고객들의 총 매출액 평균은 7,700,000원이 아니다.

  + 사용함수: stats.ttest_1samp(data, popmean)
    + data: 표본 데이터의 분석 변수
    + popmean: 귀무가설 상의 기대 값

In [3]:
# 모듈 및 데이터 탑재
import pandas as pd
import numpy as np
from scipy import stats

In [4]:
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

In [5]:
df.head()

Unnamed: 0,고객ID,이탈여부,총_매출액,방문빈도,1회_평균매출액,할인권_사용 횟수,총_할인_금액,고객등급,구매유형,클레임접수여부,구매_카테고리_수,거주지역,성별,고객_나이대,거래기간,할인민감여부,멤버쉽_프로그램_가입전_만족도,멤버쉽_프로그램_가입후_만족도,Recency,Frequency,Monetary,상품_만족도,매장_만족도,서비스_만족도,상품_품질,상품_다양성,가격_적절성,상품_진열_위치,상품_설명_표시,매장_청결성,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명,친절성,신속성,책임성,정확성,전문성
0,1,0,4007080,17,235711,1,5445,1,4,0,6,6,1,4,1079,0,5,7,7,3,4,6,5,6,7,7,6,7.0,6.0,6,7,6,6,6,6,6,6,6,6
1,2,1,3168400,14,226314,22,350995,2,4,0,4,4,1,1,537,0,2,3,2,3,3,2,5,4,6,7,6,6.0,,7,7,6,6,6,5,3,6,6,6
2,3,0,2680780,18,148932,6,186045,1,4,1,6,6,1,6,1080,0,6,6,7,3,2,4,6,7,6,7,6,7.0,,6,6,6,6,6,7,7,6,6,7
3,4,0,5946600,17,349800,1,5195,1,4,1,5,5,1,6,1019,0,3,5,7,3,5,3,5,5,6,6,6,5.0,6.0,6,6,5,6,6,6,6,6,5,6
4,5,0,13745950,73,188301,9,246350,1,2,0,6,6,0,6,1086,0,5,6,7,6,7,5,6,6,5,6,6,5.0,6.0,5,6,6,6,5,5,6,6,5,6


In [11]:
# 총 매출액 평균 및 일표본 t-검정
print('총매출액 평균 :', df.총_매출액.mean())
print(stats.ttest_1samp(df['총_매출액'], 7700000))

총매출액 평균 : 7068689.76
Ttest_1sampResult(statistic=-2.8657430145836007, pvalue=0.00424758614832654)


- 결과 해석(유의수준 0.01)
  + 유의확률은 0.0042
  + 귀무가설 기각: A 쇼핑 VIP 고객들의 총 매출액 평균은 7700000원이 아니다.
  + 목표치 재절성 및 VIP 고객들의 매출액에 영향을 미치는 원인 조사 필요
  

## 6.3. 독립표본 t-검정
- 개념: 독립된 두 표본 집단의 평균을 비교
  + 예시: A통신사와 B통신사 고객들의 하루 평균 통화량(분) 비교

- 독립표본 t-검정 값 산출방식
  + 두 표본의 분산이 같을 경우(등분산)
  + 두 표본의 분산이 다를 경우(등분산 X)
  + t값 = 두 표본의 평균 차이 값과 두 모집단의 평균 차이 값 간의 편차가 허용 가능한 오차 수준(표준오차)에 비해 몇 배 더 큰지 나타내는 값

- (예시) A 쇼핑의 마케팅 부서는 콜센터를 통해 접수된 클레임고객에 대한 특별 마케팅 기획을 하고자 한다. 클레임 고객은 상대적으로 매장을 찾는 횟수가 적어져 이탈위험도가 높을 것이라고 예상되기 때문이다. 이를 위해 클레임 고객과 비클레임 고객간의 매장 방문 횟수가 실제로 차이가 있는지를 먼저 검증해보자.
  + 귀무가설(H0): A 쇼핑 클레임 고객들과 비클레임 고객들의 방문횟수 차이는 없다.
  + 연구가설(H1): A 쇼핑 클레임 고객들과 비클레임 고객들의 방문횟수 차이는 있다.
  + 사용함수
    + 등분산 검정
      + stats.bartlett(): 데이터가 정규 분포인 경우
      + stats.flinger(): 비모수 검정으로써 정규성 논하기 어려울 경우
      + stats.levene(): 데이터가 정규분포를 따르지 않을 경우
    + 독립표본 t-검정
      + stats.ttest_ind(data1, data2, equal_var=False)
        + equal_var: 등분산의 여부로(T/F)

In [6]:
no_claim = df[df.클레임접수여부==0]
claim = df[df.클레임접수여부==1]

no_claim.head(2)

Unnamed: 0,고객ID,이탈여부,총_매출액,방문빈도,1회_평균매출액,할인권_사용 횟수,총_할인_금액,고객등급,구매유형,클레임접수여부,구매_카테고리_수,거주지역,성별,고객_나이대,거래기간,할인민감여부,멤버쉽_프로그램_가입전_만족도,멤버쉽_프로그램_가입후_만족도,Recency,Frequency,Monetary,상품_만족도,매장_만족도,서비스_만족도,상품_품질,상품_다양성,가격_적절성,상품_진열_위치,상품_설명_표시,매장_청결성,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명,친절성,신속성,책임성,정확성,전문성
0,1,0,4007080,17,235711,1,5445,1,4,0,6,6,1,4,1079,0,5,7,7,3,4,6,5,6,7,7,6,7.0,6.0,6,7,6,6,6,6,6,6,6,6
1,2,1,3168400,14,226314,22,350995,2,4,0,4,4,1,1,537,0,2,3,2,3,3,2,5,4,6,7,6,6.0,,7,7,6,6,6,5,3,6,6,6


In [7]:
# stats.bartlett 함수는 배열 형태의 데이터를 입력 받음
df2 = np.array(no_claim.방문빈도)
df3 = np.array(claim.방문빈도)

df2[:2]

array([17, 14])

In [8]:
# 등분산 검정
  # 귀무가설: 두 표본 집단은 등분산이다
  # 연구가설: 두 표본 집단은 등분산이 아니다
stats.bartlett(df2, df3)

BartlettResult(statistic=13.626177910965525, pvalue=0.00022305349806448475)

In [9]:
# 독립표본 t-검정 및 방문빈도 평균
print(stats.ttest_ind(df2,df3, equal_var=False))  # 등분산 검정에서 연구가설 채택(유의수준 0.05)
print('클레임 접수여부(0) 고객 평균방문빈도 :', no_claim.방문빈도.mean())
print('클레임 접수여부(1) 고객 평균방문빈도 :', claim.방문빈도.mean())

Ttest_indResult(statistic=2.595726838875684, pvalue=0.009577734932789503)
클레임 접수여부(0) 고객 평균방문빈도 : 28.184842883548985
클레임 접수여부(1) 고객 평균방문빈도 : 24.736383442265794


- 결과 해석(유의수준 0.05)
  + 1) 등분산 검정: 유의확률 0.00022로 귀무가설 기각, 두 표본의 분산은 동일하지 않음
  + 2) 등분산 가정되지 않은 t-검정: 유의확률 0.0096
  + 귀무가설 기각: 클레임 접수 여부에 따라 방문 빈도는 차이가 있다.
  + 클레임 접수 고객에 대한 별도의 관리 필요

## 6.4. 쌍체표본 t-검정
- 개념: 동일한 표본이 두 개의 서로 다른 상황(실험 처리 여부 혹은 시간의 흐름)에서 특정 수치형 변수의 평균이 동일한 지의 여부를 판단하는 분석방법
  + 예시: A 통신사 고객 중 S사의 새로운 스마트폰으로 교체한 고객들의 교체 이전과 이후 하루 평균 통화량의 비교

- 쌍체표본 t-검정 값 산출 방식
  + t값 = 실험 전과 후 혹은 특정 시점과 그 이후 시점과 같이 쌍체로 이루어진 두 표본의 평균 차이 값과 이 두 쌍체 모집단의 평균 차이 값 간의 편차가 허용 가능한 오차수준(표준 오차)에 비해 몇 배 더 큰지를 나타내는 값

- 쌍체표본 t-검정의 특징
  + 쌍체표본 t-검정은 분석 대상의 표본이 반드시 대응되어야 한다
    + 완전히 쌍체가 아니라면 결측 값 처리해야 함
      + 삭제법: 해당 표본 삭제
      + 표본 평균법: 해당 표본의 산술평균 값 할당
      + 단순 대치법: 회귀분석 등의 방법으로 결측 값 예측
      + 다중 대치법: 대체 가능한 여러 후보 값 추정 후 무작위로 대체 값 중의 하나 추출 및 할당
      + Hot-deck 대체법: 실제 관측된 값 중 하나 추출하여 대체하는 방법, 동일한 특성을 가지고 있는 값들 중 하나 무작위 추출 및 할당
  + 쌍체 표본 데이터는 시간상 전후의 개념이 있기 때문에 집단간의 독립성 가정 필요 X, 두 모분산이 같다고 가정할 필요 X

- (예시) A 쇼핑 마케팅 팀에서는 그 동안 단순 포인트 적립 및 결제 시 차감 사용 방식으로 운영되어 온 멤버십 제도를 등급별 사은품 및 쿠폰 지급 기능이 추가된 전략적 로열티 프로그램으로 개선하였다. 이를 통한 고객들의 로열티 프로그램 만족도의 변화가 통계적으로 유의한지 알아보자.
  + 귀무가설(H0): A 쇼핑 고객들의 멤버십 프로그램 도입 전 만족도와 도입 후 만족도의 차이는 없다.
  + 연구가설(H1): A 쇼핑 고객들의 멤버십 프로그램 도입 전 만족도와 도입 후 만족도의 차이는 있다.
  + 사용함수: stats.ttest_rel(data1, data2)

In [12]:
df['멤버쉽_프로그램_가입후_만족도']

0      7
1      3
2      6
3      5
4      6
      ..
995    6
996    4
997    5
998    6
999    5
Name: 멤버쉽_프로그램_가입후_만족도, Length: 1000, dtype: int64

In [14]:
print('멤버쉽 프로그램 가입전 만족도: ', df['멤버쉽_프로그램_가입전_만족도'].mean())
print('멤버쉽 프로그램 가입후 만족도: ', df['멤버쉽_프로그램_가입후_만족도'].mean())
stats.ttest_rel(df['멤버쉽_프로그램_가입후_만족도'],df['멤버쉽_프로그램_가입전_만족도'])

멤버쉽 프로그램 가입전 만족도:  4.296
멤버쉽 프로그램 가입후 만족도:  5.524


Ttest_relResult(statistic=29.560410783358122, pvalue=1.7319140513197275e-138)

- 결과 해석(유의수준 0.05)
  + 유의확률은 0.0001이하
  + 귀무가설 기각: 신규 프로그램의 가입 전 고객만족도와 가입 후 고객만족도 차이가 있다.
  + 새로운 멤버십 프로그램을 고객들이 더 선호하여 전반적인 고객만족도가 높아짐