In [1]:
# 1. 적합도 검정
# 적합도 검정 : 귀무가설에서 제시한 각 범주의 비율이 실제 자료에 적합한지를 알아보는 검정 방법

In [5]:
# 분석 및 해석
# A쇼핑은 클레임고객들의 구매 패턴이 어떻게 다른지 파악하고자 클레임 고객들의 구매유형 별 비율의 적합도 검정을 시행하고자 한다.
# 기존에 알려진 A 쇼핑의 클레임고객들의 구매 유형별 비율은 1회성 구매형 고객 10%, 실용적 구매형 30%, 명품 구매형 20%,
# 그리고 집중 구매형 40%로 알려 있었다.

In [6]:
# 이를 위한 가설수립은 다음과 같이 할 수 있다. 

# H0 (귀무가설)= 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매형 30%, 명품 구매형 20%, 집중 구매형 40%이다.
# H1 (연구가설)= 클레임 접수 고객의 구매유형별 비율은 1회성 구매형 10%, 실용적 구매형 30%, 명품 구매형 20%, 집중 구매형 40%이 아니다. 

In [7]:
# 1-1. 모듈 및 데이터 탑재
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

#2. 빈도교차표 생성하기
X=pd.crosstab(df.클레임접수여부, df.구매유형, margins=True)

X

구매유형,1,2,3,4,All
클레임접수여부,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,24,197,57,263,541
1,19,120,87,233,459
All,43,317,144,496,1000


In [8]:
# 1-2. 관측도수, 기대도수 추출하기
Ob = X.values[1,:4]
Pr = np.array([0.1,0.3,0.2,0.4])
n= X.values[1,4]
E= n*Pr

# 1-3. 카이제곱 적합도 검정하기
stats.chisquare(Ob, E)

Power_divergenceResult(statistic=31.582788671023955, pvalue=6.407672361002909e-07)

In [9]:
# 결과
# 적합도 분석 결과 카이제곱 통계량은 31.58, p값은 0.01 이하로 도출되었다. 
# 따라서 유의수준 99% 수준에서 귀무가설을 기각하고 연구가설을 채택할 수 있다. 
# 즉, 구매유형별 클레임 접수 여부는 1회성 구매형 10%, 실용적 구매형 30%, 
# 명품 구매형 20%, 집중구매형 40% 라는 과거의 분포를 따르고 있지 않다고 할 수 있다. 
# 예상보다 1회성 구매형 구매자들의 클레임은 높지 않으며, 집중구매형의 경우 50%가 넘는 클레임 비율을 보이고 있다. 
# 따라서, A 쇼핑은 집중구매형 고객들의 고객만족도를 높이는 방안을 모색해야 한다.

In [10]:
# 2. 독립성 검정
# 두 개의 범주형 변수간에 서로 연관성이 있는지, 독립적인지를
# 카이제곱 검정을 통해 통계적으로 판단하는 방법

# 분석 및 해석
# A쇼핑의 클레임 문제를 다시 한번 다루어 보자. 
# A쇼핑은 이번에 클레임을 제기하는 고객은 성별과 무관하지 않을 것 같다는 전제를 가지고 
# 클레임 접수여부와 성별간의 독립성 검정을 수행해보고자 한다.

In [11]:
# 이를 위한 가설 수립은 다음과 같이 할 수 있다. 
# H0 (귀무가설)= 클레임 접수 여부와 성별은 연관성이 없다.
# H1 (연구가설)= 클레임 접수 여부와 성별은 연관성이 있다.

In [12]:
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

# 2-1. 빈도교차표 생성하기
X=pd.crosstab(df.성별, df.클레임접수여부, margins=False)

# 2-2. 카이제곱 독립성 검정하기
stats.chi2_contingency(X)

Chi2ContingencyResult(statistic=106.43790651350751, pvalue=5.911607287197053e-25, dof=1, expected_freq=array([[ 80.609,  68.391],
       [460.391, 390.609]]))

In [13]:
# 2-3. 결과
# 독립성 검정 결과 카이제곱 통계량은 106.437, p값은 0.01이하로 도출되었다. 
# 따라서 유의수준 99% 수준에서 귀무가설을 기각하고 A 쇼핑 고객들의 성별과 클레임 접수 여부는 연관성 있다는 연구가설을 채택 할 수 있다. 
# 분석 결과에 따라, 남성과 여성 성별에 따라 다른 방식의 고객서비스를 제공함으로써 고객의 불만을 최소화 시킬 수 있는 방안을 모색해야 한다.

In [14]:
# 3. 동질성 검정
# 분석 및 해석
# A쇼핑은 자사가 관리하는 구매유형 4가지의 비율이 청년층 그룹과 중장년층 그룹에 따라 동질적인지 검토하여 
# 연령대별 마케팅 전략에 활용하고자 한다. 이를 위해 고객연령 그룹에 대한 구매유형 비율의 동질성 검정을 실시해보자.
# A쇼핑에서 사용하는 고객 구매유형과 고객 나이대에 대한 코드는 아래 표와 같다.(생략)

In [15]:
# 고객 연령대는 총 9개의 세부 그룹으로 이루어져 있으나, 
# 39세 이하를 청년층 그룹으로, 40세 이상을 중장년층 그룹으로 분류하여
# 두 개의 다른 모집단에서 추출한 표본이라고 간주하고 실습을 진행해보자.

# 이를 위한 가설 수립은 다음과 같이 할 수 있다. 
# H0 (귀무가설)= 청년층과 중장년층의 구매 유형 비율은 동일하다.
# H1 (연구가설)= 청년층과 중장년층의 구매 유형 비율은 동일하지 않다.

In [16]:
# 3-1. 모듈 및 데이터 탑재
import pandas as pd
import numpy as np
from scipy import stats
df = pd.read_csv('Ashopping.csv', sep=',', encoding='CP949')

# 3-2. 청년층, 중장년층 전처리
df["고객연령대"] = ""
df["고객연령대"] = np.where(df["고객_나이대"]<= 5, '1', '2') 

# 3-3. 두 모집단 랜덤표본추출
df1 = df.loc[df.고객연령대=='1']
df2 = df.loc[df.고객연령대=='2']
df1_sample = df1.sample(200, random_state = 29)
df2_sample = df2.sample(200, random_state = 29)
df3 = df1_sample.append(df2_sample) 

# 3-4. 빈도교차표 생성하기
X = pd.crosstab(df3.고객연령대, df3.구매유형, margins=False)

# 3-5. 카이제곱 동질성 검정하기
stats.chi2_contingency(X)

  df3 = df1_sample.append(df2_sample)


Chi2ContingencyResult(statistic=8.714970024248375, pvalue=0.033330661685866646, dof=3, expected_freq=array([[ 9., 66., 28., 97.],
       [ 9., 66., 28., 97.]]))

In [17]:
# 3-6. 결과
# 동질성 검정 결과 카이제곱 통계량은 8.71, p값은 0.03으로 도출되었다. 
# 따라서 유의수준 95% 수준에서 연구가설이 채택되어 
# A 쇼핑 고객들의 청년층과 중장년층의 구매유형 분포는 동질적이지 않다는 결론을 낼 수 있다. 
# 청년층의 경우 실속 구매형과 집중 구매형의 비중이 높으며, 
# 중장년층의 경우 청년층보다 구매유형 별 비율 편차가 크지 않지만 
# 명품 구매형의 비중이 상대적으로 높기 때문에 이를 고려한 마케팅 전략을 수립해야 할 것이다.