## 두 모비율의 차이를 검정

- 문제
    - A회사, B회사 각각 100명 설문조사를 진행했다.
    - A에 대한 회사 제품 만족도 40명 응답, B에는 20명이 응답했다.
    - 두 회사의 만족도의 비율 차이가 있는지 검정하고 싶다.
    
    - Z-검정
    - 가설 설정
    - 귀무가설(H0) : 두 회사의 고객 만족도의 비율 차이는 없다. (pA = pB)
    - 대립가설(H1) : 두 회사는 고객 만족도의 비율 차이가 있다. (pA =/ pB)
    
    - 검정 방법
        - 양측 검정
        - Z-검정통계량
    

In [None]:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest
from scipy.stats import norm
import seaborn as sns

In [None]:
# 가상의 데이터 만들기

res_a = 40
t_a = 100

res_b = 20
t_b = 100

In [None]:
# Z-검정을 통한 두 모비율 비교
count = np.array([res_a, res_b])
t_ab = np.array([t_a, t_b])

In [None]:
stat, p_value = proportions_ztest(count, t_ab)

In [None]:
stat

3.086066999241839

In [None]:
p_value

0.0020282311484520745

In [None]:
## 신뢰구간
alpha = 0.05
z_critical =norm.ppf(1-alpha/2) #신뢰구간 z-값
conf__interval = [stat - z_critical, stat+z_critical]
print('conf__interval 값:', conf__interval)
print('z_critical 값:', z_critical)

conf__interval 값: [1.1261030147017848, 5.046030983781893]
z_critical 값: 1.959963984540054


## 데이터셋을 가지고 불러오기

In [None]:
df= sns.load_dataset('titanic')

- 두 모비율의 차이의 검정
- 타이타닉 데이터셋에서 남성과 여성의 생존율 차이가 존재할 것이다.

    - 가설설정
        - 귀무가설 (H0) : 남성과 여성의 생존율 차이가 없다.(p(male) = p(female))
        - 대립가설 (H1) : 남성과 여성의 생존율 차이가 있다.(p(male) /= p(female))
        
    - 데이터셋의 크기, 검정 통계량, Z-검정통계량값

In [None]:
## 남성과, 여성의 생존율을 계산

sur_female = df[(df['sex']=='female')& (df['survived']==1)].shape[0] # 여성 생존자 수
tt_female = df[df['sex']=='female'].shape[0] # 여성 승객 수

sur_male = df[(df['sex']=='male') & (df['survived']==1)].shape[0] # 남성 생존자 수
tt_male = df[df['sex']=='male'].shape[0] # 남성 승객 수

In [None]:
# 남성과 여성의 생존율 계산
male_survival_rate = sur_male / tt_male  # 남성 생존율 = 생존한 남성 수 / 전체 남성 수
female_survival_rate = sur_female / tt_female  # 여성 생존율 = 생존한 여성 수 / 전체 여성 수

# 생존율 출력
print(f"남성 생존율: {male_survival_rate:.2%}")  # 남성 생존율을 백분율로 출력
print(f"여성 생존율: {female_survival_rate:.2%}")  # 여성 생존율을 백분율로 출력

남성 생존율: 18.89%
여성 생존율: 74.20%


In [None]:
# Z-검정을 통한 두 모비율 비교
count = np.array([sur_male, sur_female])
t_ab = np.array([tt_male, tt_female])

In [None]:
stat, p_value = proportions_ztest(count, t_ab)

In [None]:
print(f"Z-statistics : {stat}, p-value: {p_value}")

Z-statistics : -16.218833930670097, p-value: 3.7117477701134797e-59


- p_value 0.05 훨씬 작은 값
- 타이타닉 데이터의 남성과 여성의 생존율의는 차이가 존재한다. 5% 유의수준 가정하에서

### 두 모평균에 대한 t-검정 (Iris 데이터)
- Iris 데이터
- Setosa, Versicolor 이 두 종의 평균 꽃받침 길의 차이가 있는지 알고 싶다.

    - 가설 설정:
        - 귀무가설(H0): Setosa, Versicolor 종의 평균 꽃받침 길이에 차이는 없다. (u_Setosa = u_Versicolor)
        - 대립가설(H1): Setosa, Versicolor 종의 평균 꽃받침 길이에 차이는 있다. (u_Setosa /= u_Versicolor)
        
    - 데이터셋을 보고 소표본
    - t-검정
    - 진행하자!

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data
target = iris.target

In [None]:
# 데이터 추출
setosa_sepal_length = data[target==0, 0]  # 'setosa' 품종의 꽃받침 길이 (Sepal Length) 추출
versicolor_sepal_length = data[target==1, 0]  # 'versicolor' 품종의 꽃받침 길이 (Sepal Length) 추출

In [None]:
# ttest
from scipy.stats import ttest_ind, t

# 두 모 평균에 대한 t-검정
t_stat, p_value =ttest_ind(setosa_sepal_length, versicolor_sepal_length)

In [None]:
print(f"T-statistics : {t_stat}, p-value: {p_value}")

T-statistics : -10.52098626754911, p-value: 8.985235037487079e-18


- p-value 유의수준 0.05보다 작다, 귀무가설을 기각하고 두 종의 평균 꽃잎 길이에 유의미한 차이가 있다고 결론지을 수 있다. 5%유의수준하에서

### wine 데이터셋을 가지고
- t-test로 진행하자!

### wine data에서 클래스 0과 클래스 1의 평균 알코올 함량이 차이가 있는지? 검정하자!

- 가설 설정
    - 귀무가설 (HO) 클래스 0과 클래스 1의 평균 알코올 함량에 차이가 없다. (u_class0 = u_class1)
    - 대립가설 (H1) 클래스 0과 클래스 1의 평균 알코올 함량에 차이가 없다. (u_class0 /= u_class1)
    
    - t-statistic 확인
    - p-value
    - 가설검정

In [None]:
from sklearn.datasets import load_wine

In [None]:
wine = load_wine()

In [None]:
wine

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [None]:
data=wine.data
target = wine.target
feature_names=wine.feature_names

In [None]:
# 데이터 추출
al_cls_0 = data[target==0, feature_names.index('alcohol')] # 클래스 0의 알콜
al_cls_1 = data[target==1, feature_names.index('alcohol')] # 클래스 1의 알콜

In [None]:
t_stat, p_value =ttest_ind(al_cls_0, al_cls_1)

In [None]:
print(f"T-statistics : {t_stat}, p-value: {p_value}")

T-statistics : 16.478551495156527, p-value: 1.9551698789379198e-33


### 모 표준편차를 알고 있다는 가정


### 두 모평균에 대한 t-검정 (Iris 데이터)
- Iris 데이터
- Setosa, Versicolor 이 두 종의 평균 꽃받침 길의 차이가 있는지 알고 싶다. (모표준편차를 알고 있다 가정)

    - 가설 설정:
        - 귀무가설(H0): Setosa, Versicolor 종의 평균 꽃받침 길이에 차이는 없다. (u_Setosa = u_Versicolor)
        - 대립가설(H1): Setosa, Versicolor 종의 평균 꽃받침 길이에 차이는 있다. (u_Setosa /= u_Versicolor)
        
    - 데이터셋을 보고 소표본
    - t-검정
    - 진행하자!

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()
data = iris.data
target = iris.target

# 데이터 추출
setosa_sepal_length = data[target==0, 0]  # 'Setosa' 품종의 꽃받침 길이
versicolor_sepal_length = data[target==1, 0]  # 'Versicolor' 품종의 꽃받침 길이

# 두 모평균에 대한 z-검정( 모표준편차를 알고 있는 경우 )
# 평균
mean_1 = np.mean(setosa_sepal_length)  # Setosa 평균 꽃받침 길이
mean_2 = np.mean(versicolor_sepal_length)  # Versicolor 평균 꽃받침 길이
# 표준편차
std_1 = np.std(setosa_sepal_length)  # Setosa 꽃받침 길이의 표준편차
std_2 = np.std(versicolor_sepal_length)  # Versicolor 꽃받침 길이의 표준편차
# 표본 크기
n1 = len(setosa_sepal_length)  # Setosa 표본 개수
n2 = len(versicolor_sepal_length)  # Versicolor 표본 개수

In [None]:
## 모표준편차를 알고 있는 경우
z_stat = (mean_1 - mean_2) / np.sqrt(std_1**2/n1 + std_2**2/n2)

In [None]:
## p-value
p_value = 2*(1-norm.cdf(abs(z_stat)))

In [None]:
p_value

0.0