<a href="https://colab.research.google.com/github/doeungim/ADP_DE2/blob/main/4_%EB%B9%84%EB%AA%A8%EC%88%98%EA%B2%80%EC%A0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 🎯 비모수 검정 선택 가이드

\begin{array}{|c|c|c|c|}
\hline
\textbf{데이터 조건} & \textbf{표본 유형} & \textbf{검정명} & \textbf{사용 목적} \\
\hline
{서열/순서형} & 단일표본 & 부호검정 (Sign test) & 중앙값이 특정 값과 같은지 검정 \\
& 대응표본(1쌍) & 윌콕슨 부호순위검정 & 중앙값 차이 비교 \\
\hline
{명목형} & 단일표본 & 적합성 검정 (Chi-square) & 분포 적합성 검정 \\
{}
& 단일표본 & RUN 검정 & 순서 무작위성 검정 \\
\hline
{순위 가능 데이터} & 대응표본(3쌍 이상) & 프리드만 검정 & 세 집단 이상 중앙값 차이 \\
{}
& 독립표본(2집단) & 만-휘트니 U검정 & 두 집단 간 차이 검정 \\
{}
& 독립표본(3집단 이상) & 크루스칼-왈리스 검정 & 세 집단 이상 차이 검정 \\
\hline
{명목형 (짝 데이터)} & 대응표본(1쌍) & 맥니머 검정 & 전후 비율 차이 검정 \\
{}
& 대응표본(3쌍 이상) & 코크란 Q검정 & 세 집단 이상 비율 비교 \\
\hline
\end{array}


### ✅ 데이터 조건에 따른 검정 선택표

| 데이터 조건             | 표본 유형             | 적용 검정                  | Python 함수 예시                                 |
|------------------------|----------------------|---------------------------|--------------------------------------------------|
| 순위 or 서열 자료      | 단일표본              | 부호검정 (Sign test)       | `scipy.stats.binomtest`                          |
| 명목형                 | 단일표본              | 적합성 검정 (Chi-square)   | `scipy.stats.chisquare`                          |
| 순서형 이항 자료       | 단일표본              | RUN 검정                   | `statsmodels.sandbox.stats.runs.runstest_1samp`  |
| 순위 가능 데이터       | 대응표본              | 윌콕슨 부호순위검정        | `scipy.stats.wilcoxon`                           |
| 명목형 (짝 자료)       | 대응표본              | 맥니머 검정                | `statsmodels.stats.contingency_tables.mcnemar`   |
| 순위 가능 데이터       | 독립표본(2집단)       | 만-휘트니 U검정            | `scipy.stats.mannwhitneyu`                        |
| 순위 가능 데이터       | 대응표본(3집단 이상)  | 프리드만 검정              | `scipy.stats.friedmanchisquare`                  |
| 명목형 (반복 측정)     | 대응표본(3집단 이상)  | 코크란 Q 검정              | `statsmodels.stats.proportion.cochrans_q`        |
| 순위 가능 데이터       | 독립표본(3집단 이상)  | 크루스칼-왈리스 검정        | `scipy.stats.kruskal`                             |

---

### ⚠️ 정규성/등분산성 조건에 따른 대안 검정

| 정규성 | 등분산성 | 적용 검정                       | Python 함수 예시                                   | 사후 검정 함수 예시                             |
|--------|----------|-------------------------------|---------------------------------------------------|------------------------------------------------|
| ✅     | ❌       | Welch ANOVA                   | `scipy.stats.ttest_ind(..., equal_var=False)`     | `pingouin.pairwise_gameshowell`                |
| ❌     | ✅       | Kruskal-Wallis 검정           | `scipy.stats.kruskal`                             | `scikit_posthocs.posthoc_dunn`                 |
| ❌     | ❌       | Kruskal-Wallis 또는 부트스트랩 | `scipy.stats.kruskal`, `sklearn.utils.resample`   | `scikit_posthocs.posthoc_dunn`, `bootstrapped.bootstrap` |


In [None]:
# 예제 데이터를 생성하고 주요 비모수 검정을 직접 적용해보는 코드
import numpy as np
import pandas as pd
from scipy.stats import mannwhitneyu, wilcoxon, kruskal, friedmanchisquare, chi2_contingency, spearmanr, kendalltau

# -----------------------------
# ✅ 예제 1: Mann-Whitney U test (두 독립 집단 비교)
group_A = [82, 85, 88, 90, 91]
group_B = [78, 80, 84, 87, 89]

mw_stat, mw_p = mannwhitneyu(group_A, group_B)

# -----------------------------
# ✅ 예제 2: Wilcoxon Signed-Rank test (두 관련 집단 비교)
before = [120, 130, 115, 140, 125]
after = [122, 128, 117, 142, 126]

wilcoxon_stat, wilcoxon_p = wilcoxon(before, after)

# -----------------------------
# ✅ 예제 3: Kruskal-Wallis H test (3개 독립 집단 비교)
group_X = [5.2, 5.5, 5.1, 5.3]
group_Y = [6.0, 6.1, 6.2, 6.1]
group_Z = [5.7, 5.8, 5.9, 6.0]

kruskal_stat, kruskal_p = kruskal(group_X, group_Y, group_Z)

# -----------------------------
# ✅ 예제 4: Friedman Test (3개 이상 대응 집단)
cond1 = [7, 8, 6, 9]
cond2 = [6, 7, 5, 8]
cond3 = [8, 9, 7, 10]

friedman_stat, friedman_p = friedmanchisquare(cond1, cond2, cond3)

# -----------------------------
# ✅ 예제 5: Chi-Squared Test (분할표)
table = [[10, 20], [20, 30]]
chi2_stat, chi2_p, _, _ = chi2_contingency(table)

# -----------------------------
# ✅ 예제 6: Spearman & Kendall 상관
x = [10, 20, 30, 40, 50]
y = [12, 18, 33, 39, 52]

spearman_corr, spearman_p = spearmanr(x, y)
kendall_corr, kendall_p = kendalltau(x, y)

# 결과 정리
results = pd.DataFrame({
    'Test': [
        'Mann-Whitney U', 'Wilcoxon Signed-Rank', 'Kruskal-Wallis H',
        'Friedman Test', 'Chi-Squared Test', 'Spearman Correlation', 'Kendall Tau Correlation'
    ],
    'Statistic': [
        mw_stat, wilcoxon_stat, kruskal_stat,
        friedman_stat, chi2_stat, spearman_corr, kendall_corr
    ],
    'p-value': [
        mw_p, wilcoxon_p, kruskal_p,
        friedman_p, chi2_p, spearman_p, kendall_p
    ]
})

results


Unnamed: 0,Test,Statistic,p-value
0,Mann-Whitney U,19.0,0.2222222
1,Wilcoxon Signed-Rank,3.5,0.4375
2,Kruskal-Wallis H,9.615317,0.008166961
3,Friedman Test,8.0,0.01831564
4,Chi-Squared Test,0.128,0.7205148
5,Spearman Correlation,1.0,1.404265e-24
6,Kendall Tau Correlation,1.0,0.01666667


#### 🔹 RUN 검정
- 샘플이 무작위로 추출되었는가? 관측값에 패턴이 있을까?
- 💡 문제:
어느 회사의 품질검사 데이터에서 제품이 **합격(P)** 또는 **불합격(F)** 으로 분류되어 아래와 같은 순서로 생산되었다.
```python
[범주형]
sequence = ['P', 'P', 'F', 'F', 'P', 'F', 'P', 'P', 'F', 'F', 'F', 'P']
```
귀무가설 : 데이터의 순서는 무작위이다.  
대립가설 : 데이터의 순서는 무작위가 아니다.

In [7]:
from statsmodels.sandbox.stats.runs import runstest_1samp
import numpy as np

sequence = ['P', 'P', 'F', 'F', 'P', 'F', 'P', 'P', 'F', 'F', 'F', 'P']
p_lst = list(map(lambda x : 1 if x == 'P' else 0, sequence))

stat, p_val = runstest_1samp(p_lst)
print(p_val)

0.7620689311980033


```python
[수치형]
sequence = [50, 60, 70, 40, 30, 20, 10, 70, 80, 100]
```

In [11]:
num = [50, 60, 70, 40, 30, 20, 10, 70, 80, 100]
# 중위수 보다 크면 1, 작으면 0 변환
median = np.median(num)

data = list(map(lambda x : 1 if x >= median else 0 , num))
stat, p_val = runstest_1samp(data)
print(p_val)

0.31430466047385397


#### 🔹 이표본 RUN 검정(Two-sample Runs test)
- 두 집단 의 샘플이 무작위로 추출되었는가? 관측값에 패턴이 있을까?
- 💡 문제: 두 센서에서 측정된 온도값이 다음과 같이 기록`
- (1) 두 센서 측정값이 하나의 순서열로 나열되었을 때, 측정 센서가 무작위로 섞여 있는지 RUN 검정을 통해 검정하시오.
- (2) 귀무가설 및 유의수준 0.05 하에서의 결론을 제시하시오.
- (3) 두 센서가 다른 시기에 측정되었거나 구역이 분리되어 있는지를 간접적으로 판단할 수 있는지 해석

In [21]:
from statsmodels.sandbox.stats.runs import runstest_2samp
sensor_A = [22, 24, 23, 21, 22]
sensor_B = [28, 29, 30, 31, 29]

median_A = np.median(sensor_A)
median_B = np.median(sensor_B)
# 1,0으로 이진화
A = np.array([1.0 if k >= median_A else 0 for k in sensor_A])
B = np.array([1.0 if k >= median_B else 0 for k in sensor_B])

stat, p_val = runstest_2samp(A, B)
print(p_val)

ties detected
0.31430466047385397


### 🔹 이항 변수 [1,0]
####  1️⃣ 맥니머 검정 (McNemar Test)
* 대상 : 대응 관계의 2개의 범주형 / 사전, 사후 변화
* 데이터 : 교차표
* 귀무가설 : 두 범주의 분포는 같다.

##### ✅ 맥니머 검정 (McNemar Test)
문제 1 ) 어느 병원에서 고혈압 환자 100명을 대상으로 **신약 복용 전/후 혈압 정상 여부**를 기록하였다.
- `전`: 고혈압 상태 유지 여부
- `후`: 치료 후 고혈압 상태 유지 여부

|        | 후 정상 | 후 고혈압 |
|--------|--------|------------|
| 전 정상 | 30     | 10         |
| 전 고혈압 | 25     | 35         |

1. 위 데이터를 이용해 맥니머 검정을 실시하시오.  
2. 귀무가설과 대립가설을 명시하고, 유의수준 0.05에서 결론을 도출하시오.  
3. 결과를 해석하시오.

In [25]:
from statsmodels.stats.contingency_tables import mcnemar
table = np.array([[30, 10],
                      [25, 35]])

result = mcnemar(table, exact = False, correction= True)
result.pvalue

np.float64(0.01796047752607879)

문제 2)

In [33]:
from pandas import DataFrame
table = DataFrame([[9, 12], [24, 35]], index=['전_있음', '전_없음'], columns=['후_있음', '후_없음'])
print(f"[데이터 확인]\n{table}")

mc = mcnemar(table)

table = [[10, 5], [3, 12]]  # (사전: [yes, no], 사후: [yes, no])
print(table)

[데이터 확인]
      후_있음  후_없음
전_있음     9    12
전_없음    24    35
[[10, 5], [3, 12]]


### 🔹 이항 변수 [1,0]
####  2️⃣ 코크란 Q 검정 (Cochran's Q Test)
* 대상 : 대응 관계가 있는 K개의 이항 변수
* 데이터 : 반복 측정된 이진 데이터, N * K 형태의 이진 행렬
* 귀무가설 : 모든 조건(처치/시간대)의 성공 비율은 동일하다

##### ✅ 코크란 Q 검정 (Cochran's Q Test)
한 소비자 심리 연구팀이 10명의 실험참가자에게 **광고 유형 3개(A, B, C)**를 노출하고,  
각 광고 후 제품 구매 여부(1: 구매, 0: 미구매)를 기록했다.

| 참가자 | 광고 A | 광고 B | 광고 C |
|--------|--------|--------|--------|
| 1      | 1      | 0      | 1      |
| 2      | 0      | 0      | 1      |
| 3      | 1      | 1      | 1      |
| 4      | 1      | 0      | 0      |
| ...    | ...    | ...    | ...    |
| 10     | 1      | 1      | 0      |

1. 위와 같은 데이터에서 **광고 A, B, C의 효과가 동일한지** 코크란 Q 검정을 수행하시오.  
2. 귀무가설, 유의수준 0.05 기준의 결론을 서술하시오.  
3. 사후 분석이 필요하다면 어떤 검정을 사용할 수 있는지도 명시

In [31]:
from statsmodels.stats.contingency_tables import cochrans_q
import pandas as pd

data = pd.DataFrame({
    'A': [1,0,1,1,0,1,1,0,1,1],
    'B': [0,0,1,0,1,1,1,1,0,1],
    'C': [1,1,1,0,0,1,0,1,1,0]
})

result= cochrans_q(data)
result.pvalue

np.float64(0.8824969025845955)

문제 2) 코크란 Q

In [35]:
table = DataFrame([[0,1,0,1,0,0,0,0], [1,1,0,1,0,0,1,1], [0,1,1,1,1,1,1,1]], index=['가수1', '가수2', '가수3'], columns=[1,2,3,4,5,6,7,8]).T
display(table.head(3))

ccq = cochrans_q(table)
print(" 검정통계량 {:.3f}, p-value {:.3f}".format(ccq.statistic, ccq.pvalue))

Unnamed: 0,가수1,가수2,가수3
1,0,1,0
2,1,1,1
3,0,0,1


 검정통계량 6.333, p-value 0.042


### 🔹 부호검정
1️⃣ 일표본
- 중앙값이 다른지, 관측값을 +, -, 0으로 변환하여 +의 개수 혹은 -의 개수로 검정
#####  ✅ 표본 수 (n)	사용하는 분포
* n ≤ 25	: 정확한 이항분포 사용 (B(n, 0.5))
* 25 < n ≤ 100	: 이항분포 근사 또는 정규 근사 가능
* n > 100 :	정규분포 근사 사용 가능 (Z 통계량 사용)

In [38]:
data = np.array([203,204,197,195,201,205,198,199,194,207]) #데이터
M0 = 200  # 중위수

# H0 : 데이터의 중앙값은 200과 차이가 없다.
# H1 : 데이터의 중앙값은 200과 차이가 있다.

from scipy.stats import binomtest
# data 와 M0의 차이에 SING으로 양수면 1, 음수면 -1
signs = np.sign(data - M0)
positive_signs = np.sum(signs > 0)
n = np.sum(signs != 0)

# Binomial test
p_value = binomtest(positive_signs, n=n, p=0.5, alternative='two-sided')
print(f'One-Sample Sign Test p-value: {p_value}')

One-Sample Sign Test p-value: BinomTestResult(k=5, n=10, alternative='two-sided', statistic=0.5, pvalue=1.0)


In [39]:
# 예제2) 문제
#아래 데이터의 중앙값이 130이라고 할 수 있는지 검정하라
d = np.array([133,145,155,162,143,133,166])
m = 130

sign = np.sign(d-m)
positive_sign = np.sum(sign > 0)
n = np.sum(sign != 0)

p_val = binomtest(positive_sign, n = n, p = 0.5, alternative = 'two-sided')
print(p_val)

BinomTestResult(k=7, n=7, alternative='two-sided', statistic=1.0, pvalue=0.015625)


### 2️⃣ 이표본 부호 검정
- 대응된 두 표본 간의 중앙값 차이 VS 대응표본 T 검정 (모수)
###### 🧠 [문제]
10명의 피험자에게 기존 약물과 신약을 각각 투여하고, 다음과 같이 반응 시간을 측정했다.  
1. 신약이 기존 약물보다 효과가 더 좋은지를 이표본 부호검정으로 검정하시오.
2. 유의수준 0.05에서 귀무가설을 기각할 수 있는지 판단하시오.
3. 정규성 만족 시 어떤 검정을 사용할 수 있는지도 명시하시오.

In [43]:
from scipy.stats import binomtest
old = np.array([12, 14, 15, 13, 16, 12, 13, 14, 15, 17])
new = np.array([11, 13, 13, 12, 15, 11, 11, 13, 14, 15])

# 전후 차이
diff = old - new
# 부호 계산
pos = np.sum(diff > 0 )
neg = np.sum(diff < 0)
n = pos + neg       # 0은 제외

res = binomtest(pos, n = n , p = 0.5, alternative= 'two-sided')
print(res.pvalue)

0.001953125


### 🔹 윌콕슨 부호 순위 검정 (Singed-Rank Test)
### 📊 부호검정 vs 윌콕슨 부호순위검정 비교표
$$
\begin{array}{|c|c|c|}
\hline
\textbf{항목} & \textbf{부호검정 (Sign Test)} & \textbf{윌콕슨 부호순위검정 (Wilcoxon Signed-Rank Test)} \\
\hline
검정 목적 & 대응표본 간 중앙값 차이 검정 & 대응표본 간 중앙값 차이 검정 (더 민감) \\
\hline
사용 정보 & 차이의 부호만 사용 (+, −) & 차이의 절댓값과 순위까지 사용 \\
\hline
통계량 계산 방식 & + 또는 − 부호의 개수 → 이항검정 & 절댓값을 순위화 후 부호와 곱하여 합산 \\
\hline
검정력 (파워) & 낮음 (보수적) & 높음 (더 민감하게 차이를 탐지함) \\
\hline
차이의 크기 고려 여부 & 고려하지 않음 & 고려함 \\
\hline
제외되는 관측치 & 차이가 0인 쌍 & 차이가 0인 쌍 \\
\hline
Python 함수 예시 & \texttt{scipy.stats.binomtest} & \texttt{scipy.stats.wilcoxon} \\
\hline
분포 가정 & 없음 & 대칭성 가정 필요 (정규성은 필요 없음) \\
\hline
적합한 상황 예시 & 좋아짐/나빠짐 등 방향만 중요할 때 & 차이의 크기까지 의미 있는 경우 \\
\hline
\end{array}
$$


In [46]:
from scipy.stats import wilcoxon

# H0 : 데이터 중위수 = 200
# H1 : 데이터 중위수 != 200
data = np.array([203,204,197,195,201,205,198,199,194,207]) #데이터
M0 = 200 #중앙값

stat, p_value = wilcoxon(M0 -data)
print(f'Wilcoxon statistic: {stat}, p-value: {p_value}')

stats, p = wilcoxon([M0 for i in range(len(data))], data)
print(stats, p)

Wilcoxon statistic: 25.5, p-value: 0.921875
25.5 0.921875


In [47]:
# 이표본
# 예제2) 다이어트 약의 효과를 비교하기 위해 투약 전후의 중성지방 투약 전후 변화가 존재 하는지 검정하라

# 접근 방법 :
# 1) 전 후의 대응 표본
# 2) N수가 20개 미만 , 숫자형 데이터

# H0 : 전후 차이가 없다.
# H1 : 전후 차이가 있다.

data = pd.DataFrame({'before': [250, 180, 160, 145, 130, 120] ,
                     'after': [120, 155, 145, 125, 135, 130]})
data.index = ['Trial_' + str(i)  for i in range(1,7)]
display(data)

before = [1250, 180, 160, 145, 130, 120]
after = [120, 155, 145, 125, 135, 130]

result = wilcoxon(after, before)
print(result.pvalue)

Unnamed: 0,before,after
Trial_1,250,120
Trial_2,180,155
Trial_3,160,145
Trial_4,145,125
Trial_5,130,135
Trial_6,120,130


0.15625


### 🔹 윌콕슨 부호 순위합 (Rank-Sum Test)

### 📊 윌콕슨 검정 및 만-휘트니 U 검정 비교
$$
\begin{array}{|c|c|c|c|}
\hline
\textbf{항목} & \textbf{윌콕슨 부호순위검정} & \textbf{윌콕슨 순위합검정} & \textbf{만-휘트니 U 검정} \\
\hline
검정 목적 & 동일 집단의 전/후 변화 검정 (중앙값 차이) & 서로 다른 두 집단의 중앙값 차이 검정 & 서로 다른 두 집단의 중앙값 차이 검정 \\
\hline
다른 이름 & 대응표본 윌콕슨 & 비대응 윌콕슨, 순위합 검정 & 윌콕슨 순위합검정과 동일 개념 \\
\hline
적용 데이터 & 같은 대상의 두 조건 (paired) & 독립된 두 그룹 (independent) & 독립된 두 그룹 (independent) \\
\hline
데이터 대응성 & 대응 (paired samples) & 비대응 (independent samples) & 비대응 (independent samples) \\
\hline
Python 함수 & \texttt{scipy.stats.wilcoxon} & \texttt{scipy.stats.ranksums} & \texttt{scipy.stats.mannwhitneyu} \\
\hline
분포 가정 & 정규성 필요 없음, 차이의 대칭성 필요 & 정규성 필요 없음 & 정규성 필요 없음 \\
\hline
예시 상황 & 복용 전후 혈압 변화 & 실험군 vs 대조군 비교 & 실험군 vs 대조군 비교 \\
\hline
\end{array}
$$


In [48]:
# 예제1) 팀 영업별 성적의 차이가 있는지 검정
# H0 : A,B 중앙값의 차이는 0 이다.
# H1 : A,B 중앙값의 차이는 0 이 아니.

data1 = [87,75,65,95,90,81,93]
data2 = [57,85,90,83,87,71]

print("[라이브러리 검정]")
from scipy.stats import ranksums, mannwhitneyu
zstats, p = ranksums(data1, data2) #default: alternative='two-sided'
print(" 순위합 정규근사 검정통계량: {:.3f}, p-value: {:.3f}".format(zstats, p))


mstat, p = mannwhitneyu(data1, data2, alternative='two-sided')
print(" 만위트니 검정통계량: {:.3f}, p-value: {:.3f}".format(mstat, p))

[라이브러리 검정]
 순위합 정규근사 검정통계량: 0.857, p-value: 0.391
 만위트니 검정통계량: 27.000, p-value: 0.431


###### 🧠 [문제]
공장 X,Y,Z의 평균 출하 소요시간을 여러 일자에 거쳐 측정한 데이터이다. 각 공장의 중위수의 차이가 존재하는지 확인

In [49]:
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/25/problem5.csv',encoding='cp949')
display(df.head(3))

Unnamed: 0,출하 소요시간,공장명,공장별 출하 소요시간 순위
0,71,Z,11
1,75,X,14
2,71,X,12


In [52]:
# 접근 방법 : 공장명은 3개 - 일원분산분석의 비모수 >> 크루스칼
X = df[df['공장명'] == 'X']['출하 소요시간']
Y = df[df['공장명'] == 'Y']['출하 소요시간']
Z = df[df['공장명'] == 'Z']['출하 소요시간']

from scipy.stats import kruskal

stat, p_val = kruskal(X, Y, Z)
print(p_val)

0.6970526702392181


###### 🧠 [문제]
성별에 따른 혈압 차이

In [53]:
df= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/26/pressure.csv')
display(df.head(3))

Unnamed: 0,gender,pressure
0,male,106.8
1,male,100.8
2,male,84.5


In [60]:
# 접근 방법) 남/녀의 평균차이  > 정규성, 등분산성 확인 > 모수 (ttest) / 비모수 (만 휘트니) : 독립된 표본
from scipy.stats import shapiro

res = []
for gender in df['gender'].unique() :
  stat, p_val = shapiro(df[df.gender == gender]['pressure'] )
  res.append([gender, p_val])

pd.DataFrame(res)

# 비모수
m = df[df.gender == 'male']['pressure']
f = df[df.gender == 'female']['pressure']
print(mannwhitneyu(m, f))

MannwhitneyuResult(statistic=np.float64(98.0), pvalue=np.float64(0.14875840681321661))


###### 🧠 [문제]
강의 상류와 하류의 생물 다양성 점수에 차이가 있는지 검정하시오. </br> (단, 같은 강에서 상류와 하류는 서로 독립적이지 않으며, 종속적인 관계에 있다.)

In [63]:
from scipy.stats import ttest_rel
from scipy.stats import shapiro
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/27/river.csv')
display(df.head(4))

Unnamed: 0,River,up,down
0,A,57.1,45.7
1,B,51.6,37.2
2,C,53.9,53.3
3,D,59.0,54.3


In [64]:
# 접근 방식 - 종속적인 관계 = 독립이 아니다. ttest_real
# 귀무 : 강의 상/하류에 따라 다양성 점수의 차이는 없다.
# 대립 : 강의 상/하류에 따라 다양성 점수의 차이가 있다.
stat, p_val = ttest_rel(df.up, df.down)

print("귀무가설 기각" if p_val < 0.05 else "귀무가설 채택")

귀무가설 채택


###### 🧠 [문제]  
한 유저가 시식 전 물건 구매의사 유,무와 시식 후 구매의사 유,무에 대한 응답을 나타낸 데이터 </br>
{시식전} {구매의사 유 or 무} __ {시식후} {구매의사 유 or 무}

In [65]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p5_.csv')
df.head()

Unnamed: 0,data,userId
0,시식전_유__시식후_유,user_1
1,시식전_유__시식후_유,user_2
2,시식전_유__시식후_유,user_3
3,시식전_유__시식후_유,user_4
4,시식전_유__시식후_유,user_5


In [66]:
# 귀무 : 시삭 유무에 따른 구매의사의 차이는 없다.
# 대립 : 시식 유무에 따른 구매의사는 차이가 있다.

df['before'] = df['data'].str.split('_').str[1].map({'유': '구매', '무': '비구매'})
df['after'] = df['data'].str.split('_').str[4].map({'유': '구매', '무': '비구매'})

from statsmodels.stats.contingency_tables  import mcnemar

tab = pd.crosstab(df['before'],df['after'])

mc = mcnemar(tab, correction= False)
print(mc.pvalue)

0.10775214433670044


###### 🧠 [문제]  
A,B 지역 학생의 점수에 차이가 있는지 가설을 설정

In [68]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/28/p6.csv')
df.head()

Unnamed: 0,score,school_name,ID
0,91.0,A,1
1,,A,2
2,,A,3
3,,A,4
4,,A,5


In [69]:
df2 = df.dropna()
display(df2.school_name.value_counts())

# 결측치 제거 후의 유효 데이터
# 비모수 2개 , 대응관계 아님 : 만 휘트니

# 귀무 : A,B지역 간 학생의 score 점수의 차이는 없다.
stat, p_val = mannwhitneyu(df2.query('school_name == "A"')['score'], df2.query('school_name == "B"')['score'])

print(p_val)

Unnamed: 0_level_0,count
school_name,Unnamed: 1_level_1
B,18
A,10


0.13048990112711467


###### 🧠 [문제]  
데이터 설명 : A,B,C,D,E 영업사원의 각 계약 성사 유무 (1:계약 , 0:미계약) 를 나타낸 데이터이다. 영업사원의 평균 계약 성사 건수는 같은지 통계 검정

In [71]:
df =pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/adp/31/adp_31_7.csv')
df = df.set_index('Unnamed: 0')
print(df.head(4))

from statsmodels.stats.contingency_tables import cochrans_q
cochrans_q(df).pvalue

            A  B  C  D  E
Unnamed: 0               
contract_1  1  0  1  1  1
contract_2  0  1  0  1  0
contract_3  1  0  0  0  0
contract_4  0  1  1  1  1


np.float64(0.3406392758219471)

###### 🧠 [문제]  
자동차 A,B,C에 대해 유저 9명의 선호도(1~6, 6은 가장선호,1은 가장 비선호)를 표시했다. 자동차 간의 선호도 차이가 존재하는지 검정

In [73]:
# 데이터 정의
data = {
    '차량 A': [4, 3, 2, 4, 4, 6, 5, 6, 2],
    '차량 B': [1, 4, 4, 3, 1, 4, 3, 3, 4],
    '차량 C': [6, 6, 6, 2, 6, 2, 5, 2, 6]
}
# 인덱스 정의
index = ['피험자1', '피험자2', '피험자3', '피험자4', '피험자5', '피험자6', '피험자7', '피험자8', '피험자9']
# DataFrame 생성
df = pd.DataFrame(data, index=index)
# 출력
print(df)

## 3개의 대응관계 - 프리드만
from scipy.stats import friedmanchisquare
df2 = df.reset_index(drop = 'index')
stat , p = friedmanchisquare(df2.values[0] , df2.values[1], df2.values[2])
print(p)

      차량 A  차량 B  차량 C
피험자1     4     1     6
피험자2     3     4     6
피험자3     2     4     6
피험자4     4     3     2
피험자5     4     1     6
피험자6     6     4     2
피험자7     5     3     5
피험자8     6     3     2
피험자9     2     4     6
0.8668778997501834
