In [21]:
import seaborn as sb
from scipy import stats
from pandas import read_excel
from matplotlib import pyplot as plt

> p-value의 기준
>- `P-value < 0.01` : 귀무가설이 옳을 확률이 `0.01` 이하 → 틀렸다(깐깐한 기준) --> 대립가설 채택
>- `P-value < 0.05` : 귀무가설이 옳을 확률이 `0.05` 이하 → 틀렸다(일반적인 기준) --> 대립가설 채택
>- `0.05 < P-value < 0.1` : 애매한 경우(샘플링을 다시한다)
>- `0.1 < P-value` : 귀무가설이 옳을 확률이 0.1 이상 → 틀리지 않았다(맞다와 다름)

# 문제 1

어떤 화학약품의 제조에 상표가 다른 두 종류의 원료가 사용되고 있다.

각 원료에서 주성분 A의 함량은 다음과 같다. 단, 함량은 정규분포를 따른다고 가정한다.

이 두 원료의 주성분 A의 함량이 다른지를 분석하라.

In [22]:
df=read_excel("https://data.hossam.kr/E02/material.xlsx")
df

Unnamed: 0,상표1,상표2
0,80.4,80.1
1,78.2,81.2
2,80.1,79.5
3,77.1,78.0
4,79.6,76.1
5,80.4,77.0
6,81.6,80.1
7,79.9,79.9
8,84.4,78.8
9,80.9,80.8


## 가설

| 가설 | 내용 |
|--|--|
| 귀무가설 | 상표1과 상표2의 주성분 A의 함량은 차이가 없다 |
| 대립가설 | 상표1과 상표2의 주성분 A의 함량은 차이가 있다 |

In [23]:
df.isna().sum()

상표1    0
상표2    1
dtype: int64

In [24]:
df1 = df.fillna(df.mean())
df1

Unnamed: 0,상표1,상표2
0,80.4,80.1
1,78.2,81.2
2,80.1,79.5
3,77.1,78.0
4,79.6,76.1
5,80.4,77.0
6,81.6,80.1
7,79.9,79.9
8,84.4,78.8
9,80.9,80.8


In [25]:
# stats.ttest_rel(df1['상표1'],df1['상표2'], alternative='two-sided')

In [26]:
# 서로 독립된 상표
stats.ttest_ind(df1['상표1'],df1['상표2'], alternative='two-sided')

TtestResult(statistic=1.762030549359843, pvalue=0.09334283672614875, df=20.0)

## 결론

상표2의 NaN 값을 평균으로 처리한 결과의 차이값에 대한 t 통계량의 값이 `1.76`, 대응되는 유의확률이 `0.093`으로 0.05보다 크기 때문에 귀무가설을 기각할 수 없다.

즉, 대립가설을 채택하지 않으므로 상표1과 상표2의 주성분 A의 함량은 차이가 없다.

# 문제 2

특정 피임약이 사용자의 혈압을 저하시키는지 조사하고자 한다.

이를 위해 부인 15명을 대상으로 평상시 혈압을 측정한 뒤, 이들에게 이 피임약을 일정 기간 복용하게 한 후 이들의 혈압을 다시 측정한 결과를 기록했다.

얻어진 데이터는 다음과 같다. 피임약 복용이 혈압에 영향을 주는지 분석하라.

In [27]:
df=read_excel("https://data.hossam.kr/E02/blood_pressure.xlsx")
df

Unnamed: 0,복용전,복용후
0,70,68
1,80,72
2,72,62
3,76,70
4,76,58
5,76,66
6,72,68
7,78,52
8,82,64
9,64,72


## 가설

| 가설 | 내용 |
|--|--|
| 귀무가설 | 피임약 복용은 혈압에 영향이 없다 |
| 대립가설 | 피임약 복용은 혈압에 영향이 있다 |

In [28]:
# 15명의 실험자는 독립되지 않는다
stats.ttest_rel(df['복용전'],df['복용후'], alternative='two-sided')

TtestResult(statistic=3.105360487466109, pvalue=0.007749436106654119, df=14)

## 결론

결과의 차이값에 대한 t 통계량의 값이 `3.105`, 대응되는 유의확률(p-value) 값이 `0.0077`으로 0.05보다 작기 때문에 귀무가설을 기각할 수 있다.

즉, 대립가설을 채택해 피임약의 복용은 혈압에 영향이 있다.

# 문제3

고등학교 육상선수에게 체중감량을 시키면 달리기에 어떤 변화가 일어나는지 조사하기 위 하여, 어떤 고등학교 육상선수 10명에게 감량훈련(2~4kg 정도)을 시킨 후 100m 달리기를 실시하여 다음의 데이터를 얻었다.

감량 전과 후에 달리기 속도에 차이가 있는지 분석하라

In [29]:
df = read_excel("https://data.hossam.kr/E02/runner_diet.xlsx")
df

Unnamed: 0,감량전,감량후,Unnamed: 3
0,14.5,14.3,
1,13.4,13.4,
2,13.0,13.1,
3,14.5,13.9,
4,13.3,13.1,
5,14.2,13.9,
6,13.6,13.6,
7,13.9,14.0,
8,13.2,12.8,
9,13.0,12.8,


In [30]:
df1 = df.drop(columns=' ', axis=1)
df1

Unnamed: 0,감량전,감량후
0,14.5,14.3
1,13.4,13.4
2,13.0,13.1
3,14.5,13.9
4,13.3,13.1
5,14.2,13.9
6,13.6,13.6
7,13.9,14.0
8,13.2,12.8
9,13.0,12.8


## 가설

| 가설 | 내용 |
|--|--|
| 귀무가설 | 선수의 체중 감량은 달리기 속도에 차이가 없다 |
| 대립가설 | 선수의 체중 감량은 달리기 속도에 차이가 있다 |

In [31]:
stats.ttest_rel(df['감량전'],df['감량후'], alternative='two-sided')

TtestResult(statistic=2.375306807446375, pvalue=0.04154604923393679, df=9)

## 결론

결과의 차이값에 대한 t 통계량의 값이 `2.375`, 대응되는 유의확률(p-value) 값이 `0.0415`으로 0.05보다 작기 때문에 귀무가설을 기각할 수 있다.

즉, 대립가설을 채택해 선수의 체중 감량은 달리기 속도에 영향이 있다.

# 문제4

고등학교 레슬링 선수에게 체중감량을 시키면 체력에 어떤 변화가 일어나는지 조사하기 위하여, 어느 고등학교의 레슬링 선수 12명을 표본추출하여 감량시킨 후 다음의 체력 데이터를 얻었다.

감량 전과 감량 후 간에 차이가 있는가의 대응비교를 악력(우), 윗몸일으키기, 턱걸이, 100m 달리기에 대하여 실시하고 분석하라.

In [32]:
df=read_excel("https://data.hossam.kr/E02/wrestler_diet.xlsx", index_col='이름')
df

Unnamed: 0_level_0,감량전 악력,감량후 악력,감량전 윗몸일으키기,감량후 윗몸일으키기,감량전 턱걸이,감량후 턱걸이
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
B.S,43,41,35,41,25,29
P.J,42,41,40,44,25,29
G.G,52,50,36,41,22,23
A.L,53,52,38,42,10,15
I.H,44,40,36,42,15,19
B.Y,46,47,39,44,17,19
I.K,48,47,35,42,24,26
K.B,58,55,34,36,17,18
K.J,50,50,33,35,17,20
S.S,48,50,39,45,21,25


## 가설1

| 가설 | 내용 |
| -- | -- |
| 귀무가설 | 선수의 감량은 악력에 영향이 없다 |
| 대립가설 | 선수의 감량은 악력에 영향이 있다 |

In [33]:
stats.ttest_rel(df['감량전 악력'],df['감량후 악력'], alternative='two-sided')

TtestResult(statistic=2.3654081485744824, pvalue=0.037454446305019644, df=11)

In [34]:
stats.ttest_ind(df['감량전 악력'],df['감량후 악력'], alternative='two-sided')

TtestResult(statistic=0.8315757183435315, pvalue=0.4145836380203657, df=22.0)

### 결론1

결과의 차이값에 대한 t 통계량의 값이 `2.365`, 대응되는 유의확률(p-value) 값이 `0.037`으로 0.05보다 작기 때문에 귀무가설을 기각할 수 있다.

즉, 대립가설을 채택해 선수의 체중 감량은 악력에 영향이 있다.

## 가설2

| 가설 | 내용 |
| -- | -- |
| 귀무가설 | 선수의 감량은 윗몸일으키기 횟수에 영향이 없다 |
| 대립가설 | 선수의 감량은 윗몸일으키기 횟수에 영향이 있다 |

In [35]:
df.columns

Index(['감량전 악력', '감량후 악력', '감량전 윗몸일으키기', '감량후 윗몸일으키기', '감량전 턱걸이', '감량후 턱걸이'], dtype='object')

In [36]:
stats.ttest_rel(df['감량전 윗몸일으키기'],df['감량후 윗몸일으키기'], alternative='two-sided')

TtestResult(statistic=-7.179926973956724, pvalue=1.798236117030195e-05, df=11)

In [37]:
stats.ttest_ind(df['감량전 윗몸일으키기'],df['감량후 윗몸일으키기'], alternative='two-sided')

TtestResult(statistic=-3.549424572412321, pvalue=0.001797530216454694, df=22.0)

### 결론2

결과의 차이값에 대한 t 통계량의 값이 `7.180`, 대응되는 유의확률(p-value) 값이 `1.798`으로 0.05보다 크기 때문에 귀무가설을 기각할 수 없다.

즉, 대립가설을 채택하지 않아 선수의 체중 감량은 윗몸일으키기에 영향이 없다.

## 가설3

| 가설 | 내용 |
| -- | -- |
| 귀무가설 | 선수의 감량은 턱걸이 횟수에 영향이 없다 |
| 대립가설 | 선수의 감량은 턱걸이 횟수에 영향이 있다 |

In [38]:
stats.ttest_rel(df['감량전 턱걸이'],df['감량후 턱걸이'], alternative='two-sided')

TtestResult(statistic=-6.841977654731714, pvalue=2.7937021187235204e-05, df=11)

In [39]:
stats.ttest_ind(df['감량전 턱걸이'],df['감량후 턱걸이'], alternative='two-sided')

TtestResult(statistic=-1.45528551002979, pvalue=0.1597120105667166, df=22.0)