# Import

- python

In [30]:
import scipy.stats as stats
import pandas as pd

- R

In [21]:
import rpy2

In [23]:
%load_ext rpy2.ipython

# Data

[ref](https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset)

| 변수명 | 설명 |
|--------|------|
| **Person ID** | 각 개인을 식별하기 위한 고유 식별자입니다. |
| **Gender** | 개인의 성별을 나타냅니다. <br>값: `Male`, `Female` |
| **Age** | 개인의 나이(연령)를 년 단위로 나타냅니다. |
| **Occupation** | 개인의 직업 또는 직무 유형을 나타냅니다. |
| **Sleep Duration (hours)** | 하루 평균 수면 시간 (단위: 시간) |
| **Quality of Sleep (scale: 1-10)** | 수면의 질을 1~10 척도로 평가한 값입니다. <br>1: 매우 나쁨, 10: 매우 좋음 |
| **Physical Activity Level (minutes/day)** | 하루 평균 신체 활동 시간 (단위: 분) |
| **Stress Level (scale: 1-10)** | 스트레스 수준을 1~10 척도로 평가한 값입니다. <br>1: 매우 낮음, 10: 매우 높음 |
| **BMI Category** | 체질량지수(BMI)에 따른 분류 <br>값 예시: `Underweight`, `Normal`, `Overweight` |
| **Blood Pressure (systolic/diastolic)** | 혈압 수치로, `수축기/이완기` 형식 (예: `120/80`) |
| **Heart Rate (bpm)** | 안정 시 심박수 (단위: bpm, beats per minute) |
| **Daily Steps** | 하루 동안 걸은 총 걸음 수 |
| **Sleep Disorder** | 수면 장애 여부 및 유형 |
| &nbsp; | - `None`: 수면 장애 없음 |
| &nbsp; | - `Insomnia`: 불면증 |
| &nbsp; | - `Sleep Apnea`: 수면 무호흡증 |

In [31]:
df = pd.read_csv('../../../../delete/Sleep_health_and_lifestyle_dataset.csv')

In [32]:
df

Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,1,Male,27,Software Engineer,6.1,6,42,6,Overweight,126/83,77,4200,
1,2,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
2,3,Male,28,Doctor,6.2,6,60,8,Normal,125/80,75,10000,
3,4,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
4,5,Male,28,Sales Representative,5.9,4,30,8,Obese,140/90,85,3000,Sleep Apnea
...,...,...,...,...,...,...,...,...,...,...,...,...,...
369,370,Female,59,Nurse,8.1,9,75,3,Overweight,140/95,68,7000,Sleep Apnea
370,371,Female,59,Nurse,8.0,9,75,3,Overweight,140/95,68,7000,Sleep Apnea
371,372,Female,59,Nurse,8.1,9,75,3,Overweight,140/95,68,7000,Sleep Apnea
372,373,Female,59,Nurse,8.1,9,75,3,Overweight,140/95,68,7000,Sleep Apnea


# One sample t-test

$t = \dfrac{\bar{x}-\mu_0}{s/\sqrt{n}}$

### ex) score(60, 74, 69, 80, 72)의 평균은 75이다.

$t = \dfrac{\bar{x}-75}{s/\sqrt{n}}$

`SAS`

```sas
data test;
   input score;
   datalines;
60
74
69
80
72
;
run;

proc ttest data=test h0=75; \*귀무가설 h_0 = 75*\
   var score;
run;
```

`python`

In [18]:
scores = [60, 74, 69, 80, 72]

In [19]:
t_stat, p_value = stats.ttest_1samp(scores, popmean=75)

In [20]:
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

T-statistic: -1.2172, P-value: 0.2904


`R`

In [24]:
%%R
scores <- c(60, 74, 69, 80, 72)

t.test(scores, mu = 75)


	One Sample t-test

data:  scores
t = -1.2172, df = 4, p-value = 0.2904
alternative hypothesis: true mean is not equal to 75
95 percent confidence interval:
 61.87567 80.12433
sample estimates:
mean of x 
       71 



### data ex) Sleep Duration 평균은 7이다.

`SAS`

```sas
proc ttest data=df h0=7; \*귀무가설 h_0 = 75*\
   var Sleep Duration;
run;
```

`python`

In [34]:
stats.ttest_1samp(df['Sleep Duration'], popmean=7)

Ttest_1sampResult(statistic=3.2104462758942, pvalue=0.0014402421900475528)

`R`

In [35]:
%R -i df 

  for name, values in obj.iteritems():


In [41]:
%%R
t.test(df['Sleep Duration'], mu = 7)


	One Sample t-test

data:  df["Sleep Duration"]
t = 3.2104, df = 373, p-value = 0.00144
alternative hypothesis: true mean is not equal to 7
95 percent confidence interval:
 7.051185 7.212986
sample estimates:
mean of x 
 7.132086 



결론: p-value가 0.05보다 작아 귀무가설 기각하여 평균은 7이 아님을 알 수 있다.

# Two sample t-test

$t = \dfrac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_p (\frac{1}{n_1}-\frac{1}{n_2})}}, s_p = \dfrac{(n_1 - 1)s_1^2 - (n_2 - 1)s_2^2}{n_1 - n_2-2}$

### ex) a vs b group 평균 비교

`SAS`

```sas
data two_group;
   input group $ score;
   datalines;
A 85
A 88
A 90
B 80
B 78
B 82
;
run;

proc ttest data=two_group;
   class group;
   var score;
run;
```

- SAS에서는 등분산을 가정한 결과(Pooled)와 가정하지 않은 결과(Satterthwaite/Welch)를 모두 제시하고 있어 별도의 옵션은 존재하지 않는다.

`python`

In [25]:
group_a = [85, 88, 90]
group_b = [80, 78, 82]

- equal_var는 등분산 가정 어떻게 할지

In [26]:
t_stat, p_value = stats.ttest_ind(group_a, group_b, equal_var=True)

In [27]:
print(f"T-statistic: {t_stat:.4f}, P-value: {p_value:.4f}")

T-statistic: 4.1309, P-value: 0.0145


`R`

- var.equal는 등분산 가정 어떻게 할지

In [28]:
%%R
group_a <- c(85, 88, 90)
group_b <- c(80, 78, 82)

t.test(group_a, group_b, var.equal = TRUE)


	Two Sample t-test

data:  group_a and group_b
t = 4.1309, df = 4, p-value = 0.01448
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
  2.513803 12.819531
sample estimates:
mean of x mean of y 
 87.66667  80.00000 



# Paired t-test