## 1. 표본의 평균 검정
- **단측검정**
    - 좌측검정 : 모평균이 표본평균보다 작다 <br>(귀무가설 기각 영역: 검정통계량 < -임계값)
    - 우측검정 : 모평균이 표본평균보다 크다 <br>(귀무가설 기각 영역: 검정통계량 > 임계값) <br><br> 
- **양측검정** <br>
    귀무가설 기각 영역: |검정통계량| > 임계값
<br><br>
- **기각역** : 영가설을 기각하게 하는 검정통계량의 영역
- **임계값** : 가설 검정에서 기각역과 채택역의 경계가 되는 값, 기각역의 경계값

- pdf(x) : probability density function 확률 밀도 함수
- cdf : cumulative distribution function - 누적 분포 함수
<br>cdf(n) : n 이하의 확률 값 구할 수 있음 (1-cdf(n) : n 이상의 확률 값)
- ppf : cdf 역함수 개념<br>

### 검정 통계량
- 귀무가설이 참인 경우 해당 자료가 얼마나 멀리 벗어나 있는지 측정
- 통계량이 클수록 영가설과 일치하지 않는다는 것을 의미
- **p값** : 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과과 실제로 관측될 확률 (유의수준보다 작을 경우 귀무가설 기각)

1. 모표준편차를 알고 있을 때
![1](pictures/1.png)

2. 모표준편차를 모르고 있을 때
![2](pictures/2.png)

3. 한 개의 모분산에 대한 검정통계량
![3](pictures/3.png)

4. 두 개의 분산비에 관한 검정통계량
![4](pictures/4.png)

In [19]:
import numpy as np
from scipy.stats import norm

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

In [20]:
# 모집단의 평균과 분산 (표준편차)
population_mean = 28      # 모집단의 평균
population_variance = 4   # 모집단의 분산 (표준편차의 제곱)

# 유의수준 설정
alpha = 0.05

# 단측 또는 양측 검정 선택 (예: 양측 검정)
## 영가설 : 모평균과 표본 평균은 같다. <=> 대립가설 : 모평균과 표본 평균은 같지 않다.
alternative = "two.sided"

# 표본평균 계산
sample_mean = np.mean(data)

# 표본 크기
n = len(data)

### 1. Z score 검정

In [29]:
# 검정통계량 계산 (Z-검정)
## (표본 평균 - 모평균)/(모표준편차/표본의 제곱근)
test_statistic = (sample_mean - population_mean) / (np.sqrt(population_variance) / np.sqrt(n))

# 임계값 계산 (Z-검정, 양측 검정)
## ppf : 누적분포함수의 역함수
critical_value = norm.ppf(1 - alpha / 2)

# p-값 계산 (양측 검정)
## cdf : 누적분포함수
p_value = 2 * (1 - norm.cdf(abs(test_statistic)))

# 결과 출력
print("표본평균:", sample_mean)
print("검정통계량:", test_statistic)
print("임계값:", critical_value)
print("p-값:", p_value)

# 결과 해석
if abs(test_statistic) > critical_value:
    print(">> 귀무가설 기각")
else:
    print(">> 귀무가설 채택")

표본평균: 27.9
검정통계량: -0.15811388300842122
임계값: 1.959963984540054
p-값: 0.87436706116289
>> 귀무가설 채택


### 2. T 검정
- 두 그룹 간의 차이를 나타내기 위해 표본 데이터를 사용하여 계산된 값
- 그룹 간의 차이가 우연히 발생한 것인지, 통계적으로 유의미한지 평가
- **t = 두 그룹 간의 표본 평균 차이/표준 오차**
<br><br>
- t 통계량이 크면 그룹 간 차이가 유의미할 가능성이 높아짐
- t-분포를 따르며, 임계값을 사용해 가설검정 수행
- 일반적으로 t-통계량이 크면서 p값이 작을수록 귀무가설 기각
<br><br>
1. **ttest_1samp**
- 한 집단의 평균이 특정 값과 같은지를 검정하는 t-검정 수행
- 주어진 데이터 집합의 평균이 특정 값과 통계적으로 다르다면 귀무가설을 기각
> data: 표본 데이터 <br>
> popmean: 귀무가설로 설정된 평균값<br>
> alternative: 'two-sided', 'greater', 'less' 중 하나 선택<br><br>
> [return]<br>
> t_statistic: t-통계량 (검정 통계량)<br>
> p_value: 양측 검정의 p-값

<br><br>
2. **t.interval**
-  t-분포를 기반으로 신뢰구간 계산
> data: 표본 데이터<br>
> alpha: 신뢰수준 (예: 0.95는 95%의 신뢰수준)<br>
> df: 자유도 (일반적으로 n-1)<br>
> loc: 표본 평균의 위치(평균값) - 계산된 신뢰구간이 표본 평균을 중심으로 형성<br>
> scale: 표준편차 또는 표준오차 (표준편차를 사용할 경우, ddof=1로 설정)<br><br>
> [return] confidence_interval: 계산된 신뢰구간

In [30]:
# t-검정 수행
t_statistic, p_value = stats.ttest_1samp(data, popmean=0, alternative = alternative)

# 95% 신뢰구간 계산
## sem : 표본 평균의 표준 오차
confidence_interval = stats.t.interval(1-alpha, len(data) - 1, loc=np.mean(data), scale=stats.sem(data))

# 결과 출력
print("t-통계량:", t_statistic)
print("p-값:", p_value)
print("95% 신뢰구간:", confidence_interval)

# 결과 해석
if p_value < alpha:
    print(">> 귀무가설 기각")
else:
    print(">> 귀무가설 기각 X")

t-통계량: 31.887160448233363
p-값: 1.4410218033665443e-10
95% 신뢰구간: (25.92070225277866, 29.879297747221337)
>> 귀무가설 기각


In [31]:
# 따라하기
import pandas as pd
import numpy as np
from scipy import stats

# 데이터 불러오기
mtcars = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/mtcars.csv')

# mpg 열의 표본평균(mean) 계산 및 반올림
mpg_mean = round(np.mean(mtcars['mpg']), 4)
print("mpg의 표본평균:", mpg_mean)

# mpg 열의 표본분산(var) 계산 및 반올림
## ddof : 자유도 감소 파라미터 (1-분모에서 자유도를 1만큼 감소)
mpg_var = round(np.var(mtcars['mpg'], ddof=1), 4)
print("mpg의 표본분산:", mpg_var)

# 단일표본 t-검정 수행, mpg 열의 평균이 20인지 검정
t_stat, p_value = stats.ttest_1samp(mtcars['mpg'], 20)
print("[단일표본 t-검정 결과]")
print("t-통계량:", t_stat)
print("p-값:", p_value)

# mpg 평균의 95% 신뢰구간 계산 및 출력
conf_interval = stats.t.interval(0.95, len(mtcars['mpg']) - 1, loc=np.mean(mtcars['mpg']), scale=stats.sem(mtcars['mpg']))
print(">> mpg 평균의 95% 신뢰구간:", round(conf_interval[0], 4), "-", round(conf_interval[1], 4))

mpg의 표본평균: 20.0906
mpg의 표본분산: 36.3241
[단일표본 t-검정 결과]
t-통계량: 0.08506003568133688
p-값: 0.9327606409093872
>> mpg 평균의 95% 신뢰구간: 17.9177 - 22.2636


## 2. 두 독립표본의 평균, 중앙값 차이 검정

### 1. ttest_ind
- independent t-test : 분산이 동질한지 검정
- 매개변수 : 그룹1, 그룹2, equal_var=True(등분산이라 가정)

In [1]:
import scipy.stats as stats
import numpy as np

# 두 독립 표본 데이터
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# t-검정 실행
t_statistic, p_value = stats.ttest_ind(sample1, sample2)

# 각 샘플의 평균
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# 결과 출력
alpha = 0.05    

print("t-검정통계량:", t_statistic)
print("Sample 1 평균:", mean_sample1)
print("Sample 2 평균:", mean_sample2)
print("p-값 (two-tailed):", p_value)

if p_value < alpha:
    print("두 그룹의 평균은 유의미하게 다릅니다.")
else:
    print("두 그룹의 평균은 유의미하게 다르지 않습니다.")


t-검정통계량: 1.5778641172210597
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않습니다.


### 2. 맨-휘트니 U 검정
- 자료의 수치가 **순위 척도**거나 **표본 수가 비교적 작아 정규성을 만족하지 못하는 경우**의 집단 차이를 분석하고 싶을 때 사용
- ex. 남녀 사이의 등수 차이를 알고 싶을 때 = 등수는 순위 척도이므로 평균이나 분산 등의 통계치 계산 X

In [2]:
import scipy.stats as stats
import numpy as np

# 두 독립 표본 데이터
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# Mann-Whitney U 검정 실행
u_statistic, p_value = stats.mannwhitneyu(sample1, sample2)

# 각 샘플의 평균
mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

# 결과 출력
alpha = 0.05 

print("Mann-Whitney U 통계량:", u_statistic)
print("Sample 1 평균:", mean_sample1)
print("Sample 2 평균:", mean_sample2)
print("p-값 (two-tailed):", p_value)

if p_value < alpha:
    print("두 그룹의 중앙값은 유의미하게 다릅니다.")
else:
    print("두 그룹의 중앙값은 유의미하게 다르지 않습니다.")

Mann-Whitney U 통계량: 19.0
Sample 1 평균: 27.6
Sample 2 평균: 23.8
p-값 (two-tailed): 0.2222222222222222
두 그룹의 중앙값은 유의미하게 다르지 않습니다.


### 3. shapiro
- 데이터가 정규분포를 가지는지에 대해 검정
- 귀무가설 : F(x)는 정규분포이다

In [4]:
from scipy import stats

# 정규성 검정을 위한 샘플 데이터 생성
data = [2.4, 2.7, 3.1, 3.2, 3.5, 3.7, 3.9, 4.1, 4.2]

# Shapiro-Wilk 테스트 수행
statistic, p_value = stats.shapiro(data)

# 결과 출력
alpha = 0.05   

print("Shapiro-Wilk 테스트 통계량:", statistic)
print("p-값:", p_value)

if p_value > alpha:
    print("귀무가설 채택, 데이터는 정규분포를 따를 가능성이 높습니다.")
else:
    print("귀무가설 기각, 데이터는 정규분포를 따르지 않을 가능성이 있습니다.")

Shapiro-Wilk 테스트 통계량: 0.9553363919258118
p-값: 0.7484778761863708
귀무가설 채택, 데이터는 정규분포를 따를 가능성이 높습니다.


In [5]:
# 따라하기
from scipy import stats

# 데이터 샘플
dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

# 평균 계산
mean_M = sum(dat_M) / len(dat_M)
mean_F = sum(dat_F) / len(dat_F)
print("남자 데이터 평균:", mean_M)
print("여자 데이터 평균:", mean_F)

# 샤피로-윌크 정규성 테스트 수행
statistic_M, p_value_M = stats.shapiro(dat_M)
statistic_F, p_value_F = stats.shapiro(dat_F)

print("\n[남자 데이터 Shapiro-Wilk 테스트 통계량]:", statistic_M)
print("남자 데이터 p-값:", p_value_M)
if p_value_M > 0.05:
    print("남자 데이터는 정규분포를 따를 가능성이 높습니다.")
else:
    print("남자 데이터는 정규분포를 따르지 않을 가능성이 있습니다.")

print("\n[여자 데이터 Shapiro-Wilk 테스트 통계량]:", statistic_F)
print("여자 데이터 p-값:", p_value_F)
if p_value_F > 0.05:
    print("여자 데이터는 정규분포를 따를 가능성이 높습니다.")
else:
    print("여자 데이터는 정규분포를 따르지 않을 가능성이 있습니다.")


남자 데이터 평균: 100.0
여자 데이터 평균: 108.0

[남자 데이터 Shapiro-Wilk 테스트 통계량]: 0.932635486125946
남자 데이터 p-값: 0.17352384328842163
남자 데이터는 정규분포를 따를 가능성이 높습니다.

[여자 데이터 Shapiro-Wilk 테스트 통계량]: 0.9615268111228943
여자 데이터 p-값: 0.5747838020324707
여자 데이터는 정규분포를 따를 가능성이 높습니다.


In [6]:
from scipy import stats

# 독립표본 t-검정 수행
t_statistic, p_value = stats.ttest_ind(dat_M, dat_F)

print("t-검정통계량:", t_statistic)
print("p-값:", p_value)

alpha = 0.05    

if p_value < alpha:
    print("두 표본 간에는 유의한 평균 차이가 있습니다. (귀무가설 기각)")
else:
    print("두 표본 간에는 유의한 평균 차이가 없습니다. (귀무가설 채택)")


t-검정통계량: -2.670573872669349
p-값: 0.011082895240510137
두 표본 간에는 유의한 평균 차이가 있습니다. (귀무가설 기각)


## 3. 대응표본의 평균 차이 검정 (t-test)

### 1. ttest_rel
- 짝을 이룬 표본의 평균 차이를 검정하는 paired t-test
- **동일한 객체에 대해서 전과 후로 나누어 반복 측정한 두 결과**
- ex) 같은 그룹에 대해 신약 투약 전과 후의 평균 차이
- 종속 표본 t-test, 매칭된 짝 t-test, 반복측정 표본 t-test 라고도 함
> **가정사항 (Assumptions)**<br>
> 1. **측정 대상은 독립적**이어야 함 : 하나의 객체에 대한 측정은 어떤 다른 객체의 측정에 영향을 끼치지 않음<br>
> 2. 각 짝을 이룬 측정치는 **동일한 객체**로부터 얻어야 함 <br>
> 3. 짝을 이뤄 측정된 전-후 차이 값은 **정규분포를 따라야 함**

In [7]:
from scipy import stats

data_before = [72, 75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

t_statistic, p_value = stats.ttest_rel(data_before, data_after)

print("대응표본 t-검정 결과:")
print(f"t-통계량 : {t_statistic}")
print(f"p-값 : {p_value}")

대응표본 t-검정 결과:
t-통계량 : -8.25674954467424
p-값 : 0.0011738040715128372


In [8]:
# 따라하기
from scipy import stats

before = [7, 3, 4, 5, 2, 1, 6, 6, 5, 4]
after = [8, 4, 5, 6, 2, 3, 6, 8, 6, 5]

# 샤피로-윌크 검정 수행
_, p_value_before = stats.shapiro(before)
_, p_value_after = stats.shapiro(after)

# 결과 출력
print("[before 데이터의 정규성 검정]:")
if p_value_before > 0.05:
    print("p-값:", p_value_before)
    print("before 데이터는 정규분포를 따릅니다.")
else:
    print("p-값:", p_value_before)
    print("before 데이터는 정규분포를 따르지 않습니다.")
    
print("\n[after 데이터의 정규성 검정]:")
if p_value_after > 0.05:
    print("p-값:", p_value_after)
    print("after 데이터는 정규분포를 따릅니다.")
else:
    print("p-값:", p_value_after)
    print("after 데이터는 정규분포를 따르지 않습니다.")

[before 데이터의 정규성 검정]:
p-값: 0.835266649723053
before 데이터는 정규분포를 따릅니다.

[after 데이터의 정규성 검정]:
p-값: 0.6177965998649597
after 데이터는 정규분포를 따릅니다.


In [9]:
import numpy as np
from scipy import stats

# 데이터
before = np.array([7, 3, 4, 5, 2, 1, 6, 6, 5, 4])
after = np.array([8, 4, 5, 6, 2, 3, 6, 8, 6, 5])

# 차이 값 계산
D = before - after

# 대응표본 t-검정 수행
t_statistic, p_value = stats.ttest_rel(before, after)

# 결과 출력
print("대응 표본 t-검정 결과:")
print(f"t-통계량(t-statistic): {t_statistic}")
print(f"p-값(p-value): {p_value}")

# 가설 검정
alpha = 0.05   

if p_value < alpha:
    print("p-값이 유의수준보다 작으므로 귀무가설을 기각")
    print("수면유도제를 복용하기 전과 후의 평균 수면시간 차이는 0보다 작습니다.")
else:
    print("p-값이 유의수준보다 크므로 귀무가설을 채택")
    print("수면유도제를 복용하기 전과 후의 평균 수면시간에는 차이가 없습니다.")

대응 표본 t-검정 결과:
t-통계량(t-statistic): -4.743416490252569
p-값(p-value): 0.001053871257016553
p-값이 유의수준보다 작으므로 귀무가설을 기각
수면유도제를 복용하기 전과 후의 평균 수면시간 차이는 0보다 작습니다.


## 4. 단일표본 모분산 검정 (카이제곱 검정)

- 카이제곱 검정 : 주어진 데이터가 **특정 분산값**이라고 볼 수 있는지에 대한 검정
![5](pictures/5.png)

In [10]:
import numpy as np
from scipy.stats import chi2

# 샘플 데이터 생성
data = np.array([14.2, 15.1, 14.8, 15.4, 14.9, 15.2, 14.6, 15.0])

# 가설 설정
# H0: 모분산은 1.0과 같다.
# H1: 모분산은 1.0과 다르다.

population_variance = 1.0   # 모분산

## 검정통계량 = (n-1) * 표본분산 / 모분산
sample_variance = np.var(data)  # 표본분산
n = len(data)                   # 집단 크기
chi2_stat = (n-1) * sample_variance / population_variance  # 검정 통계량

# 카이제곱 분포의 자유도
degrees_of_freedom = n-1

In [12]:
# p-값 계산
## cdf : cumulative distribution function - 누적 분포 함수
##       cdf(n) : n 이하의 확률 값 구할 수 있음 (1-cdf(n) : n 이상의 확률 값)
p_value = 1 - chi2.cdf(chi2_stat, degrees_of_freedom)

# 결과 출력
print("Chi-Square Statistic:", chi2_stat)
print("p-value:", p_value)

# 가설 검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각. 모분산은 1.0과 다릅니다.")
else:
    print("귀무가설 채택. 모분산은 1.0과 같을 가능성이 있습니다.")

Chi-Square Statistic: 0.8575000000000008
p-value: 0.9968119115718612
귀무가설 채택. 모분산은 1.0과 같을 가능성이 있습니다.


## 5. 두 모분산 비에 대한 가설 검정 (f 검정: 일원분산분석)

- F 검정 : 주어진 **두 집단의 분산이 동일한지**에 대한 검정 (모분산의 동질성 테스트)
![6](pictures/6.png)

In [13]:
import numpy as np

np.random.seed(0) # 시드 고정

sample1 = np.random.normal(loc=5, scale=2, size=50) # 첫 번째 표본 생성
sample2 = np.random.normal(loc=5, scale=3, size=50) # 두 번째 표본 생성
print(sample1)
print(sample2)

[ 8.52810469  5.80031442  6.95747597  9.4817864   8.73511598  3.04544424
  6.90017684  4.69728558  4.7935623   5.821197    5.28808714  7.90854701
  6.52207545  5.24335003  5.88772647  5.66734865  7.98815815  4.58968347
  5.6261354   3.29180852 -0.10597963  6.30723719  6.7288724   3.51566996
  9.53950925  2.09126865  5.09151703  4.6256323   8.06555843  7.93871754
  5.30989485  5.75632504  3.2244285   1.03840706  4.3041757   5.31269794
  7.46058136  7.4047597   4.22534637  4.3953945   2.90289407  2.15996413
  1.58745962  8.90155079  3.98069564  4.1238514   2.49440928  6.55498071
  1.7722043   4.57451944]
[ 2.31360032  6.16070749  3.46758459  1.45810345  4.91545331  6.28499561
  5.19955167  5.90741569  3.09703372  3.9117765   2.98261866  3.92134052
  2.56056115 -0.17884781  5.53227843  3.79465719  0.10940496  6.38834677
  2.27810491  5.15583619  7.18727169  5.38694873  8.41820205  1.29552254
  6.20702492  2.94556973  2.38760855  3.26345101  4.0653424   5.16849603
  1.50455048  7.70247946 

In [14]:
from scipy import stats

# 두 표본의 분산 계산
variance_sample1 = np.var(sample1, ddof=1) # ddof=1은 자유도 보정을 위해 사용
variance_sample2 = np.var(sample2, ddof=1)

# F-검정 실행
## 검정 통계량 : 표본1 분산 / 표본2 분산
f_statistic = variance_sample1 / variance_sample2
df1 = len(sample1) - 1
df2 = len(sample2) - 1

p_value = 1 - stats.f.cdf(f_statistic, df1, df2)

print(f"표본 1의 분산: {variance_sample1:.4f}")
print(f"표본 2의 분산: {variance_sample2:.4f}")
print(f"F-통계량: {f_statistic:.4f}")

alpha = 0.05

if p_value < alpha:
    print(f"p-value: {p_value:.4f} < {alpha}, 귀무가설 기각. 두 표본의 모분산은 다릅니다.")
else:
    print(f"p-value: {p_value:.4f} >= {alpha}, 귀무가설 채택. 두 표본의 모분산은 같을 수 있습니다.")


표본 1의 분산: 5.1706
표본 2의 분산: 6.9044
F-통계량: 0.7489
p-value: 0.8426 >= 0.05, 귀무가설 채택. 두 표본의 모분산은 같을 수 있습니다.


## 6. 독립성 검정 (카이제곱 검정)
- 두 변수 간 상호 영향도를 판단할 때 사용 (명목척도 사용)
- **내가 설정한 독립변수(원인)가 종속변수(결과)에 정말 영향을 미치는지? 아님 독립적인지?**
- 변수 간 움직임이 독립적인지 확인하기 위함 !!!
<br><br>
- 귀무가설 : 독립변수는 종속변수와 상호 독립적이다
- 대립가설 : 독립변수는 종속변수와 독립적이지 않다 (영향을 미친다)


In [15]:
import numpy as np
from scipy.stats import chi2_contingency

# 주어진 데이터를 매트릭스로 입력
data_matrix = np.array([[50, 75, 125, 175], [90, 30, 45, 10]])

# 카이제곱 독립성 검정 수행
chi2, p, df, expected = chi2_contingency(data_matrix)

# 결과 출력
print("Chi-square statistic:", chi2)   # 검정 통계량
print("p-value:", p)                   # p-value
print("Degrees of freedom:", df)       # 자유도
print("Expected frequencies table:")   # 기대값
print(expected)

Chi-square statistic: 134.7511341579557
p-value: 5.117490956087995e-29
Degrees of freedom: 3
Expected frequencies table:
[[ 99.16666667  74.375      120.41666667 131.04166667]
 [ 40.83333333  30.625       49.58333333  53.95833333]]


In [16]:
import pandas as pd
import numpy as np
from scipy.stats import chi2_contingency

# 타이타닉 데이터셋
titanic_data = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/titanic.csv')

# 교차표 생성: 성별(Sex)과 생존 여부(Survived)를 기반
cross_table = pd.crosstab(titanic_data['Sex'], titanic_data['Survived'])

# 카이제곱 독립성 검정 수행
chi2, p, df, expected = chi2_contingency(cross_table)

# 결과 출력
print("카이제곱 통계량:", chi2)
print("p-value:", p)
print("자유도(df):", df)
print("기대값(Expected Frequencies):")
print(expected)

카이제곱 통계량: 260.71702016732104
p-value: 1.1973570627755645e-58
자유도(df): 1
기대값(Expected Frequencies):
[[193.47474747 120.52525253]
 [355.52525253 221.47474747]]


In [17]:
# 나이를 그룹으로 나누는 함수 정의
def categorize_age(age):
    if age < 20:
        return '10대'
    elif age < 30:
        return '20대'
    elif age < 40:
        return '30대'
    elif age < 50:
        return '40대'
    elif age < 60:
        return '50대'
    else:
        return '60대 이상'

# 나이가 NaN인 경우 해당 열의 평균값으로 대체
average_age = titanic_data['Age'].mean()
titanic_data['Age'] = titanic_data['Age'].apply(lambda x: average_age if np.isnan(x) else x)

# apply() 함수로 새로운 열 생성
titanic_data['AgeGroup'] = titanic_data['Age'].apply(categorize_age)

# 결과 출력
print(titanic_data[['Age', 'AgeGroup']])

           Age AgeGroup
0    22.000000      20대
1    38.000000      30대
2    26.000000      20대
3    35.000000      30대
4    35.000000      30대
..         ...      ...
886  27.000000      20대
887  19.000000      10대
888  29.699118      20대
889  26.000000      20대
890  32.000000      30대

[891 rows x 2 columns]


In [18]:
# 교차표 생성: 연령대(AgeGroup)과 생존 여부(Survived)를 기반
cross_table = pd.crosstab(titanic_data['AgeGroup'], titanic_data['Survived'])

# 카이제곱 독립성 검정 수행
chi2, p, df, expected = chi2_contingency(cross_table)

# 결과 출력
print("카이제곱 통계량:", chi2)
print("p-value):", p)
print("자유도(df):", df)
print("기대값(Expected Frequencies):")
print(expected)

카이제곱 통계량: 16.134525241016338
p-value): 0.006470311249228111
자유도(df): 5
기대값(Expected Frequencies):
[[101.05050505  62.94949495]
 [244.61616162 152.38383838]
 [102.8989899   64.1010101 ]
 [ 54.83838384  34.16161616]
 [ 29.57575758  18.42424242]
 [ 16.02020202   9.97979798]]
