# 유방암 세포의 평균 반지름에 대한 추정

In [62]:
!pip install scikit-learn



In [63]:
!pip install numpy



In [64]:
#추정에 필요한 라이브러리 임포트
from scipy import stats
import numpy as np

#데이터 세트 로딩
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

#데이터세트의 내용 확인
print(breast_cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer Wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - 

In [65]:
# 데이터세트(array)를 처리가 용이한 데이터프레임으로 변환
import pandas as pd

# 데이터세트의 피처를 데이터프레임으로 변환
df_breast_cancer = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)

# 데이터세트의 target을 데이터프레임으로 변환
df_breast_cancer['target'] = breast_cancer.target

# 데이터세트의 내용 확인
df_breast_cancer.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,radius error,texture error,perimeter error,area error,smoothness error,compactness error,concavity error,concave points error,symmetry error,fractal dimension error,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,1.095,0.9053,8.589,153.4,0.006399,0.04904,0.05373,0.01587,0.03003,0.006193,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,0.5435,0.7339,3.398,74.08,0.005225,0.01308,0.0186,0.0134,0.01389,0.003532,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,0.7456,0.7869,4.585,94.03,0.00615,0.04006,0.03832,0.02058,0.0225,0.004571,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,0.4956,1.156,3.445,27.23,0.00911,0.07458,0.05661,0.01867,0.05963,0.009208,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,0.7572,0.7813,5.438,94.44,0.01149,0.02461,0.05688,0.01885,0.01756,0.005115,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


In [66]:
# mean radius 데이터 중 20개만 추출
mean_radius = np.random.choice(df_breast_cancer['mean radius'], 20)

# 표본평균,표본분산,표본 표준편차 계산
sample_mean = np.mean(mean_radius)
sample_var = np.var(mean_radius, ddof=1)
sample_std = np.std(mean_radius, ddof=1)


# 표본평균, 표본분산,표본 표준편차 출력
print(f'표본평균 = {sample_mean:.4f}')
print(f'표본분산 = {sample_var:.4f}')
print(f'표본표준편차 = {sample_std:.4f}')

표본평균 = 15.8430
표본분산 = 16.7720
표본표준편차 = 4.0954


In [67]:
# 유의수준 설정
alpha = 0.05

# 자유도 계산
n = len(mean_radius)
print(f'자유도 : {n-1}')

# 신뢰구간 계산
(ci_low, ci_up) = stats.t.interval(
    1-alpha,           # 신뢰계수
    df = n-1,          # 자유도
    loc = sample_mean, # 표본평균
    scale = sample_std/np.sqrt(n) # 표준오차
)


# 결과 출력
print(f'신뢰구간 : [{ci_low:.4f}, {ci_up:.4f}]')



자유도 : 19
신뢰구간 : [13.9263, 17.7597]


In [68]:
# 카이제곱값 계산
chi2_lvalue = stats.chi2.ppf(1-alpha/2, df=n-1)
chi2_uvalue = stats.chi2.ppf(alpha/2, df=n-1)
print(f'카이제곱값 = [{chi2_lvalue:.4f}, {chi2_uvalue:.4f}]')

# 신뢰구간
ci_lower = (n-1)*(sample_var**2)/chi2_lvalue
ci_upper = (n-1)*(sample_var**2)/chi2_uvalue

print(f'신뢰구간 = [{ci_lower:.4f}, {ci_upper:.4f}]')


카이제곱값 = [32.8523, 8.9065]
신뢰구간 = [162.6884, 600.0880]


# 가설검정 

In [69]:
# 추정에 필요한 라이브러리 임포트
from scipy import stats
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer

#random seed 설정
np.random.seed(0)

# 데이터세트 로딩
breast_cancer = load_breast_cancer()
df_breast_cancer = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)

In [181]:
# mean radius 데이터 중 20개만 추출.
mean_radius = np.random.choice(df_breast_cancer['mean radius'], 20)

# one sample t-test 수행: mean_radius의 평균은 15
t_stat, p_value = stats.ttest_1samp(
    mean_radius,       # 데이터
    popmean=15,       # 귀무가설의 모평균
    alternative='two-sided' # 양측검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: mean_radius의 평균은 15와 다르다.")
else:
    print("연구가설 기각: mean_radius의 평균은 15이다.")


검정통계량 T: 1.6454
p-value: 0.1163
연구가설 기각: mean_radius의 평균은 15이다.


# 당뇨병환자의 BMI에 대한 단일표본Z-검정

In [None]:
from scipy import stats
import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes

# 데이터셋 로딩
diabetes = load_diabetes()

# array를 데이터프레임으로 변환
df_diabetes = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)

# 데이터프레임 확인
df_diabetes.head()


Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641


In [129]:
# 신뢰수준 95%에서 유의수준 설정
alpha = 0.05

# bmi 특성만 50개 추출
bmi = np.random.choice(df_diabetes['bmi'], 50)

# one sample z-test 수행
# scipy는 z-test를 지원하지 않아 z-test를 직접 계산
# 표본평균, 표본표준편차, 표본크기 계산
x_bar = np.mean(bmi)
s = np.std(bmi, ddof=1)
n = len(bmi)

# 검정통계량 계산
z_stat = (x_bar - 0) / (s / np.sqrt(n))

# p-value 계산
p_value = stats.norm.pdf(z_stat)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 Z: {z_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: BMI의 평균은 0보다 크다")
else:
    print("연구가설 기각: BMI의 평균은 0이다")

검정통계량 Z: -0.6270
p-value: 0.3278
연구가설 기각: BMI의 평균은 0이다


# 쌍체 비교

In [139]:
from scipy import stats
import numpy as np
import pandas as pd

# 혈압 데이터를 데이터프레임으로 생성 (치료 전,치료 후)
df_bp = pd.DataFrame({
    'ID':   [1, 2, 3, 4, 5, 6, 7, 8, 9],
    '처방전': [120, 128, 130, 123, 134, 125, 140, 135, 137],
    '처방후': [115, 129, 122, 118, 134, 122, 135, 130, 133]
})

# 처방 전,후의 차이 계산
df_bp['차이'] = df_bp['처방전'] - df_bp['처방후']

# 데이터프레임 확인
df_bp

Unnamed: 0,ID,처방전,처방후,차이
0,1,120,115,5
1,2,128,129,-1
2,3,130,122,8
3,4,123,118,5
4,5,134,134,0
5,6,125,122,3
6,7,140,135,5
7,8,135,130,5
8,9,137,133,4


In [140]:
# 신뢰수준 95%에서 유의수준 설정
alpha = 0.05

# Paired t-test 수행
t_stat, p_value = stats.ttest_rel(
    df_bp['처방전'],    # 처방전
    df_bp['처방후'],    # 처방후
    alternative='two-sided' #양측검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: 처방전과 처방후의 평균은 다르다.")
else:
    print("연구가설 기각: 처방전과 처방후의 평균은 같다.")


검정통계량 T: 4.0857
p-value: 0.0035
연구가설 채택: 처방전과 처방후의 평균은 다르다.


# 운동프로그램(1개월간)이 체중감소에 영향을 미치는 지 paired t-test로 검정

In [141]:
from scipy import stats
import numpy as np
import pandas as pd

# 체중 측정 데이터 (운동 전, 운동 후)
df_weight = pd.DataFrame({
    'ID':    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    '운동전': [70, 72, 75, 68, 77, 73, 79, 76, 71, 74],
    '운동후': [68, 71, 73, 67, 75, 71, 78, 74, 70, 72]
})

# 운동 전, 후의 차이 계산
df_weight['차이'] = df_weight['운동전'] - df_weight['운동후']

# 데이터프레임 확인
display(df_weight)


Unnamed: 0,ID,운동전,운동후,차이
0,1,70,68,2
1,2,72,71,1
2,3,75,73,2
3,4,68,67,1
4,5,77,75,2
5,6,73,71,2
6,7,79,78,1
7,8,76,74,2
8,9,71,70,1
9,10,74,72,2


In [142]:
# Paired t-test 수행
t_stat, p_value = stats.ttest_rel(
    df_weight['운동전'],   # 운동전
    df_weight['운동후'],   # 운동후
    alternative='greater' # 운동전 > 운동후, 오른쪽 꼬리 검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: 운동 프로그램 전의 체중의 평균이 운동 프로그램 후보다 크다.")
else:
    print("연구가설 기각: 운동 프로그램 전의 체중의 평균이 운동 프로그램 후와 차이가 없다.")


검정통계량 T: 9.7980
p-value: 0.0000
연구가설 채택: 운동 프로그램 전의 체중의 평균이 운동 프로그램 후보다 크다.


# 두 모집단 평균차이검정

In [None]:
from sklearn.datasets import load_breast_cancer
from scipy import stats
import pandas as pd

# 데이터셋 로딩
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

# 데이터셋의 특징을 데이터프레임으로 변환
df_breast_cancer = pd.DataFrame(
    breast_cancer.data, columns=breast_cancer.feature_names
)

# 데이터셋의 target을 데이터 프레임에 추가
df_breast_cancer['target'] = breast_cancer.target


# 데이터셋의 내용 확인
df_breast_cancer[['mean area', 'target']]




Unnamed: 0,mean area,target
0,1001.0,0
1,1326.0,0
2,1203.0,0
3,386.1,0
4,1297.0,0
...,...,...
564,1479.0,0
565,1261.0,0
566,858.1,0
567,1265.0,0


In [144]:
# 데이터 분리: 악성(malignant)과 양성(benign)
malignant = df_breast_cancer[df_breast_cancer['target'] == 0]['mean area']
benign = df_breast_cancer[df_breast_cancer['target'] == 1]['mean area']

# 등분산 검정:Levene's Test
levene_stat, levene_p = stats.levene(malignant, benign)
print(f"Levene's Test의 p-value: {levene_p:.4f}")

# 등분산 여부
if levene_p < 0.05:
    print("등분산이 아님")
    eq_var = False
else:
    print("등분산")
    eq_var = True

# 등분산 검정 결과에 따라 t-test 수행
t_stat, t_p = stats.ttest_ind(malignant, benign, equal_var=eq_var)



# t-test 결과 출력
print(f"Two-sample t-test t-statistic: {t_stat:.4f}")
print(f"Two-sample t-test p-value: {t_p:.4f}")


# 결론
if t_p < 0.05:
    print('연구가설 채택: 두 집단 간의 평균은 다르다.')
else:
    print('연구가설 기각: 두 집단 간의 평균은 같다.')





Levene's Test의 p-value: 0.0000
등분산이 아님
Two-sample t-test t-statistic: 19.6410
Two-sample t-test p-value: 0.0000
연구가설 채택: 두 집단 간의 평균은 다르다.


# 당뇨병환자의 남성과 여성의 혈당수치 평균 비교 검정

In [None]:
from sklearn.datasets import load_diabetes
from scipy import stats
import pandas as pd

# 데이터세트 로딩
diabetes = load_diabetes()

# array를 처리하기 용이한 데이터프레임으로 변환
df_diabetes = pd.DataFrame(
    diabetes.data, columns=diabetes.feature_names
)

# 데이터프레임 확인
df_diabetes.head()




Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641


In [146]:
# 남성과 여성의 혈당 수치 s1 비교
# s1 열은 정규화된 혈당 수치를 나타냄
male = df_diabetes[df_diabetes['sex'] > 0]['s1']
female = df_diabetes[df_diabetes['sex'] < 0]['s1']

# 등분산 검정을위해 Bartlett's Test를 실행
bartlett_stat, bartlett_p = stats.bartlett(male, female)
print(f"Bartlett's Test의 p-value: {bartlett_p:.4f}")

# 등분산 검정 결과에따라 Two-sample t-test를 수행
if bartlett_p > 0.05:
    # p-value가 0.05보다 크면 두 그룹의 분산이 같다고 판단
    t_stat, t_p = stats.ttest_ind(
        male,
        female,
        equal_var=True,
        alternative='greater' # 남성 > 여성, 오른쪽 꼬리 검정
    )
else:
    # p-value가 0.05보다 작으면 두 그룹의 분산이 다르다고 판단
    t_stat, t_p = stats.ttest_ind(male, female, equal_var=False, alternative='greater')

print(f"Two-sample t-test의 p-value: {t_p:.4f}")

# 최종 결론 도출
if t_p < 0.05:
    print('연구가설 채택: 남성의 혈당 수치가 여성보다 크다.')
else:
    print('연구가설 기각: 남성의 혈당 수치가 여성보다 크지 않다.')



Bartlett's Test의 p-value: 0.2180
Two-sample t-test의 p-value: 0.2297
연구가설 기각: 남성의 혈당 수치가 여성보다 크지 않다.


# 두모집단 분산차이 검정

# 단일표본 분산검정

In [149]:
from scipy import stats
import numpy as np

# 데이터세트 로딩
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

# array를 데이터프레임으로 변환
import pandas as pd

# 데이터세트의 특징을 데이터프레임으로 변환
df_breast_cancer = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)

# mean radius 데이터 중 20개만 추출
np.random.seed(0)
mean_radius = np.random.choice( df_breast_cancer['mean radius'], 20)
print(f'{mean_radius=}')


mean_radius=array([11.51 ,  9.72 ,  9.436, 12.46 , 18.81 , 18.94 , 14.92 , 13.51 ,
        8.597, 14.64 , 11.13 , 19.02 , 10.66 , 11.69 , 17.2  , 11.93 ,
       12.4  , 14.53 , 14.42 , 16.46 ])


In [150]:
#유의 설정 크기
alpha = 0.05

# 표본의 크기
n = len(mean_radius)

# 표본분산 계산
sample_variance = np.var(mean_radius, ddof=1)

# 카이제곱 통계량 계산
chi2_stat = (n - 1) * sample_variance / 15

# 임계치 계산
chi2_critical = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

print(f"표본 분산: {sample_variance:.4f}")
print(f"카이제곱 검정통계량: {chi2_stat:.4f}")
print(f"임계치: {chi2_critical:.4f}")

# 결론 도출
if chi2_stat < chi2_critical:
    print("연구가설 채택: 유방암 세포의 mean radius 분산은 15보다 작다.")
else:
    print("연구가설 기각: 유방암 세포의 mean radius 분산은 15보다 작지 않다.")


표본 분산: 10.3293
카이제곱 검정통계량: 13.0838
임계치: 32.8523
연구가설 채택: 유방암 세포의 mean radius 분산은 15보다 작다.


# 두 모집단 분산 차이 검정

In [None]:
from sklearn.datasets import load_breast_cancer
from scipy import stats
import pandas as pd

# 데이터세트 로딩
from sklearn.datasets import load_breast_cancer
breast_cancer = load_breast_cancer()

# 데이터세트의 특징을 데이터프레임으로 변환
df_breast_cancer = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)


# 데이터세트의 target을 데이터프레임으로 변환
df_breast_cancer['target'] = breast_cancer.target

# 데이터 분리: 악성(malignant)과 양성(benign)
malignant = df_breast_cancer[df_breast_cancer['target'] == 0]['mean area']
benign = df_breast_cancer[df_breast_cancer['target'] == 1]['mean area']


# 데이터 확인
print(f'malignant = {malignant}')
print(f'benign = {benign}')




malignant = 0      1001.0
1      1326.0
2      1203.0
3       386.1
4      1297.0
        ...  
563    1347.0
564    1479.0
565    1261.0
566     858.1
567    1265.0
Name: mean area, Length: 212, dtype: float64
benign = 19     566.3
20     520.0
21     273.9
37     523.8
46     201.9
       ...  
558    657.1
559    403.5
560    600.4
561    386.0
568    181.0
Name: mean area, Length: 357, dtype: float64


In [155]:
# 유의수준 설정
alpha = 0.05

# 표본의 크기
n_m, n_b = len(malignant), len(benign)
print(f'{n_m = }, {n_b =}')

# 표본 분산 계산
var_m = np.var(malignant, ddof=1)
var_b = np.var(benign, ddof=1)

# F-통계량 계산
F_stat = var_m /  var_b

# 임계치 계산(양측검정), 자유도는 각각의 표본 크기에서 1을 뺀 값. 분자 먼저-분모 나중
left_critical = stats.f.ppf(alpha/2, dfn=n_m-1, dfd=n_b-1)
right_critical = stats.f.ppf(1-alpha/2, dfn=n_m-1, dfd=n_b-1)

print(f"악성 표본분산: {var_m:.4f}, 양성 표본분산: {var_b:.4f}")
print(f"F 통계량: {F_stat:.4f}")
print(f"임계치: [{left_critical:.4f}, {right_critical:.4f}]")

# 결론 도출
if (F_stat < left_critical) or (F_stat > right_critical):
    print("연구가설 채택: 두 집단의 분산은 같지 않다.")
else:
    print("연구가설 기각: 두 집단의 분산은 같다.")




n_m = 212, n_b =357
악성 표본분산: 135378.3554, 양성 표본분산: 18033.0301
F 통계량: 7.5072
임계치: [0.7826, 1.2682]
연구가설 채택: 두 집단의 분산은 같지 않다.


# 연습

와인 평균 도수에대한 추정

In [158]:
#추정에 필요한 라이브러리 임포트
from scipy import stats
import numpy as np

#데이터 세트 로딩
from sklearn.datasets import load_wine
wine = load_wine()

#데이터세트의 내용 확인
print(wine.DESCR)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

In [159]:
# 데이터세트(array)를 처리가 용이한 데이터프레임으로 변환
import pandas as pd

# 데이터세트의 피처를 데이터프레임으로 변환
df_wine = pd.DataFrame(wine.data, columns=wine.feature_names)

# 데이터세트의 target을 데이터프레임으로 변환
df_wine['target'] = wine.target

# 데이터세트의 내용 확인
df_wine.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [160]:
# alcohol 데이터 중 20개만 추출
alcohol = np.random.choice(df_wine['alcohol'], 20)

# 표본평균,표본분산,표본 표준편차 계산
sample_alcohol = np.mean(alcohol)
sample_var = np.var(alcohol, ddof=1)
sample_std = np.std(alcohol, ddof=1)


# 표본평균, 표본분산,표본 표준편차 출력
print(f'표본평균 = {sample_alcohol:.4f}')
print(f'표본분산 = {sample_var:.4f}')
print(f'표본표준편차 = {sample_std:.4f}')

표본평균 = 13.1445
표본분산 = 0.4431
표본표준편차 = 0.6656


In [162]:
# 유의수준 설정
alpha = 0.05

# 자유도 계산
n = len(alcohol)
print(f'자유도 : {n-1}')

# 신뢰구간 계산
(ci_low, ci_up) = stats.t.interval(
    1-alpha,           # 신뢰계수
    df = n-1,          # 자유도
    loc = sample_alcohol, # 표본평균
    scale = sample_std/np.sqrt(n) # 표준오차
)


# 결과 출력
print(f'신뢰구간 : [{ci_low:.4f}, {ci_up:.4f}]')



자유도 : 19
신뢰구간 : [12.8330, 13.4560]


In [163]:
# 카이제곱값 계산
chi2_lvalue = stats.chi2.ppf(1-alpha/2, df=n-1)
chi2_uvalue = stats.chi2.ppf(alpha/2, df=n-1)
print(f'카이제곱값 = [{chi2_lvalue:.4f}, {chi2_uvalue:.4f}]')

# 신뢰구간
ci_lower = (n-1)*(sample_var**2)/chi2_lvalue
ci_upper = (n-1)*(sample_var**2)/chi2_uvalue

print(f'신뢰구간 = [{ci_lower:.4f}, {ci_upper:.4f}]')

카이제곱값 = [32.8523, 8.9065]
신뢰구간 = [0.1135, 0.4188]


가설검정

In [164]:
# 추정에 필요한 라이브러리 임포트
from scipy import stats
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine

#random seed 설정
np.random.seed(0)

# 데이터세트 로딩
wine = load_wine()
df_wine = pd.DataFrame(wine.data, columns=wine.feature_names)

In [184]:
# alcohol 데이터 중 20개만 추출.
alcohol = np.random.choice(df_wine['alcohol'], 20)

# one sample t-test 수행: alcohol의 평균은 15
t_stat, p_value = stats.ttest_1samp(
    alcohol,       # 데이터
    popmean=15,       # 귀무가설의 모평균
    alternative='two-sided' # 양측검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: alcohol의 평균은 15와 다르다.")
else:
    print("연구가설 기각: alcohol의 평균은 15이다.")


검정통계량 T: -10.5971
p-value: 0.0000
연구가설 채택: alcohol의 평균은 15와 다르다.


와인의 flavanoids에 대한 단일표본 z검정

In [185]:
from scipy import stats
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine

# 데이터셋 로딩
wine = load_wine()

# array를 데이터프레임으로 변환
df_wine = pd.DataFrame(wine.data, columns=wine.feature_names)

# 데이터프레임 확인
df_wine.head()


Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [191]:
# 신뢰수준 95%에서 유의수준 설정
alpha = 0.05

# bmi 특성만 50개 추출
flavanoids = np.random.choice(df_wine['flavanoids'], 50)

# one sample z-test 수행
# scipy는 z-test를 지원하지 않아 z-test를 직접 계산
# 표본평균, 표본표준편차, 표본크기 계산
x_bar = np.mean(flavanoids)
s = np.std(flavanoids, ddof=1)
n = len(flavanoids)

# 검정통계량 계산
z_stat = (x_bar - 10) / (s / np.sqrt(n))

# p-value 계산
p_value = stats.norm.pdf(z_stat)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 Z: {z_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: flavanoids의 평균은 10보다 크다")
else:
    print("연구가설 기각: flavanoids의 평균은 10이다")

검정통계량 Z: -58.1807
p-value: 0.0000
연구가설 채택: flavanoids의 평균은 10보다 크다


쌍체비교

In [199]:
from scipy import stats
import numpy as np
import pandas as pd

# 와인 데이터를 데이터프레임으로 생성 (total_phenols,flavanoids)
df_wine = pd.DataFrame({
    'ID':   [1, 2, 3, 4, 5, 6, 7, 8, 9],
    'total_phenols': [3.01, 2.96, 2.56, 3.15, 2.88, 3.15, 2.58, 3.15, 3.44],
    'flavanoids': [2.96, 2.99, 3.15, 4.15, 3.15, 4.15, 3.15, 4.15, 4.55]
})

# total_phenols,flavanoids 크기비교
df_wine['차이'] = df_wine['total_phenols'] - df_wine['flavanoids']

# 데이터프레임 확인
df_wine

Unnamed: 0,ID,total_phenols,flavanoids,차이
0,1,3.01,2.96,0.05
1,2,2.96,2.99,-0.03
2,3,2.56,3.15,-0.59
3,4,3.15,4.15,-1.0
4,5,2.88,3.15,-0.27
5,6,3.15,4.15,-1.0
6,7,2.58,3.15,-0.57
7,8,3.15,4.15,-1.0
8,9,3.44,4.55,-1.11


In [197]:
# 신뢰수준 95%에서 유의수준 설정
alpha = 0.05

# Paired t-test 수행
t_stat, p_value = stats.ttest_rel(
    df_wine['total_phenols'],    # 처방전
    df_wine['flavanoids'],    # 처방후
    alternative='two-sided' #양측검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: total_phenols과 flavanoids 평균은 다르다.")
else:
    print("연구가설 기각: total_phenols과 flavanoids 평균은 같다.")


검정통계량 T: -4.1198
p-value: 0.0033
연구가설 채택: total_phenols과 flavanoids 평균은 다르다.


# 알코올이 proline양에 영향을 미치는 지 paired t-test로 검정

In [201]:
from scipy import stats
import numpy as np
import pandas as pd

# 와인 측정 데이터 (alcohol, proline)
df_wine = pd.DataFrame({
    'ID':    [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'alcohol': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    'proline': [1000, 1001, 1001, 1005, 1022, 1031, 1002, 1004, 1050, 1151]
})

# 운동 전, 후의 차이 계산
df_wine['차이'] = df_wine['alcohol'] - df_wine['proline']

# 데이터프레임 확인
display(df_wine)


Unnamed: 0,ID,alcohol,proline,차이
0,1,11,1000,-989
1,2,12,1001,-989
2,3,13,1001,-988
3,4,14,1005,-991
4,5,15,1022,-1007
5,6,16,1031,-1015
6,7,17,1002,-985
7,8,18,1004,-986
8,9,19,1050,-1031
9,10,20,1151,-1131


In [205]:
# Paired t-test 수행
t_stat, p_value = stats.ttest_rel(
    df_wine['alcohol'],   # 운동전
    df_wine['proline'],   # 운동후
    alternative='greater' # 운동전 > 운동후, 오른쪽 꼬리 검정
)

# 소수점 4자리로 제한하여 출력
print(f'검정통계량 T: {t_stat:.4f}')
print(f'p-value: {p_value:.4f}')

# 가설검정 결과 출력
if p_value < alpha:
    print("연구가설 채택: 와인의 알코올이낮으면 proline이많다.")
else:
    print("연구가설 기각: 상관 없다.")


검정통계량 T: -71.4439
p-value: 1.0000
연구가설 기각: 상관 없다.


두모집단 평균차이 검정

In [210]:
from sklearn.datasets import load_wine
from scipy import stats
import pandas as pd

# 데이터셋 로딩
from sklearn.datasets import load_wine
wine = load_wine()

# 데이터셋의 특징을 데이터프레임으로 변환
df_wine = pd.DataFrame(
    wine.data, columns=wine.feature_names
)

# 데이터셋의 target을 데이터 프레임에 추가
df_wine['target'] = wine.target


# 데이터셋의 내용 확인
df_wine[['alcohol', 'target']]




Unnamed: 0,alcohol,target
0,14.23,0
1,13.20,0
2,13.16,0
3,14.37,0
4,13.24,0
...,...,...
173,13.71,2
174,13.40,2
175,13.27,2
176,13.17,2


In [214]:
# 데이터 분리: 도수높음(high)과 도수낮음(low)
high = df_wine[df_wine['target'] == 1]['alcohol']
low = df_wine[df_wine['target'] == 0]['alcohol']

# 등분산 검정:Levene's Test
levene_stat, levene_p = stats.levene(high, low)
print(f"Levene's Test의 p-value: {levene_p:.4f}")

# 등분산 여부
if levene_p < 0.05:
    print("등분산이 아님")
    eq_var = False
else:
    print("등분산")
    eq_var = True

# 등분산 검정 결과에 따라 t-test 수행
t_stat, t_p = stats.ttest_ind(high, low, equal_var=eq_var)



# t-test 결과 출력
print(f"Two-sample t-test t-statistic: {t_stat:.4f}")
print(f"Two-sample t-test p-value: {t_p:.4f}")


# 결론
if t_p < 0.05:
    print('연구가설 채택: 두 집단 간의 평균은 다르다.')
else:
    print('연구가설 기각: 두 집단 간의 평균은 같다.')





Levene's Test의 p-value: 0.5771
등분산
Two-sample t-test t-statistic: -16.4786
Two-sample t-test p-value: 0.0000
연구가설 채택: 두 집단 간의 평균은 다르다.


알코올 도수에 따른 malic_acid양의 평균 비교 검정

In [215]:
from sklearn.datasets import load_wine
from scipy import stats
import pandas as pd

# 데이터세트 로딩
wine = load_wine()

# array를 처리하기 용이한 데이터프레임으로 변환
df_wine = pd.DataFrame(
    wine.data, columns=wine.feature_names
)

# 데이터프레임 확인
df_wine.head()




Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [216]:
# 남성과 여성의 혈당 수치 s1 비교
# s1 열은 정규화된 혈당 수치를 나타냄
high = df_wine[df_wine['alcohol'] > 14]['malic_acid']
low = df_wine[df_wine['alcohol'] < 14]['malic_acid']

# 등분산 검정을위해 Bartlett's Test를 실행
bartlett_stat, bartlett_p = stats.bartlett(high, low)
print(f"Bartlett's Test의 p-value: {bartlett_p:.4f}")

# 등분산 검정 결과에따라 Two-sample t-test를 수행
if bartlett_p > 0.05:
    # p-value가 0.05보다 크면 두 그룹의 분산이 같다고 판단
    t_stat, t_p = stats.ttest_ind(
        high,
        low,
        equal_var=True,
        alternative='greater' # 남성 > 여성, 오른쪽 꼬리 검정
    )
else:
    # p-value가 0.05보다 작으면 두 그룹의 분산이 다르다고 판단
    t_stat, t_p = stats.ttest_ind(high, low, equal_var=False, alternative='greater')

print(f"Two-sample t-test의 p-value: {t_p:.4f}")

# 최종 결론 도출
if t_p < 0.05:
    print('연구가설 채택: 도수가 높으면 사과산이 많다.')
else:
    print('연구가설 기각: 상관없다.')



Bartlett's Test의 p-value: 0.1055
Two-sample t-test의 p-value: 0.7033
연구가설 기각: 상관없다.


단일표본 분산검정

In [None]:
from scipy import stats
import numpy as np

# 데이터세트 로딩
from sklearn.datasets import load_wine
wine = load_wine()

# array를 데이터프레임으로 변환
import pandas as pd

# 데이터세트의 특징을 데이터프레임으로 변환
df_wine = pd.DataFrame(wine.data, columns=wine.feature_names)

# alcohol 데이터 중 20개만 추출
np.random.seed(0)
wine = np.random.choice( df_wine['alcohol'], 20)
print(f'{wine=}')


wine=array([14.16, 13.9 , 12.42, 12.37, 11.82, 13.86, 12.93, 13.28, 11.65,
       12.29, 11.64, 12.93, 13.72, 14.22, 11.65, 13.4 , 11.64, 12.72,
       13.73, 13.05])


In [218]:
#유의 설정 크기
alpha = 0.05

# 표본의 크기
n = len(wine)

# 표본분산 계산
sample_variance = np.var(wine, ddof=1)

# 카이제곱 통계량 계산
chi2_stat = (n - 1) * sample_variance / 15

# 임계치 계산
chi2_critical = stats.chi2.ppf(1 - alpha / 2, df=n - 1)

print(f"표본 분산: {sample_variance:.4f}")
print(f"카이제곱 검정통계량: {chi2_stat:.4f}")
print(f"임계치: {chi2_critical:.4f}")

# 결론 도출
if chi2_stat < chi2_critical:
    print("연구가설 채택: 와인 알코올의 분산은 15보다 작다.")
else:
    print("연구가설 기각: 와인 알코올의 분산은 15보다 작지 않다.")


표본 분산: 0.8103
카이제곱 검정통계량: 1.0263
임계치: 32.8523
연구가설 채택: 와인 알코올의 분산은 15보다 작다.


두모집단 분산 차이 검정

In [219]:
from sklearn.datasets import load_wine
from scipy import stats
import pandas as pd

# 데이터세트 로딩
from sklearn.datasets import load_wine
wine = load_wine()

# 데이터세트의 특징을 데이터프레임으로 변환
df_wine = pd.DataFrame(wine.data, columns=wine.feature_names)


# 데이터세트의 target을 데이터프레임으로 변환
df_wine['target'] = wine.target

# 데이터 분리: 높은도수, 낮은도수
high = df_wine[df_wine['target'] == 1]['alcohol']
low = df_wine[df_wine['target'] == 0]['alcohol']


# 데이터 확인
print(f'high = {high}')
print(f'low = {low}')




high = 59     12.37
60     12.33
61     12.64
62     13.67
63     12.37
       ...  
125    12.07
126    12.43
127    11.79
128    12.37
129    12.04
Name: alcohol, Length: 71, dtype: float64
low = 0     14.23
1     13.20
2     13.16
3     14.37
4     13.24
5     14.20
6     14.39
7     14.06
8     14.83
9     13.86
10    14.10
11    14.12
12    13.75
13    14.75
14    14.38
15    13.63
16    14.30
17    13.83
18    14.19
19    13.64
20    14.06
21    12.93
22    13.71
23    12.85
24    13.50
25    13.05
26    13.39
27    13.30
28    13.87
29    14.02
30    13.73
31    13.58
32    13.68
33    13.76
34    13.51
35    13.48
36    13.28
37    13.05
38    13.07
39    14.22
40    13.56
41    13.41
42    13.88
43    13.24
44    13.05
45    14.21
46    14.38
47    13.90
48    14.10
49    13.94
50    13.05
51    13.83
52    13.82
53    13.77
54    13.74
55    13.56
56    14.22
57    13.29
58    13.72
Name: alcohol, dtype: float64


In [220]:
# 유의수준 설정
alpha = 0.05

# 표본의 크기
n_m, n_b = len(high), len(low)
print(f'{n_m = }, {n_b =}')

# 표본 분산 계산
var_h = np.var(high, ddof=1)
var_l = np.var(low, ddof=1)

# F-통계량 계산
F_stat = var_h /  var_l

# 임계치 계산(양측검정), 자유도는 각각의 표본 크기에서 1을 뺀 값. 분자 먼저-분모 나중
left_critical = stats.f.ppf(alpha/2, dfn=n_m-1, dfd=n_b-1)
right_critical = stats.f.ppf(1-alpha/2, dfn=n_m-1, dfd=n_b-1)

print(f"고도수 표본분산: {var_h:.4f}, 저도수 표본분산: {var_l:.4f}")
print(f"F 통계량: {F_stat:.4f}")
print(f"임계치: [{left_critical:.4f}, {right_critical:.4f}]")

# 결론 도출
if (F_stat < left_critical) or (F_stat > right_critical):
    print("연구가설 채택: 두 집단의 분산은 같지 않다.")
else:
    print("연구가설 기각: 두 집단의 분산은 같다.")




n_m = 71, n_b =59
고도수 표본분산: 0.2894, 저도수 표본분산: 0.2136
F 통계량: 1.3551
임계치: [0.6121, 1.6528]
연구가설 기각: 두 집단의 분산은 같다.
