## 3유형 예제

### [1] 단일표본T 검정 실습 - Trees

In [71]:
# 출력을 원하실 경우 print() 함수 활용
# 예시) print(df.head())

# getcwd(), chdir() 등 작업 폴더 설정 불필요
# 파일 경로 상 내부 드라이브 경로(C: 등) 접근 불가

# 데이터 파일 읽기 예제
import pandas as pd
X_test = pd.read_csv("./datasets/supplement/trees.csv")
# print(X_test.head())

# 사용자 코딩
import scipy.stats as stats
from math import sqrt

# 1. 표본평균
X = X_test['Height'].mean()
print('표본평균:', round(X, 2))

# 2. 검정통계량과 p값
t_score, p_value = stats.ttest_1samp(X_test['Height'], 75)
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 3. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 채택')

# 답안 출력 예시
# print(평균변수값)

표본평균: 76.0
검정통계량: 0.87 , p-값: 0.3892
결과: 채택


### [2] 독립표본T 검정 실습 - Toothgrowth

In [72]:
import pandas as pd

import scipy.stats as stats
from math import sqrt

data = pd.read_csv('./datasets/supplement/toothgrowth.csv')
# print(data.head())

# 1. 등분산성 검정
stats.levene(data.loc[data.supp=='VC', 'len'], data.loc[data.supp=='OJ', 'len'])

# 2. 표본평균
VC_a = data.loc[data.supp=='VC']
OJ_a = data.loc[data.supp=='OJ']

VC_X = VC_a['len'].mean()
OJ_X = OJ_a['len'].mean()
print('평균1:', round(VC_X, 2), ', 평균2:', round(OJ_X, 2))

# 3. 검정통계량과 p값
t_score, p_value = stats.ttest_ind(VC_a['len'], OJ_a['len'], equal_var=True)
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 4. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 채택')

평균1: 16.96 , 평균2: 20.66
검정통계량: -1.92 , p-값: 0.0604
결과: 채택


### [3] 상체표본 T 검정 실습 - Insectsprays

In [73]:
import pandas as pd

from scipy.stats import stats
from math import sqrt

data = pd.read_csv('./datasets/supplement/insectsprays.csv')
# print(data.head())

# 1. 표본평균
diff = data['after_spr'] - data['before_spr']
X = diff.mean()

print('평균:', X)

# 2. 검정통계량과 p값
t_score, p_value = stats.ttest_rel(data['before_spr'], data['after_spr'], alternative='greater')
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 3. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 기각')

평균: -12.0
검정통계량: 14.89 , p-값: 0.0
결과: 기각


### [4] 일원분산분석 One-Way ANOBA 실습 - Iris

In [74]:
import pandas as pd

from scipy.stats import stats
from math import sqrt

data = pd.read_csv('./datasets/supplement/iris.csv')
# print(data.head())

# 1. versicolor 종의 평균 꽃받침 너비
X = data[data['species']=='versicolor']['sepal_width'].mean()
print('평균:', round(X, 2))

# 2. 검정통계량과 p값
# print(data['species'].unique())  # 꽃 종류 확인

X1 = data.loc[data['species']=='setosa', 'sepal_width']
X2 = data.loc[data['species']=='versicolor', 'sepal_width']
X3 = data.loc[data['species']=='virginica', 'sepal_width']

t_score, p_value = stats.f_oneway(X1, X2, X3)
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 3. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 기각')

평균: 2.77
검정통계량: 49.16 , p-값: 0.0
결과: 기각


### [5] 카이제곱검정 (적합도 검정) 실습 - Cellphone

In [75]:
import numpy as np
import pandas as pd

from scipy.stats import stats
from math import sqrt

data = pd.read_csv('./datasets/supplement/cellphone.csv')
# print(data.head())

# 1. 삼성폰 사용 직원 수 - 애플폰 사용 직원 수 = 정수 출력
samsung = len(data[data['제조사']=='삼성'])
apple = len(data[data['제조사']=='애플'])
diff = int(samsung-apple)

print('삼성폰 사용 직원 수 - 애플폰 사용 직원 수:', diff)

# 다른 방법 => 이걸 쓰자 !!
count_df = data.groupby('제조사').count()  # 제조사별 관찰 빈도
result = count_df.loc['삼성', 'id'] - count_df.loc['애플', 'id']

# 2. 스마트폰 제조사 점유율 이용하여 기대빈도 계산
total_sum = len(data)
expected = [int(total_sum*0.1), # '기타' 제조사 빈도
            int(total_sum*0.6), # '삼성' 제조사 빈도
            int(total_sum*0.3)] # '애플' 제조사 빈도
print('기대빈도: ', expected)

# 3. 검정통계량과 p-value
observed = count_df['id'].values
t_score, p_value = stats.chisquare(observed, f_exp=expected)
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 4. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 기각')

삼성폰 사용 직원 수 - 애플폰 사용 직원 수: 39
기대빈도:  [20, 120, 60]
검정통계량: 16.73 , p-값: 0.0002
결과: 기각


### [6] 카이제곱검정 (독립성 검정) 실습 - Student

In [91]:
import pandas as pd

from scipy.stats import stats
from math import sqrt

data = pd.read_csv('./datasets/supplement/student.csv')
# print(data.head())

# 1. 분할표 만들고, 수강과목이 6개 이상인 학생 수가 가장 많은 단과대학 출력
table = pd.crosstab(data['단과대학'], data['수강 과목 수'])
print(table)
print()

result = table[table['6개 이상']==table['6개 이상'].max()].index[0]
print('단과대학:', result)

# 2. 검정통계량과 p-value
X1 = table.loc['경영대학', :]
X2 = table.loc['공과대학', :]
X3 = table.loc['자연대학', :]

-- 여기부터 다시
t_score, p_value = stats.chi2_contingency([X1, X2, X3])
print('검정통계량:', round(t_score, 2), ', p-값:', round(p_value, 4))

# 3. 유의수준 0.05 하에서 가설검정 결과 기각/채택 중 선택하여 작성
print('결과: 기각')

수강 과목 수  4개 이하  5개  6개 이상
단과대학                     
경영대학        12  78     30
공과대학        30  42     28
자연대학        30  42      8

단과대학: 경영대학


AttributeError: module 'scipy.stats.stats' has no attribute 'chi2_contingency'