### 1. 1표본 T-검정

In [126]:
from scipy.stats import ttest_1samp

# 문제: 다음은 22명의 학생들이 국어시험에서 받은 점수이다. 학생들의 평균이 75보다 크다고 할 수 있는가?

# 귀무가설(H0): 모평균은 mu와 같다. (μ = mu), 학생들의 평균은 75이다
# 대립가설(H1): 모평균은 mu보다 크다. (μ > mu), 학생들의 평균은 75보다 크다

scores = [75, 80, 68, 72, 77, 82, 81, 79, 70, 74, 76, 78, 81, 73, 81, 78, 75, 72, 74, 79, 78, 79]

mu = 75
alpha = 0.05

statistic, pvalue = ttest_1samp(scores, popmean=75)

print(statistic)
print(pvalue)

if pvalue < alpha:
    print("귀무가설을 기각합니다. 모평균은 75보다 큽니다.")
else:
    print("귀무가설을 채택합니다. 모평균은 75보다 크지 않습니다.")

1.765879233231226
0.09195229495418292
귀무가설을 채택합니다. 모평균은 75보다 크지 않습니다.


### 2. 독립표본 T-검정

In [127]:
# 어떤 특정 약물을 복용한 사람들의 평균 체온이 복용하지 않은 사람들의 평균 체온과 유의미하게 다른지 검정해보려고 합니다.
# 가정:
# 약물을 복용한 그룹과 복용하지 않은 그룹의 체온 데이터가 각각 주어져 있다고 가정합니다.
# 각 그룹의 체온은 정규분포를 따른다고 가정합니다.

# 귀무가설 : 같다
# 대립가설 : 다르다

# 데이터 수집
group1 = [36.8, 36.7, 37.1, 36.9, 37.2, 36.8, 36.9, 37.1, 36.7, 37.1]
group2 = [36.5, 36.6, 36.3, 36.6, 36.9, 36.7, 36.7, 36.8, 36.5, 36.7]

from scipy.stats import ttest_ind

alpha = 0.05

statistic, pvalue = ttest_ind(group1, group2)

print(statistic.round(3))
print(pvalue.round(3))

# 귀무가설 기각 -> 대립가설 채택 : 유의미한 차이가 있다.

3.796
0.001


### 3. 대응표본 T-검정(쌍체표본)

In [128]:
# 주어진 데이터는 고혈압 환자 치료 전후의 혈압이다. 해당 치료가 효과가 있는지 대응(쌍체)표본 t-검정을 진행하시오
# 귀무가설(H0):  μ >= 0 => 치료 효과 없다 : 후가 더 높다
# 대립가설(H1):  μ < 0 => 치료 : 전이 더 높다
# μ = (치료 후 혈압 - 치료 전 혈압)의 평균 (유의수준: 0.05)

import numpy as np

np.random.seed(42) # 결과 재현성을 위해 seed 설정

# 치료 전 혈압: 평균 150, 표준편차 10인 정규분포
before_treatment = np.random.normal(loc=150, scale=10, size=30).round(1)

# 치료 후 혈압: 치료 전 혈압에서 평균 15 감소, 표준편차는 10으로 동일
after_treatment = before_treatment - np.random.normal(loc=15, scale=5, size=30).round(1)
# 치료 후 혈압이 음수가 되지 않도록 조정 (최소값 100)
after_treatment = np.maximum(after_treatment, 100)

from scipy.stats import ttest_rel

statistic, pvalue = ttest_rel(before_treatment, after_treatment, alternative='greater')

print(statistic.round(4))
print(pvalue.round(4))

# 즉 p가 0.05보다 작기 때문에 귀무가설기각, 효과가 있다

16.9215
0.0


### 4.일원분산분석(ANOVA) / 일원배치법

In [129]:
# 세 가지 다른 교육 방법(A, B, C)을 사용하여 수험생들의 시험 성적을 개선시키는 효과를 평가하고자 한다. 30명의 학생들을 무작위로 세 그룹으로 배정하여 교육을 실시하였고, 시험을 보고 성적을 측정하였습니다. 다음은 각 그룹의 학생들의 성적 데이터입니다.¶
# 귀무가설(H0): 세 그룹(A, B, C) 간의 평균 성적 차이가 없다.
# 대립가설(H1 또는 Ha): 세 그룹(A, B, C) 간의 평균 성적 차이가 있다.

# 각 그룹의 데이터
groupA = [85, 92, 78, 88, 83, 90, 76, 84, 92, 87]
groupB = [79, 69, 84, 78, 79, 83, 79, 81, 86, 88]
groupC = [75, 68, 74, 65, 77, 72, 70, 73, 78, 75]

from scipy.stats import f_oneway

f_value, p_value = f_oneway(groupA, groupB, groupC)
print(f_value.round(2), format(p_value, '.6f'))

# value가 0.05보다 작기 때문에 귀무가설 기각, 대립가설 채택 => 그룹간 평균 차이가 있다.

16.88 0.000018


In [130]:
# T-test & Anova
# 문제: 두 교육 방법의 효과 비교
# 연구자는 두 가지 다른 교육 방법이 학생들의 성적에 미치는 영향을 비교하고자 합니다.
# 연구자는 무작위로 선발된 20명의 학생들을 두 그룹으로 나누어 한 그룹에는 교육 방법 A를, 다른 그룹에는 교육 방법 B를 적용합니다.
# 교육이 끝난 후, 두 그룹의 성적을 비교하기 위해 독립 표본 t-검정과 ANOVA F-검정을 실시하려고 합니다.
# h0 귀무가설 : 성적이 같다
# h1 대립가설 : 성적이 다르다
# alpha = 0.05

import pandas as pd
df = pd.DataFrame({
    'A':[77, 75, 82, 80, 81, 83, 84, 76, 75, 87],
    'B':[80, 74, 77, 79, 71, 74, 78, 69, 70, 72],
})

# 독립 표본 t-검정을 실시하여 t 통계량을 구하세요.
# 독립 표본 t-검정을 실시하여 p-값을 구하세요.
from scipy.stats import ttest_ind

t1, p1 = ttest_ind(df['A'], df['B'])
print(t1, p1)

# ANOVA F-검정을 실시하여 F 통계량을 구하세요.
# ANOVA F-검정을 실시하여 p-값을 구하세요.

from scipy.stats import f_oneway

f1, p2 = f_oneway(df['A'], df['B'])
print(f1, p2)

# 둘다 p-value가 0.05보다 작기 떄문에 귀무가설 기각 : 두 그룹간 성적이 다르다.

3.1068522301122954 0.006087373605949963
9.652530779753763 0.006087373605949924


### 5. Shapiro-Wilk 검정 : 정규분포를 따르는지 확인

In [131]:
data = [75, 83, 81, 92, 68, 77, 78, 80, 85, 95, 79, 89]

from scipy.stats import shapiro

shapiro, pvalue = shapiro(data)

shapiro, pvalue
# pvalue가 0.05보다 크기 때문에 귀무가설 채택 => 정규분포를 따른다

(np.float64(0.9768091723993144), np.float64(0.9676506711851194))

### 6. 상관계수 계산

In [132]:
# iris에서 Sepal Length와 Sepal Width의 상관계수 계산하고 소수 둘째자리까지 출력하시오

import pandas as pd
from sklearn.datasets import load_iris

# iris 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)

round(df.iloc[:,:2].corr(),2)

Unnamed: 0,sepal length (cm),sepal width (cm)
sepal length (cm),1.0,-0.12
sepal width (cm),-0.12,1.0


### 7. 독립성 검정 : 카이제곱 (교차표)
성별과 시험합격은 독립적인가를 검정하시오!

1 검정 통계량?

2 p-value?

3 귀무가설 기준 (기각/채택)?

4 남자의 합격 기대 빈도?

In [49]:
# 독립성 검정 : 성별과 시험합격은 독립적인가를 검정하시오.
# H0(귀무가설) : 독립이다
# H1(대립가설) : 독립이 아니다

# 패키지 추가 (from scipy.stats import chi2_contingency)
from scipy.stats import chi2_contingency

# 데이터 table 변환 (범주형 - pd.crosstab / 수치형 - np.array)
df = pd.DataFrame({'남자':[100,200], '여자': [130, 170]}, index=['합격', '불합격'])

statistic, pvalue, dof, expected = chi2_contingency(df)
# 검정통계량, P-VALUE, dof(자유도), ex(기대치)

# 검정통계량
print(statistic)
# P-VALUE
print(pvalue)
# 남자의 합격 빈도
print(expected[0][0])
# help(chi2_contingency)

5.929494712103407
0.01488951060599475
115.0


### 8. 카이제곱 적합도 검정 : 범주형 - 연속형에서 각 범주의 분포가 비슷한지?

In [74]:
# 고등학교에서는 졸업생들이 선택하는 대학 전공 분야의 선호도가 시간이 지남에 따라 변하지 않는다고 가정합니다.
# 학교 측은 최근 졸업생들의 전공 선택이 과거와 같은 패턴을 따르는지 알아보기 위해 적합도 검정을 실시하기로 결정했습니다.

# 과거 자료에 따르면 졸업생들이 선택하는 전공의 분포는 다음과 같습니다:
# 인문학: 20% 사회과학: 30% 자연과학: 25% 공학: 15% 기타: 10%

# 올해 졸업한 학생 200명의 전공 선택 분포는 다음과 같았습니다:
# 인문학: 30명 사회과학: 60명 자연과학: 50명 공학: 40명 기타: 20명
# 이 데이터를 바탕으로, 졸업생들의 전공 선택 패턴이 과거와 유사한지를 알아보기 위해 카이제곱 적합도 검정을 실시해야 합니다. 유의 수준은 0.05로 설정합니다.

# 검정 통계량?
# p-value?
# 유의수준 하 귀무가설 기각 또는 채택?

past = [0.2*200, 0.3*200, 0.25*200, 0.15*200, 0.1*200]
present = [30, 60, 50, 40, 20]

# # 귀무가설 : 과거와 같다
# # 대립가설 : 과거와 다르다

from scipy.stats import chisquare

chisquare(past,present)

# # pvalue가 0.05보다 크기 때문에 귀무가설 채택 : 과거와 유사하다.

Power_divergenceResult(statistic=np.float64(5.833333333333334), pvalue=np.float64(0.21194558437271782))

### 9. 로지스틱 회귀
Pclass, Gender, sibsp, parch를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, parch변수의 계수값은?

단, Pclass는 범주형 변수이다 (반올림하여 소수 셋째 자리까지 계산)

In [27]:
import pandas as pd
df = pd.read_csv('/content/drive/MyDrive/EWHA Data Science/[2025-1] 머신러닝원리와응용/lab2_pandas/titanic_train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
# 로지스틱 회귀
from statsmodels.formula.api import logit

logit = logit('Survived~Pclass+Sex+SibSp+Parch', data=df).fit()
print(logit.summary())
print(logit.params)

# result1 = logit('Survived ~ Sex+SibSp+Parch+Fare', data=df).fit().summary()
# print(result1)

Optimization terminated successfully.
         Current function value: 0.459658
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               Survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      886
Method:                           MLE   Df Model:                            4
Date:                Thu, 19 Jun 2025   Pseudo R-squ.:                  0.3097
Time:                        11:48:43   Log-Likelihood:                -409.56
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 2.854e-78
                  coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept       3.4596      0.311     11.109      0.000       2.849       4.070
Sex[T.male]    -2.7624    

### 10. 지지도, 신뢰도, 향상도


- 지지도(A,B): A와 B가 함께 팔린 거래 횟수 / 전체 거래 횟수

- 신뢰도(A->B): A와 B가 함께 팔린 거래 횟수 / A가 팔린 거래 횟수

- 향상도(A,B): 신뢰도(A->B) / 지지도(B)

In [92]:
# '빼빼로'와 '딴짓초코'가 함께 팔린 거래의 지지도를 계산하세요.
# '빼빼로'가 팔린 거래 중에서 '빼빼로'와 '오징어칩'이 함께 팔린 거래의 신뢰도를 계산하세요.
# '빼빼로'와 '양조위빵'의 향상도를 계산하세요.

import pandas as pd
# 데이터
df = pd.DataFrame({
    'transaction': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    '빼빼로': [1, 0, 1, 1, 0, 1, 1, 0, 1, 1],
    '딴짓초코': [0, 1, 1, 0, 1, 0, 1, 1, 0, 0],
    '양조위빵': [1, 0, 0, 1, 1, 1, 0, 0, 1, 0],
    '오징어칩': [0, 1, 1, 0, 0, 1, 0, 1, 1, 1],
    '초코파이': [1, 1, 0, 0, 1, 0, 1, 1, 0, 0]
})

df

Unnamed: 0,transaction,빼빼로,딴짓초코,양조위빵,오징어칩,초코파이
0,1,1,0,1,0,1
1,2,0,1,0,1,1
2,3,1,1,0,1,0
3,4,1,0,1,0,0
4,5,0,1,1,0,1
5,6,1,0,1,1,0
6,7,1,1,0,0,1
7,8,0,1,0,1,1
8,9,1,0,1,1,0
9,10,1,0,0,1,0


In [93]:
# 지지도 : 같이판매/전체판매
support = len(df.loc[(df['빼빼로']==1) & (df['딴짓초코']==1)]) / len(df)
print(support)

0.2


In [91]:
# 신뢰도 : A&B판매/A판매
confidence = len(df.loc[(df['빼빼로']==1) & (df['오징어칩']==1)]) / len(df.loc[df['빼빼로']==1])
print(confidence)

0.5714285714285714


In [107]:
# 향상도 : 신뢰도 / 지지도
confidence2 = len(df.loc[(df['빼빼로']==1) & (df['양조위빵']==1)]) / len(df.loc[df['빼빼로']==1])
support2 = len(df.loc[(df['빼빼로']==1) & (df['양조위빵']==1)]) / len(df)

lift = confidence2 / support2
lift

1.4285714285714284

### 11. 포아송 분포 (확률)

In [133]:
# 문제: 한 서점에서는 평균적으로 하루에 3명의 고객이 특정 잡지를 구매합니다.
# 이 데이터는 포아송 분포를 따른다고 가정할 때, 다음 질문에 대한 답을 구하세요.

from scipy.stats import poisson
import matplotlib.pyplot as plt

mu = 3 #하루에 평균 3명

# 하루에 정확히 5명의 고객이 잡지를 구매할 확률은 얼마입니까? (%로 값을 정수로 입력하시오) : 확률질량함수
print(poisson.pmf(5, mu))

# 하루에 적어도 2명의 고객이 잡지를 구매할 확률은 얼마입니까? (%로 값을 정수로 입력하시오) : 누적분포함수
print(1 - poisson.cdf(1, mu))

0.10081881344492458
0.8008517265285442


### 12. 베르누이 분포와 이항분포

In [138]:
df = pd.DataFrame([1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0,
        1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1,
        1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0,
        1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1,
        1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0])

df

Unnamed: 0,0
0,1
1,0
2,1
3,1
4,0
...,...
95,1
96,1
97,0
98,1


In [159]:
# [베르누이 분포] 다음 데이터는 100번의 시도에서 각각 성공(1) 또는 실패(0)를 나타냅니다.
# 이 데이터를 바탕으로 각 시도의 성공 확률을 계산하시오.

# 베르누이 분포 : 직접 계산 = 성공 수 / 전체 시도
prob1 = df.value_counts()[1]/len(df)
prob1

np.float64(0.62)

In [162]:
# [이항분포] 1번 문제에서 계산한 성공 확률을 사용하여, 100번의 시도 중 정확히 60번 성공할 확률을 계산하시오.

from scipy.stats import binom

n = 100 #시도 횟수
k = 60 #성공 횟수

# binom.pmf(k, n, 베르누이prob)
prob2 = binom.pmf(60, 100, prob1) #확률질랑햠수
prob2

np.float64(0.07464985555860272)