In [None]:
git_url = "https://github.com/lovedlim/bigdata_analyst_cert_v2/"

# 작업형 3
1. 가설검정



## 1) 단일 표본 t-검정

In [None]:
import pandas as pd
from scipy import stats

# 영화 러닝타임 데이터
df = pd.DataFrame({
    'running_time': [155, 122, 110, 119, 118, 117, 116, 105, 111, 119,
                     123, 105, 92, 110, 117, 145, 96, 121, 116, 123,
                     122, 117, 105, 107, 138, 142, 98, 100, 104, 105]
})

# 평균이 120분인지 검정 (단일 표본 t-test)
t_statistic, p_value = stats.ttest_1samp(df['running_time'], 120)

print(f"t-statistic: {t_statistic:.4f}, p-value: {p_value:.4f}")
print()

# 결과 해석
if p_value < 0.05:
    print("p-value가 0.05보다 작으므로, 귀무가설을 기각합니다.")
    print("→ 영화의 평균 상영 시간은 120분이 아니라고 할 수 있습니다.")
else:
    print("p-value가 0.05보다 크므로, 귀무가설을 기각할 수 없습니다.")
    print("→ 영화의 평균 상영 시간이 120분이라고 볼 수 있습니다.")


t-statistic: -1.5353, p-value: 0.1355

p-value가 0.05보다 크므로, 귀무가설을 기각할 수 없습니다.
→ 영화의 평균 상영 시간이 120분이라고 볼 수 있습니다.


## 2) 양측 검정과 단측 검정

In [None]:
from scipy import stats

# 양측 검정
print("양측 검정 결과")
t_statics, p_value = stats.ttest_1samp(df['running_time'], 120, alternative='two-sided')
print(f"p-value: {p_value}")

# 단측 검정 (greater)
print("\n단측 검정 결과: 평균이 120분보다 큰지")
t_statics_1, p_value_1 = stats.ttest_1samp(df['running_time'], 120, alternative='greater')
print(f"p-value: {p_value_1}")

if p_value_1 < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설을 기각한다.")
  print("→ 영화의 평균 상영 시간은 120분보다 길다고 할 수 있다.")
else:
  print("p-value가 유의수준보다 크므로, 귀무가설을 기각할 수 없다.")
  print("→ 영화의 평균 상영 시간이 120분보다 길다고 보기 어렵다.")

# 단측 검정 (less)
print("\n단측 검정 결과: 평균이 120분보다 작은지")
t_statics_2, p_value_2 = stats.ttest_1samp(df['running_time'], 120, alternative='less')
print(f"p-value: {p_value_2}")

if p_value_2 < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설을 기각한다.")
  print("→ 영화의 평균 상영 시간은 120분보다 짧다고 할 수 있다.")
else:
  print("p-value가 유의수준보다 크므로, 귀무가설을 기각할 수 없다.")
  print("→ 영화의 평균 상영 시간이 120분보다 짧다고 보기 어렵다.")


양측 검정 결과
p-value: 0.13554743438761369

단측 검정 결과: 평균이 120분보다 큰지
p-value: 0.9322262828061931
p-value가 유의수준보다 크므로, 귀무가설을 기각할 수 없다.
→ 영화의 평균 상영 시간이 120분보다 길다고 보기 어렵다.

단측 검정 결과: 평균이 120분보다 작은지
p-value: 0.06777371719380684
p-value가 유의수준보다 크므로, 귀무가설을 기각할 수 없다.
→ 영화의 평균 상영 시간이 120분보다 짧다고 보기 어렵다.


## 3) 대응 표본 검정

In [None]:
from scipy import stats

before = [70, 72, 68, 75, 71]  # 다이어트 약 복용 전 체중
after  = [66, 70, 65, 72, 69]  # 다이어트 약 복용 후 체중

# greater의 경우, after의 평균이 before의 평균보다 크다는 것을 검정하고자 할 때 사용
result = stats.ttest_rel(after, before, alternative='greater')

print("다이어트 약 복용 후 체중이 감소했는가? (약 효과 검정)")
print(f"t-statistic: {result.statistic:.4f}, p-value: {result.pvalue:.4f}")

if result.pvalue < 0.05:
    print("p-value가 0.05보다 작음 → 귀무가설 기각")
    print("→ 체중이 유의미하게 감소함 → 다이어트 약 효과 있음!")
else:
    print("p-value가 0.05보다 큼 → 귀무가설 기각 불가")
    print("→ 체중 감소는 통계적으로 유의하지 않음 → 다이어트 약 효과 없음")

print()
# less의 경우, before의 값이 after의 평균보다 작다는 것을 검정하고자 할 때 사용
result_2 = stats.ttest_rel(before, after, alternative='less')

print("다이어트 약 복용 후 체중이 오히려 증가했는가? (부작용 검정)")
print(f"t-statistic: {result.statistic:.4f}, p-value: {result.pvalue:.4f}")

if result.pvalue < 0.05:
    print("p-value가 0.05보다 작음 → 귀무가설 기각")
    print("→ 복용 후 체중이 유의미하게 증가함 → 다이어트 약이 효과 없고, 오히려 살이 찜")
else:
    print("p-value가 0.05보다 큼 → 귀무가설 기각 불가")
    print("→ 체중이 증가했다고 볼 수 없음 → 다이어트 약이 효과 없다고 볼 근거 없음")

다이어트 약 복용 후 체중이 감소했는가? (약 효과 검정)
t-statistic: -7.4833, p-value: 0.9991
p-value가 0.05보다 큼 → 귀무가설 기각 불가
→ 체중 감소는 통계적으로 유의하지 않음 → 다이어트 약 효과 없음

다이어트 약 복용 후 체중이 오히려 증가했는가? (부작용 검정)
t-statistic: -7.4833, p-value: 0.9991
p-value가 0.05보다 큼 → 귀무가설 기각 불가
→ 체중이 증가했다고 볼 수 없음 → 다이어트 약이 효과 없다고 볼 근거 없음


In [1]:
from scipy import stats

before = [70, 72, 68, 75, 71]  # 복용 전
after  = [66, 70, 65, 72, 69]  # 복용 후

# 1. 체중이 감소했는가? (효과 검정)
result = stats.ttest_rel(after, before, alternative='less')  # after < before

print("다이어트 약 복용 후 체중이 감소했는가? (효과 검정)")
print(f"t-statistic: {result.statistic:.4f}, p-value: {result.pvalue:.4f}")

if result.pvalue < 0.05:
    print("p-value가 0.05보다 작음 → 귀무가설 기각")
    print("→ 체중이 유의미하게 감소함 → 다이어트 약 효과 있음!")
else:
    print("p-value가 0.05보다 큼 → 귀무가설 기각 불가")
    print("→ 체중 감소는 통계적으로 유의하지 않음 → 다이어트 약 효과 없음")

print()

# 2. 체중이 오히려 증가했는가? (부작용 검정)
result_2 = stats.ttest_rel(after, before, alternative='greater')  # after > before

print("다이어트 약 복용 후 체중이 오히려 증가했는가? (부작용 검정)")
print(f"t-statistic: {result_2.statistic:.4f}, p-value: {result_2.pvalue:.4f}")

if result_2.pvalue < 0.05:
    print("p-value가 0.05보다 작음 → 귀무가설 기각")
    print("→ 복용 후 체중이 유의미하게 증가함 → 다이어트 약이 효과 없고, 오히려 살이 찜")
else:
    print("p-value가 0.05보다 큼 → 귀무가설 기각 불가")
    print("→ 체중이 증가했다고 볼 수 없음 → 다이어트 약이 효과 없다고 볼 근거 없음")


다이어트 약 복용 후 체중이 감소했는가? (효과 검정)
t-statistic: -7.4833, p-value: 0.0009
p-value가 0.05보다 작음 → 귀무가설 기각
→ 체중이 유의미하게 감소함 → 다이어트 약 효과 있음!

다이어트 약 복용 후 체중이 오히려 증가했는가? (부작용 검정)
t-statistic: -7.4833, p-value: 0.9991
p-value가 0.05보다 큼 → 귀무가설 기각 불가
→ 체중이 증가했다고 볼 수 없음 → 다이어트 약이 효과 없다고 볼 근거 없음


## 4) 독립 표본 검정

In [None]:
# 몸무게 평균 비교
import pandas as pd
from scipy.stats import ttest_ind

group_a = [85, 60, 72, 88, 66, 49, 53, 67]
group_b = [80, 72, 68, 55, 64]

print("양측 검정1: 모분산 동일")
print("귀무가설: 그룹별 몸무게 평균은 같다")
print("대립가설: 그룹별 몸무게 평균은 다르다")
t_statics1, p_value1 = ttest_ind(group_a, group_b)

if p_value1 < 0.05:
  print(f"p_value가 {p_value1}로 유의수준보다 작으므로, 귀무가설 기각")
  print("그룹 A와 그룹 B의 몸무게 평균은 다르다.")
else:
  print(f"p_value가 {p_value1}로 유의수준보다 크므로, 귀무가설 기각 불가")
  print("그룹 A와 그룹 B의 몸무게 평균은 같다고 볼 수 있다.")

print("\n양측 검정2: 모분산 다름")
t_statics2, p_value2 = ttest_ind(group_a, group_b, equal_var=False)

if p_value2 < 0.05:
  print(f"p_value가 {p_value2}로 유의수준보다 작으므로, 귀무가설 기각")
  print("그룹 A와 그룹 B의 몸무게 평균은 다르다.")
else:
  print(f"p_value가 {p_value2}로 유의수준보다 크므로, 귀무가설 기각 불가")
  print("그룹 A와 그룹 B의 몸무게 평균은 같다고 볼 수 있다.")

print("\n단측 검정1: 모분산 동일 - less")
print("귀무가설: 그룹별 몸무게 평균은 같다")
print("대립가설: 그룹B 평균 몸무게 > 그룹 A") # 앞이 적고, 뒤에가 많음
t_statics3, p_value3 = ttest_ind(group_a, group_b, alternative='less') # equal_var 생략 시 True

if p_value3 < 0.05:
  print(f"p_value가 {p_value3}로 유의수준보다 작으므로, 귀무가설 기각")
  print("그룹 B의 몸무게 평균이 더 많다.")
else:
  print(f"p_value가 {p_value3}로 유의수준보다 크므로, 귀무가설 기각 불가")
  print("그룹 B의 몸무게 평균이 더 많다고 볼 수 없다.")

print("\n단측 검정2: 모분산 동일 - greater")
print("귀무가설: 그룹별 몸무게 평균은 같다")
print("대립가설: 그룹A 평균 몸무게 > 그룹 B") # 앞이 많고, 뒤가 적음
t_statics4, p_value4 = ttest_ind(group_a, group_b, alternative='greater') # equal_var 생략 시 True

if p_value4 < 0.05:
  print(f"p_value가 {p_value4}로 유의수준보다 작으므로, 귀무가설 기각")
  print("그룹 A의 몸무게 평균이 더 많다.")
else:
  print(f"p_value가 {p_value4}로 유의수준보다 크므로, 귀무가설 기각 불가")
  print("그룹 A의 몸무게 평균이 더 많다고 볼 수 없다.")

양측 검정1: 모분산 동일
귀무가설: 그룹별 몸무게 평균은 같다
대립가설: 그룹별 몸무게 평균은 다르다
p_value가 0.9670211079870679로 유의수준보다 크므로, 귀무가설 기각 불가
그룹 A와 그룹 B의 몸무게 평균은 같다고 볼 수 있다.

양측 검정2: 모분산 다름
p_value가 0.9636966282455147로 유의수준보다 크므로, 귀무가설 기각 불가
그룹 A와 그룹 B의 몸무게 평균은 같다고 볼 수 있다.

단측 검정1: 모분산 동일 - less
귀무가설: 그룹별 몸무게 평균은 같다
대립가설: 그룹B 평균 몸무게 > 그룹 A
p_value가 0.48351055399353393로 유의수준보다 크므로, 귀무가설 기각 불가
그룹 B의 몸무게 평균이 더 많다고 볼 수 없다.

단측 검정2: 모분산 동일 - greater
귀무가설: 그룹별 몸무게 평균은 같다
대립가설: 그룹A 평균 몸무게 > 그룹 B
p_value가 0.5164894460064661로 유의수준보다 크므로, 귀무가설 기각 불가
그룹 A의 몸무게 평균이 더 많다고 볼 수 없다.


# 2. 분산분석

### 일원 분산 분석

In [None]:
# 일원 분산 분석
import pandas as pd
from scipy import stats

df = pd.DataFrame({
  'class_1' : [82, 76, 91, 85, 77],
  'class_2' : [89, 94, 90, 92, 88],
  'class_3' : [70, 65, 72, 68, 74],
})

print("정규성 검정: p-value가 유의 수준보다 크면 정규 분포")
print(stats.shapiro(df['class_1']))
print(stats.shapiro(df['class_2']))
print(stats.shapiro(df['class_3']))

print("\n등분산성 검정: p-value가 유의 수준 보다 크면 모든 그룹의 분산 동일")
print(stats.levene(df['class_1'], df['class_2'], df['class_3']))

print("\n일원 분산 분석: p-value가 유의 수준 보다 크면 세 반의 평균 시험 점수는 모두 같다고 볼 수 있다 - 귀무 가설 채택")
print(stats.f_oneway(df['class_1'], df['class_2'], df['class_3']))

정규성 검정: p-value가 유의 수준보다 크면 정규 분포
ShapiroResult(statistic=np.float64(0.9391323719662796), pvalue=np.float64(0.6598106859821694))
ShapiroResult(statistic=np.float64(0.956989159149141), pvalue=np.float64(0.7868775738883034))
ShapiroResult(statistic=np.float64(0.9890060614617021), pvalue=np.float64(0.9760970940327413))

등분산성 검정: p-value가 유의 수준 보다 크면 모든 그룹의 분산 동일
LeveneResult(statistic=np.float64(1.8034682080924849), pvalue=np.float64(0.20662435462871057))

일원 분산 분석: p-value가 유의 수준 보다 크면 세 반의 평균 시험 점수는 모두 같다고 볼 수 있다 - 귀무 가설 채택
F_onewayResult(statistic=np.float64(29.48653500897667), pvalue=np.float64(2.3362855731764282e-05))


### 이원 분산 분석

In [None]:
# 이원 분산 분석
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

df = pd.DataFrame({
    'gender': ['m1', 'm1', 'm1','m2', 'm2','m2','w1','w1','w1', 'w2','w2','w2'],
    'type': ['run', 'run','run','weight','weight','weight','run','run','run', 'weight','weight','weight'],
    'lose_weight': [3.2, 2.8, 3.0, 1.5, 1.8, 1.7, 2.5, 2.2, 2.3, 1.0, 0.9, 1.2]
})

#df

model = ols('lose_weight ~ gender+type+gender:type', data=df).fit()
anova_table = sm.stats.anova_lm(model)
anova_table

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
gender,3.0,6.469167,2.156389,78.414141,3e-06
type,1.0,0.046089,0.046089,1.675957,0.231576
gender:type,3.0,0.118284,0.039428,1.43375,0.303172
Residual,8.0,0.22,0.0275,,


In [None]:
df = pd.DataFrame({
    'gender': ['male']*6 + ['female']*6,
    'type': ['run']*3 + ['weight']*3 + ['run']*3 + ['weight']*3,
    'lose_weight': [3.2, 2.8, 3.0, 1.5, 1.8, 1.7, 2.5, 2.2, 2.3, 1.0, 0.9, 1.2]
})

# df

model = ols('lose_weight ~ gender+type+gender:type', data=df).fit()
anova_table = sm.stats.anova_lm(model)
anova_table

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
gender,1.0,1.2675,1.2675,46.090909,0.000139375
type,1.0,5.200833,5.200833,189.121212,7.541528e-07
gender:type,1.0,0.000833,0.000833,0.030303,0.8661289
Residual,8.0,0.22,0.0275,,


# 3. 카이제곱 검정

### 적합도 검정

In [None]:
# 주사위 적합도 검정
from scipy import stats

observed = [5, 8, 9, 10, 13, 15]
expected = [10, 10, 10, 10, 10, 10]

statistic, p_value = stats.chisquare(observed, expected)

print(f"검정 통계량: {statistic}, p-value: {p_value}")

if p_value < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 주사위는 공정하지 않다")
else:
  print("p-value가 유의수준보다 크므로, 귀무가설 채택 -> 주사위는 공정하다")

검정 통계량: 6.4, p-value: 0.2692187989871035
p-value가 유의수준보다 크므로, 귀무가설 채택 -> 주사위는 공정하다


### 독립성 검정

In [None]:
# 카이제곱 독립성 검정
# 1. 성별과 마라탕 선호도 관계
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.DataFrame({
    '좋아함': [80, 90],
    '좋아하지 않음': [30, 10]},
    index=['남자', '여자'])

#df

# 카이제곱 검정 수행
statistic, p_value, ddof, expected = chi2_contingency(df, correction=True)

# 결과 출력
print(f"카이제곱 검정 통계량: {statistic:.4f}, p-value: {p_value:.4f}, 자유도: {ddof}, 기대 빈도: {expected}")

if p_value < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 성별과 마라탕은 독립적이지 않다.")
else:
  print("p-value가 유의수준보다 크므로, 귀무가설 채택 -> 성별과 마라탕은 독립적이다.")

카이제곱 검정 통계량: 9.0458, p-value: 0.0026, 자유도: 1, 기대 빈도: [[89.04761905 20.95238095]
 [80.95238095 19.04761905]]
p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 성별과 마라탕은 독립적이지 않다.


In [None]:
import pandas as pd

data = {
    '성별': ['남자']*110 + ['여자']*100,
    '마라탕': ['좋아함']*80 + ['좋아하지 않음']*30 + ['좋아함']*90 + ['좋아하지 않음']*10
}

df = pd.DataFrame(data)
df = pd.crosstab(df['성별'], df['마라탕'])
df

마라탕,좋아하지 않음,좋아함
성별,Unnamed: 1_level_1,Unnamed: 2_level_1
남자,30,80
여자,10,90


In [None]:
# 2. 성별과 선호하는 커피 종류 관계
import pandas as pd
from scipy.stats import chi2_contingency

# 행방향 데이터
df = pd.DataFrame([[30, 10, 10], [20, 25, 5]],
                   columns=['아메리카노', '라떼', '콜드브루'],
                   index=['남자', '여자'])
#df

# 카이제곱 검정 수행
statistic, p_value, ddof, expected = chi2_contingency(df)

# 결과 출력
print(f"검정 통계량: {statistic:.4f}, p-value: {p_value:.4f}, 자유도: {ddof}, 기대빈도: {expected}")

# 결과 해석
if p_value < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 성별과 선호하는 커피는 독립적이지 않다")
else:
  print("p-value가 유의수준보다 크므로, 귀무가설 채택 -> 성별과 선호하는 커피는 독립적이다")

검정 통계량: 10.0952, p-value: 0.0064, 자유도: 2, 기대빈도: [[25.  17.5  7.5]
 [25.  17.5  7.5]]
p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 성별과 선호하는 커피는 독립적이지 않다


### 동질성 검정

In [None]:
# 3. 동질성 검정
import pandas as pd

# 행방향 데이터
df = pd.DataFrame([[40, 30, 30], [20, 50, 30]],
                  columns=['국어', '수학', '영어'],
                  index=['인문계', '이공계'])
df

Unnamed: 0,국어,수학,영어
인문계,40,30,30
이공계,20,50,30


In [None]:
from scipy.stats import chi2_contingency

statistic, p_value, dof, expected = chi2_contingency(df)

# 결과 출력
print(f"검정 통계량: {statistic:.4f}, p-value: {p_value:.4f}, 자유도: {dof}, 기대빈도: {expected}")

# 결과 해석
if p_value < 0.05:
  print("p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 두 계열의 선호 과목은 동일하지 않다")
else:
  print("p-value가 유의수준보다 므로, 귀무가설 채택 -> 두 계열의 선호 과목은 동일하다")

검정 통계량: 11.6667, p-value: 0.0029, 자유도: 2, 기대빈도: [[30. 40. 30.]
 [30. 40. 30.]]
p-value가 유의수준보다 작으므로, 귀무가설 기각 -> 두 계열의 선호 과목은 동일하지 않다


# 4. 회귀 분석

### 상관 계수

In [None]:
# 상관 계수 구하기
# 공부 시간과 시험 점수 간의 상관 관계
import pandas as pd

data = {
    '공부시간': [60, 120, 150, 180, 210, 240, 270, 300, 330, 360],
    '시험점수': [52, 58, 60, 63, 65, 68, 72, 75, 78, 82]
}

df = pd.DataFrame(data)
# df

# 상관 계수
# correlation = df.corr().iloc[0,1]
correlation = df.corr()
# print(f"상관 계수: {correlation:.4f}")
print(f"상관 계수: {correlation}")

# if correlation > 0.5:
#   print("공부 시간과 시험 점수는 양의 상관 관계가 있다")
# elif correlation < 0:
#   print("공부 시간과 시험 점수는 음의 상관 관계가 있다")
# else:
#   print("공부 시간과 시험 점수는 상관 관계가 없다")

상관 계수:           공부시간      시험점수
공부시간  1.000000  0.997101
시험점수  0.997101  1.000000


In [None]:
# 두 변수의 상관 계수와 t-검정
from scipy import stats

# 피어슨 상관 계수와 p-value
print("피어슨 상관 계수")
print(stats.pearsonr(df['공부시간'], df['시험점수']))

# 스피어만 상관 계수와 p-value
print("스피어만 상관 계수")
print(stats.spearmanr(df['공부시간'], df['시험점수']))

# 켄달의 타우 상관 계수와 p-value
print("켄달의 타우 상관 계수")
print(stats.kendalltau(df['공부시간'], df['시험점수']))

피어슨 상관 계수
PearsonRResult(statistic=np.float64(0.9971007990509886), pvalue=np.float64(3.0802048334900057e-10))
스피어만 상관 계수
SignificanceResult(statistic=np.float64(0.9999999999999999), pvalue=np.float64(6.646897422032013e-64))
켄달의 타우 상관 계수
SignificanceResult(statistic=np.float64(0.9999999999999999), pvalue=np.float64(5.511463844797178e-07))


### 단순 선형 회귀

In [None]:
# 단순 선형 회귀 모델 만들기
# 통계적 요약 출력

from statsmodels.formula.api import ols

# 공부시간: 독립변수, 시험점수: 종속변수
model = ols('시험점수 ~공부시간', data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                   시험점수   R-squared:                       0.994
Model:                            OLS   Adj. R-squared:                  0.993
Method:                 Least Squares   F-statistic:                     1374.
Date:                Sun, 01 Jun 2025   Prob (F-statistic):           3.08e-10
Time:                        05:02:53   Log-Likelihood:                -10.404
No. Observations:                  10   AIC:                             24.81
Df Residuals:                       8   BIC:                             25.41
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     45.4524      0.637     71.325      0.0

  return hypotest_fun_in(*args, **kwds)


In [None]:
print("1. 회귀 모델의 결정계수")
print(model.rsquared)

print("\n2.회귀 계수(기울기와 절편)")
print(f"기울기: {model.params['공부시간']}, 절편: {model.params['Intercept']}")

print("\n3. 공부시간의 회귀 계수가 통계적으로 유의한지 검정 시 p-value")
print(f"p-value: {model.pvalues['공부시간']}")

print("\n4. 공부 시간이 195분일 때 예상 점수 출력")

new_data = pd.DataFrame({'공부시간': [195]})
result = model.predict(new_data)
print(f"공부 시간이 195분일 때 예상 점수: {result[0]}")

print("\n5. 회귀 모델의 잔차 제곱합")
df['잔차'] = df['시험점수'] - model.predict(df)
print(f"잔차 제곱합: {sum(df['잔차']**2)}")

print("\n6. 회귀 모델의 MSE")
MSE = (df['잔차']**2).mean()
print(f"MSE: {MSE}")


1. 회귀 모델의 결정계수
0.9942100034681197

2.회귀 계수(기울기와 절편)
기울기: 0.09841269841269853, 절편: 45.4523809523809

3. 공부시간의 회귀 계수가 통계적으로 유의한지 검정 시 p-value
p-value: 3.080204833490344e-10

4. 공부 시간이 195분일 때 예상 점수 출력
공부 시간이 195분일 때 예상 점수: 64.64285714285711

5. 회귀 모델의 잔차 제곱합
잔차 제곱합: 4.690476190476191

6. 회귀 모델의 MSE
MSE: 0.469047619047619


### 다중 선형 회귀

In [None]:
# 다중 선형 회귀 문제
import pandas as pd

data = {
    '공부시간': [60, 120, 150, 180, 210, 240, 270, 300, 330, 360],
    '수면시간': [300, 360, 300, 420, 360, 300, 360, 360, 420, 480],
    '게임시간': [300, 180, 240, 120, 60, 120, 60, 60, 0, 0],
    '시험점수': [52, 58, 60, 63, 65, 68, 72, 75, 78, 82]
}

df = pd.DataFrame(data)
df

Unnamed: 0,공부시간,수면시간,게임시간,시험점수
0,60,300,300,52
1,120,360,180,58
2,150,300,240,60
3,180,420,120,63
4,210,360,60,65
5,240,300,120,68
6,270,360,60,72
7,300,360,60,75
8,330,420,0,78
9,360,480,0,82


In [None]:
from statsmodels.formula.api import ols

# 독립변수: 공부시간, 수면시간, 게임시간
# 종속변수: 시험점수

model = ols('시험점수 ~ 공부시간+수면시간+게임시간', data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                   시험점수   R-squared:                       0.998
Model:                            OLS   Adj. R-squared:                  0.997
Method:                 Least Squares   F-statistic:                     975.8
Date:                Sun, 01 Jun 2025   Prob (F-statistic):           1.87e-08
Time:                        05:02:53   Log-Likelihood:                -5.2014
No. Observations:                  10   AIC:                             18.40
Df Residuals:                       6   BIC:                             19.61
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     37.5065      2.590     14.483      0.0

  return hypotest_fun_in(*args, **kwds)


In [None]:
# 문제
"""
1. 회귀식에서 유의한 독립변수는 무엇인가? (p-value < 0.05)
2. 각 독립변수가 시험 점수에 미치는 영향은? (양의 상관관계, 음의 상관관계)
3. 결정계수(R²)는 얼마인가? 이 모델은 시험 점수를 얼마나 잘 설명하는가?
4. 공부시간 = 195분, 수면시간 = 300분, 게임시간 = 60분일 때, 예상 시험 점수는?
5. 다중 공선성(Multicollinearity)이 의심되는 변수는 있는가?
"""

print("1. 회귀식에서 유의한 독립변수는 무엇인가? (p-value < 0.05)")
columns = ['공부시간', '수면시간', '게임시간']
for column in columns:
    p_value = model.pvalues[column]  # p-value 값을 변수에 저장
    print(f"p-value for {column}: {p_value:.4f}")

    if p_value < 0.05:
        print(f"{column}은 유의한 독립변수이다.\n")
    else:
        print(f"{column}은 유의한 독립변수가 아니다.\n")

1. 회귀식에서 유의한 독립변수는 무엇인가? (p-value < 0.05)
p-value for 공부시간: 0.0000
공부시간은 유의한 독립변수이다.

p-value for 수면시간: 0.0197
수면시간은 유의한 독립변수이다.

p-value for 게임시간: 0.0569
게임시간은 유의한 독립변수가 아니다.



In [None]:
print("2. 각 독립변수가 시험 점수에 미치는 영향은? (음/양 상관관계)")
columns = ['공부시간', '수면시간', '게임시간']
for column in columns:
  corre = df[column].corr(df['시험점수'])
  print(f"{column}의 상관 계수: {corre}")
  if corre > 0.5:
    print(f"{column}은 시험점수와 양의 상관관계에 있다.\n")
  elif corre < 0:
    print(f"{column}은 시험점수와 음의 상관관계에 있다.\n")
  else:
    print(f"{column}은 시험점수와 상관관계가 없다.\n")

2. 각 독립변수가 시험 점수에 미치는 영향은? (음/양 상관관계)
공부시간의 상관 계수: 0.9971007990509886
공부시간은 시험점수와 양의 상관관계에 있다.

수면시간의 상관 계수: 0.6795344733484381
수면시간은 시험점수와 양의 상관관계에 있다.

게임시간의 상관 계수: -0.9202516354694119
게임시간은 시험점수와 음의 상관관계에 있다.



In [None]:
print("3. 결정계수(R²)는 얼마인가? 이 모델은 시험 점수를 얼마나 잘 설명하는가?")
rsq = model.rsquared
print(f"결정계수: {rsq}")

if rsq > 0.5:
  print("이 모델은 설명력이 높다고 볼 수 있다.")
else:
  print("이 모델은 설명력이 낮다고 볼 수 있다")

3. 결정계수(R²)는 얼마인가? 이 모델은 시험 점수를 얼마나 잘 설명하는가?
결정계수: 0.9979546090237685
이 모델은 설명력이 높다고 볼 수 있다.


In [None]:
print("4. 공부시간 = 195분, 수면시간 = 300분, 게임시간 = 60분일 때, 예상 시험 점수는?")
new_data = pd.DataFrame({'공부시간': [195], '수면시간': [300], '게임시간': [60]})
result = model.predict(new_data)
print(f"새로운 데이터의 예측 시험 점수: {result}")

4. 공부시간 = 195분, 수면시간 = 300분, 게임시간 = 60분일 때, 예상 시험 점수는?
새로운 데이터의 예측 시험 점수: 0    62.874249
dtype: float64


In [None]:
print("5. 다중 공선성(Multicollinearity)이 의심되는 변수는 있는가?")

import statsmodels.api as sm

# 독립변수 설정
X = df[columns]

# VIF 계산 함수
def calculate_vif(X):
  vif_data = pd.DataFrame()
  vif_data['변수명'] = X.columns
  vif_data['VIF'] = [sm.OLS(X[column], X.drop(column, axis=1)).fit().rsquared for column in X.columns]
  vif_data['VIF'] = 1 / (1 - vif_data['VIF'])
  return vif_data

# VIF 계산
vif_result = calculate_vif(X)

# VIF 결과 출력
print(vif_result)

# VIF 기준에 따른 다중 공선성 의심 변수 구분
threshold = 5  # VIF 임계값 설정
suspected_multicollinearity = vif_result[vif_result['VIF'] > threshold]

if not suspected_multicollinearity.empty:
    print("\n다중 공선성이 의심되는 변수:")
    print(suspected_multicollinearity)
else:
    print("\n다중 공선성이 의심되는 변수가 없습니다.")

5. 다중 공선성(Multicollinearity)이 의심되는 변수는 있는가?
    변수명        VIF
0  공부시간  25.446355
1  수면시간  36.983453
2  게임시간   4.554491

다중 공선성이 의심되는 변수:
    변수명        VIF
0  공부시간  25.446355
1  수면시간  36.983453


In [None]:
# 6. 회귀 모델의 잔차의 제곱합
print("6. 회귀 모델의 잔차의 제곱합은?")
df['잔차'] = df['시험점수'] - model.predict(df)
print(f"잔차 제곱합: {sum(df['잔차']**2)}")

6. 회귀 모델의 잔차의 제곱합은?
잔차 제곱합: 1.6569712298450952


In [None]:
#7.회귀 모델의 MSE
print("7.회귀 모델의 MSE")
MSE = (df['잔차'] ** 2).mean()
print(f"회귀 모델 MSE: {MSE}")

7.회귀 모델의 MSE
회귀 모델 MSE: 0.1656971229845095


In [None]:
# 8. 각 변수별 95% 신뢰 구간 산출
print("8. 각 변수별 95% 신뢰 구간 산출")
conf_95 = model.conf_int(alpha=0.05)
print(f"95% 신뢰구간: {conf_95}")

8. 각 변수별 95% 신뢰 구간 산출
95% 신뢰구간:                    0          1
Intercept  31.169794  43.843169
공부시간        0.092877   0.117313
수면시간        0.003083   0.024354
게임시간       -0.000507   0.025794


In [None]:
# 9.공부시간: 172분, 수면 시간: 220분, 게임 시간: 50분일 때 신뢰 구간과 예측 구간 산출
print("9. 공부시간: 172분, 수면 시간: 220분, 게임 시간: 50분")
print("일 때 신뢰 구간과 예측 구간 산출")

new_data = pd.DataFrame({"공부시간": [172],
                         "수면시간": [220],
                         "게임시간": [50]})
pred = model.get_prediction(new_data)
result = pred.summary_frame(alpha=0.05)
print("예측값의 신뢰 구간과 예측 구간")
print(result)

9. 공부시간: 172분, 수면 시간: 220분, 게임 시간: 50분
일 때 신뢰 구간과 예측 구간 산출
예측값의 신뢰 구간과 예측 구간
        mean   mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  59.233138  1.001826      56.781759      61.684518     56.464971   

   obs_ci_upper  
0     62.001305  


### 범주형 **변수**

In [None]:
import pandas as pd

df = pd.DataFrame({
    'ex_hours': [30, 60, 45, 50, 20, 35, 55, 40, 25, 65, 70, 38, 28, 33, 48],
    'ex_type': ['러닝', '헬스', '요가', '크로스핏', '산책',
                '러닝', '헬스', '요가', '크로스핏', '산책',
                '헬스', '러닝', '요가', '크로스핏', '산책'],
    'lose_weight': [2.0, 5.0, 2.8, 3.5, 0.7,
                    2.3, 4.8, 3.0, 3.2, 0.6,
                    5.5, 2.2, 3.1, 3.3, 0.8]
})

df

Unnamed: 0,ex_hours,ex_type,lose_weight
0,30,러닝,2.0
1,60,헬스,5.0
2,45,요가,2.8
3,50,크로스핏,3.5
4,20,산책,0.7
5,35,러닝,2.3
6,55,헬스,4.8
7,40,요가,3.0
8,25,크로스핏,3.2
9,65,산책,0.6


In [None]:
from statsmodels.formula.api import ols
model = ols('lose_weight ~ ex_hours + ex_type', data=df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:            lose_weight   R-squared:                       0.987
Model:                            OLS   Adj. R-squared:                  0.980
Method:                 Least Squares   F-statistic:                     141.6
Date:                Sun, 01 Jun 2025   Prob (F-statistic):           2.83e-08
Time:                        05:43:05   Log-Likelihood:                 5.9577
No. Observations:                  15   AIC:                           0.08455
Df Residuals:                       9   BIC:                             4.333
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept           2.0385      0.214     

  return hypotest_fun_in(*args, **kwds)


# 로지스틱 회귀

### 이진 분류 문제

In [None]:
# 헬스장 12명의 회원 데이터로 다이어트 성공 여부 예측 모델 생성
import pandas as pd

df = pd.DataFrame({
    'ex_hours': [2, 5, 10, 8, 12, 1, 6, 11, 9, 3, 4, 3],
    'diet': [0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0] # 성공 1, 실패 0
})

df

Unnamed: 0,ex_hours,diet
0,2,0
1,5,0
2,10,1
3,8,1
4,12,1
5,1,0
6,6,0
7,11,1
8,9,1
9,3,0


In [None]:
from statsmodels.formula.api import logit
import statsmodels.api as sm

model = logit('diet ~ ex_hours', data=df).fit()
print(model.summary())

Optimization terminated successfully.
         Current function value: 0.283413
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:                   diet   No. Observations:                   12
Model:                          Logit   Df Residuals:                       10
Method:                           MLE   Df Model:                            1
Date:                Sun, 01 Jun 2025   Pseudo R-squ.:                  0.5911
Time:                        07:07:16   Log-Likelihood:                -3.4010
converged:                       True   LL-Null:                       -8.3178
Covariance Type:            nonrobust   LLR p-value:                  0.001714
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -5.0458      2.741     -1.841      0.066     -10.418       0.326
ex_hours       0.8640      0.

In [None]:
import numpy as np
print(np.exp(model.params['ex_hours']))

2.372592187997573


In [None]:
# 운동 시간이 4시간일 때, 다이어트 성공 확률
new_data = pd.DataFrame({'ex_hours': [4]})
result = model.predict(new_data)[0]
print(f"성공 확률: {result:.3f}")
print(f"실패 확률: {1-result:.3f}")

성공 확률: 0.169
실패 확률: 0.831


### 이진 분류 + 범주형 변수

In [None]:
# 헬스장 100명의 회원 데이터로 다이어트 성공 여부 예측 모델 생성
# 운동 종류 포함
import pandas as pd
from random import randint
import random

members = 100
ex_types = ['러닝', '헬스', '요가']

df = pd.DataFrame({
    'ex_hours': [randint(0, 10) for _ in range(members)],
    'ex_type': [random.choice(ex_types) for _ in range(members)],
    'diet': [randint(0, 1) for _ in range(members)]
})

df.head()

Unnamed: 0,ex_hours,ex_type,diet
0,9,헬스,0
1,9,요가,0
2,8,요가,1
3,3,요가,0
4,0,요가,0


In [None]:
df.value_counts(['ex_type', 'diet'])

Unnamed: 0_level_0,Unnamed: 1_level_0,count
ex_type,diet,Unnamed: 2_level_1
헬스,0,24
러닝,0,23
요가,1,17
요가,0,14
헬스,1,12
러닝,1,10


In [None]:
from statsmodels.formula.api import logit
import statsmodels.api as sm

model = logit('diet ~ ex_hours + C(ex_type)', data=df).fit()
print(model.summary())

Optimization terminated successfully.
         Current function value: 0.643621
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                   diet   No. Observations:                  100
Model:                          Logit   Df Residuals:                       96
Method:                           MLE   Df Model:                            3
Date:                Sun, 01 Jun 2025   Pseudo R-squ.:                 0.03757
Time:                        07:31:00   Log-Likelihood:                -64.362
converged:                       True   LL-Null:                       -66.875
Covariance Type:            nonrobust   LLR p-value:                    0.1699
                       coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------------
Intercept           -1.0057      0.506     -1.989      0.047      -1.997      -0.014
C(ex_type)[

In [None]:
# 오즈비 구하기
import numpy as np

ex_names = ['러닝', '헬스', '요가']
ex_types = ['Intercept', 'C(ex_type)[T.요가]', 'C(ex_type)[T.헬스]']

for ex_name, ex_type in zip(ex_names,ex_types):
  print(f"{ex_name}: {np.exp(model.params[ex_type]):.4f}")

러닝: 0.3658
헬스: 2.8653
요가: 1.1733


In [None]:
# ex_hour가 3이고, ex_type이 요가일 때 다이어트 성공 확률은

new_data = pd.DataFrame({'ex_hours': [3], 'ex_type': ['요가']})
result = model.predict(new_data)

print(f"운동시간이 3시간이고, 요가일 때 다이어트 성공 확률: {result}:.4f")

운동시간이 3시간이고, 요가일 때 다이어트 성공 확률: 0    0.536935
dtype: float64:.4f
