In [4]:
# 문제: 고혈합 환자의 데이터셋을 활용하여 치료가 고혈압에 효과가 있는지 대응표본 T-검정을 수행한다.
# u = (치료 후 혈압 - 치료 전 혈압)의 평균
# u가 0 미만이면 대립가설, u가 0 이상이면 귀무가설

# 1) u의 표본평균 구하기 (소수점 둘째 자리까지 반올림)
# 2) 검정 통계량의 값 구하기 (소수점 셋째 자리까지 반올림)
# 3) p-value 값 구하기 (소수점 셋째 자리까지 반올림)
# 4) 유의수준 5%에서 가설 검정 결과를 구하기 (대립가설 채택 또는 대립가설 기각)

# 데이터 불러오기
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/datasets/blood_pressure.csv")

# u의 표본평균 구하기
df['diff'] = df['bp_after'] - df['bp_before']
result1 = round(df['diff'].mean(), 2)
print("u의 표본평균: ", result1)

# T-검정 통계량과 p-value 구하기
from scipy.stats import ttest_rel

t, p = ttest_rel(df['bp_after'], df['bp_before'], alternative='less')
result2 = round(t, 3)
result3 = round(p, 3)

print("T-검정 통계량: ", result2)
print("p-value: ", result3)

# 유의수준 5%에서 가설 검정 결과 구하기
# p-value가 유의수준 0.05보다 작다면 대립가설 채택, 크다면 대립가설 기각
if p > 0.05:
  print("대립가설 기각")
else:
  print("대립가설 채택")

u의 표본평균:  -5.09
T-검정 통계량:  -3.337
p-value:  0.001
대립가설 채택


In [48]:
# 문제: 타이타닉 생존자 데이터셋을 활용하여 생존 여부를 예측한다.

# 1) Survived 컬럼과 가장 큰 상관계수를 갖는 변수의 상관계수를 구하기 (피어슨 상관계수 사용)
# 2) Survived 컬럼과 가장 큰 상관계수를 갖는 변수 2개를 활용하여 다중 선형 회귀 모형으로 생존 여부를 예측할 떄, 가장 작은 값을 갖는 회귀 계수 구하기
# 3) 2번으로 만든 모델에서 확인되는 가장 큰 값의 p-value 구하기
# 모든 문제의 정답은 반올림하여 소수점 셋째 자리까지 출력

# 데이터 불러오기
import pandas as pd

df = pd.read_csv("/content/drive/MyDrive/datasets/titanic.csv")

# 문자열 형태의 컬럼만 드랍
df2 = df.drop(columns=df.select_dtypes(include='object').columns)

# 상관계수 저장
corr = df2.corr(method='pearson')

# Survived와 가장 큰 상관계수를 갖는 변수의 상관계수 구하기
# Survived 관련 상관계수만 저장 후 자기자신은 드랍하고 절대값을 취한 후 내림차순 정렬
survived_corr = corr['Survived']
survived_corr.drop('Survived', inplace=True)
survived_corr = survived_corr.abs().sort_values(ascending=False)

# 1번 정답 출력
max_index = survived_corr.index[0]
result1 = corr['Survived'][max_index]
print(round(result1, 3))

# Survived와의 상관계수가 가장 큰, 2번째로 큰 컬럼명 저장
big_one = survived_corr.index[0]
big_two = survived_corr.index[1]

# 다중 선형 회귀 모형으로 생존 여부를 예측 후 가장 작은 값을 갖는 회귀 계수 구하기
import statsmodels.api as sm

# 모델 학습 후 결과를 pred에 저장
x = sm.add_constant(df[[big_one, big_two]])
model = sm.OLS(df['Survived'], x)
pred = model.fit()

# 결과에서 회귀계수만 추출하여 저장
coefs = pred.params

# 2번 정답 출력
result2 = coefs.min()
print(round(result2, 3))

# 3번 정답 출력
result3 = pred.pvalues.max()
print(round(result3, 3))

-0.338
-0.164
0.007
