In [None]:
#정규성 가정 기법
데이터를 분석할 때, 해당 데이터가 정규분포를 따른다고 가정하고 사용하는 통계적 방법들
이러한 기법들은 데이터의 유형에 따라 다양하게 적용될 수 있으며,
대표적인 기법들은 다음과 같이 분류할 수 있습니다.

#1. 단일 표본 분석 (One-Sample Analysis)
#1.1 단일 표본 t-검정 (One-Sample t-test)
#목적: 한 집단의 평균이 특정 값과 통계적으로 유의미하게 다른지 검정합니다.
#적용 데이터 유형: 하나의 연속형 변수.
#예시: 한 회사의 직원들의 평균 근무시간이 40시간과 다른지를 검정할 때 사용.

from scipy import stats
data = [data_sample]  # 예시 데이터
t_stat, p_value = stats.ttest_1samp(data, popmean=40)

#2. 두 집단 간 분석 (Two-Sample Analysis)
#2.1 독립 표본 t-검정 (Independent Two-Sample t-test)
#목적: 두 독립적인 집단의 평균이 서로 다른지 검정합니다.
#적용 데이터 유형: 두 개의 독립된 연속형 변수.
#예시: 남성과 여성의 평균 키가 다른지 검정할 때 사용.

t_stat, p_value = stats.ttest_ind(group1, group2)

#2.2 대응 표본 t-검정 (Paired Sample t-test)
#목적: 같은 집단의 사전-사후 데이터의 평균이 다른지를 검정합니다.
#적용 데이터 유형: 같은 집단에서 반복 측정된 두 연속형 변수.
#예시: 운동 전후의 체중 차이를 검정할 때 사용.

t_stat, p_value = stats.ttest_rel(before, after)

#3. 세 집단 이상의 분석 (Multiple Group Analysis)
#3.1 일원 분산 분석 (One-Way ANOVA)
#목적: 세 개 이상의 집단 간 평균이 서로 다른지 검정합니다.
#적용 데이터 유형: 세 개 이상의 독립된 연속형 변수.
#예시: 세 가지 다른 학습 방법에 따른 시험 점수 차이를 검정할 때 사용.

f_stat, p_value = stats.f_oneway(group1, group2, group3)

3.2 이원 분산 분석 (Two-Way ANOVA)
목적: 두 개의 독립변수와 그 교호작용이 종속변수에 미치는 영향을 검정합니다.
적용 데이터 유형: 두 개 이상의 독립변수와 하나의 연속형 종속변수.
예시: 교육 방법과 학생 성별이 시험 점수에 미치는 영향을 검정할 때 사용.

4. 회귀 분석 (Regression Analysis)
4.1 단순 선형 회귀 (Simple Linear Regression)
목적: 한 독립변수와 한 종속변수 간의 관계를 모델링합니다.
적용 데이터 유형: 한 개의 연속형 독립변수와 한 개의 연속형 종속변수.
예시: 공부 시간에 따른 시험 점수 예측.

import statsmodels.api as sm
X = data['study_hours']
y = data['test_score']
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())

4.2 다중 선형 회귀 (Multiple Linear Regression)
목적: 여러 독립변수와 종속변수 간의 관계를 모델링합니다.
적용 데이터 유형: 두 개 이상의 연속형 독립변수와 한 개의 연속형 종속변수.
예시: 공부 시간과 수면 시간에 따른 시험 점수 예측.

X = data[['study_hours', 'sleep_hours']]
y = data['test_score']
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())

5. 상관 분석 (Correlation Analysis)
5.1 피어슨 상관계수 (Pearson Correlation)
목적: 두 연속형 변수 간의 선형적 상관관계를 측정합니다.
적용 데이터 유형: 두 개의 연속형 변수.
예시: 키와 체중 간의 상관관계를 분석할 때 사용.

corr, p_value = stats.pearsonr(variable1, variable2)

6. 잔차 분석 (Residual Analysis)
목적: 회귀 모델의 잔차(오차)가 정규성을 따르는지 확인합니다.
적용 데이터 유형: 회귀 모델에서 예측된 잔차.
예시: 회귀 분석 후 잔차가 정규분포를 따르는지 QQ 플롯이나 샤피로-윌크 검정을 통해 확인.

residuals = model.resid
shapiro_test = stats.shapiro(residuals)