# LGE - SNU AI Scientist 고급과정 [확률통계 및 통계 방법론]
## 과제4 (회귀분석) - Solution
### TA: 홍현경(hyungyeong81@snu.ac.kr)

## **문제 1. 선형회귀분석**

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


- 학생들의 학업 성취도에 대한 데이터를 이용하여, 학생들의 성취도 지표를 예측하는 문제를 선형 회귀분석을 이용하여 풀어보자.

- 우선, 데이터 `student_performance.csv`를 불러온 후, 데이터의 형태를 확인한다.

In [None]:
# 모듈 로드
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels as sm
import statsmodels.formula.api as smf
from statsmodels.graphics.gofplots import qqplot
from sklearn.preprocessing import LabelEncoder

# 데이터 로드
pitcher_data_file = "/content/drive/MyDrive/student_performance.csv" # 드라이브 내 파일 저장 위치에 따라 경로 변경
data = pd.read_csv(pitcher_data_file, encoding = "UTF-8")
data = data.astype({"Performance Index": "int64"}) # 자료형이 올바르게 인식되도록 변경
data.columns = data.columns.str.replace(" ", "_") # 변수명이 공백 없이 인식되도록 변경
data.head(5)

- 주어진 데이터에 대한 설명은 다음과 같다.

| 변수명 | 자료형 | 설명 |
|------|------|------|
| 학습 시간 (Hours_Studied) | 정수형 (int) | 학생의 총 학습 시간 |
| 이전 성적 (Previous_Scores) | 정수형 (int) | 학생이 이전 시험에서 얻은 점수 |
| 비교과 활동 (Extracurricular_Activities) | 범주형 (fctr) | 학생의 비교과 활동 참여 여부 (예/아니오) |
| 수면 시간 (Sleep_Hours) | 정수형 (int) | 학생의 하루 평균 수면 시간 |
| 연습한 모의고사 수 (Sample_Question_Papers_Practiced) | 정수형 (int) | 학생이 풀어본 모의고사(문제지)의 수 |
| 성취도 지표 (Performance_Index) | 정수형 (int) | 각 학생의 전반적인 학업 성취도를 나타내는 지표로, 값은 가장 가까운 정수로 반올림된 형태 (범위: 10 ~ 100, 값이 클수록 학업 성취도가 높음을 의미) |


### **문제 1-(1) 범주형 변수를 포함한 선형회귀모형의 적합**

- **Hours_Studied, Previous_Scores, Extracurricular_Activities를 설명변수로,  
Performance_Index를 반응변수로 하는 선형회귀모형을 적합하여라.**

In [None]:
#---------------
# 답안 작성
#---------------

model_fit = ### 코드 작성 ###
print(model_fit.summary())

### **문제 1-(2) 범주형 변수를 포함한 선형회귀모형의 적합도 검정**

**다음의 물음에 답하여라.**
**(아래에 답안을 작성하시오)**
- **(i) 적합된 회귀모형이 유의한지를 근거와 함께 제시하시오. (힌트: F 검정)** \
  **(답)**
- **(ii) 각 설명변수에 대한 회귀계수는 유의한지를 근거와 함께 제시하시오. (힌트: t 검정)** \
  **(답)**
- **(iii) 적합된 회귀모형의 결정계수($R^2$)와 수정된 결정계수(adjusted $R^2$)를 구하고, 모형의 설명력이 어떠한지 서술하시오.** \
  **(답)**


### **문제 1-(3) 범주형 변수를 포함한 선형회귀모형의 해석**
**비교과 활동을 한 학생(Extracurricular_Activities = Yes)과 비교과 활동을 하지 않은 학생(Extracurricular_Activities = No)에 대해  
적합된 선형회귀모형 식을 각각 구하고, 이에 대한 해석을 쓰시오.**  
**(아래에 답안을 작성하시오)**
- **비교과 활동을 한 학생(Extracurricular_Activities = Yes)의 적합된 선형회귀모형 식:**\
**(답)**

- **비교과 활동을 하지 않은 학생(Extracurricular_Activities = No)의 적합된 선형회귀모형 식:**\
**(답)**

- **비교과 활동 여부에 따른 차이에 대한 해석:**\
**(답)**

## **문제 2. 베이지안 선형회귀분석**

### **문제 2-(1) 베이지안 선형회귀모형의 적합**
- **Hours_Studied, Previous_Scores, Extracurricular_Activities를 설명변수로, Performance_Index를 반응변수로 하는 선형회귀모형을  
베이지안 방식을 이용하여 적합하여라.**
- **단, 회귀계수(절편 포함)에 대해서는 $\beta_j \sim N(0, 100^2)$의 사전분포를 사용하고,  
오차의 표준편차는 $\sigma \sim \mathrm{Inverse\text{-}Gamma}(2, 0.5)$의 사전분포를 사용하라.**


In [None]:
# !pip install bambi arviz
import bambi as bmb
import arviz as az
import matplotlib.pyplot as plt

#---------------
# 답안 작성
#---------------
tau_coef = ### 코드 작성 ###

#---------------
# 답안 작성
#---------------
alpha_ig = ### 코드 작성 ###
beta_ig  = ### 코드 작성 ###

#---------------
# 답안 작성
#---------------
priors = {
    ### 코드 작성 ###
}


#---------------
# 답안 작성
#---------------
model = ### 코드 작성 ###
idata = ### 코드 작성 ###

#---------------
# 답안 작성
#---------------
print(az.summary(idata, var_names = ["Intercept", "Hours_Studied", "Previous_Scores", "Extracurricular_Activities"], hdi_prob = 0.95))

### **문제 2-(2) 베이지안 선형회귀모형의 해석**
**다음의 물음에 답하여라.**
**(아래에 답안을 작성하시오)**

- **(i) Extracurricular_Activities의 95% HDI가 의미하는 바를 설명하시오.**  
**(답)**
- **(ii) Extracurricular_Activities의 효과가 유의하다고 판단할 수 있는지 베이지안 관점에서 설명하시오.**  
**(답)**