In [None]:
# statsmodels 패키지에서 선형 회귀 분석 함수 ols 불러오기
from statsmodels.formula.api import ols

# sklearn의 LinearRegression도 불러오지만, 여기선 사용하지 않음
from sklearn.linear_model import LinearRegression

# pandas를 사용하여 데이터프레임 생성 예정
import pandas as pd


salary = [3000, 4200, 4000, 5000, 6000, 3800, 3500, 6200, 3900, 4500]   # 급여 (salary), 단위: 천원

breakTime = [120, 60, 100, 100, 50, 120, 90, 40, 120, 120]              # 쉬는 시간 (breakTime), 단위: 분

workingTime = [8, 6, 10, 8, 10, 10, 9, 7, 8, 9]                         # 근무 시간 (workingTime), 단위: 시간

companySatisfaction = [60, 75, 70, 85, 90, 70, 65, 95, 70, 80]          # 회사 만족도 (companySatisfaction), 단위: 100점 만점

# 각 리스트를 컬럼으로 갖는 딕셔너리로 묶기
data = {
    'salary': salary,
    'breakTime': breakTime,
    'workingTime': workingTime,
    'companySatisfaction': companySatisfaction
}

# pandas 데이터프레임으로 변환
df = pd.DataFrame(data)


# 종속변수: companySatisfaction    # 독립변수: salary, breakTime, workingTime
# ols를 이용해 선형 회귀 모델 생성 후 학습(fit)
fit = ols('companySatisfaction ~ salary + breakTime + workingTime', data=df).fit()

# 회귀 결과 요약 출력
print(fit.summary())



                             OLS Regression Results                            
Dep. Variable:     companySatisfaction   R-squared:                       0.988
Model:                             OLS   Adj. R-squared:                  0.982
Method:                  Least Squares   F-statistic:                     164.0
Date:                 Wed, 07 May 2025   Prob (F-statistic):           3.81e-06
Time:                         09:41:16   Log-Likelihood:                -15.777
No. Observations:                   10   AIC:                             39.55
Df Residuals:                        6   BIC:                             40.77
Df Model:                            3                                         
Covariance Type:             nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept      24.9819      5.353      4

  return hypotest_fun_in(*args, **kwds)


### OLS 회귀 결과 해석 (Markdown)

##### 기본 정보
- 종속 변수 (Dep. Variable): companySatisfaction (회사 만족도)

- 모델 (Model): OLS (Ordinary Least Squares, 최소제곱법)

- 관측치 수 (No. Observations): 10개

- 독립 변수 수 (Df Model): 3개 (salary, breakTime, workingTime)

- 자유도 (Df Residuals): 6 (10 - 3 - 1)

- R² (설명력): 0.988 → 모델이 데이터를 98.8% 설명함 (매우 높음)

- Adj. R² (조정 R²): 0.982 → 변수 수를 보정해도 설명력이 여전히 높음

- F-statistic: 164.0 (모형 전체의 유의성 검정 통계량)

- Prob (F-statistic): 3.81e-06 → p < 0.05 ⇒ 모델 전체적으로 유의함



### 회귀 계수 해석
- Intercept      > (계수 coef) 24.98    > (p-value) 0.003 > (해석) 기본값: 모든 변수 0일 때 만족도는 약 25점
- salary         > (계수 coef) 0.0120   > (p-value) 0.000 > (해석) 급여가 1천 원 증가할 때 만족도는 1.2% 증가, 매우 유의미함
- breakTime      > (계수 coef) 0.0668   > (p-value) 0.047 > (해석) 쉬는 시간이 1분 늘어나면 만족도는 0.067점 증가, 유의미함
- workingTime    > (계수 coef) -0.9718  > (p-value) 0.057 > (해석) 근무 시간이 1시간 늘면 만족도는 0.97점 감소, 통계적으로 무의미 (p ≈ 0.057)

- 일반적으로 p-value < 0.05면 통계적으로 유의함

In [None]:
#최종 : 유의수준 결과에 따라 salary와 breaktime을 독립변수로 설정
companySatisfaction = 24.9819 + 0.0120 × salary+0.0668 × breakTime + ε