In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# 1. 가상의 데이터 생성
data = {
    'Hours': [2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Score': [45, 50, 55, 60, 68, 75, 81, 89, 95]
}
df = pd.DataFrame(data)

# 2. 독립변수(X)와 종속변수(y) 설정
X = df['Hours']
y = df['Score']

# 3. 상수항(Intercept) 추가 (중요!)
# statsmodels의 OLS는 기본적으로 상수항을 포함하지 않으므로 직접 추가해야 합니다.
X = sm.add_constant(X)

# 4. 모델 생성 및 학습 (Ordinary Least Squares)
model = sm.OLS(y, X)
results = model.fit()

# 5. 결과 보고서 출력
print(results.summary())


In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# 1. 가상 데이터 생성
#---------------------------------------------------
# 종속 변수 (Y): 주택 가격
# 독립 변수 (X): 면적(Area), 침실 수(Bedrooms)
np.random.seed(42)  # 재현성을 위한 시드 설정

# 독립 변수 (X)
data = {
    'Area': np.random.randint(100, 300, 50),
    'Bedrooms': np.random.randint(2, 5, 50)
}
df = pd.DataFrame(data)
# 실제 주택 가격 (Y) 생성: Y = 50 + 1.5 * Area + 20 * Bedrooms + Noise
# 'Noise'는 오차항을 나타냅니다.
df['Price'] = 50 + 1.5 * df['Area'] + 20 * df['Bedrooms'] + np.random.normal(0, 15, 50)

# 2. 모델 설정 및 적합 (Fitting)
#---------------------------------------------------

X = df[['Area', 'Bedrooms']]
Y = df['Price']
# Statsmodels는 절편(Intercept)을 자동으로 추가하지 않으므로, 상수항을 명시적으로 추가해야 합니다.
sm.add_constant(X) # bias 결과도 받기 위해

# OLS(Ordinary Least Squares) 모델 정의
model = sm.OLS(Y, X)

# 모델 적합 (학습)
results = model.fit()

# 3. 결과 요약 (Summary) 출력
#---------------------------------------------------
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Price   R-squared:                       0.979
Model:                            OLS   Adj. R-squared:                  0.978
Method:                 Least Squares   F-statistic:                     1081.
Date:                Tue, 23 Dec 2025   Prob (F-statistic):           5.09e-40
Time:                        14:14:37   Log-Likelihood:                -198.85
No. Observations:                  50   AIC:                             403.7
Df Residuals:                      47   BIC:                             409.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         55.5820     10.682      5.203      0.0

##  결과 요약 (Summary) 해석

위 코드를 실행하면 나오는 **`results.summary()`**는 다음과 같은 구조를 가지며, 회귀 분석의 모든 핵심 정보를 제공합니다.

### 1. 모델 적합도 (Model Fit)

| 지표 | 설명 |
| --- | --- |
| **R-squared** | 전체 분산 중 모델에 의해 설명되는 분산의 비율입니다. 1에 가까울수록 모델 적합도가 높습니다. |
| **Adj. R-squared** | 독립 변수의 개수에 따라 조정된 R-squared입니다. 변수가 많을수록 유리한 R-squared의 단점을 보완합니다. |
| **F-statistic** | 전체 모델의 통계적 유의성을 검정하는 $\text{F}$값입니다. 이 값이 **크고** `Prob (F-statistic)`이 **작을수록** 모델이 유의미합니다. |
| **Prob (F-statistic)** | 전체 모델의 유의 확률입니다. 이 값이 0.05보다 작으면 모델이 통계적으로 유의미함을 의미합니다. |

### 2. 계수표 (Coefficients Table)

| 항목 | 의미 | 해석|
| --- | --- | --- |
| **const** | **절편(Intercept)**입니다. 모든 독립 변수가 0일 때의 종속 변수 () 값입니다. | 약 55 정도의 기본 주택 가격을 의미합니다. |
| **Area** | **면적**의 회귀 계수 ()입니다. 면적이 1단위 증가할 때, 다른 변수가 고정된 상태에서 가격 변화를 나타냅니다. | 면적이 1 증가할 때 가격이 약 1.5 증가합니다. |
| **Bedrooms** | **침실 수**의 회귀 계수 ()입니다. 침실 수가 1개 증가할 때, 다른 변수가 고정된 상태에서 가격 변화를 나타냅니다. | 침실 수가 1개 증가할 때 가격이 약 16 증가합니다. |
| **t** | **$\mathbf{t}$값**입니다. 계수가 0이 아니라는 귀무가설에 대한 검정 통계량입니다. 절댓값이 클수록 유의미합니다. | **Area**와 **Bedrooms** 모두 절댓값이 매우 크므로, 가격에 유의미한 영향을 미친다는 것을 시사합니다. |
| **P> | t | ** |


3. 회귀 방정식위 결과에 따르면, 추정된 선형 회귀 방정식은 다음과 같습니다.$$\text{Price} = \text{const} + \beta_{\text{Area}} \times \text{Area} + \beta_{\text{Bedrooms}} \times \text{Bedrooms}$$예시에서 구한 계수를 사용하면 다음과 같습니다 (실제 값은 실행 시마다 약간 다를 수 있음):$$\text{Price} \approx 50.xx + 1.5x \times \text{Area} + 20.xx \times \text{Bedrooms}$$


---

##  OLS Regression Results 주요 항목 해석

이 표는 크게 **모델 정보/적합도**, **계수표**, **통계적 검정**의 세 부분으로 나눌 수 있습니다.

### 1.  모델 정보 및 적합도 (Top Section)


| 항목 | 값 | 해석 |
| --- | --- | --- |
| **Dep. Variable** | `Price` | 분석 대상이 되는 종속 변수(Y)는 **Price (가격)** 입니다. |
| **Model** | `OLS` | 사용된 회귀 모델은 **최소자승법(Ordinary Least Squares)** 입니다. |
| **R-squared** | **0.979** | 전체 종속 변수 분산 중 이 모델이 **설명하는 비율**이 97.9%로, **모델의 설명력이 매우 높음**을 의미합니다. |
| **Adj. R-squared** | 0.978 | 독립 변수의 수에 대해 조정된 설명력으로, 역시 매우 높습니다. |
| **F-statistic** | 1081. | **전체 모델**의 유의성을 검정하는 통계량입니다. 이 값이 크면 모델이 유의미합니다. |
| **Prob (F-statistic)** | **5.09E-40** | 전체 모델의 유의 확률 ($\text{p}$값)입니다. 이 값이 거의 0에 가깝기 때문에 (유의수준 0.05보다 훨씬 작음), **이 회귀 모델 전체는 통계적으로 매우 유의미**합니다. |
| **No. Observations** | 50 | 분석에 사용된 데이터 관측치(샘플)의 개수는 **50개**입니다. |


---

### 2.  계수표 (Coefficients Table)

이 표는 **개별 독립 변수**의 효과를 보여주는 가장 중요한 부분입니다.

| 항목 | coef | std err | t | P>\|t\| | [0.025 | 0.975] |
|:---|:---:|:---:|:---:|:---:|:---:|:---:|
| **const** (절편) | **55.5820** | 10.682 | 5.203 | **0.000** | 34.092 | 77.072 |
| **Area** (면적) | **1.5230** | 0.033 | 46.420 | **0.000** | 1.457 | 1.589 |
| **Bedrooms** (침실 수) | **16.2530** | 2.656 | 6.119 | **0.000** | 10.909 | 21.597 |

#### 계수 해석:

1. **const (절편):** 55.5820
* `Area`와 `Bedrooms`가 모두 0일 때, `Price`는 약 55.5820이 될 것으로 예측됩니다. (실제 데이터의 특성에 따라 해석이 달라질 수 있음)


2. **Area (면적):** 1.5230
* **다른 변수(`Bedrooms`)가 일정할 때**, `Area`가 1단위 증가하면 `Price`는 평균적으로 **1.5230만큼 증가**한다고 예측됩니다.


3. **Bedrooms (침실 수):** 16.2530
* **다른 변수(`Area`)가 일정할 때**, `Bedrooms`가 1개 증가하면 `Price`는 평균적으로 **16.2530만큼 증가**한다고 예측됩니다.



#### 통계적 유의성 해석:

* **P>|t| (p-value):** 세 변수(`const`, `Area`, `Bedrooms`) 모두  값이 **0.000**입니다. 이는 해당 변수의 계수가 0이라는 **귀무가설을 기각**하며, 세 변수 모두 **통계적으로 0.05 유의수준 하에서 매우 유의미**하게 종속 변수 `Price`에 영향을 미친다는 것을 의미합니다.
* **t (t-value):** 이 값이 클수록 계수가 0에서 멀리 떨어져 있으며 유의미함을 시사합니다. `Area`의 $\text{t}$값 (46.420)이 매우 높아, `Area`가 `Price`를 설명하는 데 가장 강력한 요인임을 보여줍니다.
* **[0.025, 0.975]:** 95% 신뢰구간입니다. 이 구간 안에 **0**이 포함되지 않아야 계수가 통계적으로 유의미하다고 판단합니다. 세 변수 모두 신뢰구간에 0이 포함되지 않아 유의미함을 다시 한번 확인해 줍니다.

---

### 3.  잔차 및 검정 통계량 (Bottom Section)

이 섹션은 모델의 가정이 잘 충족되었는지 확인하는 데 사용됩니다. (선형 회귀의 주요 가정: 잔차의 정규성, 독립성, 등분산성 등)

* **Durbin-Watson:** **2.017**
* 잔차의 **자기 상관(Autocorrelation)**을 검정합니다. **2**에 가까울수록 잔차 간의 상관관계가 없다는 뜻이며 (가정 충족), 2.017은 자기 상관이 **거의 없음**을 시사합니다.


* **Jarque-Bera (JB) 및 Prob(JB):** JB=1.299, Prob(JB)=0.522
* 잔차의 **정규성(Normality)**을 검정합니다. $\text{Prob(JB)}$가 **0.05보다 크면** (0.522는 0.05보다 큽니다), 잔차가 정규 분포를 따른다는 귀무가설을 기각할 수 없어 **정규성 가정이 충족**되었다고 볼 수 있습니다.


* **Skew (왜도):** -0.327
* 잔차 분포의 비대칭성입니다. 0에 가까우므로 대칭적입니다.


* **Kurtosis (첨도):** 2.558
* 잔차 분포의 꼬리 두께입니다. 정규 분포의 첨도(3)에 가까워 정규성 가정에 부합합니다.



###  결론

제시된 회귀 분석 결과는 다음과 같이 요약할 수 있습니다.

1. **모델의 설명력이 매우 높습니다** ().
2. **전체 모델은 통계적으로 매우 유의미합니다** ().
3. **개별 변수 (`Area`와 `Bedrooms`) 모두 통계적으로 매우 유의미**하게 ).
4. 선형 회귀의 주요 가정 (잔차의 독립성 및 정규성)은 **대체로 잘 충족**되었습니다.
