In [1]:
import pandas as pd
data = {
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '직원수': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50]
    }
df = pd.DataFrame(data)
print(df.head(3))

   매출액  광고비  직원수
0  300   70   15
1  320   75   16
2  250   30   14


In [2]:
from statsmodels.formula.api import ols
model = ols('매출액 ~ 광고비 + 직원수', data=df).fit()
print(model.summary())

# <ols>
# EDA와 전처리 사이에서 독립변수들이 Y값을 만들어내는데 선형처리가 
# 되어지는지 확인할 때 사용추천

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Fri, 10 Oct 2025   Prob (F-statistic):            0.00226
Time:                        02:39:28   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

In [None]:
# ======================== OLS Regression Results ===========================   # OLS(최소제곱법) 회귀분석 결과 시작
# Dep. Variable:                    매출액                                   # 종속변수(예측 대상)는 ‘매출액’
# R-squared:                         0.512                                   # 결정계수: 모델이 데이터를 51.2% 설명 (설명력 중간 수준)
# Model:                              OLS                                   # 회귀모델 종류: OLS(Ordinary Least Squares, 최소제곱법)
# Adj. R-squared:                    0.454                                   # 보정된 결정계수: 변수 수를 고려한 설명력 (약 45.4%)
# Method:                   Least Squares                                   # 방법: 잔차 제곱합을 최소화하는 방식
# F-statistic:                       8.907                                   # F값: 모델 전체 유의성 검정 통계량
# Date:                  Mon, 17 Mar 2025                                   # 분석 실행 날짜
# Prob (F-statistic):              0.00226                                   # F검정의 p값 < 0.05 → 모델 전체가 통계적으로 유의함
# Time:                          03:15:38                                   # 분석 실행 시각
# Log-Likelihood:                  -108.22                                   # 로그우도값: 모델의 적합도 지표 (절대값 작을수록 적합)
# No. Observations:                    20                                   # 데이터 개수: 20개
# AIC:                               222.4                                   # AIC: 모델 품질 지표 (낮을수록 좋은 모델)
# Df Residuals:                        17                                   # 잔차 자유도 = 관측치 - 회귀계수 수
# BIC:                               225.4                                   # BIC: 베이지안 정보 기준 (낮을수록 좋음)
# Df Model:                             2                                   # 독립변수(설명변수) 개수: 2개 (광고비, 직원수)
# Covariance Type:              nonrobust                                   # 공분산 계산 방식: 기본값(등분산 가정)

# =================== 회귀계수 요약 (Regression Coefficients) =================
#                   coef    std err          t      P>|t|      [0.025      0.975]   # 계수, 표준오차, t값, p값, 신뢰구간
# Intercept      101.0239     71.716      1.409      0.177     -50.284     252.331  # 절편: 광고비=0, 직원수=0일 때 기본 매출 약 101.0 (유의하지 않음)
# 광고비            1.8194      0.807      2.255      0.038       0.117       3.522  # 광고비 1단위 증가 시 매출액 약 1.82 증가 (유의함, p<0.05)
# 직원수            5.9288      1.430      4.147      0.001       2.912       8.945  # 직원 1명 증가 시 매출액 약 5.93 증가 (매우 유의함, p<0.01)

# ======================= 잔차 검정 (Residual Diagnostics) =====================
# Omnibus:                       30.534                                   # 잔차 정규성 검정 통계량 (값이 큼 → 비정규 가능성 있음)
# Durbin-Watson:                   1.354                                   # 잔차 자기상관 검정 (2에 가까울수록 좋음, 1.35 → 약한 자기상관 있음)
# Prob(Omnibus):                  0.000                                   # p값<0.05 → 잔차가 정규분포 아님
# Jarque-Bera (JB):               64.655                                   # 또 다른 정규성 검정 (값 큼 → 비정규 가능성 높음)
# Skew:                            2.444                                   # 잔차가 오른쪽으로 치우침(양의 왜도)
# Prob(JB):                     9.13e-15                                   # p값 매우 작음 → 정규성 가정 위배
# Kurtosis:                       10.327                                   # 잔차의 첨도(정규분포=3보다 큼 → 뾰족함, 이상치 가능)
# Cond. No.:                         401.                                  # 조건수: 다중공선성(변수 간 상관성) 약간 존재 가능성

# ============================ Notes ==========================================
# [1] Standard Errors assume that the covariance matrix of the errors is correctly specified.   # 표준오차 계산은 오차항이 독립적이고 분산이 일정하다는 가정하에 수행됨
 

In [3]:
# 결정계수값 확인
# : 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 점수
model.rsquared

0.5116964327009041

In [5]:
# 기울기 /절편 확인
print("광고비 기울기 : ", model.params['광고비']) # 베타1 
print("직원수 기울기:", model.params['직원수']) # 베타1
print("절편 : ", model.params['Intercept']) # 베타0 

기울기 :  1.8194269419344642
절편 :  101.02387228241548


In [6]:
# 매출액(y) - x 상관계수 / pvalue 확인

In [7]:
from scipy import stats
print(stats.pearsonr(df['광고비'], df['매출액']))
#pvalue < 0.05 - 상관관계높다 == 유의하다
#pvalue >=0.05 - 상관관계 낮다 == 유의하지 않다

PearsonRResult(statistic=0.1331698173704034, pvalue=0.5756778801904271)


In [8]:
# 회귀계수확인
model.params

Intercept    101.023872
광고비            1.819427
직원수            5.928756
dtype: float64

In [9]:
print("pvalue:", model.pvalues['광고비'])

pvalue: 0.03764350647695994


In [10]:
# 광고비, 직원수 -> 매출액 예측
new_data = pd.DataFrame({"광고비" : [50], "직원수": [20]})
result = model.predict(new_data)
print("새로운 데이터의 매출액:", result)

새로운 데이터의 매출액: 0    310.57033
dtype: float64


In [11]:
df['잔차'] = df['매출액'] - model.predict(df)
print("잔차 제곱합:", sum(df['잔차']**2))

잔차 제곱합: 58686.178271561075


In [13]:
print(sum(model.resid**2))

58686.178271561075


In [15]:
MSE = (df['잔차']**2).mean()
MSE

2934.3089135780533

In [16]:
print("95% 신뢰구간:\n", model.conf_int(alpha=0.05))

95% 신뢰구간:
                    0           1
Intercept -50.283684  252.331429
광고비         0.116785    3.522069
직원수         2.912406    8.945105


In [17]:
new_data = pd.DataFrame({"광고비": [45], "직원수": [22]})
pred = model.get_prediction(new_data)
result = pred.summary_frame(alpha=0.05)
print("예측값의 신뢰구간과 예측구간:\n", result)

예측값의 신뢰구간과 예측구간:
          mean    mean_se  mean_ci_lower  mean_ci_upper  obs_ci_lower  \
0  313.330707  22.502058     265.855514       360.8059     180.58875   

   obs_ci_upper  
0    446.072663  


In [1]:
# -------------------------------------------------
# 범주형 변수 
# -------------------------------------------------

In [2]:
# 불러오기
import pandas as pd
import statsmodels.api as sm
# df = pd.read_csv("study.csv")
df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/bigdata_analyst_cert/main/part3/ch4/study.csv")
df.head()

Unnamed: 0,study_hours,material_type,score
0,71,강의,95
1,34,독학,63
2,91,도서,95
3,80,독학,80
4,40,강의,79


In [3]:
#
from statsmodels.formula.api import ols
model = ols ('score ~ study_hours + material_type', data=df).fit()
print(model.summary())

# R- squared(설명력) : 0.969 - 96%
# Adj.R-squared(x값이 여러 개 일때): 96%

                            OLS Regression Results                            
Dep. Variable:                  score   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     991.9
Date:                Mon, 13 Oct 2025   Prob (F-statistic):           4.42e-72
Time:                        00:28:01   Log-Likelihood:                -238.89
No. Observations:                 100   AIC:                             485.8
Df Residuals:                      96   BIC:                             496.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
Intercept              59.2111    