In [2]:
# 필요한 패키지
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 한글출력
plt.rcParams['font.family'] = 'Malgun Gothic' #  Windows 'Malgun Gothic' 
plt.rcParams['axes.unicode_minus'] = False

pd.__version__

'2.2.3'

# 상관계수
- 피어슨 상관계수 ( 두 연속형 변수)
- 계수 ($$표시 latex(수식) 문법 적용)
  + $r$ = +/-1 : 완벽한 상관관계를 가짐
  + $r$ = 0 : 두 변수 간에는 선형적 관계가 없음
- 가설설정
  + 귀무가설 : 상관계수가 0이다. ( 두 변수 간 상관관계가 없음 )
  + 대립가설 : 상관계수는 0이 아니다. ( 두 변수 간 상관관계가 있음 )

In [4]:
import numpy as np
import scipy.stats as stats # 수치해석, 통계 관련 라이브러리

# 샘플 데이터
x = np.array([10,20,30,40,50])
y = np.array([5,15,30,35,40])

coeff, p_value = stats.pearsonr(x,y)
# coeff:상관계수, p_value
print(coeff, p_value)

0.9761870601839526 0.004395375691816597


# 회귀분석

- 머신러닝/딥러닝 ==> 내부 알고리즘, 수식과 통계이론으로 점철된 분야
- 머신러닝 학습하기 전에는 반드시 모든 데이터가 숫자로 구성이 되어 있어야 함

In [12]:
import numpy as np
from sklearn.datasets import load_iris
# https://scikit-learn.org/stable/
import pandas as pd

df_iris = load_iris()

# pandas dataframe으로 변환
iris = pd.DataFrame(data = df_iris.data, columns = df_iris.feature_names)
# target 설정
iris.columns = ['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width']

# target class명 추가
iris['species'] = df_iris.target

# species 라벨을 실제 이름으로 변경
# https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html
iris["species"] = iris["species"].map({0: "setosa", 1: "versicolor", 2: "virginica"})
iris

Unnamed: 0,Sepal_Length,Sepal_Width,Petal_Length,Petal_Width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


## 통계적 관점에서의 회귀모델
- statsmodels 라이브러리 활용
- 링크 : 추가

- 회귀모형
  + 모형이 유의한가 -> 기울기 관점에서 이해,
     - 1차 함수, y = b0 + b1*x1 + b2*x2 + e (x = 필드, e = 오차)
  + 모형을 사용할 수 있는가
  + 가설설정
    - 귀무가설 : 기울기가 0인가?
    - 대립가설 : 기울기가 0이 아니다.
- 회귀식 자체에 대해서 살표보는 통계량 -> F통계량 (실전에서 F통계량은 중요하지 않음)
- 개별적인 필드(컬럼)에 관한 기울기 통계량 -> t통계량 (특정 필드 선정을 해야하기에 중요)

In [14]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

# 방법 1
# 실제 프젝 시 어려운 것은 y값 정하기 -> y값은 프젝 주제와 관련있는 변수
model = smf.ols('Petal_Length ~ Petal_Width + Sepal_Length', data = iris).fit()
print(model.summary())
# 분석가는 해당 결과를 모두 이해해야함.


# aic : 정보료? 낮은 게 채택

                            OLS Regression Results                            
Dep. Variable:           Petal_Length   R-squared:                       0.949
Model:                            OLS   Adj. R-squared:                  0.948
Method:                 Least Squares   F-statistic:                     1354.
Date:                Fri, 16 May 2025   Prob (F-statistic):           2.01e-95
Time:                        09:49:08   Log-Likelihood:                -75.090
No. Observations:                 150   AIC:                             156.2
Df Residuals:                     147   BIC:                             165.2
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -1.5071      0.337     -4.473   

In [18]:
# 가우시안 ==> 다중회귀모델
model2 = smf.glm("Petal_Length ~ Petal_Width + Sepal_Length", family = sm.families.Gaussian(), data = iris).fit()
print(model2.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:           Petal_Length   No. Observations:                  150
Model:                            GLM   Df Residuals:                      147
Model Family:                Gaussian   Df Model:                            2
Link Function:               Identity   Scale:                         0.16260
Method:                          IRLS   Log-Likelihood:                -75.090
Date:                Fri, 16 May 2025   Deviance:                       23.902
Time:                        10:06:43   Pearson chi2:                     23.9
No. Iterations:                     3   Pseudo R-squ. (CS):              1.000
Covariance Type:            nonrobust                                         
                   coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -1.5071      0.337     -4.473   

In [17]:
# 범주형 데이터 삽입 시
# c()로 작성해서 해당 필드가 범주형 변수라는 것을 명시해야 함. 자체적으로 인코딩 됨
model3 = smf.ols("Petal_Length ~ Petal_Width + Sepal_Length + C(species)", data = iris).fit()
print(model3.summary())

                            OLS Regression Results                            
Dep. Variable:           Petal_Length   R-squared:                       0.978
Model:                            OLS   Adj. R-squared:                  0.977
Method:                 Least Squares   F-statistic:                     1600.
Date:                Fri, 16 May 2025   Prob (F-statistic):          8.06e-119
Time:                        10:06:37   Log-Likelihood:                -11.867
No. Observations:                 150   AIC:                             33.73
Df Residuals:                     145   BIC:                             48.79
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                               coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------------
Intercept               

In [20]:
## 방법 4 -> 행렬 활용
X = iris[['Petal_Width', 'Sepal_Length']]
y = iris['Petal_Length']

X = sm.add_constant(X)

model = sm.OLS(y, X).fit()

print(model.summary())

                            OLS Regression Results                            
Dep. Variable:           Petal_Length   R-squared:                       0.949
Model:                            OLS   Adj. R-squared:                  0.948
Method:                 Least Squares   F-statistic:                     1354.
Date:                Fri, 16 May 2025   Prob (F-statistic):           2.01e-95
Time:                        10:44:12   Log-Likelihood:                -75.090
No. Observations:                 150   AIC:                             156.2
Df Residuals:                     147   BIC:                             165.2
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
const           -1.5071      0.337     -4.473   

In [21]:
model = smf.ols('Petal_Length ~ Petal_Width + Sepal_Length', data = iris).fit()
print(model.summary())
# coef가 기울기

                            OLS Regression Results                            
Dep. Variable:           Petal_Length   R-squared:                       0.949
Model:                            OLS   Adj. R-squared:                  0.948
Method:                 Least Squares   F-statistic:                     1354.
Date:                Fri, 16 May 2025   Prob (F-statistic):           2.01e-95
Time:                        10:44:30   Log-Likelihood:                -75.090
No. Observations:                 150   AIC:                             156.2
Df Residuals:                     147   BIC:                             165.2
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept       -1.5071      0.337     -4.473   

In [29]:
# 회귀식
# Petal_Length_result = -1.5071 + 1.7481xPetal_Width + 0.5423xSepal_Length

# 만약 필드가 10개 있는데, 그 중 p > 0.05 이상인 필드가 3개 있음. -> 기울기가 0이라는 말
# 어떻게 해야할까
# -> 선정 방법은 항상 aic, bic를 같이 봐야함.
# 통계량(t)이 가장 낮은 거 부터 봐야함. 가장 낮은 것을 제거하고 9개 필드를 활용해서 모델 다시 만들기
# 이후 기존 모델과 비교 -> (aic, bic, r-squared 를 활용해서 종합적으로 판단)

# 회귀계수 추출
model.params[1:]

# 회귀계수가 가장 큰 변수 출력 (idxmax())
model.params[1:].idxmax()

'Petal_Width'

In [27]:
t_values = model.tvalues
print(t_values)

p_values = model.pvalues
print(p_values)

Intercept       -4.472752
Petal_Width     23.205443
Sepal_Length     7.819907
dtype: float64
Intercept       1.535178e-05
Petal_Width     5.257543e-51
Sepal_Length    9.414477e-13
dtype: float64


In [26]:
#  [0.025      0.975] -> 신뢰구간
# 구간 추정으로 진행

conf_intervals = model.conf_int(alpha = 0.10) # 신뢰구간 추출 -> 90%
conf_intervals

Unnamed: 0,0,1
Intercept,-2.064903,-0.949373
Petal_Width,1.623408,1.872798
Sepal_Length,0.427473,0.657038


### 모델 평가 지표
- 결정계수 (SST = SSR + SSE)
  + 회귀제곱합(SSR)만 집중적으로 공부해서 이해되면 됨
- F통계량 

In [28]:
# 결정계수, 수정된 결정계수
model.rsquared, model.rsquared_adj

(np.float64(0.9485236349446816), np.float64(0.947823276236446))

### 모델 비교

In [33]:
model = smf.ols('Petal_Length ~ Petal_Width + Sepal_Length', data = iris).fit()
model3 = smf.ols('Petal_Length ~ Petal_Width + Sepal_Length + C(species)', data = iris).fit()

# 두 모델을 비교할 때 어느것이 좋은 모델?
model.aic, model3.aic, model.bic, model3.bic

(np.float64(156.17922963502622),
 np.float64(33.733547285926875),
 np.float64(165.21113551731497),
 np.float64(48.78672375640815))

### 범주형 데이터가 있을 때 해석 방법
- 계수 해석 방법
- 모든 값들이 출력이 안됨. setosa가 제외 됨
- https://dschloe.github.io/python/2024/01/statsmodels_category_variable_regression/
    + (통계분석에서) get_dum뭐시기는 추천 안 함
 <!-- P>|t| (p-value)값이 크면 기존과 크게 다른 점이 없다? -->
 

In [34]:
print(model3.summary())

                            OLS Regression Results                            
Dep. Variable:           Petal_Length   R-squared:                       0.978
Model:                            OLS   Adj. R-squared:                  0.977
Method:                 Least Squares   F-statistic:                     1600.
Date:                Fri, 16 May 2025   Prob (F-statistic):          8.06e-119
Time:                        11:28:35   Log-Likelihood:                -11.867
No. Observations:                 150   AIC:                             33.73
Df Residuals:                     145   BIC:                             48.79
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                               coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------------------
Intercept               

### 위 모형을 사용할 수 있는가?
(통계 모델 만들기) -> 예측 시 해당 과정 불필요
- 독립성 가정 체크 (더빈-왓슨 통계량)
  + d = 2 : 잔차 간의 자기상관이 존재하지 않는다.
  + d < 2 or d > 2 : 잔차 간의 자기 상관이 존재
- 잔차의 정규성 체크
  - 샤피로 윌크스 검정, 앤더슨-달링 테스트 (자주 사용 x)
- 잔차의 등분산성 체크
  + Breusch-Pagan 검정
- 다중공선성 체크 (VIF)
  + 수치데이터 100개 존재, 상관관계 매트릭스, 0.95. 0.90
  + 매출 예측 모델
    + VIF가 10 이상이면 다른 독립변수들간의 선형적인 관계가 높음 => 해당 필드 제거 후 모델 다시 만들기
    + 독립변수 : 광고비, 클릭률, 전환율, 광고노출용
    + 종속변수 : 매출