### PART 03) 통계분석

## 2장. 통계 모형

### 1절. 선형 회귀모형

#### 1. SciPy를 활용한 단순 선형 회귀분석

In [6]:
# 데이터 호출한 후 데이터프레임으로 변환
import pandas as pd
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
data = pd.DataFrame(diabetes.data, columns = diabetes.feature_names)

# 'target' 컬럼 호출
target = diabetes.target

# 단순 선형회귀 모델 생성
# scipy.stats.linregress()
from scipy.stats import linregress
model = linregress(x = data['bmi'], y = target)
print(model) # 전체 결과

LinregressResult(slope=949.4352603839491, intercept=152.1334841628967, rvalue=0.5864501344746886, pvalue=3.4660064451672995e-42, stderr=62.51512200284676, intercept_stderr=2.973541118790735)


In [7]:
# 독립변수에 대한 추정된 회귀계수(beta1)
print(model.slope)

# 상수항에 대한 추정된 회귀계수(beta0)
print(model.intercept)

949.4352603839491
152.1334841628967


In [8]:
# beta1에 대한 통계적 유의성(p-value)
print(model.pvalue)

# 결정계수(모형의 설명력)
print(model.rvalue)

3.4660064451672995e-42
0.5864501344746886


#### 2. Statsmodels를 활용한 다중 선형 회귀분석

#### 가. 회귀 모형 적합

In [11]:
# 필요 데이터 호출
import pandas as pd

tips = pd.read_csv('data/예제/tips.csv')
#print(tips)

import statsmodels.api as sm
# 독립변수(total_bill, size)와 종속변수 지정
X = tips[['total_bill', 'size']] # 독립 변수
y = tips['tip'] # 종속 변수
    
# 상수항 추가
X = sm.add_constant(X)
    
# 다중 선형 회귀분석 수행
# OLS 객체 생성 후 적합
model = sm.OLS(y, X).fit()
print(model.summary()) # 회귀분석 결과

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.463
Method:                 Least Squares   F-statistic:                     105.9
Date:                Mon, 15 Apr 2024   Prob (F-statistic):           9.67e-34
Time:                        17:01:53   Log-Likelihood:                -347.99
No. Observations:                 244   AIC:                             702.0
Df Residuals:                     241   BIC:                             712.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.6689      0.194      3.455      0.0

#### 나. 반응 변수의 기댓값 추정

In [12]:
# 5번째 관측치에 대한 tip의 기댓값을 추정
X.iloc[4]

const          1.00
total_bill    24.59
size           4.00
Name: 4, dtype: float64

In [13]:
# 5번째 관측치에 대한 tip의 기댓값을 추정
model.predict(X.iloc[4])

None    3.719157
dtype: float64

#### 다. 반응 변수의 기댓값 예측

In [14]:
# 새로운 독립변수의 배열을 입력 값으로 지정
new_data = pd.DataFrame({'const': [1], 'total_bill': [24.59], 'size': [4]})

# 예측 기댓값 결과 얻기
result = model.get_prediction(new_data)

### 2절. 로지스틱 회귀모형

#### 1. Statsmodels를 활용한 로지스틱 회귀분석

In [15]:
# 필요 데이터 호출
import pandas as pd
survived = pd.read_csv('data/예제/survived.csv')
print(survived)

     survived  pclass  sex   age
0           0       0    1  22.0
1           1       1    0  38.0
2           1       0    0  26.0
3           1       1    0  35.0
4           0       0    1  35.0
..        ...     ...  ...   ...
536         0       0    1  25.0
537         0       0    0  39.0
538         1       1    0  19.0
539         1       1    1  26.0
540         0       0    1  32.0

[541 rows x 4 columns]


In [16]:
# 독립변수와 종속변수 지정
X = survived['pclass'] # 독립 변수
y = survived['survived'] # 종속 변수

# 상수항 추가
X = sm.add_constant(X)
    
### 로지스틱 회귀 분석
import statsmodels.api as sm
# GLM객체 생성 후 적합
model = sm.GLM(y, X, family = sm.families.Binomial()).fit()
print(model.summary()) # 로지스틱회귀분석결과

                 Generalized Linear Model Regression Results                  
Dep. Variable:               survived   No. Observations:                  541
Model:                            GLM   Df Residuals:                      539
Model Family:                Binomial   Df Model:                            1
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -315.13
Date:                Mon, 08 Apr 2024   Deviance:                       630.26
Time:                        14:50:19   Pearson chi2:                     541.
No. Iterations:                     4   Pseudo R-squ. (CS):             0.1527
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.1558      0.124     -9.293      0.0

In [None]:
import numpy as np

# A등급의 추정 생존확률
Prob_A = np.exp(-1.1558 + 1*1.8009)/(1+np.exp(-1.1558 + 1*1.8009))

# B등급의 추정 생존확률
Prob_B = np.exp(-1.1558 + 0*1.8009)/(1+np.exp(-1.1558 + 0*1.8009))
print(Prob_A, Prob_B)

0.2394312844887346 0.6559054109099537


In [18]:
#### 모형 적합도 검정
# 적합모형의 이탈도
dev = model.deviance
print(dev)

# 영모형의 이탈도
dev0 = model.null_deviance
print(dev0)

# 카이제곱통계랑과 자유도
stat = dev0 - dev
df = 2 - 1 # 적합모형의 회귀계수의 수 - 영모형의 회귀계수의 수
print(stat, df)

from scipy.stats import chi2
pval = 1- chi2.cdf(stat, df) # 유의확률
print(pval) # 모형이 잘 적합하고 있음

630.2646521014273
719.8918959915944
89.62724389016716 1
0.0


## (끝)