# 다중회귀분석

In [None]:
import pandas as pd
import numpy as np

## 당뇨병 환자의 질병 진행정도 데이터셋

In [None]:
############### 실기환경 복사 영역 ###############
# 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

### 1. sklearn 라이브러리 활용

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
# 독립변수와 종속변수 설정

x = x[['age', 'sex', 'bmi']]
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
   target
0   151.0
1    75.0
2   141.0
3   206.0
4   135.0


In [None]:
# 모델링
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

In [None]:
# 회귀분석 관련 지표 출력
# 1. Rsq(결정계수) : model.score(x, y)
model.score(x, y)
print(round(model.score(x, y), 2) )

0.35


In [None]:
# 2. 회귀계수 출력 : model.coef_
print(np.round(model.coef_, 2) ) # 전체 회귀계수
print(np.round(model.coef_[0,0], 2) ) # x1 의 회귀계수
print(np.round(model.coef_[0,1], 2) ) # x2 의 회귀계수
print(np.round(model.coef_[0,2], 2) ) # x3 의 회귀계수

[[138.9  -36.14 926.91]]
138.9
-36.14
926.91


In [None]:
# 회귀계수(절편) : model.intercept_
print(np.round(model.intercept_, 2))

[152.13]


* 회귀식 : y = b0 + b1x1 + b2x2 + b3x3
(x1=age, x2=sex, x3=bmi) <br>
결과 : y = 152.13 + 138.9age - 36.14sex + 926.91bmi

### 2. statsmodels 라이브러리 사용

In [None]:
############### 실기환경 복사 영역 ###############
# 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [None]:
# statsmodel.formula 활용

import statsmodels.api as sm
x = x[['age', 'sex', 'bmi']]
y = y['target']
print(x.head())
print(y.head())

        age       sex       bmi
0  0.038076  0.050680  0.061696
1 -0.001882 -0.044642 -0.051474
2  0.085299  0.050680  0.044451
3 -0.089063 -0.044642 -0.011595
4  0.005383 -0.044642 -0.036385
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [None]:
# 모델링

import statsmodels.api as sm

x = sm.add_constant(x)
model = sm.OLS(y, x).fit()

summary = model.summary()
print(summary)

                            OLS Regression Results                            
Dep. Variable:                 target   R-squared:                       0.351
Model:                            OLS   Adj. R-squared:                  0.346
Method:                 Least Squares   F-statistic:                     78.94
Date:                Fri, 01 Dec 2023   Prob (F-statistic):           7.77e-41
Time:                        04:24:27   Log-Likelihood:                -2451.6
No. Observations:                 442   AIC:                             4911.
Df Residuals:                     438   BIC:                             4928.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        152.1335      2.964     51.321      0.0

In [None]:
# 1. Rsq(결정계수)
# r2 = 0.351

# 2. 회귀계수
# age = 138.9039
# sex = -36.1353
# bmi = 926.9120

# 3. 회귀계수(절편)
# const = 152.1335

# 4. 회귀식 p-value
# pvalue = 7.77e-41

# 상관분석

In [None]:
############### 실기환경 복사 영역 ###############
# 데이터 불러오기
import pandas as pd
import numpy as np
# 실기 시험 데이터셋으로 셋팅하기 (수정금지)
from sklearn.datasets import load_diabetes
# diabetes 데이터셋 로드
diabetes = load_diabetes()
x = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
y = pd.DataFrame(diabetes.target)
y.columns = ['target']
############### 실기환경 복사 영역 ###############

In [None]:
# 상관분석을 할 2가지 변수 설정

x = x['bmi']
y = y['target']

print(x.head())
print(y.head())

0    0.061696
1   -0.051474
2    0.044451
3   -0.011595
4   -0.036385
Name: bmi, dtype: float64
0    151.0
1     75.0
2    141.0
3    206.0
4    135.0
Name: target, dtype: float64


In [None]:
from scipy.stats import pearsonr

# 상관계수에 대한 검정실시

r, pvalue = pearsonr(x, y)

# 1. 상관계수
print(round(r, 2) )

# 2. p-value
print(round(pvalue, 2))

# 3. 검정통계량
# 통계량은 별도로 구해야 함 (T = r * root(n-2) / root(1-r2) )
# r = 상관계수
# n = 데이터의 개수

n = len(x) # 데이터 수
r2 = r**2 # 상관계수의 제곱
statistic = r * ((n-2)**0.5) / ((1-r2)**0.5)
print(round(statistic, 2))

# 4. 귀무가설 기각여부 결정(채택/기각)
# p-value 값이 0.05보다 작기 때문에 귀무가설을 기각한다.(대립가설채택)
# 즉, 두 변수간 선형관계가 존재한다고 할 수 있다.(상관계수가 0이 아니다)
# 답 : 기각

0.59
0.0
15.19


# 제3유형_로지스틱 회귀분석

## 타이타닉 데이터 불러오기(생존자 예측 데이터)

In [None]:
############### 복사 영역 ###############
# 데이터 불러오기
import pandas as pd
import numpy as np
# Seaborn의 내장 타이타닉 데이터셋을 불러옵니다.
import seaborn as sns
df = sns.load_dataset('titanic')
############### 복사 영역 ###############

In [None]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [None]:
# 분석 데이터 설정

df = df[['survived', 'sex', 'sibsp', 'fare']]

print(df.head())

   survived     sex  sibsp     fare
0         0    male      1   7.2500
1         1  female      1  71.2833
2         1  female      0   7.9250
3         1  female      1  53.1000
4         0    male      0   8.0500


회귀식 : P(1일 확률) = 1 / ( 1+exp(-f(x)) )
- f(x) = b0 + b1x1 + b2x2 + b3x3
- ln(P/1-P) = b0 + b1x1 + b2x2 + b3x3
(P=생존할 확률, x1=sex, x2=sibsp, x3=fare)

In [None]:
# 데이터 전처리
# 변수처리
# 문자형 타입의 데이터의 경우 숫자로 변경해준다.
# *** 실제 시험에서 지시사항을 따를 것 ***
# 성별을 map 함수를 활용해서 각각 1과 0에 할당한다.(여성을 1, 남성을 0)
# (실제 시험의 지시 조건에 따를 것)
df['sex'] = df['sex'].map({'female': 1, 'male': 0 })
print(df.head())

   survived  sex  sibsp     fare
0         0    0      1   7.2500
1         1    1      1  71.2833
2         1    1      0   7.9250
3         1    1      1  53.1000
4         0    0      0   8.0500


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['sex'] = df['sex'].map({'female': 1, 'male': 0 })


### 1. sklearn 라이브러리 활용

In [None]:
# 독립변수와 종속변수 설정

x = df.drop(['survived'], axis = 1)
y = df['survived']

(주의) LogisticRegression() 객체안에 반드시 penalty= None 으로 입력해야 함

In [None]:
# 모델링
from sklearn.linear_model import LogisticRegression

# 반드시 penalty = None으로 입력 -> default='l2'

model1 = LogisticRegression(penalty = None)
model1.fit(x, y)