In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
df = pd.read_csv('Titanic.csv') # 분석할 데이터 불러오기

In [3]:
X = df.iloc[:, :-1] # 독립변수 matrix

In [4]:
y = df.iloc[:, -1] # 종속변수 matrix

In [5]:
# 독립변수가 연속형인 데이터
X_num = df.iloc[:, [2, 3, 4, 5]]

In [6]:
# 독립변수가 이산형인 데이터
X_cat = df.iloc[:, [0, 1, 6]]

In [7]:
tmp_df = X_cat # 이산형 데이터는 임시로 다른 곳에 저장
final_X = X_num # 연속형 데이터는 dummy 변수가 필요 없으므로 분석할 데이터에 저장

In [8]:
# 이산형 데이터를 하나씩 dummy 변수로 변환하는 작업 수행
for i in X_cat.columns:
    cat_list = pd.get_dummies(tmp_df[i], drop_first = True, prefix = i)
    final_X = final_X.join(cat_list) # dummy 변수로 만든 이산형 데이터를 분석용 데이터에 합치기

In [9]:
final_X # 분석용 데이터 확인
np.shape(final_X)

Unnamed: 0,Age,SibSp,Parch,Fare,Pclass_2,Pclass_3,Sex_male,Embarked_Q,Embarked_S
0,22.0,1,0,7.2500,0,1,1,0,1
1,38.0,1,0,71.2833,0,0,0,0,0
2,26.0,0,0,7.9250,0,1,0,0,1
3,35.0,1,0,53.1000,0,0,0,0,1
4,35.0,0,0,8.0500,0,1,1,0,1
5,30.0,0,0,8.4583,0,1,1,1,0
6,54.0,0,0,51.8625,0,0,1,0,1
7,2.0,3,1,21.0750,0,1,1,0,1
8,27.0,0,2,11.1333,0,1,0,0,1
9,14.0,1,0,30.0708,1,0,0,0,0


(889, 9)

In [10]:
# Logistic regression 함수 import
from sklearn.linear_model import LogisticRegression

In [11]:
# k-fold cross-validation 함수 import
from sklearn.model_selection import KFold

In [12]:
cv = KFold(n_splits = 5, shuffle = True) # 5-fold cv 함수 입력

In [13]:
logit_reg = LogisticRegression() # LASSO regression 함수 명명

In [14]:
sp_tr_idx, sp_te_idx = list(cv.split(final_X))[2] # 3번째 cv의 training set과 test set

In [15]:
sp_X_train = final_X.iloc[sp_tr_idx] # cv로 찾은 training set index로 독립변수 training set 나누기
sp_X_test = final_X.iloc[sp_te_idx] # cv로 찾은 test set index로 독립변수 test set 나누기
sp_y_train = y[sp_tr_idx] # cv로 찾은 training set index로 종속변수 training set 나누기
sp_y_test = y[sp_te_idx] # cv로 찾은 test set index로 종속변수 test set 나누기

In [16]:
# scaling 함수 import
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler() # scaler 함수 명명
scaler = scaler.fit(sp_X_train.iloc[:, 0:np.shape(X_num)[1]]) # scaler 함수 fitting

In [17]:
# training set 내 연속형 데이터의 scaling
zs_X_train = scaler.transform(sp_X_train.iloc[:, 0:np.shape(X_num)[1]])
# training set의 연속형과 이산형 데이터 합치기
zs_X_train = np.c_[zs_X_train, sp_X_train.iloc[:, np.shape(X_num)[1]:].values]
# test set 내 연속형 데이터의 scaling (training set의 정보 이용)
zs_X_test = scaler.transform(sp_X_test.iloc[:, 0:np.shape(X_num)[1]])
# test set의 연속형과 이산형 데이터 합치기
zs_X_test = np.c_[zs_X_test, sp_X_test.iloc[:, np.shape(X_num)[1]:].values]

In [18]:
# scaling 시 사용한 평균값(mean)과 표준편차(var의 제곱근)
scaler.mean_
scaler.var_ ** 0.5

array([29.86040788,  0.47819972,  0.36146273, 31.6203166 ])

array([13.14200936,  1.01147571,  0.79387961, 50.94488192])

In [19]:
logit_reg.fit(zs_X_train, sp_y_train) # Logistic regression 예측 모형 학습

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [20]:
logit_reg.score(zs_X_train, sp_y_train) # training set의 R-squared 결과
logit_reg.score(zs_X_test, sp_y_test) # test set의 R-squared 결과

0.8087201125175809

0.7921348314606742

In [21]:
# training set을 통해 학습된 예측 모형의 회귀 계수
logit_reg.coef_

array([[-0.53682284, -0.32330394, -0.06127442,  0.26662972, -0.652794  ,
        -1.956933  , -2.50559365,  0.03308656, -0.48035332]])

In [22]:
# 회귀 계수들의 승수비 (odds ratio)
np.exp(logit_reg.coef_)

array([[0.58460268, 0.72375384, 0.94056509, 1.30555693, 0.52058921,
        0.1412911 , 0.08162713, 1.03364001, 0.6185648 ]])

In [23]:
# 예: 7번째 독립변수에 대한 logistic regression 결과 해석
np.exp(logit_reg.coef_)[:, 6]

array([0.08162713])

In [24]:
# 예측 모형의 종속변수 예측값
logit_reg.predict(zs_X_train)

array([0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0,
       0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0,
       1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0,

In [25]:
# transform to original values

In [26]:
# scaling의 표준편차
scaler.var_ ** 0.5

array([13.14200936,  1.01147571,  0.79387961, 50.94488192])

In [27]:
# 이산형 변수를 포함한 scaling의 표준편차
# 이산형 변수는 scaling이 없었으므로, 1로 나누어 줌
std_coef = np.r_[scaler.var_ ** 0.5, np.ones(np.shape(final_X)[1] - np.shape(X_num)[1])]
std_coef

array([13.14200936,  1.01147571,  0.79387961, 50.94488192,  1.        ,
        1.        ,  1.        ,  1.        ,  1.        ])

In [28]:
# 원래의 변수에 대한 회귀 계수들의 승수비 (odds ratio)
np.exp(logit_reg.coef_ / std_coef)

array([[0.95997518, 0.72641348, 0.92571995, 1.00524741, 0.52058921,
        0.1412911 , 0.08162713, 1.03364001, 0.6185648 ]])