In [1]:
import numpy as np
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
df = pd.read_csv('Titanic.csv') # 분석할 데이터 불러오기

In [3]:
X = df.iloc[:, :-1] # 독립변수 matrix

In [4]:
y = df.iloc[:, -1] # 종속변수 matrix

In [5]:
# 독립변수가 연속형인 데이터
X_num = df.iloc[:, [2, 3, 4, 5]]
# 독립변수가 이산형인 데이터
X_cat = df.iloc[:, [0, 1, 6]]

In [6]:
# 3번째 독립변수의 최소값, 최대값, 평균값 확인
np.min(X.iloc[:, 2]), np.max(X.iloc[:, 2]), np.mean(X.iloc[:, 2])
# 6번째 독립변수의 최소값, 최대값, 평균값 확인
np.min(X.iloc[:, 5]), np.max(X.iloc[:, 5]), np.mean(X.iloc[:, 5])

(0.42, 80.0, 29.713352080989875)

(0.0, 512.3292, 32.09668087739032)

In [7]:
# 3번째 독립변수를 20세 미만은 young
# 20세 이상 50세 미만은 adult
# 50세 이상은 old로 이산화 시키기
young_idx = np.where(X.iloc[:, 2] < 20)[0]
adult_idx = np.where((20 <= X.iloc[:, 2]) & (X.iloc[:, 2] < 50))[0]
old_idx = np.where(50 <= X.iloc[:, 2])[0]

X.iloc[young_idx, 2] = 'young'
X.iloc[adult_idx, 2] = 'adult'
X.iloc[old_idx, 2] = 'old'

In [8]:
# 이산화 완료된 3번째 변수의 value 별 개수 확인
sum(X.iloc[:, 2] == 'young'), sum(X.iloc[:, 2] == 'adult'), sum(X.iloc[:, 2] == 'old')

(164, 652, 73)

In [9]:
# 6번째 독립변수를 25 미만은 cheap
# 25 이상 70 미만은 proper
# 70 이상은 expensive로 이산화 시키기
cheap_idx = np.where(X.iloc[:, 5] < 25)[0]
proper_idx = np.where((25 <= X.iloc[:, 5]) & (X.iloc[:, 5] < 70))[0]
expensive_idx = np.where(70 <= X.iloc[:, 5])[0]

X.iloc[cheap_idx, 5] = 'cheap'
X.iloc[proper_idx, 5] = 'proper'
X.iloc[expensive_idx, 5] = 'expensive'

In [10]:
# 이산화 완료된 6번째 변수의 value 별 개수 확인
sum(X.iloc[:, 5] == 'cheap'), sum(X.iloc[:, 5] == 'proper'), sum(X.iloc[:, 5] == 'expensive')

(557, 229, 103)

In [11]:
# 독립변수가 연속형인 데이터
X_num = X.iloc[:, [3, 4]]
# 독립변수가 이산형인 데이터
X_cat = X.iloc[:, [0, 1, 2, 5, 6]]

In [12]:
tmp_df = X_cat # 이산형 데이터는 임시로 다른 곳에 저장
final_X = X_num # 연속형 데이터는 dummy 변수가 필요 없으므로 분석할 데이터에 저장

In [13]:
# 이산형 데이터를 하나씩 dummy 변수로 변환하는 작업 수행
for i in X_cat.columns:
    cat_list = pd.get_dummies(tmp_df[i], drop_first = True, prefix = i)
    final_X = final_X.join(cat_list) # dummy 변수로 만든 이산형 데이터를 분석용 데이터에 합치기

In [14]:
final_X # 분석용 데이터 확인
np.shape(final_X)

Unnamed: 0,SibSp,Parch,Pclass_2,Pclass_3,Sex_male,Age_old,Age_young,Fare_expensive,Fare_proper,Embarked_Q,Embarked_S
0,1,0,0,1,1,0,0,0,0,0,1
1,1,0,0,0,0,0,0,1,0,0,0
2,0,0,0,1,0,0,0,0,0,0,1
3,1,0,0,0,0,0,0,0,1,0,1
4,0,0,0,1,1,0,0,0,0,0,1
5,0,0,0,1,1,0,0,0,0,1,0
6,0,0,0,0,1,1,0,0,1,0,1
7,3,1,0,1,1,0,1,0,0,0,1
8,0,2,0,1,0,0,0,0,0,0,1
9,1,0,1,0,0,0,1,0,1,0,0


(889, 11)

In [15]:
# Logistic regression 함수 import
from sklearn.linear_model import LogisticRegression

In [16]:
# k-fold cross-validation 함수 import
from sklearn.model_selection import KFold

In [17]:
cv = KFold(n_splits = 5, shuffle = True) # 5-fold cv 함수 입력

In [18]:
logit_reg = LogisticRegression() # LASSO regression 함수 명명

In [19]:
sp_tr_idx, sp_te_idx = list(cv.split(final_X))[2] # 3번째 cv의 training set과 test set

In [20]:
sp_X_train = final_X.iloc[sp_tr_idx] # cv로 찾은 training set index로 독립변수 training set 나누기
sp_X_test = final_X.iloc[sp_te_idx] # cv로 찾은 test set index로 독립변수 test set 나누기
sp_y_train = y[sp_tr_idx] # cv로 찾은 training set index로 종속변수 training set 나누기
sp_y_test = y[sp_te_idx] # cv로 찾은 test set index로 종속변수 test set 나누기

In [21]:
# scaling 함수 import
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler() # scaler 함수 명명
scaler = scaler.fit(sp_X_train.iloc[:, 0:np.shape(X_num)[1]]) # scaler 함수 fitting

In [22]:
# training set 내 연속형 데이터의 scaling
zs_X_train = scaler.transform(sp_X_train.iloc[:, 0:np.shape(X_num)[1]])
# training set의 연속형과 이산형 데이터 합치기
zs_X_train = np.c_[zs_X_train, sp_X_train.iloc[:, np.shape(X_num)[1]:].values]
# test set 내 연속형 데이터의 scaling (training set의 정보 이용)
zs_X_test = scaler.transform(sp_X_test.iloc[:, 0:np.shape(X_num)[1]])
# test set의 연속형과 이산형 데이터 합치기
zs_X_test = np.c_[zs_X_test, sp_X_test.iloc[:, np.shape(X_num)[1]:].values]

In [23]:
# scaling 시 사용한 평균값(mean)과 표준편차(var의 제곱근)
scaler.mean_
scaler.var_ ** 0.5

array([0.49929677, 0.36146273])

array([1.08028598, 0.76684467])

In [24]:
logit_reg.fit(sp_X_train, sp_y_train) # Logistic regression 예측 모형 학습

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [25]:
logit_reg.score(zs_X_train, sp_y_train) # training set의 R-squared 결과
logit_reg.score(zs_X_test, sp_y_test) # test set의 R-squared 결과

0.8016877637130801

0.7584269662921348

In [26]:
# transform to original values

In [27]:
# scaling의 표준편차
scaler.var_ ** 0.5

array([1.08028598, 0.76684467])

In [28]:
# 이산형 변수를 포함한 scaling의 표준편차
# 이산형 변수는 scaling이 없었으므로, 1로 나누어 줌
std_coef = np.r_[scaler.var_ ** 0.5, np.ones(np.shape(final_X)[1] - np.shape(X_num)[1])]
std_coef

array([1.08028598, 0.76684467, 1.        , 1.        , 1.        ,
       1.        , 1.        , 1.        , 1.        , 1.        ,
       1.        ])

In [29]:
# 원래의 변수에 대한 회귀 계수들의 승수비 (odds ratio)
np.exp(logit_reg.coef_ / std_coef)

array([[0.72334935, 0.92531847, 0.60175095, 0.22143211, 0.07593339,
        0.70580613, 2.07926282, 1.87408831, 1.10135246, 0.89491004,
        0.6057534 ]])

In [30]:
# 승수비 결과를 pandas의 data frame으로 정리
Final_Result = pd.DataFrame(np.exp(logit_reg.coef_ / std_coef), columns = final_X.columns)
Final_Result

Unnamed: 0,SibSp,Parch,Pclass_2,Pclass_3,Sex_male,Age_old,Age_young,Fare_expensive,Fare_proper,Embarked_Q,Embarked_S
0,0.723349,0.925318,0.601751,0.221432,0.075933,0.705806,2.079263,1.874088,1.101352,0.89491,0.605753
