In [1]:
import pandas as pd

train = pd.read_csv(r"C:\Users\82109\OneDrive\바탕 화면\python study\kaggle\porto seguro\train.csv", index_col='id')
test = pd.read_csv(r"C:\Users\82109\OneDrive\바탕 화면\python study\kaggle\porto seguro\test.csv", index_col='id')
submission = pd.read_csv(r"C:\Users\82109\OneDrive\바탕 화면\python study\kaggle\porto seguro\sample_submission.csv", index_col='id')

#### 피처 엔지니어링

In [2]:
all_data = pd.concat([train, test], ignore_index=True)
all_data = all_data.drop('target', axis=1) # 타깃값 제거

In [3]:
all_features = all_data.columns # 전체 피처
all_features 

Index(['ps_ind_01', 'ps_ind_02_cat', 'ps_ind_03', 'ps_ind_04_cat',
       'ps_ind_05_cat', 'ps_ind_06_bin', 'ps_ind_07_bin', 'ps_ind_08_bin',
       'ps_ind_09_bin', 'ps_ind_10_bin', 'ps_ind_11_bin', 'ps_ind_12_bin',
       'ps_ind_13_bin', 'ps_ind_14', 'ps_ind_15', 'ps_ind_16_bin',
       'ps_ind_17_bin', 'ps_ind_18_bin', 'ps_reg_01', 'ps_reg_02', 'ps_reg_03',
       'ps_car_01_cat', 'ps_car_02_cat', 'ps_car_03_cat', 'ps_car_04_cat',
       'ps_car_05_cat', 'ps_car_06_cat', 'ps_car_07_cat', 'ps_car_08_cat',
       'ps_car_09_cat', 'ps_car_10_cat', 'ps_car_11_cat', 'ps_car_11',
       'ps_car_12', 'ps_car_13', 'ps_car_14', 'ps_car_15', 'ps_calc_01',
       'ps_calc_02', 'ps_calc_03', 'ps_calc_04', 'ps_calc_05', 'ps_calc_06',
       'ps_calc_07', 'ps_calc_08', 'ps_calc_09', 'ps_calc_10', 'ps_calc_11',
       'ps_calc_12', 'ps_calc_13', 'ps_calc_14', 'ps_calc_15_bin',
       'ps_calc_16_bin', 'ps_calc_17_bin', 'ps_calc_18_bin', 'ps_calc_19_bin',
       'ps_calc_20_bin'],
      dtype='obj

#### 명목형 피처 원-핫 인코딩

In [4]:
from sklearn.preprocessing import OneHotEncoder
# 명목형 피처 추출
cat_features = [feature for feature in all_features if 'cat' in feature]

onehot_encoder = OneHotEncoder()
encoded_cat_matrix = onehot_encoder.fit_transform(all_data[cat_features])

encoded_cat_matrix

<1488028x184 sparse matrix of type '<class 'numpy.float64'>'
	with 20832392 stored elements in Compressed Sparse Row format>

In [5]:
# 필요 없는 피처 제거
drop_features = ['ps_ind_14', 'ps_ind_10_bin', 'ps_ind_11_bin', 'ps_ind_12_bin', 'ps_ind_13_bin', 'ps_car_14']

# 명목형 피처, calc 분류의 피처, 위의 피처 제외한 피처들
remaining_features = [feature for feature in all_features 
                      if ('cat' not in feature and 'calc' not in feature and feature not in drop_features)]

In [6]:
# 원-핫 인코딩과 remaining_features 합치기

from scipy import sparse

all_data_sprs = sparse.hstack([sparse.csr_matrix(all_data[remaining_features]), encoded_cat_matrix], format='csr')

In [7]:
# 데이터 나누기
num_train = len(train)

x = all_data_sprs[:num_train]
x_test = all_data_sprs[num_train:]

y = train['target'].values

### 평가지표 계산 함수 작성 : 정규화 지니계수 계산 함수
- 값의 범위를 0~1 사이로 조정하고 0에 가까울수록 성능이 나쁘고, 1에 가까울수록 성능이 좋다

In [8]:
import numpy as np

def eval_gini(y_true, y_pred):
    # 실제값과 예측값의 크기가 서로 같은지 확인(값이 다르면 오류 발생)
    assert y_true.shape == y_pred.shape
    
    n_samples = y_true.shape[0] # 데이터 개수
    l_mid = np.linspace(1/n_samples, 1, n_samples) # 대각선 값
    
    # 예측값에 대한 지니계수
    pred_order = y_true[y_pred.argsort()] # y_true 크기순으로 y_true 값 정렬
    l_pred = np.cumsum(pred_order) / np.sum(pred_order) # 로렌츠 곡선
    g_pred = np.sum(l_mid - l_pred) # 예측값에 대한 지니계수
    
    # 예측이 완벽할 때 지니계수
    true_order = y_true[y_true.argsort()] # y_true 크기순으로 y_true 값 정렬
    l_true = np.cumsum(true_order) / np.sum(true_order) # 로렌츠 곡선
    g_true = np.sum(l_mid - l_true) # 예측이 완벽할 때 지니계수 
    
    # 정규화된 지니계수
    return g_pred / g_true

In [9]:
# LightGBM용 gini() 함수

def gini(preds, dtrain):
    labels = dtrain.get_label()
    return 'gini', eval_gini(labels, preds), True

#### OOF 예측 : Out of Fold prediction : K 폴드 교차 검증을 수행하면서 각 폴드마다 테스트 데이터로 예측하는 방식

In [10]:
from sklearn.model_selection import StratifiedKFold

# 층화 K 폴드 교차 검증기 : 타깃값 불균형 
folds = StratifiedKFold(n_splits=5, shuffle=True, random_state=1991)

In [11]:
# 하이퍼파라미터 설정
params = {'objective':'binary',
         'learning_rate':0.01,
         'force_row_wise':True,
         'random_state':0}

In [12]:
oof_val_preds = np.zeros(x.shape[0])
oof_test_preds = np.zeros(x_test.shape[0])

In [13]:
import lightgbm as lgb

# oof 방식으로 모델, 훈련, 검증, 예측
for idx, (train_idx, valid_idx) in enumerate(folds.split(x,y)):
    # 각 폴드를 구분하는 문구 출력
    print('#'*40, f'폴드 {idx+1} / 폴드 {folds.n_splits}', '#'*40)
    
    x_train, y_train = x[train_idx], y[train_idx] # 훈련용 데이터
    x_valid, y_valid = x[valid_idx], y[valid_idx] # 검증용 데이터
    
    # lightgbm 전용 데이터셋 생성
    dtrain = lgb.Dataset(x_train, y_train)
    dvalid = lgb.Dataset(x_valid, y_valid)
    
    lgb_model = lgb.train(params=params, train_set=dtrain, num_boost_round = 1000,
                         valid_sets=dvalid, feval=gini, early_stopping_rounds=100, verbose_eval=100)
    
    # 테스트 데이터를 활용해 oof 예측
    oof_test_preds += lgb_model.predict(x_test)/folds.n_splits
    # 모델 성능 평가를 위한 검증 데이터 타깃값 예측
    oof_val_preds[valid_idx] += lgb_model.predict(x_valid)
    
    # 검증 데이터 예측 확률에 대한 정규화 지니계수
    gini_score = eval_gini(y_valid, oof_val_preds[valid_idx])
    print(f'폴드 {idx+1} 지니계수 : {gini_score}\n')

######################################## 폴드 1 / 폴드 5 ########################################




[LightGBM] [Info] Number of positive: 17355, number of negative: 458814
[LightGBM] [Info] Total Bins 1095
[LightGBM] [Info] Number of data points in the train set: 476169, number of used features: 200
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.036447 -> initscore=-3.274764
[LightGBM] [Info] Start training from score -3.274764
Training until validation scores don't improve for 100 rounds
[100]	valid_0's binary_logloss: 0.153354	valid_0's gini: 0.261651
[200]	valid_0's binary_logloss: 0.152426	valid_0's gini: 0.275704
[300]	valid_0's binary_logloss: 0.152023	valid_0's gini: 0.282277
[400]	valid_0's binary_logloss: 0.1518	valid_0's gini: 0.286648
[500]	valid_0's binary_logloss: 0.151713	valid_0's gini: 0.287944
[600]	valid_0's binary_logloss: 0.151672	valid_0's gini: 0.288637
[700]	valid_0's binary_logloss: 0.151659	valid_0's gini: 0.288939
Early stopping, best iteration is:
[681]	valid_0's binary_logloss: 0.151659	valid_0's gini: 0.289034
폴드 1 지니계수 : 0.2890336154188232

##########

In [14]:
print('OOF 검증 데이터 지니계수:', eval_gini(y, oof_val_preds))

OOF 검증 데이터 지니계수: 0.2804995714877777


In [15]:
submission['target'] = oof_test_preds
submission.to_csv(r"C:\Users\82109\OneDrive\바탕 화면\python study\kaggle\porto seguro\sample_submission.csv")