- 1. 데이터셋 확인
    - 1.1 Null data check
    - 1.2 target label 확인
    

- 2. EDA
    - 2.1 time
    - 2.2 player
    - 2.3 species
    - 2.4 event & event_contents

In [1]:
# 패키지 불러오기

import pandas as pd                         # 데이터 분석 라이브러리
import numpy as np                          # 계산 라이브러리
from tqdm import tqdm                       # 진행바
from sklearn.metrics import roc_auc_score   # AUC 스코어 계산
from sklearn.model_selection import KFold   # K-fold CV    
from bayes_opt import BayesianOptimization  # 베이지안 최적화 라이브러리  
from functools import partial               # 함수 변수 고정
import lightgbm as lgb                      # LightGBM 라이브러리
import warnings                             
warnings.filterwarnings("ignore")           # 경고 문구 미표시

In [3]:
train = pd.read_csv('data/train.csv')

In [4]:
test = pd.read_csv('data/test.csv')

# 변수 설명

game_id : 경기 구분 기호

winner : 승리 선수 --> 한 게임에서 0과 1이라는 플레이어가 있는데 둘 중 누가 이긴지를 의미함

time : 경기 시간

player : 선수

##1) 0: 첫 번째 선수

##2) 1: 두 번째 선수

species : 종족

##1) T: 테란

##2) P: 프로토스

##3) Z: 저그

event : 행동 종류

event_contents : 행동 상세

##1) Ability : 생산, 공격 등 선수의 주요 행동

##2) AddToControlGroup : 부대에 추가

##3) Camera : 시점 선택

##4) ControlGroup : 부대 행동

##5) GetControlGroup : 부대 불러오기

##6) Right Click : 마우스 우클릭

##7) Selection : 객체 선택

##8) SetControlGroup : 부대 지정

In [1]:
pd.options.display.float_format = '{:.2f}'.format # 소수점 둘째자리까지 표현

# 연속형, 이산형 데이터의 기술적 통계
train.describe() 

NameError: name 'pd' is not defined

# 데이콘 모델

In [6]:
def species_converter(string):
    if string == 'T':
        return 0
    elif string == 'P':
        return 1
    elif string == 'Z':
        return 2
    else:
        raise ValueError

def data_preparation(df, answer=False):
    game_ids = df['game_id'].unique()
    events = ['Ability', 'AddToControlGroup', 'Camera', 'ControlGroup', 'GetControlGroup', 'Right Click', 'Selection', 'SetControlGroup']
    unique_event_0, unique_event_1, delta_event = {}, {}, {}
    for event in events:
        unique_event_0['P0_' + event] = 0
        unique_event_1['P1_' + event] = 0
        delta_event['delta_' + event] = 0
        
    species = df.groupby(['game_id', 'player']).species.unique()
    event_count = df.groupby(['game_id', 'player']).event.value_counts()
    if answer:
        winners = df.groupby(['game_id']).winner.max()
    
    x_data, y_data = [], []
    for game_id in tqdm(game_ids):
        df_event_count = event_count[game_id].unstack(level=-1)
        df = pd.DataFrame(species[game_id])
        df = pd.concat([df, df_event_count], axis=1)   
        df = df.fillna(0)
        
        df_P0_species = pd.DataFrame([species_converter(df.loc[0]['species'][0])], columns=['P0_species'])        
        df_P1_species = pd.DataFrame([species_converter(df.loc[1]['species'][0])], columns=['P1_species'])
        df = df.drop(['species'], axis=1)

        df_P0_event = unique_event_0.copy()
        for column in df.columns:
            df_P0_event['P0_' + column] = df.loc[0][column]
        df_P0_event = pd.DataFrame(pd.Series(df_P0_event)).T

        df_P1_event = unique_event_1.copy()
        for column in df.columns:
            df_P1_event['P1_' + column] = df.loc[1][column]
        df_P1_event = pd.DataFrame(pd.Series(df_P1_event)).T
        
        df_delta_event = delta_event.copy()
        for column in df.columns:
            df_delta_event['delta_' + column] = df_P0_event['P0_' + column][0] - df_P1_event['P1_' + column][0]
        df_delta_event = pd.DataFrame(pd.Series(df_delta_event)).T

        out = pd.concat([df_P0_species, df_P0_event, df_P1_species, df_P1_event, df_delta_event], axis=1)
        out.index = [game_id]
        out.index.name = 'game_id'
        
        x_data.append(out)
        if answer:
            y_data.append(winners[game_id])  

    x_data = pd.concat(x_data)
    y_data = np.array(y_data)
    
    return x_data, y_data

In [12]:
x_train, y_train = data_preparation(train, answer=True)
x_train.head()


  0%|                                                                                        | 0/38872 [00:00<?, ?it/s][A
  0%|                                                                                | 6/38872 [00:00<11:37, 55.71it/s][A
  0%|                                                                               | 16/38872 [00:00<10:16, 63.07it/s][A
  0%|                                                                               | 25/38872 [00:00<09:24, 68.86it/s][A
  0%|                                                                               | 35/38872 [00:00<08:40, 74.63it/s][A
  0%|                                                                               | 43/38872 [00:00<08:40, 74.53it/s][A
  0%|                                                                               | 52/38872 [00:00<08:16, 78.23it/s][A
  0%|                                                                               | 61/38872 [00:00<07:57, 81.26it/s][A
  0%|▏         

  3%|██▎                                                                          | 1181/38872 [00:14<08:39, 72.53it/s][A
  3%|██▎                                                                          | 1190/38872 [00:14<08:12, 76.48it/s][A
  3%|██▎                                                                          | 1198/38872 [00:14<08:09, 76.89it/s][A
  3%|██▍                                                                          | 1207/38872 [00:14<07:58, 78.77it/s][A
  3%|██▍                                                                          | 1215/38872 [00:15<08:01, 78.27it/s][A
  3%|██▍                                                                          | 1224/38872 [00:15<07:54, 79.37it/s][A
  3%|██▍                                                                          | 1233/38872 [00:15<07:44, 81.01it/s][A
  3%|██▍                                                                          | 1242/38872 [00:15<08:00, 78.35it/s][A
  3%|██▍        

  6%|████▊                                                                        | 2404/38872 [00:29<07:39, 79.43it/s][A
  6%|████▊                                                                        | 2414/38872 [00:29<07:19, 83.02it/s][A
  6%|████▊                                                                        | 2423/38872 [00:29<07:10, 84.58it/s][A
  6%|████▊                                                                        | 2433/38872 [00:29<07:00, 86.67it/s][A
  6%|████▊                                                                        | 2442/38872 [00:29<07:01, 86.46it/s][A
  6%|████▊                                                                        | 2451/38872 [00:29<07:00, 86.56it/s][A
  6%|████▊                                                                        | 2460/38872 [00:29<06:59, 86.86it/s][A
  6%|████▉                                                                        | 2470/38872 [00:29<06:48, 89.05it/s][A
  6%|████▉      

  9%|███████▏                                                                     | 3644/38872 [00:43<08:28, 69.33it/s][A
  9%|███████▏                                                                     | 3652/38872 [00:43<08:08, 72.08it/s][A
  9%|███████▎                                                                     | 3661/38872 [00:43<07:41, 76.31it/s][A
  9%|███████▎                                                                     | 3670/38872 [00:44<07:24, 79.18it/s][A
  9%|███████▎                                                                     | 3679/38872 [00:44<07:17, 80.44it/s][A
  9%|███████▎                                                                     | 3688/38872 [00:44<07:09, 82.01it/s][A
 10%|███████▎                                                                     | 3698/38872 [00:44<06:54, 84.77it/s][A
 10%|███████▎                                                                     | 3707/38872 [00:44<06:48, 86.10it/s][A
 10%|███████▎   

 12%|█████████▌                                                                   | 4844/38872 [00:58<06:45, 83.89it/s][A
 12%|█████████▌                                                                   | 4853/38872 [00:58<06:46, 83.79it/s][A
 13%|█████████▋                                                                   | 4862/38872 [00:58<06:47, 83.49it/s][A
 13%|█████████▋                                                                   | 4871/38872 [00:58<06:43, 84.21it/s][A
 13%|█████████▋                                                                   | 4881/38872 [00:58<06:32, 86.63it/s][A
 13%|█████████▋                                                                   | 4891/38872 [00:58<06:24, 88.41it/s][A
 13%|█████████▋                                                                   | 4901/38872 [00:58<06:16, 90.17it/s][A
 13%|█████████▋                                                                   | 4911/38872 [00:59<06:12, 91.20it/s][A
 13%|█████████▋ 

 16%|████████████                                                                 | 6071/38872 [01:12<06:39, 82.19it/s][A
 16%|████████████                                                                 | 6080/38872 [01:13<07:11, 75.93it/s][A
 16%|████████████                                                                 | 6089/38872 [01:13<07:03, 77.46it/s][A
 16%|████████████                                                                 | 6098/38872 [01:13<06:48, 80.24it/s][A
 16%|████████████                                                                 | 6107/38872 [01:13<06:40, 81.88it/s][A
 16%|████████████                                                                 | 6116/38872 [01:13<06:33, 83.28it/s][A
 16%|████████████▏                                                                | 6125/38872 [01:13<06:27, 84.54it/s][A
 16%|████████████▏                                                                | 6134/38872 [01:13<06:34, 83.08it/s][A
 16%|███████████

 18%|██████████████▏                                                              | 7156/38872 [01:28<07:31, 70.27it/s][A
 18%|██████████████▏                                                              | 7164/38872 [01:29<07:36, 69.39it/s][A
 18%|██████████████▏                                                              | 7172/38872 [01:29<07:43, 68.43it/s][A
 18%|██████████████▏                                                              | 7180/38872 [01:29<07:27, 70.83it/s][A
 18%|██████████████▏                                                              | 7188/38872 [01:29<07:28, 70.59it/s][A
 19%|██████████████▎                                                              | 7197/38872 [01:29<07:06, 74.30it/s][A
 19%|██████████████▎                                                              | 7205/38872 [01:29<12:03, 43.77it/s][A
 19%|██████████████▎                                                              | 7211/38872 [01:29<12:04, 43.72it/s][A
 19%|███████████

 22%|████████████████▋                                                            | 8395/38872 [01:43<06:14, 81.43it/s][A
 22%|████████████████▋                                                            | 8404/38872 [01:43<06:08, 82.73it/s][A
 22%|████████████████▋                                                            | 8413/38872 [01:43<06:02, 84.13it/s][A
 22%|████████████████▋                                                            | 8423/38872 [01:43<05:48, 87.47it/s][A
 22%|████████████████▋                                                            | 8433/38872 [01:44<05:39, 89.74it/s][A
 22%|████████████████▋                                                            | 8443/38872 [01:44<05:39, 89.68it/s][A
 22%|████████████████▋                                                            | 8453/38872 [01:44<05:34, 90.84it/s][A
 22%|████████████████▊                                                            | 8463/38872 [01:44<05:30, 92.04it/s][A
 22%|███████████

 25%|███████████████████▏                                                         | 9709/38872 [01:57<05:07, 94.74it/s][A
 25%|███████████████████▎                                                         | 9719/38872 [01:57<05:06, 94.97it/s][A
 25%|███████████████████▎                                                         | 9729/38872 [01:58<05:05, 95.40it/s][A
 25%|███████████████████▎                                                         | 9739/38872 [01:58<05:04, 95.70it/s][A
 25%|███████████████████▎                                                         | 9749/38872 [01:58<05:01, 96.75it/s][A
 25%|███████████████████▎                                                         | 9759/38872 [01:58<05:02, 96.09it/s][A
 25%|███████████████████▎                                                         | 9769/38872 [01:58<05:03, 95.91it/s][A
 25%|███████████████████▎                                                         | 9779/38872 [01:58<05:04, 95.51it/s][A
 25%|███████████

 28%|█████████████████████▎                                                      | 10908/38872 [02:12<05:28, 85.08it/s][A
 28%|█████████████████████▎                                                      | 10917/38872 [02:12<05:34, 83.68it/s][A
 28%|█████████████████████▎                                                      | 10926/38872 [02:13<05:42, 81.60it/s][A
 28%|█████████████████████▍                                                      | 10936/38872 [02:13<05:30, 84.46it/s][A
 28%|█████████████████████▍                                                      | 10945/38872 [02:13<05:25, 85.87it/s][A
 28%|█████████████████████▍                                                      | 10954/38872 [02:13<05:30, 84.45it/s][A
 28%|█████████████████████▍                                                      | 10964/38872 [02:13<05:19, 87.25it/s][A
 28%|█████████████████████▍                                                      | 10974/38872 [02:13<05:12, 89.33it/s][A
 28%|███████████

 31%|███████████████████████▊                                                    | 12188/38872 [02:27<04:39, 95.49it/s][A
 31%|███████████████████████▊                                                    | 12198/38872 [02:27<04:41, 94.69it/s][A
 31%|███████████████████████▊                                                    | 12208/38872 [02:27<04:38, 95.73it/s][A
 31%|███████████████████████▉                                                    | 12218/38872 [02:27<04:37, 96.21it/s][A
 31%|███████████████████████▉                                                    | 12228/38872 [02:27<04:36, 96.27it/s][A
 31%|███████████████████████▉                                                    | 12239/38872 [02:27<04:33, 97.43it/s][A
 32%|███████████████████████▉                                                    | 12249/38872 [02:27<04:32, 97.70it/s][A
 32%|███████████████████████▉                                                    | 12259/38872 [02:27<04:32, 97.59it/s][A
 32%|███████████

 35%|██████████████████████████▎                                                 | 13433/38872 [02:41<05:16, 80.33it/s][A
 35%|██████████████████████████▎                                                 | 13442/38872 [02:41<05:31, 76.72it/s][A
 35%|██████████████████████████▎                                                 | 13451/38872 [02:41<05:20, 79.27it/s][A
 35%|██████████████████████████▎                                                 | 13460/38872 [02:41<05:16, 80.30it/s][A
 35%|██████████████████████████▎                                                 | 13469/38872 [02:41<05:46, 73.32it/s][A
 35%|██████████████████████████▎                                                 | 13477/38872 [02:42<06:01, 70.32it/s][A
 35%|██████████████████████████▎                                                 | 13485/38872 [02:42<05:59, 70.70it/s][A
 35%|██████████████████████████▍                                                 | 13495/38872 [02:42<05:31, 76.49it/s][A
 35%|███████████

 37%|████████████████████████████▍                                               | 14545/38872 [02:56<05:14, 77.29it/s][A
 37%|████████████████████████████▍                                               | 14554/38872 [02:56<05:08, 78.86it/s][A
 37%|████████████████████████████▍                                               | 14562/38872 [02:56<05:13, 77.65it/s][A
 37%|████████████████████████████▍                                               | 14570/38872 [02:57<05:28, 74.06it/s][A
 38%|████████████████████████████▌                                               | 14578/38872 [02:57<05:36, 72.12it/s][A
 38%|████████████████████████████▌                                               | 14586/38872 [02:57<05:56, 68.12it/s][A
 38%|████████████████████████████▌                                               | 14595/38872 [02:57<05:35, 72.47it/s][A
 38%|████████████████████████████▌                                               | 14604/38872 [02:57<05:24, 74.72it/s][A
 38%|███████████

 40%|██████████████████████████████▋                                             | 15718/38872 [03:11<04:46, 80.95it/s][A
 40%|██████████████████████████████▋                                             | 15727/38872 [03:11<04:43, 81.71it/s][A
 40%|██████████████████████████████▊                                             | 15736/38872 [03:11<04:40, 82.49it/s][A
 41%|██████████████████████████████▊                                             | 15745/38872 [03:11<04:40, 82.35it/s][A
 41%|██████████████████████████████▊                                             | 15754/38872 [03:11<04:38, 82.93it/s][A
 41%|██████████████████████████████▊                                             | 15763/38872 [03:11<04:48, 80.03it/s][A
 41%|██████████████████████████████▊                                             | 15772/38872 [03:12<05:12, 73.89it/s][A
 41%|██████████████████████████████▊                                             | 15780/38872 [03:12<05:18, 72.60it/s][A
 41%|███████████

 43%|████████████████████████████████▊                                           | 16813/38872 [03:27<07:23, 49.78it/s][A
 43%|████████████████████████████████▉                                           | 16822/38872 [03:27<06:34, 55.91it/s][A
 43%|████████████████████████████████▉                                           | 16829/38872 [03:27<06:29, 56.66it/s][A
 43%|████████████████████████████████▉                                           | 16836/38872 [03:27<06:10, 59.53it/s][A
 43%|████████████████████████████████▉                                           | 16844/38872 [03:27<05:50, 62.85it/s][A
 43%|████████████████████████████████▉                                           | 16851/38872 [03:27<05:50, 62.80it/s][A
 43%|████████████████████████████████▉                                           | 16858/38872 [03:28<05:43, 64.13it/s][A
 43%|████████████████████████████████▉                                           | 16868/38872 [03:28<05:13, 70.10it/s][A
 43%|███████████

 46%|██████████████████████████████████▊                                         | 17808/38872 [03:43<04:09, 84.59it/s][A
 46%|██████████████████████████████████▊                                         | 17817/38872 [03:43<04:06, 85.24it/s][A
 46%|██████████████████████████████████▊                                         | 17827/38872 [03:43<04:02, 86.70it/s][A
 46%|██████████████████████████████████▊                                         | 17836/38872 [03:44<04:03, 86.23it/s][A
 46%|██████████████████████████████████▉                                         | 17845/38872 [03:44<04:10, 83.97it/s][A
 46%|██████████████████████████████████▉                                         | 17854/38872 [03:44<04:06, 85.27it/s][A
 46%|██████████████████████████████████▉                                         | 17864/38872 [03:44<04:02, 86.73it/s][A
 46%|██████████████████████████████████▉                                         | 17874/38872 [03:44<03:57, 88.24it/s][A
 46%|███████████

 48%|████████████████████████████████████▊                                       | 18840/38872 [03:59<06:49, 48.91it/s][A
 48%|████████████████████████████████████▊                                       | 18846/38872 [03:59<06:32, 51.02it/s][A
 48%|████████████████████████████████████▊                                       | 18852/38872 [03:59<07:02, 47.39it/s][A
 49%|████████████████████████████████████▊                                       | 18859/38872 [03:59<06:33, 50.80it/s][A
 49%|████████████████████████████████████▉                                       | 18865/38872 [04:00<06:48, 48.99it/s][A
 49%|████████████████████████████████████▉                                       | 18871/38872 [04:00<06:29, 51.35it/s][A
 49%|████████████████████████████████████▉                                       | 18877/38872 [04:00<06:30, 51.24it/s][A
 49%|████████████████████████████████████▉                                       | 18885/38872 [04:00<05:48, 57.34it/s][A
 49%|███████████

 51%|██████████████████████████████████████▉                                     | 19925/38872 [04:14<04:18, 73.33it/s][A
 51%|██████████████████████████████████████▉                                     | 19933/38872 [04:14<04:26, 71.07it/s][A
 51%|██████████████████████████████████████▉                                     | 19941/38872 [04:14<04:21, 72.39it/s][A
 51%|███████████████████████████████████████                                     | 19950/38872 [04:14<04:09, 75.78it/s][A
 51%|███████████████████████████████████████                                     | 19959/38872 [04:15<04:01, 78.37it/s][A
 51%|███████████████████████████████████████                                     | 19968/38872 [04:15<03:54, 80.71it/s][A
 51%|███████████████████████████████████████                                     | 19977/38872 [04:15<04:01, 78.36it/s][A
 51%|███████████████████████████████████████                                     | 19985/38872 [04:15<04:02, 77.98it/s][A
 51%|███████████

 54%|█████████████████████████████████████████▏                                  | 21097/38872 [04:29<03:55, 75.45it/s][A
 54%|█████████████████████████████████████████▎                                  | 21105/38872 [04:29<04:15, 69.62it/s][A
 54%|█████████████████████████████████████████▎                                  | 21113/38872 [04:29<04:18, 68.76it/s][A
 54%|█████████████████████████████████████████▎                                  | 21121/38872 [04:29<04:13, 70.14it/s][A
 54%|█████████████████████████████████████████▎                                  | 21129/38872 [04:29<04:29, 65.72it/s][A
 54%|█████████████████████████████████████████▎                                  | 21136/38872 [04:29<04:42, 62.69it/s][A
 54%|█████████████████████████████████████████▎                                  | 21144/38872 [04:30<04:31, 65.29it/s][A
 54%|█████████████████████████████████████████▎                                  | 21153/38872 [04:30<04:14, 69.54it/s][A
 54%|███████████

 57%|███████████████████████████████████████████▌                                | 22282/38872 [04:44<03:39, 75.53it/s][A
 57%|███████████████████████████████████████████▌                                | 22291/38872 [04:44<03:31, 78.38it/s][A
 57%|███████████████████████████████████████████▌                                | 22300/38872 [04:44<03:25, 80.71it/s][A
 57%|███████████████████████████████████████████▌                                | 22309/38872 [04:44<03:21, 82.22it/s][A
 57%|███████████████████████████████████████████▋                                | 22319/38872 [04:44<03:16, 84.28it/s][A
 57%|███████████████████████████████████████████▋                                | 22328/38872 [04:44<03:15, 84.54it/s][A
 57%|███████████████████████████████████████████▋                                | 22337/38872 [04:44<03:12, 85.67it/s][A
 57%|███████████████████████████████████████████▋                                | 22347/38872 [04:44<03:08, 87.48it/s][A
 58%|███████████

 60%|█████████████████████████████████████████████▊                              | 23444/38872 [04:58<04:36, 55.81it/s][A
 60%|█████████████████████████████████████████████▊                              | 23450/38872 [04:59<06:10, 41.64it/s][A
 60%|█████████████████████████████████████████████▊                              | 23455/38872 [04:59<07:00, 36.66it/s][A
 60%|█████████████████████████████████████████████▊                              | 23460/38872 [04:59<06:57, 36.88it/s][A
 60%|█████████████████████████████████████████████▉                              | 23467/38872 [04:59<06:11, 41.48it/s][A
 60%|█████████████████████████████████████████████▉                              | 23474/38872 [04:59<05:29, 46.71it/s][A
 60%|█████████████████████████████████████████████▉                              | 23483/38872 [04:59<04:45, 53.83it/s][A
 60%|█████████████████████████████████████████████▉                              | 23492/38872 [04:59<04:14, 60.39it/s][A
 60%|███████████

 63%|███████████████████████████████████████████████▉                            | 24503/38872 [05:14<02:57, 80.87it/s][A
 63%|███████████████████████████████████████████████▉                            | 24512/38872 [05:14<02:52, 83.23it/s][A
 63%|███████████████████████████████████████████████▉                            | 24521/38872 [05:14<02:50, 84.03it/s][A
 63%|███████████████████████████████████████████████▉                            | 24531/38872 [05:14<02:46, 86.05it/s][A
 63%|███████████████████████████████████████████████▉                            | 24540/38872 [05:14<02:44, 87.02it/s][A
 63%|███████████████████████████████████████████████▉                            | 24549/38872 [05:14<02:44, 86.93it/s][A
 63%|████████████████████████████████████████████████                            | 24558/38872 [05:14<02:45, 86.39it/s][A
 63%|████████████████████████████████████████████████                            | 24567/38872 [05:15<02:44, 86.76it/s][A
 63%|███████████

 65%|█████████████████████████████████████████████████▋                          | 25445/38872 [05:30<04:18, 51.92it/s][A
 65%|█████████████████████████████████████████████████▊                          | 25452/38872 [05:31<04:06, 54.35it/s][A
 65%|█████████████████████████████████████████████████▊                          | 25458/38872 [05:31<04:18, 51.92it/s][A
 66%|█████████████████████████████████████████████████▊                          | 25464/38872 [05:31<04:30, 49.59it/s][A
 66%|█████████████████████████████████████████████████▊                          | 25472/38872 [05:31<04:00, 55.77it/s][A
 66%|█████████████████████████████████████████████████▊                          | 25480/38872 [05:31<03:40, 60.68it/s][A
 66%|█████████████████████████████████████████████████▊                          | 25487/38872 [05:31<04:11, 53.19it/s][A
 66%|█████████████████████████████████████████████████▊                          | 25493/38872 [05:32<07:00, 31.78it/s][A
 66%|███████████

 68%|███████████████████████████████████████████████████▌                        | 26366/38872 [05:47<02:58, 69.95it/s][A
 68%|███████████████████████████████████████████████████▌                        | 26374/38872 [05:47<02:58, 70.07it/s][A
 68%|███████████████████████████████████████████████████▌                        | 26382/38872 [05:47<02:55, 71.28it/s][A
 68%|███████████████████████████████████████████████████▌                        | 26390/38872 [05:48<02:58, 70.07it/s][A
 68%|███████████████████████████████████████████████████▌                        | 26398/38872 [05:48<03:01, 68.89it/s][A
 68%|███████████████████████████████████████████████████▋                        | 26405/38872 [05:48<03:00, 69.07it/s][A
 68%|███████████████████████████████████████████████████▋                        | 26413/38872 [05:48<02:55, 71.12it/s][A
 68%|███████████████████████████████████████████████████▋                        | 26421/38872 [05:48<02:52, 72.04it/s][A
 68%|███████████

 71%|██████████████████████████████████████████████████████                      | 27623/38872 [06:02<01:54, 98.29it/s][A
 71%|██████████████████████████████████████████████████████                      | 27633/38872 [06:02<01:57, 95.77it/s][A
 71%|██████████████████████████████████████████████████████                      | 27643/38872 [06:02<01:58, 94.86it/s][A
 71%|██████████████████████████████████████████████████████                      | 27654/38872 [06:03<01:56, 96.42it/s][A
 71%|██████████████████████████████████████████████████████                      | 27664/38872 [06:03<01:59, 93.46it/s][A
 71%|██████████████████████████████████████████████████████                      | 27674/38872 [06:03<02:01, 91.99it/s][A
 71%|██████████████████████████████████████████████████████▏                     | 27684/38872 [06:03<02:03, 90.74it/s][A
 71%|██████████████████████████████████████████████████████▏                     | 27694/38872 [06:03<02:01, 92.12it/s][A
 71%|███████████

 74%|███████████████████████████████████████████████████████▉                    | 28638/38872 [06:20<07:55, 21.53it/s][A
 74%|███████████████████████████████████████████████████████▉                    | 28641/38872 [06:20<07:36, 22.43it/s][A
 74%|████████████████████████████████████████████████████████                    | 28647/38872 [06:20<06:26, 26.43it/s][A
 74%|████████████████████████████████████████████████████████                    | 28651/38872 [06:20<07:44, 21.98it/s][A
 74%|████████████████████████████████████████████████████████                    | 28656/38872 [06:20<06:28, 26.31it/s][A
 74%|████████████████████████████████████████████████████████                    | 28661/38872 [06:20<05:51, 29.08it/s][A
 74%|████████████████████████████████████████████████████████                    | 28668/38872 [06:20<04:52, 34.86it/s][A
 74%|████████████████████████████████████████████████████████                    | 28673/38872 [06:20<04:39, 36.52it/s][A
 74%|███████████

 75%|█████████████████████████████████████████████████████████                   | 29208/38872 [06:38<05:11, 30.98it/s][A
 75%|█████████████████████████████████████████████████████████                   | 29214/38872 [06:38<04:33, 35.30it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29220/38872 [06:38<04:13, 38.15it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29225/38872 [06:38<04:23, 36.60it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29231/38872 [06:38<03:53, 41.21it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29237/38872 [06:38<03:40, 43.73it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29242/38872 [06:39<03:41, 43.57it/s][A
 75%|█████████████████████████████████████████████████████████▏                  | 29247/38872 [06:39<03:37, 44.27it/s][A
 75%|███████████

 77%|██████████████████████████████████████████████████████████▋                 | 29995/38872 [06:55<01:56, 76.45it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30003/38872 [06:55<01:55, 77.10it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30011/38872 [06:55<01:57, 75.37it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30019/38872 [06:55<01:59, 73.79it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30027/38872 [06:55<02:09, 68.45it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30035/38872 [06:55<02:07, 69.19it/s][A
 77%|██████████████████████████████████████████████████████████▋                 | 30043/38872 [06:56<02:05, 70.27it/s][A
 77%|██████████████████████████████████████████████████████████▊                 | 30052/38872 [06:56<01:58, 74.52it/s][A
 77%|███████████

 80%|████████████████████████████████████████████████████████████▉               | 31186/38872 [07:10<01:31, 83.61it/s][A
 80%|████████████████████████████████████████████████████████████▉               | 31195/38872 [07:10<01:32, 82.90it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31204/38872 [07:10<01:32, 82.64it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31213/38872 [07:10<01:32, 82.68it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31222/38872 [07:10<01:36, 79.23it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31230/38872 [07:10<01:48, 70.69it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31238/38872 [07:10<01:48, 70.59it/s][A
 80%|█████████████████████████████████████████████████████████████               | 31247/38872 [07:11<01:44, 72.96it/s][A
 80%|███████████

 83%|███████████████████████████████████████████████████████████████▎            | 32353/38872 [07:25<01:20, 80.80it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32362/38872 [07:25<01:18, 83.18it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32371/38872 [07:25<01:17, 83.76it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32380/38872 [07:25<01:16, 85.35it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32390/38872 [07:25<01:14, 87.02it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32400/38872 [07:25<01:12, 88.68it/s][A
 83%|███████████████████████████████████████████████████████████████▎            | 32409/38872 [07:25<01:12, 88.88it/s][A
 83%|███████████████████████████████████████████████████████████████▍            | 32418/38872 [07:25<01:13, 88.23it/s][A
 83%|███████████

 86%|█████████████████████████████████████████████████████████████████▍          | 33484/38872 [07:40<01:04, 83.55it/s][A
 86%|█████████████████████████████████████████████████████████████████▍          | 33493/38872 [07:40<01:05, 81.95it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33502/38872 [07:40<01:05, 81.76it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33511/38872 [07:40<01:06, 80.74it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33520/38872 [07:40<01:05, 81.34it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33529/38872 [07:40<01:05, 81.99it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33538/38872 [07:40<01:03, 83.60it/s][A
 86%|█████████████████████████████████████████████████████████████████▌          | 33548/38872 [07:41<01:02, 85.52it/s][A
 86%|███████████

 89%|███████████████████████████████████████████████████████████████████▊        | 34691/38872 [07:54<00:46, 90.41it/s][A
 89%|███████████████████████████████████████████████████████████████████▊        | 34701/38872 [07:54<00:47, 87.78it/s][A
 89%|███████████████████████████████████████████████████████████████████▊        | 34710/38872 [07:55<00:52, 78.57it/s][A
 89%|███████████████████████████████████████████████████████████████████▉        | 34719/38872 [07:55<00:53, 77.93it/s][A
 89%|███████████████████████████████████████████████████████████████████▉        | 34727/38872 [07:55<00:54, 76.58it/s][A
 89%|███████████████████████████████████████████████████████████████████▉        | 34736/38872 [07:55<00:51, 79.58it/s][A
 89%|███████████████████████████████████████████████████████████████████▉        | 34745/38872 [07:55<00:51, 80.51it/s][A
 89%|███████████████████████████████████████████████████████████████████▉        | 34754/38872 [07:55<00:50, 81.41it/s][A
 89%|███████████

 92%|██████████████████████████████████████████████████████████████████████▎     | 35937/38872 [08:09<00:34, 86.19it/s][A
 92%|██████████████████████████████████████████████████████████████████████▎     | 35947/38872 [08:09<00:33, 87.63it/s][A
 93%|██████████████████████████████████████████████████████████████████████▎     | 35957/38872 [08:09<00:32, 88.89it/s][A
 93%|██████████████████████████████████████████████████████████████████████▎     | 35967/38872 [08:09<00:32, 90.05it/s][A
 93%|██████████████████████████████████████████████████████████████████████▎     | 35977/38872 [08:09<00:31, 91.35it/s][A
 93%|██████████████████████████████████████████████████████████████████████▎     | 35987/38872 [08:09<00:31, 91.54it/s][A
 93%|██████████████████████████████████████████████████████████████████████▍     | 35997/38872 [08:10<00:31, 91.44it/s][A
 93%|██████████████████████████████████████████████████████████████████████▍     | 36007/38872 [08:10<00:31, 91.59it/s][A
 93%|███████████

 96%|████████████████████████████████████████████████████████████████████████▋   | 37190/38872 [08:24<00:19, 87.33it/s][A
 96%|████████████████████████████████████████████████████████████████████████▋   | 37199/38872 [08:24<00:19, 86.65it/s][A
 96%|████████████████████████████████████████████████████████████████████████▋   | 37208/38872 [08:24<00:19, 85.95it/s][A
 96%|████████████████████████████████████████████████████████████████████████▊   | 37217/38872 [08:24<00:19, 85.21it/s][A
 96%|████████████████████████████████████████████████████████████████████████▊   | 37226/38872 [08:24<00:19, 84.00it/s][A
 96%|████████████████████████████████████████████████████████████████████████▊   | 37235/38872 [08:24<00:19, 83.17it/s][A
 96%|████████████████████████████████████████████████████████████████████████▊   | 37244/38872 [08:24<00:19, 82.83it/s][A
 96%|████████████████████████████████████████████████████████████████████████▊   | 37253/38872 [08:24<00:19, 83.97it/s][A
 96%|███████████

 99%|███████████████████████████████████████████████████████████████████████████▏| 38429/38872 [08:38<00:04, 88.80it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38439/38872 [08:38<00:04, 89.74it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38448/38872 [08:38<00:04, 86.04it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38457/38872 [08:38<00:04, 84.32it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38466/38872 [08:38<00:04, 81.36it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38475/38872 [08:38<00:04, 81.11it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▏| 38485/38872 [08:39<00:04, 84.11it/s][A
 99%|███████████████████████████████████████████████████████████████████████████▎| 38494/38872 [08:39<00:04, 84.64it/s][A
 99%|███████████

Unnamed: 0_level_0,P0_species,P0_Ability,P0_AddToControlGroup,P0_Camera,P0_ControlGroup,P0_GetControlGroup,P0_Right Click,P0_Selection,P0_SetControlGroup,P1_species,...,P1_Selection,P1_SetControlGroup,delta_Ability,delta_AddToControlGroup,delta_Camera,delta_ControlGroup,delta_GetControlGroup,delta_Right Click,delta_Selection,delta_SetControlGroup
game_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,0,34.0,2.0,444.0,0.0,24.0,35.0,50.0,3.0,0,...,57.0,1.0,0.0,2.0,19.0,0.0,21.0,7.0,-7.0,2.0
1,1,77.0,1.0,627.0,0.0,162.0,160.0,186.0,10.0,0,...,116.0,8.0,10.0,1.0,-231.0,0.0,131.0,29.0,70.0,2.0
2,1,69.0,6.0,413.0,0.0,99.0,160.0,90.0,14.0,2,...,232.0,9.0,-16.0,1.0,-312.0,-2.0,-10.0,-44.0,-142.0,5.0
3,0,82.0,0.0,713.0,0.0,132.0,276.0,180.0,6.0,1,...,148.0,19.0,-7.0,0.0,325.0,0.0,-578.0,8.0,32.0,-13.0
4,0,57.0,1.0,430.0,0.0,224.0,177.0,67.0,10.0,2,...,126.0,8.0,21.0,-3.0,158.0,0.0,125.0,71.0,-59.0,2.0


In [None]:
def lgb_cv(num_leaves, learning_rate, n_estimators, subsample, colsample_bytree, reg_alpha, reg_lambda, x_data=None, y_data=None, n_splits=5, output='score'):
    score = 0
    kf = KFold(n_splits=n_splits)
    models = []
    for train_index, valid_index in kf.split(x_data):
        x_train, y_train = x_data.iloc[train_index], y_data[train_index]
        x_valid, y_valid = x_data.iloc[valid_index], y_data[valid_index]
        
        model = lgb.LGBMClassifier(
            num_leaves = int(num_leaves), 
            learning_rate = learning_rate, 
            n_estimators = int(n_estimators), 
            subsample = np.clip(subsample, 0, 1), 
            colsample_bytree = np.clip(colsample_bytree, 0, 1), 
            reg_alpha = reg_alpha, 
            reg_lambda = reg_lambda,
        )
        
        model.fit(x_train, y_train)
        models.append(model)
        
        pred = model.predict_proba(x_valid)[:, 1]
        true = y_valid
        score += roc_auc_score(true, pred)/n_splits
    
    if output == 'score':
        return score
    if output == 'model':
        return models

In [None]:
# 모델과 관련없는 변수 고정
func_fixed = partial(lgb_cv, x_data=x_train, y_data=y_train, n_splits=5, output='score') 
# 베이지안 최적화 범위 설정
lgbBO = BayesianOptimization(
    func_fixed, 
    {
        'num_leaves': (16, 1024),        # num_leaves,       범위(16~1024)
        'learning_rate': (0.0001, 0.1),  # learning_rate,    범위(0.0001~0.1)
        'n_estimators': (16, 1024),      # n_estimators,     범위(16~1024)
        'subsample': (0, 1),             # subsample,        범위(0~1)
        'colsample_bytree': (0, 1),      # colsample_bytree, 범위(0~1)
        'reg_alpha': (0, 10),            # reg_alpha,        범위(0~10)
        'reg_lambda': (0, 50),           # reg_lambda,       범위(0~50)
    }, 
    random_state=4321                    # 시드 고정
)
lgbBO.maximize(init_points=5, n_iter=30) # 처음 5회 랜덤 값으로 score 계산 후 30회 최적화

# 이 예제에서는 7개 하이퍼 파라미터에 대해 30회 조정을 시도했습니다.
# 다양한 하이퍼 파라미터, 더 많은 iteration을 시도하여 최상의 모델을 얻어보세요!
# LightGBM Classifier: https://lightgbm.readthedocs.io/en/latest/pythonapi/lightgbm.LGBMClassifier.html

In [None]:
params = lgbBO.max['params']
models = lgb_cv(
    params['num_leaves'], 
    params['learning_rate'], 
    params['n_estimators'], 
    params['subsample'], 
    params['colsample_bytree'], 
    params['reg_alpha'], 
    params['reg_lambda'], 
    x_data=x_train, y_data=y_train, n_splits=5, output='model')

In [15]:

x_test, _ = data_preparation(df_test, answer=False)

100%|████████████████████████████████████████████████████████████████████████████| 16787/16787 [03:08<00:00, 89.00it/s]


In [16]:
preds = []
for model in models:
    pred = model.predict_proba(x_test)[:, 1]
    preds.append(pred)
pred = np.mean(preds, axis=0)

submission = pd.read_csv('data/sample_submission.csv', index_col=0)
submission['winner'] = submission['winner'] + pred
submission.to_csv('submission.csv')
submission.head()

Unnamed: 0_level_0,winner
game_id,Unnamed: 1_level_1
38872,0.624099
38873,0.507633
38874,0.449902
38875,0.287078
38876,0.450226
