## Otto Group Product Classification Challenge

이번 과제는 세계 최대의 전자상거래 회사 중 하나인 [Otto Group](https://www.ottogroup.com/)에서 주최하는 [Otto Group Product Classification Challenge](https://www.kaggle.com/c/otto-group-product-classification-challenge/) 경진대회에 참석해보겠습니다.

<img src="https://drive.google.com/uc?export=download&id=1AhEKfkKPfe2Ju1UQa39vJn0r4k3Fgklx" width="640px" />

<center><small><a href="https://www.kaggle.com/c/otto-group-product-classification-challenge/">Otto Group Product Classification Challenge 경진대회</a></small></center>

<br />

Otto Group은 익명화(anonymization)된 상품 정보에 대한 데이터를 제공하는데, 경진대회 참석자는 이 데이터를 활용하여 주어진 상품 카테고리(target)를 예측해야 합니다. 상품 카테고리는 ```Class_1```부터 ```Class_9```까지 총 9개가 있습니다. 주어진 데이터를 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest), 그리고 그래디언트 부스팅 머신(Gradient Boosting Machine)를 활용하여 예측해보도록 하겠습니다.

### Prerequisites

경진대회에 참여하기에 앞서, 오늘 필요한 파이썬 패키지를 읽어오겠습니다. 가장 먼저 필요한 패키지는 파이썬에서 데이터를 분석하는데 도움을 주는 패키지 판다스([Pandas](https://pandas.pydata.org/)) 입니다. 이 패키지를 먼저 읽어오겠습니다.

In [1]:
# 파이썬에서 데이터를 분석해주는 패키지 판다스(Pandas)를 읽어옵니다.
# 이를 pd라는 축약어로 사용합니다.
import pandas as pd

### Load Dataset

이 경진대회에 참여하기 위해선 먼저 데이터를 읽어와야 합니다.

모든 데이터 분석의 시작은 주어진 데이터를 읽어오는 것입니다. 판다스([Pandas](https://pandas.pydata.org/))에는 [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)라는 기능이 있는데, 이 기능을 활용하면 csv ([Comma Separated Values](https://en.wikipedia.org/wiki/Comma-separated_values)) 데이터를 편리하게 데이터를 읽어올 수 있습니다. ```read_csv```를 활용해 이 경진대회에서 제공하는 두 개의 데이터(train, test)를 읽어오겠습니다. (데이터는 [다음의 링크](https://www.kaggle.com/c/otto-group-product-classification-challenge/data)에서 다운받으실 수 있습니다)

여기서 파일의 경로를 지정하는 방법에 주의하셔야 합니다. 파일 경로 지정은 컴퓨터의 설정마다 천차만별로 다르기 때문에 사전에 컴퓨터의 경로 지정 개념을 숙지해두셔야 합니다. 만일 ```read_csv```를 실행할 때 ```FileNotFoundError```라는 에러가 난다면 경로가 제대로 지정이 되지 않은 것입니다. **만일 파일의 경로를 지정하는 법이 생각나지 않는다면 [다음의 링크](https://88240.tistory.com/122)를 통해 경로를 지정하는 법을 복습한 뒤 다시 시도해주세요.**

In [2]:
# 먼저 판다스(Pandas)를 활용해 test.csv 파일을 읽어옵니다.
# 여기에서 인덱스(index)로 train 데이터의 id 컬럼을 사용합니다.
# 그리고 읽어온 데이터를 train이라는 이름의 변수에 저장합니다.
train = pd.read_csv("train.csv", index_col="id")

# train 변수에 할당한 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(train.shape)

# head()로 train 데이터의 상위 5개를 띄웁니다.
train.head()

(61878, 94)


Unnamed: 0_level_0,feat_1,feat_2,feat_3,feat_4,feat_5,feat_6,feat_7,feat_8,feat_9,feat_10,...,feat_85,feat_86,feat_87,feat_88,feat_89,feat_90,feat_91,feat_92,feat_93,target
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,Class_1
2,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,Class_1
3,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,Class_1
4,1,0,0,1,6,1,5,0,0,1,...,0,1,2,0,0,0,0,0,0,Class_1
5,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,Class_1


In [3]:
# 비슷한 방식으로 판다스(Pandas)를 활용해 test.csv 파일을 읽어옵니다.
# 여기에서 인덱스(index)로 train 데이터의 id 컬럼을 사용합니다.
# 그리고 읽어온 데이터를 test 라는 이름의 변수에 저장합니다.
test = pd.read_csv("test.csv", index_col="id")

# test 변수에 할당한 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(test.shape)

# head()로 test 데이터의 상위 5개를 띄웁니다.
test.head()

(144368, 93)


Unnamed: 0_level_0,feat_1,feat_2,feat_3,feat_4,feat_5,feat_6,feat_7,feat_8,feat_9,feat_10,...,feat_84,feat_85,feat_86,feat_87,feat_88,feat_89,feat_90,feat_91,feat_92,feat_93
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,0,0,0,0,0,0,0,0,3,...,0,0,11,1,20,0,0,0,0,0
2,2,2,14,16,0,0,0,0,0,0,...,0,0,0,0,0,4,0,0,2,0
3,0,1,12,1,0,0,0,0,0,0,...,0,0,0,0,2,0,0,0,0,1
4,0,0,0,1,0,0,0,0,0,0,...,0,3,1,0,0,0,0,0,0,0
5,1,0,0,1,0,0,1,2,0,3,...,0,0,0,0,0,0,0,9,0,0


### Preprocessing

데이터를 읽어왔으면, 이제 본격적으로 경진대회에 참여할 준비를 해보겠습니다.

가장 먼저 해야 하는 준비는 데이터를 정리하는 것입니다. 데이터를 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest), 또는 그래디언트 부스팅 머신(Gradient Boosting Machine)과 같은 머신러닝 알고리즘에 넣기 위해서는, 사전에 데이터를 머신러닝 알고리즘이 이해할 수 있는 형태로 변환해줘야 합니다. 이 과정을 전문용어로 전처리(Preprocessing)라고 합니다.

오늘 학습할 머신러닝 알고리즘(내지는 지도학습(Supervised Learning) 알고리즘)에 데이터를 넣기 위해서는, 데이터를 두 가지 형태로 나눠줘야 합니다.

* **Label**: 레이블(Label), 내지는 타겟 변수(Target Variable)이라고 부릅니다. (몇몇 곳에서는 Class라고도 부릅니다) 쉽게 말해 우리가 맞춰야 하는 정답입니다.
* **Feature**: 우리가 label을 맞추는데 도움이 되는 값들입니다. 오늘 데이터에서는 label을 제외한 사실상 모든 컬럼들이 Feature가 될 수 있습니다.

이번 경진대회에서는 다음의 컬럼을 Feature와 Label로 활용할 것입니다.

* **Feature**: ```target``` 컬럼을 제외한 나머지 모든 컬럼
* **Label**: ```target``` 컬럼

위에서 언급한 방식 그대로 **Feature**와 **Label**을 만들어 보겠습니다.

In [4]:
# target이라는 이름의 컬럼을 label_name 이라는 이름의 변수에 할당합니다.
# 이 컬럼이 실질적으로 이번 경진대회의 Label이 됩니다.
label_name = "target"

# label_name 안에 들어있는 값을 출력하면, 예상대로 target이 출력되는것을 알 수 있습니다.
label_name

'target'

In [5]:
# label_name에 지정된 컬럼을 제외한 나머지 모든 컬럼을 Feature로 간주할 것입니다.
# 이를 feature_names라는 이름의 컬럼에 할당하겠습니다.
feature_names = train.columns.difference([label_name])

# feature_names의 길이(length, len)를 잽니다. 그리고 이를 바로 출력합니다.
# 전체 train 데이터의 컬럼 개수에서, target 컬럼 하나를 제외한 총 93개가 출력됩니다.
print(len(feature_names))

# feature_names 안에 들어가 있는 값의 상위 5개를 출력하면, Feature들의 몇몇 예시를 볼 수 있습니다.
feature_names[0:5]

93


Index(['feat_1', 'feat_10', 'feat_11', 'feat_12', 'feat_13'], dtype='object')

### Train


이제 본격적으로 학습에 들어가기 전, train 데이터와 test 데이터를 다음의 세 가지 형태의 값으로 나눌 것입니다.

* ```X_train```: train 데이터의 feature 입니다. 줄여서 ```X_train```이라고 부릅니다.
* ```X_test```: test 데이터의 feature 입니다. 마찬가지로 줄여서 ```X_test```라고 부릅니다.
* ```y_train```: train 데이터의 label 입니다. 마찬가지로 줄여서 ```y_train```이라고 부릅니다.

그리고 아시다시피 y_test 라는 데이터는 존재하지 않을 것입니다. test 데이터에는 target 컬럼이 없기 때문이며, 우리의 목표 자체가 y_test에 해당하는 test 데이터의 target 컬ㄹ머을 예측하는 것이기 때문입니다. 그리고 ```X_train```, ```y_train```, ```X_test```를 활용하여 ```y_test```에 해당하는 값을 예측하는 것이 바로 이번 경진대회의 목표입니다.

이제 앞서 지정한 feature와 label을 활용해 ```X_train```, ```X_test```, ```y_train```을 각각 만들어 보겠습니다.

In [6]:
# feature_names를 활용해 train 데이터의 feature를 가져옵니다.
# 이를 X_train이라는 이름의 변수에 할당합니다.
X_train = train[feature_names]

# X_train 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(X_train.shape)

# X_train 데이터의 상위 5개를 띄웁니다.
X_train.head()

(61878, 93)


Unnamed: 0_level_0,feat_1,feat_10,feat_11,feat_12,feat_13,feat_14,feat_15,feat_16,feat_17,feat_18,...,feat_85,feat_86,feat_87,feat_88,feat_89,feat_9,feat_90,feat_91,feat_92,feat_93
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1,0,1,0,0,0,0,0,2,0,...,1,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,2,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
4,1,1,1,0,1,0,0,1,1,0,...,0,1,2,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,4,0,...,1,0,0,0,0,0,1,0,0,0


In [7]:
# feature_names를 활용해 test 데이터의 feature를 가져옵니다.
# 이를 X_test라는 이름의 변수에 할당합니다.
X_test = test[feature_names]

# X_test 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(X_test.shape)

# X_test 데이터의 상위 5개를 띄웁니다.
X_test.head()

(144368, 93)


Unnamed: 0_level_0,feat_1,feat_10,feat_11,feat_12,feat_13,feat_14,feat_15,feat_16,feat_17,feat_18,...,feat_85,feat_86,feat_87,feat_88,feat_89,feat_9,feat_90,feat_91,feat_92,feat_93
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0,3,0,0,0,3,2,1,0,0,...,0,11,1,20,0,0,0,0,0,0
2,2,0,0,0,0,0,2,2,0,0,...,0,0,0,0,4,0,0,0,2,0
3,0,0,7,1,0,0,0,7,0,2,...,0,0,0,2,0,0,0,0,0,1
4,0,0,0,0,0,0,21,3,0,0,...,3,1,0,0,0,0,0,0,0,0
5,1,3,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,9,0,0


In [8]:
# label_name을 활용해 train 데이터의 label을 가져옵니다.
# 이를 y_train이라는 이름의 변수에 할당합니다.
y_train = train[label_name]

# unique 함수를 사용하여 y_train 안에 들어가 있는 값의 중복을 제거합니다.
# 이렇게 하면 y_train 안에 있는 값의 종류가 나오며, Class_1부터 Class_9까지 총 9개의 종류가 나옵니다.
# 이것을 Label의 종류, 앞으로는 클래스(Class)라고 부르겠습니다.
print(y_train.unique())

# y_train 변수에 할당된 데이터의 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시되나, column이 없기 때문에 (row,) 형태로 표시될 것입니다.
print(y_train.shape)

# y_train 데이터의 상위 5개를 띄웁니다.
y_train.head()

['Class_1' 'Class_2' 'Class_3' 'Class_4' 'Class_5' 'Class_6' 'Class_7'
 'Class_8' 'Class_9']
(61878,)


id
1    Class_1
2    Class_1
3    Class_1
4    Class_1
5    Class_1
Name: target, dtype: object

### Benchmark

모델을 학습하기 전, 벤치마크 차원에서 간단히 샘플 모델을 가지고 온 뒤 이를 학습시키겠습니다.

그래디언트 부스팅 머신(Gradient Boosting Machine)에는 여러 가지 구현체(Implementation)가 존재합니다만, 가장 유명한 구현체로는 1) [XGBoost](https://xgboost.readthedocs.io/en/latest/), 2) [CatBoost](https://catboost.ai/), 그리고 오늘의 주제에 해당하는 4) [LightGBM](https://lightgbm.readthedocs.io/en/latest/) 이 있습니다. 세 구현체의 차이와 장단점에 대해서는 [다음의 문서](https://towardsdatascience.com/catboost-vs-light-gbm-vs-xgboost-5f93620723db)를 참조해주세요.

이번 수업에서는 [LightGBM](https://lightgbm.readthedocs.io/en/latest/)을 사용할 예정입니다. [LightGBM](https://lightgbm.readthedocs.io/en/latest/)을 사용하는 법은 매우 간단합니다. 다음의 코드를 실행하면 분류(Classification)용 그래디언트 부스팅 머신 모델인 ```LGBMClassifier```을 가져올 수 있습니다. (만일 회귀(Regression)용 모델을 사용하고 싶다면, ```LGBMRegressor```를 가져오면 됩니다)

In [9]:
# LightGBM에서 LGBMClassifier를 가져옵니다.
from lightgbm import LGBMClassifier

# LGBMClassifier로 그래디언트 부스팅 머신 모델을 생성합니다.
# 모든 옵션과 하이퍼패러미터는 디폴트 값으로 세팅합니다.
# # 이 결과를 model이라는 이름의 변수에 할당합니다.
model = LGBMClassifier()

# 이번에는 train 데이터의 전체, 정확히는 train 데이터의 feature인 X_train과 label인 y_train을 활용하여
# 그래디언트 부스팅 머신을 학습(fit)합니다.
# 마찬가지로 %time을 사용하면 학습에 걸리는 시간을 측정할 수 있습니다.
%time model.fit(X_train, y_train)

Wall time: 3.71 s


LGBMClassifier()

## Hyperparameter Tuning

모든 준비가 끝났으면, 이제 머신러닝 모델의 하이퍼패러미터(Hyperparameters)를 튜닝해보겠습니다.

머신러닝 모델에는 다양한 옵션이 있는데, 이 옵션을 통해 모델의 성능을 끌어올릴 수 있습니다. 이 옵션들을 전문용어로 하이퍼패러미터(Hyperparameter)라고 부릅니다. 만일 적절한 하이퍼패러미터를 찾아서 모델에 적용할 수 있다면 모델의 성능을 한 층 더 끌어올릴 수 있습니다. 이를 하이퍼패러미터 튜닝(Hyperparamter Tuning)이라고 합니다.

하이어패러미터를 튜닝하는 방법은 여러 가지가 있는데, 가장 쉽고 보편적으로 쓰이는 방식은 바로 랜덤 서치(Random Search) 입니다. 랜덤 서치는 간단한데, 바로 이론상으로 존재 가능한 모든 하이퍼패러미터 범위에서 랜덤으로 끊임없이 찾는 것입니다.

<img src="http://cs231n.github.io/assets/nn3/gridsearchbad.jpeg" alt="Random Search for Hyper-Parameter Optimization" style="width: 360px;"/>

<p style="text-align: center;">
  <small>
    (see <a href="http://www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf">Random Search for Hyper-Parameter Optimization</a>)
  </small>
</p>

하지만 랜덤 서치(Random Search)는 현실적으로 시간이 오래 걸리기 때문에, 랜덤 서치(Random Search)를 응용한 다른 하이퍼패러미터 튜닝 방식을 사용하겠습니다. 바로 **Coarse & Finer Search** 입니다.

Coarse & Finer Search는 크게 1) Coarse Search와 2) Finer Search로 동작합니다

먼저 **Coarse Search**에서는 Random Search를 하되, 이론상으로 존재 가능한 모든 하이퍼패러미터 범위를 집어넣습니다. 이렇게 Random Search를 하면 가장 좋은 하이퍼패러미터를 찾는 것은 어렵지만, **좋지 않은 하이퍼패러미터를 정렬해서 후순위로 놓을 수 있습니다.**

이를 통해 좋지 않은 하이퍼패러미터를 버린 뒤 다시 한 번 Random Search를 하는 것을 **Finer Search**라고 합니다.

### Coarse Search

In [10]:
# 파이썬에서 벡터와 행렬 연산을 도와주는 패키지 넘파이(Numpy)를 가져옵니다.
# 이를 줄여서 np라는 축약어로 사용합니다.
import numpy as np

# LightGBM에서 LGBMClassifier를 가져옵니다.
from lightgbm import LGBMClassifier

# scikit-learn의 model_selection 모듈에서 train_test_split 함수를 가져옵니다.
# 이 함수를 활용해서 Hold-out validation을 할 것입니다.
from sklearn.model_selection import train_test_split

# 하이퍼패러미터 검색 과정을 저장할 때, 동일한 파일에 덮어쓰지 않기 위해
# 일명 타임스탬프(Timestamp)를 남겨야 합니다. 이를 위한 datetime 라이브러리를 가져오겠습니다.
from datetime import datetime

# 모든 과정에는 매 번 실행할때마다 다른 결과가 나오지 않게 하기 위해 random_state를 고정해주겠습니다.
random_state = 42

# 하이퍼패러미터 검색 과정을 저장할 파일명을 만듭니다.
# 여기서 동일한 파일에 덮어쓰지 않기 위해 파일명에 오늘(today)의 날짜와 시간을 포함합니다.
today = str(datetime.now())
filename = f"coarse-search {today}.csv"

# 랜덤 서치를 반복할 횟수입니다.
# 보통 100번을 반복합니다.
num_loop = 100

# n_estimators는 트리의 갯수입니다.
# 높게 주더라도, Coarse Search에서는 early-stopping 기능을 사용할 것이기 때문에 큰 문제는 없습니다.
# 그러므로 적당히 1000 을 주겠습니다.
n_estimators = 1000

# LightGBM을 학습할 때 early-stopping 기능을 사용할 예정입니다.
# 횟수는 총 20회로 고정합니다.
early_stopping_rounds = 20

# train_test_split 을 실행합니다. train 데이터, 정확히는 X_train과 y_train을 나눌 것이며,
# 비율은 학습용 데이터를 80%, 검증용 데이터를 20%로 나눌 것입니다.
# 이를 각각 X_train_hold, X_valid_hold, y_train_hold, y_valid_hold 라는 값으로 받습니다.
# (여기서 결과가 매 번 바뀌는 현상을 방지하기 위해, random_state를 사용해서 랜덤 값을 고정할 것입니다.)
X_train_hold, X_valid_hold, y_train_hold, y_valid_hold = \
    train_test_split(X_train, y_train, test_size=0.2, random_state=random_state)

# hyperparameter 탐색 결과를 리스트로 저장합니다.
coarse_hyperparameters_list = []

# num_epoch 횟수만큼 랜덤 서치를 반복합니다.
for loop in range(num_loop):
    # 10에서 100 사이의 정수형(int) 값을 랜덤하게 생성하여 num_leaves 변수에 할당합니다.
    num_leaves =  np.random.randint(10, 200)

    # 2에서 200 사이의 정수형(int) 값을 랜덤하게 생성하여 나무에 가지에 들어가야하는 최소한의 데이터의 개수를 지정합니다.
    min_child_samples = np.random.randint(2, 200)

    # 0.1에서 1.0사이의 실수형(float) 값을 랜덤하게 생성하여 subsample 변수에 할당합니다.
    subsample = np.random.uniform(0.1, 1.0)

    # 0.4에서 1.0사이의 실수형(float) 값을 랜덤하게 생성하여 colsample_bytree 변수에 할당합니다.
    colsample_bytree = np.random.uniform(0.1, 1.0)
    
    # 1.0에서 1-e10(10의 -10승)사이의 실수형(float) 값을 랜덤하게 생성하여  learning_rate 변수에 할당합니다.
    learning_rate = 10 ** -np.random.uniform(low=1, high=10)
    
    # 1.0에서 1-e10(10의 -10승)사이의 실수형(float) 값을 랜덤하게 생성하여 L1 Regularization 하이퍼패러미터 변수에 할당합니다.
    reg_alpha = 10 ** -np.random.uniform(low=1, high=10)
    
    # 1.0에서 1-e10(10의 -10승)사이의 실수형(float) 값을 랜덤하게 생성하여 L2 Regularization 하이퍼패러미터 변수에 할당합니다.
    reg_lambda = 10 ** -np.random.uniform(low=1, high=15)

    # 위 하이퍼패러미터를 파이썬 딕셔너리로 하나로 묶습니다.
    parameters ={'loop': loop,
                 'num_leaves': num_leaves, 
                 'min_child_samples': min_child_samples,
                 'subsample': subsample, 
                 'colsample_bytree': colsample_bytree,
                 'reg_alpha': reg_alpha,
                 'reg_lambda': reg_lambda,
                 'n_estimators': n_estimators,
                 'learning_rate' : learning_rate,
                 'random_state': random_state}
    
    # 위 하이퍼패러미터를 그대로 활용하여 LGBMClassifier를 생성합니다.
    # 이를 model이라는 이름의 변수에 할당합니다.
    model = LGBMClassifier(**parameters)
    
    # 이 model을 학습합니다.
    # 학습할 때는 학습용 데이터셋(X_train_hold, y_train_hold)을 사용하고,
    # 학습 중간중간 검증용 데이터셋(X_valid_hold, y_valid_hold)으로 결과를 검증합니다.
    # 검증하면서 결과가 나빠지기 시작하면 바로 학습을 멈춥니다. (이를 early-stoppring이라고 합니다)
    model.fit(X_train_hold, y_train_hold,
              eval_set=[(X_valid_hold, y_valid_hold)],
              verbose=0,
              early_stopping_rounds=early_stopping_rounds)
    
    # 학습이 끝난 뒤 만들어진 나무의 개수를 패러미터로 저장합니다.
    parameters['n_estimators'] = model.best_iteration_
    
    # 학습이 끝난 뒤 마지막으로 측정한 점수를 패러미터로 저장합니다.
    parameters['score'] = model.best_score_['valid_0']['multi_logloss']
    
    # 매 반복 횟수마다 학습 과정을 출력합니다.
    print(f"{loop:2} best iteration = {parameters['n_estimators']}, Score = {parameters['score']:.6f}")

    # 학습한 과정을 지속적으로 리스트로 저장한 뒤, 매 번 점수가 좋은 쪽으로 정렬합니다.
    coarse_hyperparameters_list.append(parameters)
    coarse_hyperparameters_data = pd.DataFrame(coarse_hyperparameters_list)
    coarse_hyperparameters_data = coarse_hyperparameters_data.sort_values(by="score")
    
    # 매 반복 횟수마다 학습 과정을 저장합니다.
    #coarse_hyperparameters_data.to_csv(filename)

# 학습이 끝났으면 상위 10개를 출력합니다.
coarse_hyperparameters_data.head(10)

 0 best iteration = 1000, Score = 1.953600
 1 best iteration = 1000, Score = 1.280196
 2 best iteration = 1000, Score = 1.928284
 3 best iteration = 1000, Score = 1.953613
 4 best iteration = 1000, Score = 1.883452
 5 best iteration = 1000, Score = 1.386335
 6 best iteration = 1000, Score = 1.312837
 7 best iteration = 1000, Score = 1.834847
 8 best iteration = 1000, Score = 1.953613
 9 best iteration = 1000, Score = 1.953611
10 best iteration = 1000, Score = 1.210749
11 best iteration = 1000, Score = 1.945497
12 best iteration = 997, Score = 0.453927
13 best iteration = 1000, Score = 1.953011
14 best iteration = 1000, Score = 1.947474
15 best iteration = 1000, Score = 1.581688
16 best iteration = 290, Score = 0.444321
17 best iteration = 1000, Score = 1.928757
18 best iteration = 1000, Score = 1.892636
19 best iteration = 1000, Score = 1.953215
20 best iteration = 1000, Score = 1.909111
21 best iteration = 1000, Score = 1.953596
22 best iteration = 1000, Score = 1.952477
23 best itera

Unnamed: 0,loop,num_leaves,min_child_samples,subsample,colsample_bytree,reg_alpha,reg_lambda,n_estimators,learning_rate,random_state,score
16,16,141,180,0.125584,0.711639,3.81447e-10,2.34052e-06,290,0.033551,42,0.444321
80,80,184,128,0.285788,0.708062,2.59058e-09,1.664751e-08,306,0.026168,42,0.444759
97,97,188,117,0.654432,0.933811,0.001440082,3.271116e-06,525,0.01392,42,0.448679
50,50,127,15,0.953927,0.698776,0.003745086,2.06019e-07,319,0.025088,42,0.450139
34,34,127,158,0.436454,0.2735,0.03805657,2.441193e-14,1000,0.010813,42,0.450869
92,92,188,72,0.520787,0.231723,4.674236e-10,8.12834e-05,409,0.028473,42,0.452701
12,12,44,20,0.542244,0.619603,0.01274278,3.756258e-10,997,0.017511,42,0.453927
44,44,59,119,0.877639,0.871603,7.670138e-09,3.697592e-11,722,0.01914,42,0.454287
23,23,82,42,0.892431,0.898736,6.474166e-10,4.436043e-09,463,0.022358,42,0.45534
88,88,84,22,0.138601,0.720014,6.654157e-05,1.982127e-12,1000,0.006813,42,0.45575


Coarse Search가 끝났으면, 상위 5 ~ 10개의 결과만 출력한 뒤 이 결과를 낸 하이퍼패러미터 범위만 남겨놓고 다시 한 번 Random Search를 합니다. 이를 Finer Search라고 합니다.

가령 위 Coarse Search를 통해, 다음의 하이퍼패러미터가 상위 5 ~ 10개 안에 들었다고 가정하겠습니다.

  * num_leaves = 100개 ~ 200개
  * min_child_samples = 50개 ~ 100개
  * subsample = 0.4 ~ 0.8
  * colsample_bytree = 0.4 ~ 0.7
  * ...
  
이제 위 코드를 그대로 사용하되, 다음의 부분만 수정한 뒤 다시 한 번 Random Search를 하겠습니다.

```
# 100에서 200 사이의 정수형(int) 값을 랜덤하게 생성하여 num_leaves 변수에 할당합니다.
num_leaves =  np.random.randint(100, 200)

# 50에서 100 사이의 정수형(int) 값을 랜덤하게 생성하여 min_child_samples 변수에 할당합니다.
min_child_samples = np.random.randint(50, 100)

# 0.4에서 0.8 사이의 실수형(float) 값을 랜덤하게 생성하여 subsample 변수에 할당합니다.
subsample = np.random.uniform(0.4, 0.8)

# 0.4에서 0.7 사이의 실수형(float) 값을 랜덤하게 생성하여 colsample_bytree 변수에 할당합니다.
colsample_bytree = np.random.uniform(0.4, 0.7)

# 나머지 하이퍼패러미터도 동일하게 적용합니다.
```















### Finer Search

In [11]:
# 파이썬에서 벡터와 행렬 연산을 도와주는 패키지 넘파이(Numpy)를 가져옵니다.
# 이를 줄여서 np라는 축약어로 사용합니다.
import numpy as np

# LightGBM에서 LGBMClassifier를 가져옵니다.
from lightgbm import LGBMClassifier

# scikit-learn의 model_selection 모듈에서 train_test_split 함수를 가져옵니다.
# 이 함수를 활용해서 Hold-out validation을 할 것입니다.
from sklearn.model_selection import train_test_split

# 하이퍼패러미터 검색 과정을 저장할 때, 동일한 파일에 덮어쓰지 않기 위해
# 일명 타임스탬프(Timestamp)를 남겨야 합니다. 이를 위한 datetime 라이브러리를 가져오겠습니다.
from datetime import datetime

# 모든 과정에는 매 번 실행할때마다 다른 결과가 나오지 않게 하기 위해 random_state를 고정해주겠습니다.
random_state = 42

# 하이퍼패러미터 검색 과정을 저장할 파일명을 만듭니다.
# 여기서 동일한 파일에 덮어쓰지 않기 위해 파일명에 오늘(today)의 날짜와 시간을 포함합니다.
today = str(datetime.now())
filename = f"finer-search {today}.csv"

# 랜덤 서치를 반복할 횟수입니다.
# 보통 100번을 반복합니다.
num_loop = 100

# StratifiedKFold를 생성합니다.
# 여기서 조각은 5조각으로 자르고(n_splits), 랜덤한 결과가 나오는 걸 방지하기 위해 random_state를 지정합니다.
# 마지막으로 굳이 데이터를 섞을 필요는 없기 때문에 shuffle 은 False로 지정합니다.
# 이 결과를 kf라는 이름의 변수에 할당합니다.
kf = StratifiedKFold(n_splits=5, random_state=random_state, shuffle=False)

# hyperparameter 탐색 결과를 리스트로 저장합니다.
finer_hyperparameters_list = []

# num_epoch 횟수만큼 랜덤 서치를 반복합니다.
for loop in range(num_loop):
    # 500에서 3000 사이의 정수형(int) 값을 랜덤하게 생성하여 n_estimators 변수에 할당합니다.
    n_estimators = np.random.randint(500, 3000)

    # 1500에서 200 사이의 정수형(int) 값을 랜덤하게 생성하여 num_leaves 변수에 할당합니다.
    num_leaves = np.random.randint(100, 200)

    # 50에서 100 사이의 정수형(int) 값을 랜덤하게 생성하여 나무에 가지에 들어가야하는 최소한의 데이터의 개수를 지정합니다.
    min_child_samples = np.random.randint(50, 100)

    # 0.4에서 0.8사이의 실수형(float) 값을 랜덤하게 생성하여 subsample 변수에 할당합니다.
    subsample = np.random.uniform(0.4, 0.8)

    # 0.4에서 0.7사이의 실수형(float) 값을 랜덤하게 생성하여 colsample_bytree 변수에 할당합니다.
    colsample_bytree = np.random.uniform(0.4, 0.7)

    # 10의 -3승에서 10의 -8승 사이의 실수형(float) 값을 랜덤하게 생성하여 L1 Regularization 하이퍼패러미터 변수에 할당합니다.
    reg_alpha = 10 ** -np.random.uniform(low=3, high=8)
    
    # 1.0 -5승에서 10의 -15승 사이의 실수형(float) 값을 랜덤하게 생성하여 L2 Regularization 하이퍼패러미터 변수에 할당합니다.
    reg_lambda = 10 ** -np.random.uniform(low=5, high=15)
    
    # 10의 -0.9승에서 10의 -3.0승사이의 실수형(float) 값을 랜덤하게 생성하여 learning_rate 변수에 할당합니다.
    learning_rate = 10 ** -np.random.uniform(low=0.9, high=3)
    
    # 위 하이퍼패러미터를 파이썬 딕셔너리로 하나로 묶습니다.
    parameters ={'loop': loop,
                 'n_estimators': n_estimators,
                 'num_leaves': num_leaves, 
                 'min_child_samples': min_child_samples, 
                 'subsample': subsample, 
                 'colsample_bytree': colsample_bytree,
                 'reg_alpha': reg_alpha,
                 'reg_lambda': reg_lambda,
                 'n_estimators': n_estimators,
                 'learning_rate' : learning_rate,
                 'random_state': random_state}

    # 학습하면서 계속 로그가 출력되는 것을 방지하기 위해, LightGBM의 verbose 옵션에 0을 줍니다.
    fit_params = {'verbose': 0}

    # 위 하이퍼패러미터를 그대로 활용하여 LGBMClassifier를 생성합니다.
    # 이를 model이라는 이름의 변수에 할당합니다.
    model = LGBMClassifier(**parameters)
    
    # cross_val_score 함수를 사용하여 Cross Validation을 실행합니다. 실행할 때는 다음의 옵션이 들어갑니다.
    # 1) model. 점수를 측정할 머신러닝 모델이 들어갑니다.
    # 2) X_train. train 데이터의 feature 입니다.
    # 3) y_train. train 데이터의 label 입니다.
    # 4) cv. Cross Validation에서 데이터를 조각낼(split) 갯수와 그 방식입니다. 위에서 생성한 StratifiedKFold를 사용합니다.
    # 5) fit_params. 학습 과정에서 LightGBM에 들어가야하는 추가 옵션입니다.
    # 6) scoring. 점수를 측정할 공식입니다. 경진대회의 공식 측정 공식인 log loss(정확히는 neg_log_loss)를 적용합니다.
    # 마지막으로, 이 함수의 실행 결과의 평균(mean)을 구한 뒤 score라는 이름의 새로운 변수에 할당합니다.
    score = cross_val_score(model, X_train, y_train, cv=kf,
                            fit_params=fit_params, scoring='neg_log_loss').mean()
    
    # scikit-learn에서는 cross validation을 실행할 때 log loss가 아닌 negated log loss(neg_loss_loss)를 실행합니다.
    # (이 측정 공식은 언제나 log loss에서 마이너스가 붙은 값이 나옵니다)
    # (마이너스 값이 붙는 이유에 대해서는 다음의 강의 https://www.youtube.com/watch?v=po3pS7qMsjQ 를 참고해주세요)
    # 이 마이너스 부호를 지우기 위해서, -1.0을 곱하겠습니다.
    score = -1.0 * score
    
    # 학습이 끝난 뒤 마지막으로 측정한 점수를 패러미터로 저장합니다.
    parameters['score'] = score
    
    # 매 반복 횟수마다 학습 과정을 출력합니다.
    print(f"{loop:2} best iteration = {parameters['n_estimators']}, Score = {parameters['score']:.6f}")
    
    # 학습한 과정을 지속적으로 리스트로 저장한 뒤, 매 번 점수가 좋은 쪽으로 정렬합니다.
    finer_hyperparameters_list.append(parameters)
    finer_hyperparameters_data = pd.DataFrame(finer_hyperparameters_list)
    finer_hyperparameters_data = finer_hyperparameters_data.sort_values(by="score")
    
    # 매 반복 횟수마다 학습 과정을 저장합니다.
    finer_hyperparameters_data.to_csv(filename)
    
# 학습이 끝났으면 상위 10개를 출력합니다.
finer_hyperparameters_data.head(10)

NameError: name 'StratifiedKFold' is not defined

정렬 후 가장 최상위에 위치한  하이퍼패러미터가 가장 좋은 하이퍼패러미터라는 사실을 발견할 수 있습니다.

### Evaluate

하이퍼패러미터 튜닝이 끝났으면, 이제 이 모델의 성능이 실제 얼마나 나오는지 측정(evaluate) 해보도록 하겠습니다.

머신러닝 모델의 점수를 측정하는 방식은 크게 두 가지, 1) Hold Out Validation 과 2) Cross Validation입니다. 두 방식 모두 장단점이 있지만, 이번 경진대회에서는 Cross Validation을 사용하겠습니다. (Hold Out Validation과 Cross Validation의 차이는 [다음의 링크](https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6)를 참고 바랍니다.)

기쁜 소식은, [scikit-learn](http://scikit-learn.org/stable/)에 Cross Validation을 자동화한 모듈이 존재한다는 것입니다. 이 모듈을 [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)라고 합니다. [cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)을 활용하여 점수를 측정하겠습니다.

In [None]:
# LightGBM에서 LGBMClassifier를 가져옵니다.
from lightgbm import LGBMClassifier

# LGBMClassifier로 그래디언트 부스팅 머신 모델을 생성합니다.
# 여기서 하이퍼패러미터는 위에서 진행한 하이퍼패러미터의 결과값을 그대로 사용합니다.
# 편의를 위해 여기서는 강사가 찾아놓은 결과값을 그대로 집어넣겠습니다.
# 이 결과를 model이라는 이름의 변수에 할당합니다.
model = LGBMClassifier(learning_rate = 6.991383e-03,
                       n_estimators = 2486,
                       num_leaves = 218,
                       max_bin = 356,
                       min_child_samples = 115,
                       min_child_weight = 2.668823,
                       subsample = 0.630275,
                       colsample_bytree = 0.480936,
                       reg_alpha = 1.058085e-06,
                       reg_lambda = 6.960670e-09,
                       random_state = 42)

# model 변수 안에 있는 값을 출력합니다.
# 튜닝한 하이퍼패러미터가 적용된 머신러닝 모델이 들어가 있음을 확인할 수 있습니다.
model

In [None]:
# scikit-learn의 model_selection에서 StratifiedKFold와 cross_val_score를 가져옵니다.
# 각각의 역할은 다음과 같습니다
# * StratifiedKFold - Cross Validation을 위해 데이터를 나눌 때, Label을 균등하게 나누기 위한 모듈입니다.
#   자세한 사항은 다음의 링크 https://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold 를 확인하세요.
# * cross_val_score - 앞서 설명한 Cross Validation을 실행하는 함수입니다.
from sklearn.model_selection import StratifiedKFold, cross_val_score

# StratifiedKFold를 생성합니다.
# 여기서 조각은 5조각으로 자르고(n_splits), 랜덤한 결과가 나오는 걸 방지하기 위해 random_state를 지정합니다.
# 마지막으로 굳이 데이터를 섞을 필요는 없기 때문에 shuffle 은 False로 지정합니다.
# 이 결과를 kf라는 이름의 변수에 할당합니다.
kf = StratifiedKFold(n_splits = 5,
                     random_state = 42,
                     shuffle = False)

# Cross Validation을 하기 위해 모델을 학습(fit) 할 때 추가 옵션을 넣을 수 있습니다.
# 여기서 로그가 계속 화면에 출력되는 현상을 방지하기 위해, verbose 옵션에 0을 넣습니다.
# 이를 fit_params라는 이름의 변수에 할당합니다.
fit_params = {'verbose': 0}

# cross_val_score을 활용해 Crosss Validation을 돌립니다.
# 함수 안에는 머신러닝 모델(model), train 데이터의 feature(X_train), train 데이터의 label(y_train)을 넣고
# 추가로 앞서 생성한 StratifiedKFold를, 측정 공식은 log loss(neg_log_loss)를 사용합니다.
# 그리고 이 결과를 평균(mean)을 내면 머신러닝 모델의 성능을 측정할 수 있습니다.
score = cross_val_score(model, X_train, y_train, cv=kf,
                        fit_params=fit_params, scoring='neg_log_loss').mean()

# scikit-learn에서는 cross validation을 실행할 때 log loss가 아닌 negated log loss(neg_loss_loss)를 실행합니다.
# (이 측정 공식은 언제나 log loss에서 마이너스가 붙은 값이 나옵니다)
# (마이너스 값이 붙는 이유에 대해서는 다음의 강의 https://www.youtube.com/watch?v=po3pS7qMsjQ 를 참고해주세요)
# 이 마이너스 부호를 지우기 위해서, -1.0을 곱하겠습니다.
score = -1.0 * score

# score 변수에 들어가 있는 값을 출력합니다.
# 이렇게 하면 앞서 구현한 머신러닝 모델의 성능을 log loss로 측정할 수 있습니다.
print(f"Score = {score:.5f}")

### predict

측정을 마쳤으면, 남은 건 위에서 구현한 그래디언트 부스팅 머신을 활용해 test 데이터셋을 예측하는 것입니다. 예측은 마찬가지로 예측은 ```predict```로 할 수 있으며, 이 때 test 데이터의 feature인 ```X_test```가 필요합니다.

In [None]:
# 이번에는 train 데이터의 전체, 정확히는 train 데이터의 feature인 X_train과 label인 y_train을 활용하여
# 그래디언트 부스팅 머신을 학습(fit)합니다.
# 마찬가지로 %time을 사용하면 학습에 걸리는 시간을 측정할 수 있습니다.
%time model.fit(X_train, y_train)

In [None]:
# 학습이 끝났으면 마찬가지로 predict_proba로 결과를 예측합니다.
# 여기서 predict가 아닌 predict_proba를 사용하는 이유는, 확률(probability)를 받아오기 위해서 그렇습니다.
# (확률을 받아와야 캐글에서 log loss로 계산한 뒤 점수를 측정할 수 있습니다)
# 이 결과를 predictions라는 이름의 변수에 담아줍니다.
predictions = model.predict_proba(X_test)

# predictions 변수에 할당된 데이터의 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(predictions.shape)

# predictions 안에 들어가 있는 값을 출력합니다.
# 테스트 데이터셋을 예측한 결과가 확률(probability)로 나올 것입니다.
predictions

## Submit

예측이 끝났으면, 남은건 이를 이를 캐글([kaggle](http://kaggle.com/))이 권장하는 제출(submission) 형식에 맞게 정리한 뒤 파일로 저장하는 것입니다.

[Otto Group Product Classification Challenge](https://www.kaggle.com/c/otto-group-product-classification-challenge/) 경진대회에서는 sampleSubmission.csv라는 제출 포멧을 제공합니다. ([다운로드 링크](https://www.kaggle.com/c/otto-group-product-classification-challenge/data)) 앞서 예측한 값을 이 제출 형식에 맞게 집어넣고 저장하면, 남은 건 캐글에 제출하면 경진대회에 참여가 끝납니다.

In [None]:
# 캐글이 제공하는 제출 포멧(sampleSubmission.csv)을 읽어옵니다.
# 이를 sample_submit 이라는 이름의 변수에 할당합니다.
sample_submit = pd.read_csv("sampleSubmission.csv", index_col="id")

# 앞서 예측한 predictions과 제출 포멧인 sample_submit을 활용하여 새로운 판다스 데이터프레임(DataFrame)을 만듭니다.
# 이 데이터프레임이 사실상 캐글에 제출해야 하는 제출 포멧이 됩니다.
# 여기서 컬럼(column) 이름은 머신러닝 모델에서 참고해옵니다.
# 이를 submit이라는 변수에 할당합니다.
submit = pd.DataFrame(predictions,
                      index = sample_submit.index,
                      columns = model.classes_)

# submit 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(submit.shape)

# submit 데이터의 상위 5개를 띄웁니다.
submit.head()

In [None]:
# 마지막으로 submit 변수에 들어간 값을 csv 형식의 데이터로 저장합니다.
submit.to_csv("otto-baseline-script.csv")

이제 캐글의 제출 페이지([Late Submission](https://www.kaggle.com/c/otto-group-product-classification-challenge/submit))로 이동해 ```otto-baseline-script.csv``` 파일을 제출하면 점수를 확인할 수 있습니다.