# 승자의 지혜 - 8등 소스코드 분석 

#### train 데이터의 크기가 2GB 정도로 코드를 돌리는 시간이 많이 소요되어 train 데이터 중 100만 개만 사용 (코드 by 정현)
#### ** 파일을 다운받은 경우, 다운받은 'train_ver2_trunc.csv' 파일이 있는 곳으로 경로 위치를 설정해주세요. 파일이 필요한 경우, cell type을 code로 바꾸어 아래에 있는 코드를 실행시켜 주세요 

import pandas as pd

trn = pd.read_csv('../../data/train_ver2.csv') # 다운 받은 파일이 해당 경로에 있는지 확인
trn = trn.sort_values(by=['ncodpers'], axis=0).iloc[1:1000000,]
trn.drop(trn.columns[[0]], axis='columns')

trn.to_csv('..\\..\\data\\train_ver2_trunc.csv', # 저장할 경로 지정 
           sep=',', na_rep='NaN',
           index=False)

### 0. 데이터 준비 

In [1]:
# 훈련 데이터와 테스트 데이터를 하나의 데이터로 통합하는 코드이다.
def clean_data(fi, fo, header, suffix):
    
    # fi : 훈련/테스트 데이터를 읽어오는 file iterator
    # fo : 통합되는 데이터가 write되는 경로
    # header : 데이터에 header 줄을 추가할 것인지를 결정하는 boolean
    # suffix : 훈련 데이터에는 48개의 변수가 있고, 테스트 데이터에는 24개의 변수만 있다. suffix로 부족한 테스트 데이터 24개분을 공백으로 채운다.

    # csv의 첫줄, 즉 header를 읽어온다
    head = fi.readline().strip("\n").split(",")
    head = [h.strip('"') for h in head]

    # ‘nomprov’ 변수의 위치를 ip에 저장한다
    for i, h in enumerate(head):
        if h == "nomprov":
            ip = i

    # header가 True 일 경우에는, 저장할 파일의 header를 write한다
    if header:
        fo.write("%s\n" % ",".join(head))

    # n은 읽어온 변수의 개수를 의미한다 (훈련 데이터 : 48, 테스트 데이터 : 24)
    n = len(head)
    for line in fi:
        # 파일의 내용을 한줄 씩 읽어와서, 줄바꿈(\n)과 ‘,’으로 분리한다
        fields = line.strip("\n").split(",")

        # ‘nomprov’변수에 ‘,’을 포함하는 데이터가 존재한다. ‘,’으로 분리된 데이터를 다시 조합한다
        if len(fields) > n:
            prov = fields[ip] + fields[ip+1]
            del fields[ip]
            fields[ip] = prov

        # 데이터 개수가 n개와 동일한지 확인하고, 파일에 write한다. 테스트 데이터의 경우, suffix는24개의 공백이다
        assert len(fields) == n
        fields = [field.strip() for field in fields]
        fo.write("%s%s\n" % (",".join(fields), suffix))

In [2]:
# 하나의 데이터로 통합하는 코드를 실행한다. 먼저 훈련 데이터를 write하고, 그 다음으로 테스트 데이터를 write한다. 이제부터 하나의 dataframe만을 다루며 데이터 전처리를 진행한다.
with open("../input/8th.clean.all.csv", "w") as f:
    clean_data(open("../../data/train_ver2_trunc.csv"), f, True, "") # 경로 확인 
    comma24 = "".join(["," for i in range(24)])
    clean_data(open("../../data/test_ver2.csv"), f, False, comma24)

#### lightgbm 모듈 설치
#### ** 파일이 필요할 경우, cell type을 code로 바꾸어 실행시켜 주세요 

! pip install lightgbm

#### LightGBM

Tree 기반의 러닝 알고리즘을 사용한 gradient boosting framework 입니다. 아래와 같은 장점이 있습니다.

- Faster training speed and higher efficiency. (빠른 훈련 속도와 높은 효율)
- Lower memory usage. (적은 메모리 사용)
- Better accuracy. (높은 정확도)
- Support of parallel and GPU learning. (병렬 처리와 GPU 러닝 지원)
- Capable of handling large-scale data. (큰 scale 데이터 다룰 수 있음)

In [6]:
import math    
import io    

# 파일 압축 용도
import gzip    
import pickle    
import zlib    

# 데이터, 배열을 다루기 위한 기본 라이브러리
import pandas as pd 
import numpy as np

# 범주형 데이터를 수치형으로 변환하기 위한 전처리 도구
from sklearn.preprocessing import LabelEncoder

import engines
from utils import *

np.random.seed(2016)
transformers = {}

### 1. 데이터 전처리

In [7]:
# “데이터 준비”에서 통합한 데이터를 읽어온다
fname = "../input/8th.clean.all.csv"
train_df = pd.read_csv(fname) # dtype=dtypes 삭제 

# products는 util.py에서 정의한 24개의 금융 제품이름이다
# 결측값을 0.0으로 대체하고, 정수형으로 변환한다
for prod in products:
    train_df[prod] = train_df[prod].fillna(0.0).astype(np.int8)


  interactivity=interactivity, compiler=compiler, result=result)


In [8]:
def label_encode(df, features, name):
    # 데이터 프레임 df의 변수 name의 값을 모두 string으로 변환한다
    df[name] = df[name].astype('str')
    # 이미, label_encode 했던 변수일 경우, transformer[name]에 있는 LabelEncoder()를 재활용한다
    if name in transformers:
        df[name] = transformers[name].transform(df[name])
    # 처음 보는 변수일 경우, transformer에 LabelEncoder()를 저장하고, .fit_transform() 함수로 label encoding을 수행한다
    else: # train
        transformers[name] = LabelEncoder()
        df[name] = transformers[name].fit_transform(df[name])
    # label encoding한 변수는 features 리스트에 추가한다
    features.append(name)
    

In [9]:
def encode_top(s, count=100, dtype=np.int8):
    # 모든 고유값에 대한 빈도를 계산한다
    uniqs, freqs = np.unique(s, return_counts=True)
    # 빈도 Top 100을 추출한다
    top = sorted(zip(uniqs,freqs), key=lambda vk: vk[1], reverse = True)[:count]
    # { 기존 데이터 : 순위 } 를 나타내는 dict()를 생성한다
    top_map = {uf[0]: l+1 for uf, l in zip(top, range(len(top)))}
    # 고빈도 100개의 데이터는 순위로 대체하고, 그 외는 0으로 대체한다
    return s.map(lambda x: top_map.get(x, 0)).astype(dtype)


In [10]:
# 날짜 데이터를 월 단위 숫자로 변환하는 함수
def date_to_float(str_date):
    if str_date.__class__ is float and math.isnan(str_date) or str_date == "":
        return np.nan
    Y, M, D = [int(a) for a in str_date.strip().split("-")]
    float_date = float(Y) * 12 + float(M)
    return float_date

# 날짜 데이터를 월 단위 숫자로 변환하되 1~18 사이로 제한하는 함수
def date_to_int(str_date):
    Y, M, D = [int(a) for a in str_date.strip().split("-")] # "2016-05-28"
    int_date = (int(Y) - 2015) * 12 + int(M)
    assert 1 <= int_date <= 12 + 6
    return int_date


In [11]:
def custom_one_hot(df, features, name, names, dtype=np.int8, check=False):
    for n, val in names.items():
        # 신규 변수명을 “변수명_숫자”로 지정한다
        new_name = "%s_%s" % (name, n)
        # 기존 변수에서 해당 고유값을 가지면 1, 그 외는 0인 이진 변수를 생성한다
        df[new_name] = df[name].map(lambda x: 1 if x == val else 0).astype(dtype)
        features.append(new_name)

In [12]:
def apply_transforms(train_df):
    # 학습에 사용할 변수를 저장할 features 리스트를 생성한다
    features = []

    # 두 변수를 label_encode() 한다
    label_encode(train_df, features, "canal_entrada")
    label_encode(train_df, features, "pais_residencia")

    # age의 결측값을 0.0으로 대체하고, 모든 값을 정수로 변환한다.
    train_df["age"] = train_df["age"].fillna(0.0).astype(np.int16)
    features.append("age")

    # renta의 결측값을 1.0으로 대체하고, log를 씌워 분포를 변형한다
    train_df["renta"].fillna(1.0, inplace=True)
    train_df["renta"] = train_df["renta"].map(math.log)
    features.append("renta")

    # 고빈도 100개의 순위를 추출한다
    train_df["renta_top"] = encode_top(train_df["renta"])
    features.append("renta_top")

    # 결측값 혹은 음수를 0으로 대체하고, 나머지 값은 +1.0 은 한 후에, 정수로 변환한다
    train_df["antiguedad"] = train_df["antiguedad"].map(lambda x: 0.0 if x < 0 or math.isnan(x) else x+1.0).astype(np.int16)
    features.append("antiguedad")

    # 결측값을 0.0으로 대체하고, 정수로 변환한다
    train_df["tipodom"] = train_df["tipodom"].fillna(0.0).astype(np.int8)
    features.append("tipodom")
    train_df["cod_prov"] = train_df["cod_prov"].fillna(0.0).astype(np.int8)
    features.append("cod_prov")

    # fecha_dato에서 월/년도를 추출하여 정수값으로 변환한다
    train_df["fecha_dato_month"] = train_df["fecha_dato"].map(lambda x: int(x.split("-")[1])).astype(np.int8)
    features.append("fecha_dato_month")
    train_df["fecha_dato_year"] = train_df["fecha_dato"].map(lambda x: float(x.split("-")[0])).astype(np.int16)
    features.append("fecha_dato_year")

    # 결측값을 0.0으로 대체하고, fecha_alta에서 월/년도를 추출하여 정수값으로 변환한다
    # x.__class__는 결측값일 경우 float를 반환하기 때문에, 결측값 탐지용으로 사용하고 있다
    train_df["fecha_alta_month"] = train_df["fecha_alta"].map(lambda x: 0.0 if x.__class__ is float else float(x.split("-")[1])).astype(np.int8)
    features.append("fecha_alta_month")
    train_df["fecha_alta_year"] = train_df["fecha_alta"].map(lambda x: 0.0 if x.__class__ is float else float(x.split("-")[0])).astype(np.int16)
    features.append("fecha_alta_year")

    # 날짜 데이터를 월 기준 수치형 변수로 변환한다
    train_df["fecha_dato_float"] = train_df["fecha_dato"].map(date_to_float)
    train_df["fecha_alta_float"] = train_df["fecha_alta"].map(date_to_float)

    # fecha_dato 와 fecha_alto의 월 기준 수치형 변수의 차이값을 파생 변수로 생성한다
    train_df["dato_minus_alta"] = train_df["fecha_dato_float"] - train_df["fecha_alta_float"]
    features.append("dato_minus_alta")

    # 날짜 데이터를 월 기준 수치형 변수로 변환한다 (1 ~ 18 사이 값으로 제한)
    train_df["int_date"] = train_df["fecha_dato"].map(date_to_int).astype(np.int8)

    # 자체 개발한 one-hot-encoding을 수행한다
    custom_one_hot(train_df, features, "indresi", {"n":"N"})
    custom_one_hot(train_df, features, "indext", {"s":"S"})
    custom_one_hot(train_df, features, "conyuemp", {"n":"N"})
    custom_one_hot(train_df, features, "sexo", {"h":"H", "v":"V"})
    custom_one_hot(train_df, features, "ind_empleado", {"a":"A", "b":"B", "f":"F", "n":"N"})
    custom_one_hot(train_df, features, "ind_nuevo", {"new":1})
    custom_one_hot(train_df, features, "segmento", {"top":"01 - TOP", "particulares":"02 - PARTICULARES", "universitario":"03 - UNIVERSITARIO"})
    custom_one_hot(train_df, features, "indfall", {"s":"S"})
    custom_one_hot(train_df, features, "tiprel_1mes", {"a":"A", "i":"I", "p":"P", "r":"R"}, check=True)
    custom_one_hot(train_df, features, "indrel", {"1":1, "99":99})

    # 결측값을 0.0으로 대체하고, 그 외는 +1.0을 더하고, 정수로 변환한다
    train_df["ind_actividad_cliente"] = train_df["ind_actividad_cliente"].map(lambda x: 0.0 if math.isnan(x) else x+1.0).astype(np.int8)
    features.append("ind_actividad_cliente")

    # 결측값을 0.0으로 대체하고, “P”를 5로 대체하고, 정수로 변환한다
    train_df["indrel_1mes"] = train_df["indrel_1mes"].map(lambda x: 5.0 if x == "P" else x).astype(float).fillna(0.0).astype(np.int8)
    features.append("indrel_1mes")
    
    # 데이터 전처리/피쳐 엔지니어링이 1차적으로 완료된 데이터 프레임 train_df와 학습에 사용할 변수 리스트 features를 tuple 형태로 반환한다
    return train_df, tuple(features)


In [13]:
# 48개의 변수마다 전처리/피처 엔지니어링을 적용한다
train_df, features = apply_transforms(train_df)

In [21]:
def make_prev_df(train_df, step):
    # 새로운 데이터 프레임에 ncodpers를 추가하고, int_date를 step만큼 이동시킨 값을 넣는다
    prev_df = pd.DataFrame()
    prev_df["ncodpers"] = train_df["ncodpers"]
    prev_df["int_date"] = train_df["int_date"].map(lambda x: x+step).astype(np.int8)

    # “변수명_prev1” 형태의 lag 변수를 생성한다
    prod_features = ["%s_prev%s" % (prod, step) for prod in products]
    for prod, prev in zip(products, prod_features):
        prev_df[prev] = train_df[prod]

    return prev_df, tuple(prod_features)


In [22]:
def join_with_prev(df, prev_df, how):
    # pandas merge 함수를 통해 join
    df = df.merge(prev_df, on=["ncodpers", "int_date"], how=how)
    # 24개 금융 변수를 소수형으로 변환한다
    for f in set(prev_df.columns.values.tolist()) - set(["ncodpers", "int_date"]):
        df[f] = df[f].astype(np.float16)
    return df

In [23]:
prev_dfs = []
prod_features = None

use_features = frozenset([1,2])
# 1 ~ 5까지의 step에 대하여 make_prev_df()를 통해 lag-n 데이터를 생성한다
for step in range(1,6):
    prev1_train_df, prod1_features = make_prev_df(train_df, step)
    # 생성한 lag 데이터는 prev_dfs 리스트에 저장한다
    prev_dfs.append(prev1_train_df)
    # features에는 lag-1,2만 추가한다
    if step in use_features:
        features += prod1_features
    # prod_features에는 lag-1의 변수명만 저장한다
    if step == 1:
        prod_features = prod1_features

In [24]:
for i, prev_df in enumerate(prev_dfs):
    how = "inner" if i == 0 else "left"
    train_df = join_with_prev(train_df, prev_df, how=how)

In [25]:
# 24개의 금융 변수에 대해서 for loop을 돈다
for prod in products:
    # [1~3], [1~5], [2~5] 의 3개 구간에 대해서 표준편차를 구한다
    for begin, end in [(1,3),(1,5),(2,5)]:
        prods = ["%s_prev%s" % (prod, i) for i in range(begin,end+1)]
        mp_df = train_df.as_matrix(columns=prods)
        stdf = "%s_std_%s_%s" % (prod,begin,end)

        # np.nanstd로 표준편차를 구하고, features에 신규 파생 변수 이름을 추가한다
        train_df[stdf] = np.nanstd(mp_df, axis=1)
        features += (stdf,)

    # [2~3], [2~5] 의 2개 구간에 대해서 최소값/최대값을 구한다
    for begin, end in [(2,3),(2,5)]:
        prods = ["%s_prev%s" % (prod, i) for i in range(begin,end+1)]
        mp_df = train_df.as_matrix(columns=prods)

        minf = "%s_min_%s_%s"%(prod,begin,end)
        train_df[minf] = np.nanmin(mp_df, axis=1).astype(np.int8)

        maxf = "%s_max_%s_%s"%(prod,begin,end)
        train_df[maxf] = np.nanmax(mp_df, axis=1).astype(np.int8)

        features += (minf,maxf,)

  
  keepdims=keepdims)
  app.launch_new_instance()


In [26]:
# 고객 고유 식별 번호(ncodpers), 정수로 표현한 날짜(int_date), 실제 날짜(fecha_dato), 24개의 금융 변수(products)와 학습에 사용하기 위해 전처리/피쳐 엔지니어링한 변수(features)가 주요 변수이다.
leave_columns = ["ncodpers", "int_date", "fecha_dato"] + list(products) + list(features)
# 중복값이 없는지 확인한다
assert len(leave_columns) == len(set(leave_columns))
# train_df에서 주요 변수만을 추출한다
train_df = train_df[leave_columns]

In [27]:
train_df, features, prod_features

(        ncodpers  int_date  fecha_dato  ind_ahor_fin_ult1  ind_aval_fin_ult1  \
 0          15889         6  2015-06-28                  0                  0   
 1          15889        12  2015-12-28                  0                  0   
 2          15889         7  2015-07-28                  0                  0   
 3          15889         9  2015-09-28                  0                  0   
 4          15889        14  2016-02-28                  0                  0   
 ...          ...       ...         ...                ...                ...   
 998470    140745        18  2016-06-28                  0                  0   
 998471    140747        18  2016-06-28                  0                  0   
 998472    140748        18  2016-06-28                  0                  0   
 998473    140757        18  2016-06-28                  0                  0   
 998474    131627        18  2016-06-28                  0                  0   
 
         ind_cco_fin_ult1 

### 3. 머신러닝 모델

In [30]:
train_predict(all_df, features, prod_features, "2016-05-28", cv=True)
train_predict(all_df, features, prod_features, "2016-06-28", cv=False)

NameError: name 'all_df' is not defined

In [28]:
def train_predict(all_df, features, prod_features, str_date, cv):
    # all_df : 통합 데이터
    # features : 학습에 사용할 변수
    # prod_features : 24개 금융 변수
    # str_date : 예측 결과물을 산출하는 날짜. 2016-05-28일 경우, 훈련 데이터의 일부이며 정답을 알고 있기에 교차 검증을 의미하고, 2016-06-28일 경우, 캐글에 업로드하기 위한 테스트 데이터 예측 결과물을 생성한다
    # cv : 교차 검증 실행 여부

    # str_date로 예측 결과물을 산출하는 날짜를 지정한다
    test_date = date_to_int(str_date)
    # 훈련 데이터는 test_date 이전의 모든 데이터를 사용한다
    train_df = all_df[all_df.int_date < test_date]
    # 테스트 데이터를 통합 데이터에서 분리한다
    test_df = pd.DataFrame(all_df[all_df.int_date == test_date])

    # 신규 구매 고객만을 훈련 데이터로 추출한다
    X = []
    Y = []
    for i, prod in enumerate(products):
        prev = prod + "_prev1"
        # 신규 구매 고객을 prX에 저장한다
        prX = train_df[(train_df[prod] == 1) & (train_df[prev] == 0)]
        # prY에는 신규 구매에 대한 label 값을 저장한다
        prY = np.zeros(prX.shape[0], dtype=np.int8) + i
        X.append(prX)
        Y.append(prY)

    XY = pd.concat(X)
    Y = np.hstack(Y)
    # XY는 신규 구매 데이터만 포함한다
    XY["y"] = Y

    # 메모리에서 변수 삭제
    del train_df
    del all_df

    # 데이터별 가중치를 계산하기 위해서 새로운 변수 (ncodpers + fecha_dato)를 생성한다
    XY["ncodepers_fecha_dato"] = XY["ncodpers"].astype(str) + XY["fecha_dato"]
    uniqs, counts = np.unique(XY["ncodepers_fecha_dato"], return_counts=True)
    # 자연 상수(e)를 통해서, count가 높은 데이터에 낮은 가중치를 준다
    weights = np.exp(1/counts - 1)

    # 가중치를 XY 데이터에 추가한다
    wdf = pd.DataFrame()
    wdf["ncodepers_fecha_dato"] = uniqs
    wdf["counts"] = counts
    wdf["weight"] = weights
    XY = XY.merge(wdf, on="ncodepers_fecha_dato")

    # 교차 검증을 위하여 XY를 훈련:검증 (8:2)로 분리한다
    mask = np.random.rand(len(XY)) < 0.8
    XY_train = XY[mask]
    XY_validate = XY[~mask]

    # 테스트 데이터에서 가중치는 모두 1이다
    test_df["weight"] = np.ones(len(test_df), dtype=np.int8)

    # 테스트 데이터에서 “신규 구매” 정답값을 추출한다. 
    test_df["y"] = test_df["ncodpers"]
    Y_prev = test_df.as_matrix(columns=prod_features)
    for prod in products:
        prev = prod + "_prev1"
        padd = prod + "_add"
        # 신규 구매 여부를 구한다
        test_df[padd] = test_df[prod] - test_df[prev]

    test_add_mat = test_df.as_matrix(columns=[prod + "_add" for prod in products])
    C = test_df.as_matrix(columns=["ncodpers"])
    test_add_list = [list() for i in range(len(C))]
    # 평가 척도 MAP@7 계산을 위하여, 고객별 신규 구매 정답값을 test_add_list에 기록한다
    count = 0
    for c in range(len(C)):
        for p in range(len(products)):
            if test_add_mat[c,p] > 0:
                test_add_list[c].append(p)
                count += 1
    
    # 교차 검증에서, 테스트 데이터로 분리된 데이터가 얻을 수 있는 최대 MAP@7 값을 계산한다. 
    if cv:
        max_map7 = mapk(test_add_list, test_add_list, 7, 0.0)
        map7coef = float(len(test_add_list)) / float(sum([int(bool(a)) for a in test_add_list]))
        print("Max MAP@7", str_date, max_map7, max_map7*map7coef)

    # LightGBM 모델 학습 후, 예측 결과물을 저장한다
    Y_test_lgbm = engines.lightgbm(XY_train, XY_validate, test_df, features, XY_all = XY, restore = (str_date == "2016-06-28"))
    test_add_list_lightgbm = make_submission(io.BytesIO() if cv else gzip.open("tmp/%s.lightgbm.csv.gz" % str_date, "wb"), Y_test_lgbm - Y_prev, C)

    # 교차 검증일 경우, LightGBM 모델의 테스트 데이터 MAP@7 평가 척도를 출력한다
    if cv:
        map7lightgbm = mapk(test_add_list, test_add_list_lightgbm, 7, 0.0)
        print("LightGBMlib MAP@7", str_date, map7lightgbm, map7lightgbm*map7coef)

    # XGBoost 모델 학습 후, 예측 결과물을 저장한다
    Y_test_xgb = engines.xgboost(XY_train, XY_validate, test_df, features, XY_all = XY, restore = (str_date == "2016-06-28"))
    test_add_list_xgboost = make_submission(io.BytesIO() if cv else gzip.open("tmp/%s.xgboost.csv.gz" % str_date, "wb"), Y_test_xgb - Y_prev, C)

    # 교차 검증일 경우, XGBoost 모델의 테스트 데이터 MAP@7 평가 척도를 출력한다
    if cv:
        map7xgboost = mapk(test_add_list, test_add_list_xgboost, 7, 0.0)
        print("XGBoost MAP@7", str_date, map7xgboost, map7xgboost*map7coef)

    # 곱셈 후, 제곱근을 구하는 방식으로 앙상블을 수행한다
    Y_test = np.sqrt(np.multiply(Y_test_xgb, Y_test_lgbm))
    # 앙상블 결과물을 저장하고, 테스트 데이터에 대한 MAP@7 를 출력한다
    test_add_list_xl = make_submission(io.BytesIO() if cv else gzip.open("tmp/%s.xgboost-lightgbm.csv.gz" % str_date, "wb"), Y_test - Y_prev, C)

    # 정답값인 test_add_list와 앙상블 모델의 예측값을 mapk 함수에 넣어, 평가 척도 점수를 확인한다
    if cv:
        map7xl = mapk(test_add_list, test_add_list_xl, 7, 0.0)
        print("XGBoost+LightGBM MAP@7", str_date, map7xl, map7xl*map7coef)

In [29]:
import os

# xgboost, lightgbm 라이브러리
import xgboost as xgb
import lightgbm as lgbm

from utils import *

In [31]:
# XGBoost 모델을 학습하는 함수이다
def xgboost(XY_train, XY_validate, test_df, features, XY_all=None, restore=False):
    # 최적의 parameter를 지정한다
    param = {
        'objective': 'multi:softprob',
        'eta': 0.1,
        'min_child_weight': 10,
        'max_depth': 8,
        'silent': 1,
        # 'nthread': 16,
        'eval_metric': 'mlogloss',
        'colsample_bytree': 0.8,
        'colsample_bylevel': 0.9,
        'num_class': len(products),
    }

    if not restore:
        # 훈련 데이터에서 X, Y, weight를 추출한다. as_matrix를 통해 메모리 효율적으로 array만 저장한다
        X_train = XY_train.as_matrix(columns=features)
        Y_train = XY_train.as_matrix(columns=["y"])
        W_train = XY_train.as_matrix(columns=["weight"])
        # xgboost 전용 데이터형식으로 변환한다
        train = xgb.DMatrix(X_train, label=Y_train, feature_names=features, weight=W_train)

        # 검증 데이터에 대해서 동일한 작업을 진행한다
        X_validate = XY_validate.as_matrix(columns=features)
        Y_validate = XY_validate.as_matrix(columns=["y"])
        W_validate = XY_validate.as_matrix(columns=["weight"])
        validate = xgb.DMatrix(X_validate, label=Y_validate, feature_names=features, weight=W_validate)

        # XGBoost 모델을 학습한다. early_stop 조건은 20번이며, 최대 1000개의 트리를 학습한다
        evallist  = [(train,'train'), (validate,'eval')]
        model = xgb.train(param, train, 1000, evals=evallist, early_stopping_rounds=20)
        # 학습된 모델을 저장한다
        pickle.dump(model, open("next_multi.pickle", "wb"))
    else:
        # “2016-06-28” 테스트 데이터를 사용할 시에는, 사전에 학습된 모델을 불러온다
        model = pickle.load(open("next_multi.pickle", "rb"))
    # 교차 검증으로 최적의 트리 개수를 정한다
    best_ntree_limit = model.best_ntree_limit

    if XY_all is not None:
        # 전체 훈련 데이터에 대해서 X, Y, weight 를 추출하고, XGBoost 전용 데이터 형태로 변환한다
        X_all = XY_all.as_matrix(columns=features)
        Y_all = XY_all.as_matrix(columns=["y"])
        W_all = XY_all.as_matrix(columns=["weight"])
        all_data = xgb.DMatrix(X_all, label=Y_all, feature_names=features, weight=W_all)

        evallist  = [(all_data,'all_data')]
        # 학습할 트리 개수를 전체 훈련 데이터가 늘어난 만큼 조정한다
        best_ntree_limit = int(best_ntree_limit * (len(XY_train) + len(XY_validate)) / len(XY_train))
        # 모델 학습!
        model = xgb.train(param, all_data, best_ntree_limit, evals=evallist)

    # 변수 중요도를 출력한다. 학습된 XGBoost 모델에서 .get_fscore()를 통해 변수 중요도를 확인할 수 있다
    print("Feature importance:")
    for kv in sorted([(k,v) for k,v in model.get_fscore().items()], key=lambda kv: kv[1], reverse=True):
        print(kv)

    # 예측에 사용할 테스트 데이터를 XGBoost 전용 데이터로 변환한다. 이 때, weight는 모두 1이기에, 별도로 작업하지 않는다
    X_test = test_df.as_matrix(columns=features)
    test = xgb.DMatrix(X_test, feature_names=features)

    # 학습된 모델을 기반으로, best_ntree_limit개의 트리를 기반으로 예측한다
    return model.predict(test, ntree_limit=best_ntree_limit)


In [1]:
# 주피터 노트북에 이미지 삽입
from IPython.display import Image
from IPython.core.display import HTML 

![title](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fk.kakaocdn.net%2Fdn%2Fr82C1%2FbtqzT495GKp%2FcJekkdIkbGNfennTj7DyQk%2Fimg.jpg) 

### LightGBM
- **LightGBM**은 기존의 gradient boosting 알고리즘과 달리 **leaf-wise(리프 중심) 트리 분할**을 사용한다.
- 기존의 트리들은 트리의 깊이(tree depth)를 줄이기 위해서 level-wise(균형 트리) 분할을 사용한다. 다만 균형을 잡아주기 위한 연산이 추가되는 것이 단점이다. 
- lightgbm은 트리의 균형은 맞추지 않고 리프 노드를 지속적으로 분할하면서 진행한다. 따라서 비대칭적이고 깊은 트리가 생성되지만 동일한 leaf을 생성할 때 leaf-wise는 **level-wise보다 손실을 줄일 수 있다는 장점이 있다. 단, 데이터의 크기가 작은 경우 leaf-wise는 과적합(overfitting)되기 쉬우므로 max_depth를 줄여줘야 한다. 경험적으로 데이터의 개수(행 수)가 10,000개 이상일 때 추천한다. **

### LightGBM의 주요 하이퍼 파라미터
- objective: regression. binary, multiclass 중 선택 
- metric: mae, rmse, mape, binary_logloss, auc, cross_entropy, .. 중 선택

- learning_rate: 학습률(훈련량). 일반적으로 0.01 ~ 0.1 정도로 맞추고 다른 파라미터를 튜닝함. 나중에 성능을 더 높일 때 learning rate를 더 줄인다. 
- num_iterations: 반복하려는 트리의 개수. 기본값이 100인데 1000 정도는 해주는 게 좋다. 너무 크게 하면 과적합 발생할 수 있다. early_stopping이 있으면 최대한 많이 줘도(10,000~) 별 상관이 없다. 같은 뜻으로 사용되는 옵션(num_iteration, n_iter, num_tree, num_tress, num_round, num_rounds, num_boost_round, n_estimators) 
- max_depth: 트리의 최대 깊이. -1로 설정하면 제한 없이 분기한다. feature가 많다면 크게 설정한다. 파라미터 설정시 우선적으로 설정한다. 
- boosting_type: gbdt, rf, dart, goss 중 선택. 기본값은 gbdt이며 정확도가 중요할 때는 딥러닝의 드랍아웃과 같은 dart를 사용한다. 샘플링을 이용하는 goss도 있다. 
- bagging_fraction: 배깅을 하기 위해서 데이터를 랜덤 샘플링하여 학습에 사용한다. 비율은 0 < fraction <= 1이며 0이 되지 않게 해야한다. 
- feature_fraction: 열 샘플링(트리를 학습할 때마다 선택하는 feature의 비율). 1보다 작다면 LGBM은 매 iteration(tree)마다 다른 feature를 랜덤하게 추출하여 학습하게 된다. 만약 0.8로 값을 설정하면 매 tree를 구성할 때, feature의 80%만 랜덤하게 선택한다. 과적합을 방지하기 위해 사용할 수 있으며 학습속도가 향상된다. 
- scale_pos_weight: 클래스 불균형의 데이터 셋에서 weight를 주는 방식으로 positive를 증가시킨다. 기본값은 1이며 불균형의 정도에 따라 조절한다. 
- max_bin: 적게 주면 빠르게 계산하고 많이 주면 느려지지만 조금더 이상적인 트리 분기를 찾는다. 기본값은 255로 그냥 놔두는 편.
- early_stopping_round: validation 셋에서 평가지표가 더이상 향상되지 않으면 학습을 정지한다. 평가지표의 향상이 n round 이상 지속되면 학습을 정지한다. 
- reg_lambda: L2 규제 
- reg_alpha: L1 규제 

#### 더 빠른 속도
- bagging_fraction
- max_bin은 작게
- save_binary를 쓰면 데이터 로딩 속도가 빨라짐
- parallel learning 사용

#### 더 높은 정확도 
- max_bin은 크게 
- num_iterations는 크게, learning_rate은 작게 
- num_leaves를 크게(과적합의 원인이 될 수 있음) 
- boosting 알고리즘 'dart' 사용 

#### 과적합 줄이기 
- max_bin은 작게 
- num_leaves를 작게
- min_data_in_leaf와 min_sum_hessian_in_leaf 사용  

- min_child_samples: 리프 노드가 되기 위한 최소한의 샘플 데이터 수
- num_leaves: 하나의 트리가 가질 수 있는 최대 리프 개수


참고: http://machinelearningkorea.com/2019/09/29/lightgbm-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0/ 

In [32]:
def lightgbm(XY_train, XY_validate, test_df, features, XY_all=None, restore=False):
    # 훈련 데이터, 검증 데이터 X, Y, weight 추출 후, LightGBM 전용 데이터로 변환한다
    train = lgbm.Dataset(XY_train[list(features)], label=XY_train["y"], weight=XY_train["weight"], feature_name=features)
    validate = lgbm.Dataset(XY_validate[list(features)], label=XY_validate["y"], weight=XY_validate["weight"], feature_name=features, reference=train)

    # 다양한 실험을 통해 얻은 최적의 학습 parameter
    params = {
        'task' : 'train',
        'boosting_type' : 'gbdt', # 부스팅 알고리즘. gbdt, rf, dart, goss 중 선택  
        'objective' : 'multiclass',  # regression. binary, multiclass 중 선택 
        'num_class': 24, # 클래스 개수(복수의 클래스를 가진 분류모델을 만들 때 사용)
        'metric' : {'multi_logloss'}, # 평가 지표. mae, rmse, mape, binary_logloss, auc, cross_entropy, .. 중 선택
        'is_training_metric': True, # 학습시키면서 평가 지표 보고 싶을 때 
        'max_bin': 255,  # 히스토그램 빈 개수: 기본값은 255로 그냥 놔두는 편. 
        'num_leaves' : 64,  # 하나의 트리가 가질 수 있는 최대 리프 개수
        'learning_rate' : 0.1,  # 학습률: 일반적으로 0.01 ~ 0.1 정도 
        'feature_fraction' : 0.8,  # 열 샘플링(트리를 학습할 때마다 선택하는 feature의 비율): 1이 기본값이나 일반적으로 0.7~0.9로 세팅 
        'min_data_in_leaf': 10,  # 하나의 잎이 가지는 데이터의 최소량. 과적합 줄임  
        'min_sum_hessian_in_leaf': 5,  # 잎 하나당 최소 hessian 행렬합. 과적합 줄임 
        # 'num_threads': 16,
    }

    if not restore: # 만일 저장된 모델과 파라미터를 불러오지 못하면,
        # XGBoost와 동일하게 훈련/검증 데이터를 기반으로 최적의 트리 개수를 계산한다
        model = lgbm.train(params, train, num_boost_round=1000, valid_sets=validate, early_stopping_rounds=20)
        best_iteration = model.best_iteration
        # 학습된 모델과 최적의 트리 개수 정보를 저장한다
        model.save_model("tmp/lgbm.model.txt")
        pickle.dump(best_iteration, open("tmp/lgbm.model.meta", "wb"))  # 'wb'는 데이터 저장 
    else:
        model = lgbm.Booster(model_file="tmp/lgbm.model.txt")
        best_iteration = pickle.load(open("tmp/lgbm.model.meta", "rb")) # 'rb'는 데이터 로딩 

    if XY_all is not None:
        # 전체 훈련 데이터에는 늘어난 양만큼 트리 개수를 늘린다
        best_iteration = int(best_iteration * len(XY_all) / len(XY_train))
        # 전체 훈련 데이터에 대한 LightGBM 전용 데이터를 생성한다
        all_train = lgbm.Dataset(XY_all[list(features)], label=XY_all["y"], weight=XY_all["weight"], feature_name=features)
        # LightGBM 모델 학습!
        model = lgbm.train(params, all_train, num_boost_round=best_iteration)
        model.save_model("tmp/lgbm.all.model.txt")

    # LightGBM 모델이 제공하는 변수 중요도 기능을 통해 변수 중요도를 출력한다
    # gain: feature의 평균 이득(분할에 각 변수를 사용할 때마다 감소한 평균 훈련 손실), split: 데이터를 나누는 데 feature가 사용된 횟수 
    print("Feature importance by split:")
    for kv in sorted([(k,v) for k,v in zip(features, model.feature_importance("split"))], key=lambda kv: kv[1], reverse=True):
        print(kv)
    print("Feature importance by gain:")
    for kv in sorted([(k,v) for k,v in zip(features, model.feature_importance("gain"))], key=lambda kv: kv[1], reverse=True):
        print(kv)

    # 테스트 데이터에 대한 예측 결과물을 return한다
    return model.predict(test_df[list(features)], num_iteration=best_iteration)


In [33]:
# lightgbm(), xgboost()로 얻은 예측 결과물을 캐글 제출용 파일로 저장한다. 
def make_submission(f, Y_test, C):
    Y_ret = []
    # 파일의 첫 줄에 header를 쓴다
    f.write("ncodpers,added_products\n".encode('utf-8'))
    # 고객 식별 번호(C)와, 예측 결과물(Y_test)의 for loop
    for c, y_test in zip(C, Y_test):
        # (확률값, 금융 변수명, 금융 변수 id)의 tuple을 구한다
        y_prods = [(y,p,ip) for y,p,ip in zip(y_test, products, range(len(products)))]
        # 확률값을 기준으로 상위 7개 결과만 추출한다
        y_prods = sorted(y_prods, key=lambda a: a[0], reverse=True)[:7]
        # 금융 변수 id를 Y_ret에 저장한다
        Y_ret.append([ip for y,p,ip in y_prods])
        y_prods = [p for y,p,ip in y_prods]
        # 파일에 “고객 식별 번호, 7개의 금융 변수”를 쓴다
        f.write(("%s,%s\n" % (int(c), " ".join(y_prods))).encode('utf-8'))  # c(고객식별번호), " "(금융변수 상위 7개)
    # 상위 7개 예측값을 반환한다
    return Y_ret

In [20]:
# [참고] 텍스트 파일 쓰기 
L=["Python", "ESAA", "20200330"]
file=open('../input/textfile.txt','w')  # 결과는 textfile.txt 형식으로 input 폴더에 저장됩니다.

file.write("START\n")

for i in range(3):
    file.write('%s\n' %L[i])
    
## 결과 확인
test = pd.read_csv('../input/textfile.txt')
test

Unnamed: 0,START
0,Python
1,ESAA
2,20200330


In [40]:
test_add_list_lightgbm = make_submission(io.BytesIO() if cv else gzip.open("tmp/%s.lightgbm.csv.gz"%str_date, "wb"), Y_test_lgbm - Y_prev, C)

NameError: name 'cv' is not defined

io.BytesIO: 메모리에 있는 바이트 배열을 파일처럼 다룰 수 있게 해주는 클래스. 유사한 클래스로 io.StringIO(문자열을 텍스트 파일처럼 취급할 수 있게 해줌)가 있다.

### 4. 캐글 업로드

캐글에 업로드하면 xgboost < lightgbm < xgboost+lightgbm 순으로 성능이 좋다는 것을 알 수 있다. 
소수점 이하 5자리 수준의 차이이지만 캐글 경진대회에서는 0.1%으로도 결과의 판가름이 난다고 한다.

### 5. 요약

- 코드 스크립트 구성: main.py에서 파이프라인 모두 수행, engines.py에 모델 학습 관련 주요 함수, utils.py에 반복해서 사용하는 도구 함수 
- 데이터 전처리: 훈련+테스트 하나로 통합, 결측값은 대부분 0.0으로 대체
- 피쳐 엔지니어링: 다양한 방법을 사용. 범주형은 LabelEncoder, OneHotEncoder 함수로 수치형으로 변환, 빈도수 상위 100개의 순위 생성, 'renta'의 log 정규화, 날짜 변수간 차이값 사용, lag-5의 변수 구간별 기초통계량 사용, 고객 간 빈도수 조절 
- 하이퍼 파라미터: 2016-05-28 데이터를 테스트 데이터로 사용하여 MAP@7 점수를 측정, 훈련 데이터를 8:2로 나누어 교차 검증 수행 
- 모델: XGBoost와 LightGBM 모델 사용 

#### 피처 엔지니어링의 차이가 1,077등과 15등의 차이를 만들었다. Baseline 모델과 8등 팀의 XGBoost 모델의 파라미터는 동일하다.