### sampling

* 시각화 단계에서 타입의 개수에 큰 차이가 있음을 확인하였다.
* 개수가 너무 작은 타입은 제대로 학습되지 않아 예측확률이 낮아지는 문제가 발생할 수 있다.
* fiberID 는 사실상 카테고리 변수이지만, 시각화 단계에서 다른 변수들과 상관관계가 매우 낮음을 확인하였다.

-> 개수가 너무 적은 타입들의 개수를 늘려, 타입의 개수가 작은 변수에 대한 예측 정확도를 높일 수 있다고 판단

In [82]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [83]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import log_loss
from lightgbm import LGBMClassifier
import pickle

In [84]:
data = pd.read_csv("./data/ybigta_sdss_train.csv")
test_data = pd.read_csv("./data/ybigta_sdss_test.csv")
data.head()


Unnamed: 0,id,type,fiberID,psfMag_u,psfMag_g,psfMag_r,psfMag_i,psfMag_z,fiberMag_u,fiberMag_g,...,petroMag_u,petroMag_g,petroMag_r,petroMag_i,petroMag_z,modelMag_u,modelMag_g,modelMag_r,modelMag_i,modelMag_z
0,415567,QSO,106,19.20636,18.83202,18.79017,18.36788,18.32136,19.33958,18.7263,...,18.06469,17.18273,16.74307,16.39772,16.2803,17.60089,16.8296,16.46197,16.09962,16.01179
1,733874,QSO,492,18.85419,18.60349,18.48284,18.36558,18.41101,19.17574,18.90761,...,18.90764,18.64323,18.49622,18.38058,18.47802,18.84907,18.59603,18.46161,18.34665,18.40146
2,1009150,QSO,388,19.81733,18.67198,18.46566,18.33873,18.31073,20.17311,19.0052,...,19.85916,18.70682,18.51968,18.37718,18.37598,19.8172,18.66244,18.458,18.32918,18.31313
3,803041,QSO,531,21.7733,20.19641,20.08064,20.1138,19.83673,22.16908,20.56249,...,21.38145,20.22594,20.13081,20.15601,20.04247,21.76902,20.18548,20.07931,20.10771,19.8511
4,432241,QSO,180,22.53572,20.07427,19.2311,18.94043,18.65541,22.8262,20.41057,...,22.09349,20.1405,19.25699,18.98682,18.63438,22.58755,20.07051,19.21149,18.90649,18.63881


#### 데이터 타입과 개수를 입력받아 샘플링 해주는 함수  (15기 백진우 작성)

In [85]:
orb_type = [
    "GALAXY",
    "QSO",
    "REDDEN_STD",
    "ROSAT_D",
    "SERENDIPITY_BLUE",
    "SERENDIPITY_DISTANT",
    "SERENDIPITY_FIRST",
    "SERENDIPITY_MANUAL",
    "SERENDIPITY_RED",
    "SKY",
    "SPECTROPHOTO_STD",
    "STAR_BHB",
    "STAR_BROWN_DWARF",
    "STAR_CARBON",
    "STAR_CATY_VAR",
    "STAR_PN",
    "STAR_RED_DWARF",
    "STAR_SUB_DWARF",
    "STAR_WHITE_DWARF"
]
def sampling(df, orb_type): #df : 데이터프레임, orb_type : 천체타입 리스트
    copy_train = df.copy()
    for t in orb_type:
        num = len(df[df["type"]==t])
        print("현재 type : ", t)
        insert_row = int(input("랜덤샘플링으로 추가할 개수를 입력하세요 : "))
        print("\n")
        temp = df[df["type"]==t].sample(n = (insert_row - num), replace=True)  #t는 tpye의 종류, replace = True 옵션을 줘야 개수가 더 많아도 샘플링 가능
        copy_train = pd.concat([copy_train, temp], axis = 0) #row로 붙여넣기
    return copy_train

In [86]:
count = data.groupby("type").size().reset_index(name = "count")
count.sort_values(by="count",ascending=False)

Unnamed: 0,type,count
1,QSO,42500
0,GALAXY,34000
4,SERENDIPITY_BLUE,19439
10,SPECTROPHOTO_STD,13073
2,REDDEN_STD,13052
11,STAR_BHB,12069
16,STAR_RED_DWARF,9040
14,STAR_CATY_VAR,5808
6,SERENDIPITY_FIRST,5718
3,ROSAT_D,5559


In [87]:
# 1250 0.01 30 160

0. no sampling -> 0.374
1. 2900 2500 1800 870 300 142 (작은타입 6개)  -> 0.3738814802859438
2. 2100 1600 1300 880 680 230 84  (작은타입 7개) -> 0.3760891561709987
3. 2100 1600 1250 850 700 300 150 (작은타입 7개) -> 0.37593517430997203 
4. 2800 2500 2100 1400 1200 900 500 250 (작은타입 7개) -> 0.37803517430997203 

In [88]:
sampling_data = sampling(data, ["STAR_WHITE_DWARF", "SERENDIPITY_RED", "STAR_SUB_DWARF", "STAR_BROWN_DWARF", "SKY", "SERENDIPITY_MANUAL", "STAR_PN"])

현재 type :  STAR_WHITE_DWARF
랜덤샘플링으로 추가할 개수를 입력하세요 : 2800


현재 type :  SERENDIPITY_RED
랜덤샘플링으로 추가할 개수를 입력하세요 : 2500


현재 type :  STAR_SUB_DWARF
랜덤샘플링으로 추가할 개수를 입력하세요 : 2100


현재 type :  STAR_BROWN_DWARF
랜덤샘플링으로 추가할 개수를 입력하세요 : 1400


현재 type :  SKY
랜덤샘플링으로 추가할 개수를 입력하세요 : 1200


현재 type :  SERENDIPITY_MANUAL
랜덤샘플링으로 추가할 개수를 입력하세요 : 900


현재 type :  STAR_PN
랜덤샘플링으로 추가할 개수를 입력하세요 : 500




In [89]:
X = sampling_data.drop(["type", "id"], axis = 1)
y = sampling_data["type"]

In [90]:
from lightgbm import LGBMClassifier
lgbm_model = LGBMClassifier(boosting_type='gbdt', objective='binary', num_leaves=160,
                                learning_rate=0.01, n_estimators=1250, max_depth=30,
                                bagging_fraction=0.9, feature_fraction=0.9, reg_lambda=0.2)


In [91]:
lgbm_model.fit(X,y)

LGBMClassifier(bagging_fraction=0.9, boosting_type='gbdt', class_weight=None,
               colsample_bytree=1.0, feature_fraction=0.9,
               importance_type='split', learning_rate=0.01, max_depth=30,
               min_child_samples=20, min_child_weight=0.001, min_split_gain=0.0,
               n_estimators=1250, n_jobs=-1, num_leaves=160, objective='binary',
               random_state=None, reg_alpha=0.0, reg_lambda=0.2, silent=True,
               subsample=1.0, subsample_for_bin=200000, subsample_freq=0)

In [92]:
def make_submission(df, model) :
    id_for_index = df['id']
    test = df[test_data.columns[1:]]
    predictions = model.predict_proba(X = test)
    result = pd.DataFrame(data=predictions, index=id_for_index, columns=model.classes_)
    sample = pd.read_csv("./data/ybigta_sdss_sample_submission.csv")
    col_order = sample.columns[1:]
    result = result[col_order]
    return result

In [93]:
make_submission(test_data, lgbm_model).to_csv('./result/sample4_lgbm_model.csv', sep=',')

In [76]:
count = sampling_data.groupby("type").size().reset_index(name = "count")
count.sort_values(by="count",ascending=False)

Unnamed: 0,type,count
1,QSO,42500
0,GALAXY,34000
4,SERENDIPITY_BLUE,19439
10,SPECTROPHOTO_STD,13073
2,REDDEN_STD,13052
11,STAR_BHB,12069
16,STAR_RED_DWARF,9040
14,STAR_CATY_VAR,5808
6,SERENDIPITY_FIRST,5718
3,ROSAT_D,5559
