In [38]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [39]:
import lightgbm as lgb

In [40]:
from sklearn.model_selection import train_test_split, cross_validate, StratifiedKFold, GridSearchCV

In [41]:
from sklearn.metrics import accuracy_score, classification_report

In [42]:
train_bert = pd.read_csv('KNOW_2017_train_bert.csv')
test_bert = pd.read_csv('KNOW_2017_test_bert.csv')
train_tf_idf = pd.read_csv('KNOW_2017_train_tfidf.csv')
test_tf_idf = pd.read_csv('KNOW_2017_test_tfidf.csv')
train_simcse = pd.read_csv('KNOW_2017_train_simcse.csv')
test_simcse = pd.read_csv('KNOW_2017_test_simcse.csv')
train_no_text = pd.read_csv('KNOW_2017_train_no_text.csv')
test_no_text = pd.read_csv('KNOW_2017_test_no_text.csv')

# bert

In [56]:
train_bert_X, train_bert_y = train_bert.drop('knowcode', axis=1), train_bert.knowcode
test_bert_X = test_bert

In [57]:
model_lgbm = lgb.LGBMClassifier(n_estimators=1000, max_depth=8, learning_rate=0.02)

In [58]:
# train/ test data 로 split 
tr_val_X, test_X, tr_val_y, test_y = train_test_split(
    train_bert_X, 
    train_bert_y, 
    test_size = 0.2, 
    random_state = 42,
    shuffle=True,
    stratify = train_bert_y # Classification 중요 option
)

In [59]:
kfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(tr_val_X, tr_val_y):  # feautres 데이터를 위에서 지정한 kfold 숫자로 분할
    x_train, x_test = train_bert_X.iloc[train_index], train_bert_X.iloc[test_index]
    y_train, y_test = train_bert_y[train_index], train_bert_y[test_index]
    
    model_lgbm.fit(x_train, y_train, eval_set=(x_test, y_test), early_stopping_rounds=100, verbose=100)
    pred = model_lgbm.predict(x_test)
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4) # 소수점 4자리 반올림
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print('\n#{0} 교차 검증 정확도 : {1},  학습 데이터 크기 : {2},  검증 데이터 크기 : {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))



[100]	valid_0's multi_logloss: 3.76961
[200]	valid_0's multi_logloss: 3.64047
[300]	valid_0's multi_logloss: 3.54596
[400]	valid_0's multi_logloss: 3.40054
[500]	valid_0's multi_logloss: 3.30516
[600]	valid_0's multi_logloss: 3.2435
[700]	valid_0's multi_logloss: 3.20339
[800]	valid_0's multi_logloss: 3.18095
[900]	valid_0's multi_logloss: 3.1651
[1000]	valid_0's multi_logloss: 3.15547

#1 교차 검증 정확도 : 0.4486,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#1 검증 세트 인덱스 : [   0    1    2 ... 3798 3977 4340]




[100]	valid_0's multi_logloss: 3.55731
[200]	valid_0's multi_logloss: 3.37142
[300]	valid_0's multi_logloss: 3.26515
[400]	valid_0's multi_logloss: 3.12311
[500]	valid_0's multi_logloss: 3.02984
[600]	valid_0's multi_logloss: 2.97485
[700]	valid_0's multi_logloss: 2.93524
[800]	valid_0's multi_logloss: 2.91235
[900]	valid_0's multi_logloss: 2.8982
[1000]	valid_0's multi_logloss: 2.89009

#2 교차 검증 정확도 : 0.4684,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#2 검증 세트 인덱스 : [ 205  260  278 ... 5390 5418 5549]




[100]	valid_0's multi_logloss: 3.54871
[200]	valid_0's multi_logloss: 3.37412
[300]	valid_0's multi_logloss: 3.24445
[400]	valid_0's multi_logloss: 3.10306
[500]	valid_0's multi_logloss: 3.01215
[600]	valid_0's multi_logloss: 2.95307
[700]	valid_0's multi_logloss: 2.91231
[800]	valid_0's multi_logloss: 2.88808
[900]	valid_0's multi_logloss: 2.87301
[1000]	valid_0's multi_logloss: 2.86582

#3 교차 검증 정확도 : 0.4743,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#3 검증 세트 인덱스 : [ 535  551  583 ... 6698 6732 6775]




[100]	valid_0's multi_logloss: 3.46867
[200]	valid_0's multi_logloss: 3.28734
[300]	valid_0's multi_logloss: 3.1382
[400]	valid_0's multi_logloss: 2.99419
[500]	valid_0's multi_logloss: 2.90848
[600]	valid_0's multi_logloss: 2.85124
[700]	valid_0's multi_logloss: 2.81116
[800]	valid_0's multi_logloss: 2.78873
[900]	valid_0's multi_logloss: 2.77705
[1000]	valid_0's multi_logloss: 2.77038

#4 교차 검증 정확도 : 0.4885,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#4 검증 세트 인덱스 : [1560 1649 1741 ... 7285 7298 7454]




[100]	valid_0's multi_logloss: 3.57928
[200]	valid_0's multi_logloss: 3.45211
[300]	valid_0's multi_logloss: 3.36267
[400]	valid_0's multi_logloss: 3.22588
[500]	valid_0's multi_logloss: 3.13796
[600]	valid_0's multi_logloss: 3.08218
[700]	valid_0's multi_logloss: 3.04863
[800]	valid_0's multi_logloss: 3.0278
[900]	valid_0's multi_logloss: 3.01601
[1000]	valid_0's multi_logloss: 3.0108

#5 교차 검증 정확도 : 0.4529,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#5 검증 세트 인덱스 : [3407 3443 3472 ... 7585 7586 7587]

## 평균 검증 정확도: 0.46654


In [92]:
test_bert['knowcode'] = model_lgbm.predict(test_bert_X)
submission_bert = test_bert[['index', 'knowcode']]
submission_bert.to_csv('KNOW_2017_bert_submission.csv')

ValueError: Number of features of the model must match the input. Model n_features_ is 24435 and input n_features is 432

In [None]:
params = {
    'learning_rate': [0.02, 0.1, 0.05],
    'max_depth': [6,8]
    
}

gs = GridSearchCV(estimator=model,
                  param_grid = params,
                  scoring = 'neg_mean_squared_error', 
                  cv=kfold)

In [None]:
gs.fit(train_bert_X, train_bert_y)

In [None]:
print('Hyper Parameter: ', gs.best_params_)

In [None]:
print('cv score with Hyper Parameter', gs.best_score_)

# simcse

In [67]:
train_simcse_X, train_simcse_y = train_simcse.drop(['knowcode', 'index'], axis=1), train_simcse.knowcode
test_simcse_X = test_simcse.drop('index', axis=1)

In [68]:
model_lgbm = lgb.LGBMClassifier(n_estimators=1000, max_depth=12, learning_rate=0.02, num_leaves=40)

In [69]:
# train/ test data 로 split 
tr_val_X, test_X, tr_val_y, test_y = train_test_split(
    train_simcse_X, 
    train_simcse_y, 
    test_size = 0.2, 
    random_state = 42,
    shuffle=True,
    stratify = train_simcse_y # Classification 중요 option
)

In [70]:
kfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(tr_val_X, tr_val_y):  # feautres 데이터를 위에서 지정한 kfold 숫자로 분할
    x_train, x_test = train_simcse_X.iloc[train_index], train_simcse_X.iloc[test_index]
    y_train, y_test = train_simcse_y[train_index], train_simcse_y[test_index]
    
    model_lgbm.fit(x_train, y_train, eval_set=(x_test, y_test), early_stopping_rounds=100, verbose=100)
    pred = model_lgbm.predict(x_test)
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4) # 소수점 4자리 반올림
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print('\n#{0} 교차 검증 정확도 : {1},  학습 데이터 크기 : {2},  검증 데이터 크기 : {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))



[100]	valid_0's multi_logloss: 3.40217
[200]	valid_0's multi_logloss: 3.14883
[300]	valid_0's multi_logloss: 2.92957
[400]	valid_0's multi_logloss: 2.81792
[500]	valid_0's multi_logloss: 2.7698
[600]	valid_0's multi_logloss: 2.7479
[700]	valid_0's multi_logloss: 2.73925
[800]	valid_0's multi_logloss: 2.73623
[900]	valid_0's multi_logloss: 2.73419
[1000]	valid_0's multi_logloss: 2.73376

#1 교차 검증 정확도 : 0.504,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#1 검증 세트 인덱스 : [   0    1    2 ... 3798 3977 4340]




[100]	valid_0's multi_logloss: 3.25154
[200]	valid_0's multi_logloss: 2.98277
[300]	valid_0's multi_logloss: 2.74638
[400]	valid_0's multi_logloss: 2.64293
[500]	valid_0's multi_logloss: 2.60243
[600]	valid_0's multi_logloss: 2.58646
[700]	valid_0's multi_logloss: 2.58211
[800]	valid_0's multi_logloss: 2.58017
[900]	valid_0's multi_logloss: 2.57997

#2 교차 검증 정확도 : 0.5079,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#2 검증 세트 인덱스 : [ 205  260  278 ... 5390 5418 5549]




[100]	valid_0's multi_logloss: 3.22486
[200]	valid_0's multi_logloss: 2.91071
[300]	valid_0's multi_logloss: 2.67487
[400]	valid_0's multi_logloss: 2.57145
[500]	valid_0's multi_logloss: 2.53215
[600]	valid_0's multi_logloss: 2.5177
[700]	valid_0's multi_logloss: 2.51299
[800]	valid_0's multi_logloss: 2.51164
[900]	valid_0's multi_logloss: 2.51082
[1000]	valid_0's multi_logloss: 2.511

#3 교차 검증 정확도 : 0.5125,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#3 검증 세트 인덱스 : [ 535  551  583 ... 6698 6732 6775]




[100]	valid_0's multi_logloss: 3.22521
[200]	valid_0's multi_logloss: 2.92094
[300]	valid_0's multi_logloss: 2.67416
[400]	valid_0's multi_logloss: 2.58475
[500]	valid_0's multi_logloss: 2.55546
[600]	valid_0's multi_logloss: 2.54526
[700]	valid_0's multi_logloss: 2.5425
[800]	valid_0's multi_logloss: 2.54193

#4 교차 검증 정확도 : 0.532,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#4 검증 세트 인덱스 : [1560 1649 1741 ... 7285 7298 7454]




[100]	valid_0's multi_logloss: 3.22243
[200]	valid_0's multi_logloss: 2.91376
[300]	valid_0's multi_logloss: 2.68425
[400]	valid_0's multi_logloss: 2.59283
[500]	valid_0's multi_logloss: 2.56176
[600]	valid_0's multi_logloss: 2.55365
[700]	valid_0's multi_logloss: 2.55175
[800]	valid_0's multi_logloss: 2.55254

#5 교차 검증 정확도 : 0.526,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#5 검증 세트 인덱스 : [3407 3443 3472 ... 7585 7586 7587]

## 평균 검증 정확도: 0.5164799999999999


In [71]:
test_simcse['knowcode'] = model_lgbm.predict(test_simcse_X)
submission_simcse = test_simcse[['index', 'knowcode']]
submission_simcse.to_csv('KNOW_2017_simcse_submission.csv')

In [None]:
params = {
    'learning_rate': [0.02, 0.1, 0.05],
    'max_depth': [6,8]
    
}

gs = GridSearchCV(estimator=model,
                  param_grid = params,
                  scoring = 'neg_mean_squared_error', 
                  cv=kfold)

In [None]:
gs.fit(train_simcse_X, train_simcse_y)

In [None]:
print('Hyper Parameter: ', gs.best_params_)

In [None]:
print('cv score with Hyper Parameter', gs.best_score_)

# tf_idf

In [88]:
tf_idf_without_knowcode = train_tf_idf.drop(columns=['knowcode'], inplace=False)

In [89]:
test_tf_idf = test_tf_idf[tf_idf_without_knowcode.columns]

In [90]:
train_tf_idf_X, train_tf_idf_y = train_tf_idf.drop(['knowcode', 'index'], axis=1), train_tf_idf.knowcode
test_tf_idf_X = test_tf_idf.drop('index', axis=1)

In [81]:
model_lgbm = lgb.LGBMClassifier(n_estimators=1000, learning_rate=0.02, max_depth=8)

In [82]:
# train/ test data 로 split 
tr_val_X, test_X, tr_val_y, test_y = train_test_split(
    train_tf_idf_X, 
    train_tf_idf_y, 
    test_size = 0.2, 
    random_state = 42,
    shuffle=True,
    stratify = train_tf_idf_y # Classification 중요 option
)

In [83]:
kfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(tr_val_X, tr_val_y):  # feautres 데이터를 위에서 지정한 kfold 숫자로 분할
    x_train, x_test = train_tf_idf_X.iloc[train_index], train_tf_idf_X.iloc[test_index]
    y_train, y_test = train_tf_idf_y[train_index], train_tf_idf_y[test_index]
    
    model_lgbm.fit(x_train, y_train, eval_set=(x_test, y_test), early_stopping_rounds=100, verbose=100)
    pred = model_lgbm.predict(x_test)
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4) # 소수점 4자리 반올림
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print('\n#{0} 교차 검증 정확도 : {1},  학습 데이터 크기 : {2},  검증 데이터 크기 : {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))



[100]	valid_0's multi_logloss: 3.56067
[200]	valid_0's multi_logloss: 3.5232

#1 교차 검증 정확도 : 0.3149,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#1 검증 세트 인덱스 : [   0    1    2 ... 3798 3977 4340]




[100]	valid_0's multi_logloss: 3.29281
[200]	valid_0's multi_logloss: 3.26141

#2 교차 검증 정확도 : 0.3623,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#2 검증 세트 인덱스 : [ 205  260  278 ... 5390 5418 5549]




[100]	valid_0's multi_logloss: 3.20173
[200]	valid_0's multi_logloss: 3.16077

#3 교차 검증 정확도 : 0.3715,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#3 검증 세트 인덱스 : [ 535  551  583 ... 6698 6732 6775]




[100]	valid_0's multi_logloss: 3.25012
[200]	valid_0's multi_logloss: 3.13383

#4 교차 검증 정확도 : 0.3863,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#4 검증 세트 인덱스 : [1560 1649 1741 ... 7285 7298 7454]




[100]	valid_0's multi_logloss: 3.25539
[200]	valid_0's multi_logloss: 3.18935

#5 교차 검증 정확도 : 0.3883,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#5 검증 세트 인덱스 : [3407 3443 3472 ... 7585 7586 7587]

## 평균 검증 정확도: 0.36466000000000004


In [95]:
test_tf_idf['knowcode'] = model_lgbm.predict(test_tf_idf_X)
submission_tf_idf = test_tf_idf[['index', 'knowcode']]
submission_tf_idf.to_csv('KNOW_2017_tfidf_submission.csv')

In [None]:
params = {
    'learning_rate': [0.02, 0.1, 0.05],
    'max_depth': [6,8]
    
}

gs = GridSearchCV(estimator=model,
                  param_grid = params,
                  scoring = 'neg_mean_squared_error', 
                  cv=kfold)

In [None]:
gs.fit(train_tf_idf_X, train_tf_idf_y)

In [None]:
print('Hyper Parameter: ', gs.best_params_)

In [None]:
print('cv score with Hyper Parameter', gs.best_score_)

# no_text

In [97]:
train_no_text_X, train_no_text_y = train_no_text.drop(['knowcode', 'index'], axis=1), train_no_text.knowcode
test_no_text_X = test_no_text.drop('index', axis=1)

In [98]:
#하이퍼파라미터 없이, 지금은 임의로 넣어둠
model_lgbm = lgb.LGBMClassifier(n_estimators=1000, max_depth=6, learning_rate=0.01)

In [99]:
# train/ test data 로 split 
tr_val_X, test_X, tr_val_y, test_y = train_test_split(
    train_no_text_X, 
    train_no_text_y, 
    test_size = 0.2, 
    random_state = 42,
    shuffle=True,
    stratify = train_no_text_y # Classification 중요 option
)

In [100]:
#without hyperparameter
kfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(tr_val_X, tr_val_y):  # feautres 데이터를 위에서 지정한 kfold 숫자로 분할
    x_train, x_test = train_no_text_X.iloc[train_index], train_no_text_X.iloc[test_index]
    y_train, y_test = train_no_text_y[train_index], train_no_text_y[test_index]
    
    model_lgbm.fit(x_train, y_train, eval_set=(x_test, y_test), early_stopping_rounds=100, verbose=100)
    pred = model_lgbm.predict(x_test)
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred), 4) # 소수점 4자리 반올림
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    
    print('\n#{0} 교차 검증 정확도 : {1},  학습 데이터 크기 : {2},  검증 데이터 크기 : {3}'
          .format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter,test_index))
    cv_accuracy.append(accuracy)
    
print('\n## 평균 검증 정확도:', np.mean(cv_accuracy))



[100]	valid_0's multi_logloss: 4.27495
[200]	valid_0's multi_logloss: 3.97975
[300]	valid_0's multi_logloss: 3.91603

#1 교차 검증 정확도 : 0.2819,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#1 검증 세트 인덱스 : [   0    1    2 ... 3798 3977 4340]




[100]	valid_0's multi_logloss: 4.07923
[200]	valid_0's multi_logloss: 3.79256
[300]	valid_0's multi_logloss: 3.71592

#2 교차 검증 정확도 : 0.3037,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#2 검증 세트 인덱스 : [ 205  260  278 ... 5390 5418 5549]




[100]	valid_0's multi_logloss: 3.96693
[200]	valid_0's multi_logloss: 3.62798
[300]	valid_0's multi_logloss: 3.52088
[400]	valid_0's multi_logloss: 3.54098

#3 교차 검증 정확도 : 0.3426,  학습 데이터 크기 : 6070,  검증 데이터 크기 : 1518
#3 검증 세트 인덱스 : [ 535  551  583 ... 6698 6732 6775]




[100]	valid_0's multi_logloss: 3.99886
[200]	valid_0's multi_logloss: 3.64926
[300]	valid_0's multi_logloss: 3.53983
[400]	valid_0's multi_logloss: 3.55374

#4 교차 검증 정확도 : 0.3421,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#4 검증 세트 인덱스 : [1560 1649 1741 ... 7285 7298 7454]




[100]	valid_0's multi_logloss: 4.00412
[200]	valid_0's multi_logloss: 3.68069
[300]	valid_0's multi_logloss: 3.58238
[400]	valid_0's multi_logloss: 3.61902

#5 교차 검증 정확도 : 0.3408,  학습 데이터 크기 : 6071,  검증 데이터 크기 : 1517
#5 검증 세트 인덱스 : [3407 3443 3472 ... 7585 7586 7587]

## 평균 검증 정확도: 0.32222


In [101]:
test_no_text['knowcode'] = model_lgbm.predict(test_no_text_X)
submission_no_text = test_no_text[['index', 'knowcode']]
submission_no_text.to_csv('KNOW_2017_no_text_submission.csv')

In [None]:
params = {
    'learning_rate': [0.02, 0.1, 0.05],
    'max_depth': [6,8]
    
}

gs = GridSearchCV(estimator=model,
                  param_grid = params,
                  scoring = 'neg_mean_squared_error', 
                  cv=kfold)

In [None]:
gs.fit(train_no_text_X, train_no_text_y)

In [None]:
print('Hyper Parameter: ', gs.best_params_)

In [None]:
print('cv score with Hyper Parameter', gs.best_score_)