# Spooky Author Identification 컴패티션
- [컴패티션 링크](https://www.kaggle.com/c/spooky-author-identification)
- [커널 링크](https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle)

## 개요

이 컴패티션은 에드가 앨런 포우 (Edgar Allan Poe), 메리 쉘리 (Mary Shelley), HP 러브 크래프트 (HP Lovecraft)의 공포 이야기 발췌 저자를 예측하는 것입니다. 데이터로 세 작가의 소설 작품이 텍스트로 csv파일에 저장되어 있습니다. 이 데이터는 큰 텍스트를 CoreNLP의 MaxEnt 문장 토크 나이저를 사용하여 문장으로 묶어서 준비되었으므로 여기저기서 이상한 문장을 볼 수 있습니다. 우리의 목적은 테스트 세트에서 누가 이 글을 작성했는지 문장 작성자를 정확하게 식별하는 것입니다. 텍스트 데이터이므로 머신러닝으로 NLP(Natural Language Processing; 자연어처리)를 사용할 것입니다:)

# Approaching (Almost) Any NLP Problem on Kaggle

이 글에서는 캐글에서 자연어 처리 문제에 대해 접근하는 방법을 알아볼 것입니다. 한 가지 예시로 이 컴패티션 데이터를 사용해보겠습니다. 먼저, 매우 기본적인 모델을 만든 다음 다른 여러가지 기능을 사용하여 모델을 개선해 보겠습니다. 또한 어떻게 딥러닝이 사용되는 지를 살펴보고 일반적인 앙상블에 대한 아이디어들을 보며 글을 마무리하겠습니다.

### This covers:
- Tf-idf(Term Frequency - Inverse Document Frequency
- Count features
- Logistic regression
- Naive bayes
- Svm(Support Vecto Machine)
- XGBoost
- Grid search
- Word vectors
- LSTM
- GRU
- Ensembling

*알림* : 이 글은 높은 점수를 얻기 위해 쓰여지지 않았습니다. 하지만 잘 따라서 공부한다면 약간의 튜닝 만으로 높은 점수를 얻으실 수 있습니다! ;)
  
더 이상 시간 끌 것 없이 바로 저희가 사용할 파이썬 라이브러리를 가져오는 것으로 시작해보겠습니다.

In [1]:
import pandas as pd
import numpy as np
import xgboost as xgb
from tqdm import tqdm
from sklearn.svm import SVC
from keras.models import Sequential
from keras.layers.recurrent import LSTM, GRU
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.embeddings import Embedding
from keras.layers.normalization import BatchNormalization
from keras.utils import np_utils
from sklearn import preprocessing, decomposition, model_selection, metrics, pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from keras.layers import GlobalMaxPooling1D, Conv1D, MaxPooling1D, Flatten, Bidirectional, SpatialDropout1D
from keras.preprocessing import sequence, text
from keras.callbacks import EarlyStopping
from nltk import word_tokenize
from nltk.corpus import stopwords
stop_words = stopwords.words('english')

Using TensorFlow backend.


데이터 셋들을 가져오겠습니다.

In [2]:
train = pd.read_csv('../Spooky Author Identification/data/train.csv')
test = pd.read_csv('../Spooky Author Identification/data/test.csv')
sample = pd.read_csv('../Spooky Author Identification/data/sample_submission.csv')

빠르게 데이터을 살펴보겠습니다.

In [3]:
train.head()

Unnamed: 0,id,text,author
0,id26305,"This process, however, afforded me no means of...",EAP
1,id17569,It never once occurred to me that the fumbling...,HPL
2,id11008,"In his left hand was a gold snuff box, from wh...",EAP
3,id27763,How lovely is spring As we looked from Windsor...,MWS
4,id12958,"Finding nothing else, not even gold, the Super...",HPL


In [4]:
test.head()

Unnamed: 0,id,text
0,id02310,"Still, as I urged our leaving Ireland with suc..."
1,id24541,"If a fire wanted fanning, it could readily be ..."
2,id00134,And when they had broken down the frail door t...
3,id27757,While I was thinking how I should possibly man...
4,id04081,I am not sure to what limit his knowledge may ...


In [5]:
sample.head()

Unnamed: 0,id,EAP,HPL,MWS
0,id02310,0.403494,0.287808,0.308698
1,id24541,0.403494,0.287808,0.308698
2,id00134,0.403494,0.287808,0.308698
3,id27757,0.403494,0.287808,0.308698
4,id04081,0.403494,0.287808,0.308698


저희의 목표는 주어진 텍스트 데이터들로 저자(EAP, HPL, HWS)가 누구인지 예측해야 합니다. 쉽게 말하면 3가지 다른 클래스로 이루어진 text classification입니다.

이 특정 문제에 대해 Kaggle은 다중 클래스 로그 손실(multi-class log-loss)을 평가 척도로 지정했습니다. 이는 다음과 같이 구현됩니다.  
(출처 : https://github.com/dnouri/nolearn/blob/master/nolearn/lasagne/util.py)

In [6]:
def multiclass_logloss(actual, predicted, eps=1e-15):
    """Multi class version of Logarithmic Loss metric.
    :param actual: Array containing the actual target classes
    :param predicted: Matrix with class predictions, one probability per class
    """
    # Convert 'actual' to a binary array if it's not already:
    if len(actual.shape) == 1:
        actual2 = np.zeros((actual.shape[0], predicted.shape[1]))
        for i, val in enumerate(actual):
            actual2[i, val] = 1
        actual = actual2

    clip = np.clip(predicted, eps, 1 - eps)
    rows = actual.shape[0]
    vsota = np.sum(actual * np.log(clip))
    return -1.0 / rows * vsota

Scikit-learn의 LabelEncoder를 사용하여 텍스트 레이블을 정수, 0, 1, 2로 변환하겠습니다.

In [7]:
lbl_enc = preprocessing.LabelEncoder()
y = lbl_enc.fit_transform(train.author.values)

더 분석하기에 앞서 데이터를 훈련셋과 검증셋으로 나누는 것은 매우 중요합니다. 우리는 이 과정을 scikit-learn의 'model_selection' 모듈에서 train_test_split을 사용하여 할 수 있습니다.

In [8]:
xtrain, xvalid, ytrain, yvalid = train_test_split(train.text.values, y, 
                                                  stratify=y, 
                                                  random_state=42, 
                                                  test_size=0.1, shuffle=True)

In [9]:
print (xtrain.shape)
print (xvalid.shape)

(17621,)
(1958,)


## 기본적인 모델 설계

우리의 첫 번째 모델을 만들어 보겠습니다.

우리의 첫 번째 모델은 간단한 TF-IDF (Term Frequency - Inverse Document Frequency)와 이를 이용한 간단한 로지스틱 회귀입니다.

In [10]:
# Always start with these features. They work (almost) everytime!
tfv = TfidfVectorizer(min_df=3,  max_features=None, 
            strip_accents='unicode', analyzer='word',token_pattern=r'\w{1,}',
            ngram_range=(1, 3), use_idf=1,smooth_idf=1,sublinear_tf=1,
            stop_words = 'english')

# Fitting TF-IDF to both training and test sets (semi-supervised learning)
tfv.fit(list(xtrain) + list(xvalid))
xtrain_tfv =  tfv.transform(xtrain) 
xvalid_tfv = tfv.transform(xvalid)

In [11]:
# Fitting a simple Logistic Regression on TFIDF
clf = LogisticRegression(C=1.0)
clf.fit(xtrain_tfv, ytrain)
predictions = clf.predict_proba(xvalid_tfv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.626 


휴, 잘 되는군요. 우리의 첫 번째 모델은 multiclass_logloss가 0.626이 나왔습니다.
 
하지만 우리의 향상심은 더 좋은 점수를 탐하고 있습니다. 바로 같은 모델에 다른 데이터를 적용해보겠습니다.
 
TF-IDF를 사용하는 대신, word count를 feature로 사용할 수도 있습니다. 이 방법은 scikit-learn에 있는 CountVectorizer를 사용하여 쉽게 구현할 수 있습니다.

In [12]:
ctv = CountVectorizer(analyzer='word',token_pattern=r'\w{1,}',
            ngram_range=(1, 3), stop_words = 'english')

# Fitting Count Vectorizer to both training and test sets (semi-supervised learning)
ctv.fit(list(xtrain) + list(xvalid))
xtrain_ctv =  ctv.transform(xtrain) 
xvalid_ctv = ctv.transform(xvalid)

In [13]:
# Fitting a simple Logistic Regression on Counts
clf = LogisticRegression(C=1.0)
clf.fit(xtrain_ctv, ytrain)
predictions = clf.predict_proba(xvalid_ctv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.528 


와우! 우리의 첫 모델을 0.1이나 개선했습니다!

다음으로, 예로부터 꽤 유명했던 간단한 모델인 Naive Bayes를 시도해 보겠습니다.
 
이 두 개의 데이터셋에서 Naive Bayes가 사용될 때 어떤 일이 일어나는지 보겠습니다.

In [14]:
# Fitting a simple Naive Bayes on TFIDF
clf = MultinomialNB()
clf.fit(xtrain_tfv, ytrain)
predictions = clf.predict_proba(xvalid_tfv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.578 


잘 작동하는군요! 하지만 counts에서의 logistic regression이 여전히 더 좋은 성적을 내고 있습니다. 그렇다면 counts data에서 이 모델을 사용하면 어떻게 될까요?

In [15]:
# Fitting a simple Naive Bayes on Counts
clf = MultinomialNB()
clf.fit(xtrain_ctv, ytrain)
predictions = clf.predict_proba(xvalid_ctv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.485 


와우! 이 오래된 기술들이 여전히 잘 동작하는 것처럼 보입니다. 또 오래도록 써왔던 기술이 있는데 바로 SVM이라 합니다. SVM을 굉~장히 좋아하는 사람들이 있기 때문에 우리는 이 기술도 적용해봐야 합니다.

SVM은 실행 시간이 오래걸리므로 사용하기 전에 TF-IDF의 Singular Value Decomposition(특이값 분해)를 통해 feature의 수를 줄이고 실행해보겠습니다.

또한 SVM을 적용하기 전에 반드시 데이터를 standardize(표준화)해줘야 합니다.

In [16]:
# Apply SVD, I chose 120 components. 120-200 components are good enough for SVM model.
svd = decomposition.TruncatedSVD(n_components=120)
svd.fit(xtrain_tfv)
xtrain_svd = svd.transform(xtrain_tfv)
xvalid_svd = svd.transform(xvalid_tfv)

# Scale the data obtained from SVD. Renaming variable to reuse without scaling.
scl = preprocessing.StandardScaler()
scl.fit(xtrain_svd)
xtrain_svd_scl = scl.transform(xtrain_svd)
xvalid_svd_scl = scl.transform(xvalid_svd)

이제 SVM을 실행할 차례입니다. 오래 걸리므로 실행시킨 후 산책하거나 남자/여자친구를 만나도 좋습니다. :P

In [17]:
# Fitting a simple SVM
clf = SVC(C=1.0, probability=True) # since we need probabilities
clf.fit(xtrain_svd_scl, ytrain)
predictions = clf.predict_proba(xvalid_svd_scl)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.733 


이런...어서 와보세요! SVM은 좋은 성적을 내지 못했습니다...

그렇다면 캐글에서 가장 많이 쓰이는 알고리즘인 XGBoost를 사용해보겠습니다!

In [18]:
# Fitting a simple xgboost on tf-idf
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1)
clf.fit(xtrain_tfv.tocsc(), ytrain)
predictions = clf.predict_proba(xvalid_tfv.tocsc())

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.782 


In [19]:
# Fitting a simple xgboost on tf-idf
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1)
clf.fit(xtrain_ctv.tocsc(), ytrain)
predictions = clf.predict_proba(xvalid_ctv.tocsc())

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.771 


In [20]:
# Fitting a simple xgboost on tf-idf svd features
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1)
clf.fit(xtrain_svd, ytrain)
predictions = clf.predict_proba(xvalid_svd)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.765 


In [21]:
# Fitting a simple xgboost on tf-idf svd features
clf = xgb.XGBClassifier(nthread=10)
clf.fit(xtrain_svd, ytrain)
predictions = clf.predict_proba(xvalid_svd)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

logloss: 0.812 


XGBoost가 좋은 성능을 내진 못했습니다... 하지만 재기할 기회가 있습니다! 우리는 아직 어떤 hyperparameter optimizations(하이퍼 파라미터 최적화)도 하지 않았습니다. 그리고 제가 귀찮으므로... 당신에게 하는 방법을 알려주고 직접 시도할 기회를 드리겠습니다! 이것은 다음 부분에서 다시 말해보도록 하겠습니다.

## Grid Search

Grid Search는 hyperparameter optimizations를 위한 기술입니다. 그리고 엄청 효과적이지는 않지만 필요한 grid에 잘 파악한다면 좋은 결과를 낼 수 있습니다. 그럼 이번 포스트(http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/)에서 일반적으로 쓰이게 될 파라미터를 지정해보도록 하겠습니다. 이것은 제가 즐겨 사용하는 파라미터일 뿐입니다! 다른 많은 hyperparameter optimization 방법이 있고 개중에는 쓸만한 것도 있고 아닌 것도 있습니다.

이번 부분에서는 로지스틱 회귀를 사용한 그리드 서치에 대해 설명하겠습니다.

그리드 서치를 시작하기 전에 우리는 신뢰할 만한 검증 세트를 만들어야 합니다. 이는 scikit-learn에 있는 `make_scorer` 함수를 이용하여 할 수 있습니다.

In [22]:
mll_scorer = metrics.make_scorer(multiclass_logloss, greater_is_better=False, needs_proba=True)

다음으로 우리는 pipeline이 필요합니다. 여기에서는 설명을 위해 SVC, scaling, logistic regression으로 구성된 pipeline을 사용하겠습니다. 하나의 모듈로만 파이프라인을 구성하는 것보다는 훨씬 더 이해하기 쉬울 것입니다. ;)

In [23]:
# Initialize SVD
svd = TruncatedSVD()
    
# Initialize the standard scaler 
scl = preprocessing.StandardScaler()

# We will use logistic regression here..
lr_model = LogisticRegression()

# Create the pipeline 
clf = pipeline.Pipeline([('svd', svd),
                         ('scl', scl),
                         ('lr', lr_model)])

우리는 이제 grid of parameters가 필요합니다:

In [24]:
param_grid = {'svd__n_components' : [120, 180],
              'lr__C': [0.1, 1.0, 10], 
              'lr__penalty': ['l1', 'l2']}

따라서 SVD의 경우 우리는 120개와 180개의 구성 요소를 평가하고 logistic regression 분석을 위해 L1, L2 패널티를 사용하여 C의 3가지 값을 평가합니다.  
이제 이 parameters를 가지고 그리드 서치를 시작할 수 있습니다.

In [None]:
# Initialize Grid Search Model
model = GridSearchCV(estimator=clf, param_grid=param_grid, scoring=mll_scorer,
                                 verbose=10, n_jobs=-1, iid=True, refit=True, cv=2)

# Fit Grid Search Model
model.fit(xtrain_tfv, ytrain)  # we can use the full data here but im only using xtrain
print("Best score: %0.3f" % model.best_score_)
print("Best parameters set:")
best_parameters = model.best_estimator_.get_params()
for param_name in sorted(param_grid.keys()):
    print("\t%s: %r" % (param_name, best_parameters[param_name]))

Fitting 2 folds for each of 12 candidates, totalling 24 fits


score는 SVM과 비슷하게 나왔습니다. 이 방법은 XGBoost나 심지어 아래와 같이 Multinomial Naive Bayes도 finetune(미세조정)하는 데 사용할 수 있습니다.  
우리는 TF-IDF 데이터를 사용해보겠습니다.

In [None]:
nb_model = MultinomialNB()

# Create the pipeline 
clf = pipeline.Pipeline([('nb', nb_model)])

# parameter grid
param_grid = {'nb__alpha': [0.001, 0.01, 0.1, 1, 10, 100]}

# Initialize Grid Search Model
model = GridSearchCV(estimator=clf, param_grid=param_grid, scoring=mll_scorer,
                                 verbose=10, n_jobs=-1, iid=True, refit=True, cv=2)

# Fit Grid Search Model
model.fit(xtrain_tfv, ytrain)  # we can use the full data here but im only using xtrain. 
print("Best score: %0.3f" % model.best_score_)
print("Best parameters set:")
best_parameters = model.best_estimator_.get_params()
for param_name in sorted(param_grid.keys()):
    print("\t%s: %r" % (param_name, best_parameters[param_name]))

기존 Naive Bayes에서 8%나 score가 향상됐습니다!

Word Vectors는 NLP 문제들에서 흔하게 볼 수 있습니다. Word vectors는 데이터의 많은 정보를 보여줍니다. 한 번 해보겠습니다!
## Word Vectors

어렵게 설명할 것 없이 문장 벡터를 어떻게 만드는지 그리고 어떻게 그것들을 머신러닝 모델에 섞는지 설명하겠습니다. 저는 GloVe vectors, word2vec, fasttext를 굉장히 좋아합니다. 이 글에서는 GloVe vectors를 사용해보겠습니다.  
GloVe vectors는 `http://www-nlp.stanford.edu/data/glove.840B.300d.zip' 에서 다운받을 수 있습니다.


In [None]:
# load the GloVe vectors in a dictionary:

embeddings_index = {}
f = open('glove.840B.300d.txt')
for line in tqdm(f):
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

print('Found %s word vectors.' % len(embeddings_index))

In [None]:
# this function creates a normalized vector for the whole sentence
def sent2vec(s):
    words = str(s).lower().decode('utf-8')
    words = word_tokenize(words)
    words = [w for w in words if not w in stop_words]
    words = [w for w in words if w.isalpha()]
    M = []
    for w in words:
        try:
            M.append(embeddings_index[w])
        except:
            continue
    M = np.array(M)
    v = M.sum(axis=0)
    if type(v) != np.ndarray:
        return np.zeros(300)
    return v / np.sqrt((v ** 2).sum())

In [None]:
# create sentence vectors using the above function for training and validation set
xtrain_glove = [sent2vec(x) for x in tqdm(xtrain)]
xvalid_glove = [sent2vec(x) for x in tqdm(xvalid)]

In [None]:
xtrain_glove = np.array(xtrain_glove)
xvalid_glove = np.array(xvalid_glove)

xgboost에 glove features을 사용해서 실행시켜보겠습니다.

In [None]:
# Fitting a simple xgboost on glove features
clf = xgb.XGBClassifier(nthread=10, silent=False)
clf.fit(xtrain_glove, ytrain)
predictions = clf.predict_proba(xvalid_glove)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

In [None]:
# Fitting a simple xgboost on glove features
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1, silent=False)
clf.fit(xtrain_glove, ytrain)
predictions = clf.predict_proba(xvalid_glove)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

간단한 파라미터 튜닝만으로 GloVe features에서 xgboost의 score가 향상됨을 보았습니다! 이것들로 더욱 더 많은 것을 뽑아내 배워보도록 하겠습니다. 저를 믿으세요!!
## Deep Learning

요즘은 Deep learning의 시대라고 볼 수 있을 정도로 굉장한 인기를 끌고 있습니다. 당연히 우리는 몇 가지 neural networks(신경망)를 training해봐야겠습니다.  
여기서는 LSTM과 GloVe feature에 대한 간단한 dense network를 training 할 것입니다. 먼저 dense network부터 시작해보겠습니다.

In [None]:
# scale the data before any neural net:
scl = preprocessing.StandardScaler()
xtrain_glove_scl = scl.fit_transform(xtrain_glove)
xvalid_glove_scl = scl.transform(xvalid_glove)

In [None]:
# we need to binarize the labels for the neural net
ytrain_enc = np_utils.to_categorical(ytrain)
yvalid_enc = np_utils.to_categorical(yvalid)

In [None]:
# create a simple 3 layer sequential neural net
model = Sequential()

model.add(Dense(300, input_dim=300, activation='relu'))
model.add(Dropout(0.2))
model.add(BatchNormalization())

model.add(Dense(300, activation='relu'))
model.add(Dropout(0.3))
model.add(BatchNormalization())

model.add(Dense(3))
model.add(Activation('softmax'))

# compile the model
model.compile(loss='categorical_crossentropy', optimizer='adam')

In [None]:
model.fit(xtrain_glove_scl, y=ytrain_enc, batch_size=64, 
          epochs=5, verbose=1, 
          validation_data=(xvalid_glove_scl, yvalid_enc))

neual network(신경망)의 파라미터를 계속 조정하고 더 많은 레이어를 추가하고 더 나은 결과를 얻기 위해 드롭 아웃을 늘려야합니다. 자, 이제는 구현 및 실행 속도가 빠르며 최적화없이도 xgboost보다 더 나은 결과를 얻었습니다. :)

더 좋은 결과를 위해서는 LSTM을 사용하여 텍스트 데이터를 토큰 화해야합니다.

In [None]:
# using keras tokenizer here
token = text.Tokenizer(num_words=None)
max_len = 70

token.fit_on_texts(list(xtrain) + list(xvalid))
xtrain_seq = token.texts_to_sequences(xtrain)
xvalid_seq = token.texts_to_sequences(xvalid)

# zero pad the sequences
xtrain_pad = sequence.pad_sequences(xtrain_seq, maxlen=max_len)
xvalid_pad = sequence.pad_sequences(xvalid_seq, maxlen=max_len)

word_index = token.word_index

In [None]:
# create an embedding matrix for the words we have in the dataset
embedding_matrix = np.zeros((len(word_index) + 1, 300))
for word, i in tqdm(word_index.items()):
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        embedding_matrix[i] = embedding_vector

In [None]:
# A simple LSTM with glove embeddings and two dense layers
model = Sequential()
model.add(Embedding(len(word_index) + 1,
                     300,
                     weights=[embedding_matrix],
                     input_length=max_len,
                     trainable=False))
model.add(SpatialDropout1D(0.3))
model.add(LSTM(100, dropout=0.3, recurrent_dropout=0.3))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(3))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

In [None]:
model.fit(xtrain_pad, y=ytrain_enc, batch_size=512, epochs=100, verbose=1, validation_data=(xvalid_pad, yvalid_enc))

score가 0.5 미만으로 나타납니다. 지금은 멈추지 않고 많은 epochs에 걸쳐 실행했지만 early stopping을 사용하여 최고점의 반복 세울 수 있습니다. 그렇다면 early stopping를 어떻게 사용할까요?

음, 꽤 쉽습니다. 한 번 모델을 다시 컴파일 해 봅시다! :\

In [None]:
# A simple LSTM with glove embeddings and two dense layers
model = Sequential()
model.add(Embedding(len(word_index) + 1,
                     300,
                     weights=[embedding_matrix],
                     input_length=max_len,
                     trainable=False))
model.add(SpatialDropout1D(0.3))
model.add(LSTM(300, dropout=0.3, recurrent_dropout=0.3))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(3))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

# Fit the model with early stopping callback
earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')
model.fit(xtrain_pad, y=ytrain_enc, batch_size=512, epochs=100, 
          verbose=1, validation_data=(xvalid_pad, yvalid_enc), callbacks=[earlystop])

한 가지 질문이있을 수 있습니다: 왜 너무 dropout을 이렇게 많이 사용할까요? 음, dropout이 너무 작거나 없으면 overfitting이 발생할 수 있기 때문입니다 :)

Bi-directional LSTM이 우리에게 더 나은 결과를 줄 수 있는지 봅시다. Keras로 구동하면 껌이죠 :)

In [None]:
# A simple bidirectional LSTM with glove embeddings and two dense layers
model = Sequential()
model.add(Embedding(len(word_index) + 1,
                     300,
                     weights=[embedding_matrix],
                     input_length=max_len,
                     trainable=False))
model.add(SpatialDropout1D(0.3))
model.add(Bidirectional(LSTM(300, dropout=0.3, recurrent_dropout=0.3)))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(3))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

# Fit the model with early stopping callback
earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')
model.fit(xtrain_pad, y=ytrain_enc, batch_size=512, epochs=100, 
          verbose=1, validation_data=(xvalid_pad, yvalid_enc), callbacks=[earlystop])

꽤 근접했습니다! GRU의 두 레이어를 시도해보겠습니다.

In [None]:
# GRU with glove embeddings and two dense layers
model = Sequential()
model.add(Embedding(len(word_index) + 1,
                     300,
                     weights=[embedding_matrix],
                     input_length=max_len,
                     trainable=False))
model.add(SpatialDropout1D(0.3))
model.add(GRU(300, dropout=0.3, recurrent_dropout=0.3, return_sequences=True))
model.add(GRU(300, dropout=0.3, recurrent_dropout=0.3))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(1024, activation='relu'))
model.add(Dropout(0.8))

model.add(Dense(3))
model.add(Activation('softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')

# Fit the model with early stopping callback
earlystop = EarlyStopping(monitor='val_loss', min_delta=0, patience=3, verbose=0, mode='auto')
model.fit(xtrain_pad, y=ytrain_enc, batch_size=512, epochs=100, 
          verbose=1, validation_data=(xvalid_pad, yvalid_enc), callbacks=[earlystop])

좋습니다! 우리가 전에 사용했 것보다 훨씬 낫습니다! 계속 최적화하면 성능이 계속 향상될 것입니다.
해볼 만한 가치가 있는 일입니다:  
stemming, lemmatization. 이 부분은 지금은 넘어가겠습니다.

## Ensembling

Kaggle에서 최고 점수를 얻으려면 모델의 ensemble을 거쳐야합니다. ensemble을 조금 다뤄보겠습니다!

몇 달 전 저는 간단한 ensembler를 만들었지만 그것을 완전히 개발할 시간이 없었습니다.  
여기에서 찾을 수 있습니다: https://github.com/abhishekkrthakur/pysembler. 여기에 이 일부를 사용하겠습니다:

In [None]:
# this is the main ensembling class. how to use it is in the next cell!
import numpy as np
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import StratifiedKFold, KFold
import pandas as pd
import os
import sys
import logging

logging.basicConfig(
    level=logging.DEBUG,
    format="[%(asctime)s] %(levelname)s %(message)s",
    datefmt="%H:%M:%S", stream=sys.stdout)
logger = logging.getLogger(__name__)


class Ensembler(object):
    def __init__(self, model_dict, num_folds=3, task_type='classification', optimize=roc_auc_score,
                 lower_is_better=False, save_path=None):
        """
        Ensembler init function
        :param model_dict: model dictionary, see README for its format
        :param num_folds: the number of folds for ensembling
        :param task_type: classification or regression
        :param optimize: the function to optimize for, e.g. AUC, logloss, etc. Must have two arguments y_test and y_pred
        :param lower_is_better: is lower value of optimization function better or higher
        :param save_path: path to which model pickles will be dumped to along with generated predictions, or None
        """

        self.model_dict = model_dict
        self.levels = len(self.model_dict)
        self.num_folds = num_folds
        self.task_type = task_type
        self.optimize = optimize
        self.lower_is_better = lower_is_better
        self.save_path = save_path

        self.training_data = None
        self.test_data = None
        self.y = None
        self.lbl_enc = None
        self.y_enc = None
        self.train_prediction_dict = None
        self.test_prediction_dict = None
        self.num_classes = None

    def fit(self, training_data, y, lentrain):
        """
        :param training_data: training data in tabular format
        :param y: binary, multi-class or regression
        :return: chain of models to be used in prediction
        """

        self.training_data = training_data
        self.y = y

        if self.task_type == 'classification':
            self.num_classes = len(np.unique(self.y))
            logger.info("Found %d classes", self.num_classes)
            self.lbl_enc = LabelEncoder()
            self.y_enc = self.lbl_enc.fit_transform(self.y)
            kf = StratifiedKFold(n_splits=self.num_folds)
            train_prediction_shape = (lentrain, self.num_classes)
        else:
            self.num_classes = -1
            self.y_enc = self.y
            kf = KFold(n_splits=self.num_folds)
            train_prediction_shape = (lentrain, 1)

        self.train_prediction_dict = {}
        for level in range(self.levels):
            self.train_prediction_dict[level] = np.zeros((train_prediction_shape[0],
                                                          train_prediction_shape[1] * len(self.model_dict[level])))

        for level in range(self.levels):

            if level == 0:
                temp_train = self.training_data
            else:
                temp_train = self.train_prediction_dict[level - 1]

            for model_num, model in enumerate(self.model_dict[level]):
                validation_scores = []
                foldnum = 1
                for train_index, valid_index in kf.split(self.train_prediction_dict[0], self.y_enc):
                    logger.info("Training Level %d Fold # %d. Model # %d", level, foldnum, model_num)

                    if level != 0:
                        l_training_data = temp_train[train_index]
                        l_validation_data = temp_train[valid_index]
                        model.fit(l_training_data, self.y_enc[train_index])
                    else:
                        l0_training_data = temp_train[0][model_num]
                        if type(l0_training_data) == list:
                            l_training_data = [x[train_index] for x in l0_training_data]
                            l_validation_data = [x[valid_index] for x in l0_training_data]
                        else:
                            l_training_data = l0_training_data[train_index]
                            l_validation_data = l0_training_data[valid_index]
                        model.fit(l_training_data, self.y_enc[train_index])

                    logger.info("Predicting Level %d. Fold # %d. Model # %d", level, foldnum, model_num)

                    if self.task_type == 'classification':
                        temp_train_predictions = model.predict_proba(l_validation_data)
                        self.train_prediction_dict[level][valid_index,
                        (model_num * self.num_classes):(model_num * self.num_classes) +
                                                       self.num_classes] = temp_train_predictions

                    else:
                        temp_train_predictions = model.predict(l_validation_data)
                        self.train_prediction_dict[level][valid_index, model_num] = temp_train_predictions
                    validation_score = self.optimize(self.y_enc[valid_index], temp_train_predictions)
                    validation_scores.append(validation_score)
                    logger.info("Level %d. Fold # %d. Model # %d. Validation Score = %f", level, foldnum, model_num,
                                validation_score)
                    foldnum += 1
                avg_score = np.mean(validation_scores)
                std_score = np.std(validation_scores)
                logger.info("Level %d. Model # %d. Mean Score = %f. Std Dev = %f", level, model_num,
                            avg_score, std_score)

            logger.info("Saving predictions for level # %d", level)
            train_predictions_df = pd.DataFrame(self.train_prediction_dict[level])
            train_predictions_df.to_csv(os.path.join(self.save_path, "train_predictions_level_" + str(level) + ".csv"),
                                        index=False, header=None)

        return self.train_prediction_dict

    def predict(self, test_data, lentest):
        self.test_data = test_data
        if self.task_type == 'classification':
            test_prediction_shape = (lentest, self.num_classes)
        else:
            test_prediction_shape = (lentest, 1)

        self.test_prediction_dict = {}
        for level in range(self.levels):
            self.test_prediction_dict[level] = np.zeros((test_prediction_shape[0],
                                                         test_prediction_shape[1] * len(self.model_dict[level])))
        self.test_data = test_data
        for level in range(self.levels):
            if level == 0:
                temp_train = self.training_data
                temp_test = self.test_data
            else:
                temp_train = self.train_prediction_dict[level - 1]
                temp_test = self.test_prediction_dict[level - 1]

            for model_num, model in enumerate(self.model_dict[level]):

                logger.info("Training Fulldata Level %d. Model # %d", level, model_num)
                if level == 0:
                    model.fit(temp_train[0][model_num], self.y_enc)
                else:
                    model.fit(temp_train, self.y_enc)

                logger.info("Predicting Test Level %d. Model # %d", level, model_num)

                if self.task_type == 'classification':
                    if level == 0:
                        temp_test_predictions = model.predict_proba(temp_test[0][model_num])
                    else:
                        temp_test_predictions = model.predict_proba(temp_test)
                    self.test_prediction_dict[level][:, (model_num * self.num_classes): (model_num * self.num_classes) +
                                                                                        self.num_classes] = temp_test_predictions

                else:
                    if level == 0:
                        temp_test_predictions = model.predict(temp_test[0][model_num])
                    else:
                        temp_test_predictions = model.predict(temp_test)
                    self.test_prediction_dict[level][:, model_num] = temp_test_predictions

            test_predictions_df = pd.DataFrame(self.test_prediction_dict[level])
            test_predictions_df.to_csv(os.path.join(self.save_path, "test_predictions_level_" + str(level) + ".csv"),
                                       index=False, header=None)

        return self.test_prediction_dict

In [None]:
# specify the data to be used for every level of ensembling:
train_data_dict = {0: [xtrain_tfv, xtrain_ctv, xtrain_tfv, xtrain_ctv], 1: [xtrain_glove]}
test_data_dict = {0: [xvalid_tfv, xvalid_ctv, xvalid_tfv, xvalid_ctv], 1: [xvalid_glove]}

model_dict = {0: [LogisticRegression(), LogisticRegression(), MultinomialNB(alpha=0.1), MultinomialNB()],

              1: [xgb.XGBClassifier(silent=True, n_estimators=120, max_depth=7)]}

ens = Ensembler(model_dict=model_dict, num_folds=3, task_type='classification',
                optimize=multiclass_logloss, lower_is_better=True, save_path='')

ens.fit(train_data_dict, ytrain, lentrain=xtrain_glove.shape[0])
preds = ens.predict(test_data_dict, lentest=xvalid_glove.shape[0])

In [None]:
# check error:
multiclass_logloss(yvalid, preds[1])

이처럼 ensembleing은 점수를 상당 부분 향상시킵니다! 이 글은 튜토리얼로만 구성되기 때문에 리더 보드에 제출할 수있는 CSV는 제공하지 않습니다.

이 글이 여러분 마음에 들었으면 좋겠습니다!

추신 : 반응이 좋으면, 더 많은 자료를 추가 하겠습니다! :)