<a href="https://colab.research.google.com/github/jupyteronline/notebooks/blob/master/6_nlp/02_자연어처리_News_Classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 뉴스 카테고리 분류하기  
본 튜토리얼에서는 사전학습된 임베딩을 활용하여 뉴스의 카테고리를 분류하는 실습을 하고자 합니다.  
https://www.kaggle.com/rmisra/news-category-dataset 의 자료를 참조하였습니다.  
  
![imgur](https://i.imgur.com/bp9eNMS.jpg)  
  
  헤드라인과 기사요약 칼럼을 활용해서, 뉴스 category를 맞추는 문제입니다.  
  category는 40종으로 이루어져 있어서 생각보다 어려운 문제입니다.

In [None]:
%tensorflow_version 1.x
import numpy as np
import pandas as pd
from keras import backend as K
from keras.layers import Embedding, Dense, Input, LSTM, Bidirectional, Activation, Conv1D, GRU, TimeDistributed, Dropout
from keras.models import Model

from keras.preprocessing.text import Tokenizer, text_to_word_sequence
from keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
import os
from tqdm import tqdm

import matplotlib.pyplot as plt

In [None]:
import warnings
import tensorflow as tf
warnings.filterwarnings(action='ignore')
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 
tf.logging.set_verbosity(tf.logging.ERROR)

In [None]:
import os
from google.colab import drive
drive.mount('/content/gdrive/')

In [None]:
os.listdir('gdrive/My Drive/Colab Notebooks/education')   # https://github.com/nomadotto/News_Classifier

In [None]:
path = 'gdrive/My Drive/Colab Notebooks/education'

뉴스 데이터를 불러옵니다.

In [None]:
data = pd.read_json(os.path.join(path,'News_Category_Dataset_v2.json'), lines=True)

In [None]:
data.head(5)

데이터는 200,853개의 뉴스와, 7개의 칼럼으로 이루어져 있습니다.

In [None]:
data.shape

In [None]:
data['category'].unique()

우리가 예측해야 하는 것은 category인데요, 잘 보시면 WORLDPOST와 THE WORLDPOST가 실제로는 같은 카테고리인데 나뉘어져 있음을 알 수 있습니다.  
pandas의 map 함수를 활용하여 WORLDPOST와 THE WORLDPOST를 합쳐줍니다.

In [None]:
data['category'] = data['category'].map(lambda x: "WORLDPOST" if x == 'THE WORLDPOST' else x)

In [None]:
data['category'].unique()

headline 데이터와 short_description 데이터를 합쳐줍니다.

In [None]:
data['text'] = data['headline'] + " " + data['short_description']

IMDB 데이터와 다르게 자연어 처리 모듈인 NLTK를 활용하여 단어 토큰화를 진행하도록 하겠습니다.

In [None]:
#NLTK TOKENIZER 사용하기
import nltk
nltk.download("book", quiet=True)
from nltk.book import *

정규식을 사용해서 문장에서 숫자와 알파벳이 아닌 단어들은 제외해주겠습니다.  
그리고 문장을 단어로 구성된 리스트로 바꿔 주도록 하겠습니다.

In [None]:
from nltk.tokenize import RegexpTokenizer
retokenize = RegexpTokenizer("[\w]+")

In [None]:
text_list = []
for sentence in data['text'].tolist():
  text_list.append(retokenize.tokenize(sentence))

문장이 단어들로 분해되었음을 알 수 있습니다.

In [None]:
print(text_list[:20])

영어 단어에서, 어간을 추출해보도록 하겠습니다.  
예를 들어서 shooting이나 shoot이나 의미는 비슷할 것입니다.  
이러한 변형 형태를 하나로 만들어주는 어간을 nltk를 활용하여 추출하도록 하겠습니다.

In [None]:
# 어간 추출하기
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords


stops = set(stopwords.words('english'))
st = PorterStemmer()

stem_text_list = []
for sentence in tqdm(text_list):
    stem_text_list.append([st.stem(w) for w in sentence if w not in stops])

In [None]:
print(text_list[:20])

위의 단어와 비교해 보면 shootings는 shoot으로, killed는 kill 로, 바뀌었음을 알 수 있습니다.

In [None]:
print(stem_text_list[:20])

In [None]:
# 단어들에 넘버링 하기
tokenizer = Tokenizer()
tokenizer.fit_on_texts(stem_text_list)
x_train = tokenizer.texts_to_sequences(stem_text_list)

In [None]:
print('max length :',max(len(l) for l in x_train))
print('average length :',sum(map(len, x_train))/len(x_train))
plt.hist([len(s) for s in x_train], bins=50)
plt.xlabel('length')
plt.ylabel('number')
plt.show()

In [None]:
max_len = 80

In [None]:
x_train = pad_sequences(x_train, maxlen=max_len)
y_train = np.array(data['category'].factorize()[0])

In [None]:
y_train

gensim 모듈을 활용하여 사전학습된 언어 모델을 불러옵니다.  
glove는 word2vec 이후에 나온 사전학습된 언어 모델입니다.  

In [None]:
import gensim

In [None]:
import os, requests, shutil

glove_dir = './glove'
glove_100k_50d = 'glove.first-100k.6B.50d.txt'
glove_100k_50d_path = os.path.join(glove_dir, glove_100k_50d)

# These are temporary files if we need to download it from the original source (slow)
data_cache = './data/cache'
glove_full_tar = 'glove.6B.zip'
glove_full_50d = 'glove.6B.50d.txt'

#force_download_from_original=False
download_url= 'http://redcatlabs.com/downloads/deep-learning-workshop/notebooks/data/RNN/'+glove_100k_50d
original_url = 'http://nlp.stanford.edu/data/'+glove_full_tar

if not os.path.isfile( glove_100k_50d_path ):
    if not os.path.exists(glove_dir):
        os.makedirs(glove_dir)
    
    # First, try to download a pre-prepared file directly...
    response = requests.get(download_url, stream=True)
    if response.status_code == requests.codes.ok:
        print("Downloading 42Mb pre-prepared GloVE file from RedCatLabs")
        with open(glove_100k_50d_path, 'wb') as out_file:
            shutil.copyfileobj(response.raw, out_file)
    else:
        # But, for some reason, RedCatLabs didn't give us the file directly
        if not os.path.exists(data_cache):
            os.makedirs(data_cache)
        
        if not os.path.isfile( os.path.join(data_cache, glove_full_50d) ):
            zipfilepath = os.path.join(data_cache, glove_full_tar)
            if not os.path.isfile( zipfilepath ):
                print("Downloading 860Mb GloVE file from Stanford")
                response = requests.get(download_url, stream=True)
                with open(zipfilepath, 'wb') as out_file:
                    shutil.copyfileobj(response.raw, out_file)
            if os.path.isfile(zipfilepath):
                print("Unpacking 50d GloVE file from zip")
                import zipfile
                zipfile.ZipFile(zipfilepath, 'r').extract(glove_full_50d, data_cache)

        with open(os.path.join(data_cache, glove_full_50d), 'rt') as in_file:
            with open(glove_100k_50d_path, 'wt') as out_file:
                print("Reducing 50d GloVE file to first 100k words")
                for i, l in enumerate(in_file.readlines()):
                    if i>=100000: break
                    out_file.write(l)
    
        # Get rid of tarfile source (the required text file itself will remain)
        #os.unlink(zipfilepath)
        #os.unlink(os.path.join(data_cache, glove_full_50d))

print("GloVE available locally")

def loadGloveModel(gloveFile):
    print("Loading Glove Model")
    f = open(gloveFile,'r')
    model = {}
    for line in f:
        splitLine = line.split()
        word = splitLine[0]
        embedding = np.array([float(val) for val in splitLine[1:]])
        model[word] = embedding
    print("Done.",len(model)," words loaded!")
    return model

In [None]:
word_embedding = loadGloveModel(glove_100k_50d_path)

단어 하나 하나가, 50개의 벡터로 임베딩 되었음을 보실 수 있습니다.

In [None]:
word_embedding

사전 임베딩된 모델에서, 우리가 문장에 있는 데이터만 가지고서 embedding matrix를 만듭니다.  
설명드리자면, 사전 임베딩된 모델은 우리가 문장에 있는 단어뿐만아니라 외부에 있는 단어(wikipedia)같은 곳에 있는 것들로도 학습이 된 것입니다.  
따라서 우리가 훈련에 필요한 단어의 임베딩만 가져오는 작업이 필요합니다.

In [None]:
vocab_size = len(tokenizer.word_index) + 1
embedding_matrix = np.zeros((vocab_size, 50))
np.shape(embedding_matrix)

In [None]:
def get_vector(word):
    if word in word_embedding:
        return word_embedding[word]
    else:
        return None

for word, i in tokenizer.word_index.items():
    temp = get_vector(word)
    if temp is not None:
        embedding_matrix[i] = temp

**category는** array(['CRIME', 'ENTERTAINMENT', 'WORLD NEWS', 'IMPACT', 'POLITICS',
       'WEIRD NEWS', 'BLACK VOICES', 'WOMEN', 'COMEDY', 'QUEER VOICES',
       'SPORTS', 'BUSINESS', 'TRAVEL', 'MEDIA', 'TECH', 'RELIGION',
       'SCIENCE', 'LATINO VOICES', 'EDUCATION', 'COLLEGE', 'PARENTS',
       'ARTS & CULTURE', 'STYLE', 'GREEN', 'TASTE', 'HEALTHY LIVING',
       'WORLDPOST', 'GOOD NEWS', 'FIFTY', 'ARTS', 'WELLNESS', 'PARENTING',
       'HOME & LIVING', 'STYLE & BEAUTY', 'DIVORCE', 'WEDDINGS',
       'FOOD & DRINK', 'MONEY', 'ENVIRONMENT', 'CULTURE & ARTS']  
        **같은 문자로 이루어져 있습니다. 이 문자들을 숫자들로 변경해줍니다**

In [None]:
data['category'] = data['category'].factorize()[0]

In [None]:
data['category'].unique().shape

In [None]:
int_category = data['category'].unique().shape[0]

어텐션 모형을 사용하도록 하겠습니다.  
RNN, LSTM의 단점은, 문장이 길어질수록 훈련 과정에서 gradient가 소실되는 경향이 있습니다. 그래서 모델의 성능을 저하하기도 합니다.  
  
  **어텐션 모형은 LSTM 알고리즘 적용 후, 훈련 과정에서 한번 더 전의 학습 과정을 복습하는 효과를 가지게 됩니다.** 사실 유명한 모형인 BERT 모형도 어텐션 층으로 이루어진 모델을 가지고 있습니다.  
![imgur](https://i.imgur.com/MGgDWxi.jpg)

In [None]:
!pip install keras-self-attention

In [None]:
from keras_self_attention import SeqWeightedAttention

이번에는 sparse_categorical_crossentropy를 사용하도록 하겠습니다.  
보통 categorical_crossentropy 같은 경우에는 만약에 라벨이 0,1,2 라면, [1,0,0], [0,1,0], [0,0,1]로 변환하는 작업이 필요합니다.  
sparse_categorical_crossentropy 같은 경우에는 라벨을 변환할 필요 없이 훈련에 라벨을 사용할 수 있습니다.

In [None]:
e = Embedding(vocab_size, 50, weights=[embedding_matrix], input_length=max_len, trainable=False)
inputs = Input(shape=(max_len,), dtype='int32')
embedding= e(inputs)
x = Bidirectional(LSTM(50, return_sequences=True))(embedding)
merged = SeqWeightedAttention()(x) #attention layer 추가
merged = Dense(80, activation='relu')(merged)
merged = Dropout(0.25)(merged)

outputs = Dense(int_category, activation='softmax')(merged)

attention_model = Model(inputs=inputs, outputs=outputs)
attention_model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['sparse_categorical_accuracy'])

attention_model.summary()

모델의 FLOW를 그림으로 나타내 보도록 하겠습니다.

In [None]:
from IPython.display import SVG
from keras.utils import model_to_dot
SVG(model_to_dot(attention_model, dpi=65).create(prog='dot', format='svg'))

In [None]:
history = attention_model.fit(x_train, y_train, batch_size = 2048, validation_split=0.1, shuffle=True, epochs=40)

In [None]:
epochs = range(1, len(history.history['sparse_categorical_accuracy']) + 1)
plt.plot(epochs, history.history['sparse_categorical_accuracy'])
plt.plot(epochs, history.history['val_sparse_categorical_accuracy'])
plt.title('Training')
plt.ylabel('acc')
plt.xlabel('epochs')
plt.legend(['train', 'val'], loc='upper left')
plt.grid()
plt.show()