In [38]:
import glob
import os
from random import shuffle
import random

def pre_process_data(filepath):
    dataset = []
    dirs = []
    
    for dir in os.listdir(filepath):
        if os.path.isdir(filepath + dir):
            dirs.append(filepath + dir)
            
    for i, dir_path in enumerate(dirs):
        dir_name = dir_path.split('/')[-1]
        label_id = i
        print('label_id: {}, dir_name: {}'.format(label_id, dir_name))
        
        for filename in glob.glob(os.path.join(filepath, dir_name, dir_name + "*.txt")):
            with open(filename, 'r' ,encoding="utf-8") as f:
                #datasets hold sets of tuples such as (label, input text)
                dataset.append((label_id, f.read()))
                
    random.seed(1234)            
    shuffle(dataset)
    
    return dataset

In [39]:
path = "livedoor_data/text/"

dataset = pre_process_data(path)
dataset[0]

label_id: 0, dir_name: dokujo-tsushin
label_id: 1, dir_name: it-life-hack
label_id: 2, dir_name: kaden-channel
label_id: 3, dir_name: livedoor-homme
label_id: 4, dir_name: movie-enter
label_id: 5, dir_name: peachy
label_id: 6, dir_name: smax
label_id: 7, dir_name: sports-watch
label_id: 8, dir_name: topic-news


(7,
 'http://news.livedoor.com/article/detail/6283739/\n2012-02-16T08:00:00+0900\n「もう仮病使えよ」香川、長友ら招集に  \n14日、日本サッカー協会は29日に行なわれるW杯アジア3次予選・ウズベキスタン戦に向けて香川真司(ドルトムント/ドイツ)、長友佑都(インテル/イタリア)ら海外組14人の招集を求め、所属クラブに協力を要請する文書を送付したと発表した。負傷中の本田圭佑(CSKAモスクワ/ロシア)は含まれないものの、所属クラブへの完全移籍が見送られた宇佐美貴史(バイエルン/ドイツ)、移籍したばかりの家長昭博(蔚山現代/韓国)らの名前もあるという。\n\n しかし、日本はすでに最終予選進出を決めており、この試合は形としては消化試合となる。海外組を含めたフルメンバーを投入する意図は「試合間隔をあけすぎないこと」などが予想されるが、特に海外で好調を維持する香川、長友の招集にはサッカーファンからさまざまな反応が出た。\n\n 「新戦力発掘しないでどうすんだよ」「宇佐美は五輪のほうに呼べよ」「ジーコ解任デモやった奴、出番だぞ」「もう仮病使えよ」「ドルトムントは招集文書破り捨ててOK」といった、海外組の招集に反対する声が高まった一方で、「ここで呼ばなきゃ、6月の最終予選にぶっつけ本番だぞ」「海外組がいるのといないのとじゃスポンサー料が全然違うからな」「いやこれくらいこなせるだろwお前ら過保護w」といった意見も散見された。\n\n■関連リンク\n・香川真司の得点で勝利。チームも香川も好調を維持。\u3000【ボルシア・ドルトムントｖｓレヴァークーゼン】\n・伊紙、長友の必要性を力説し指揮官を酷評「早く起用すべきだった」\n・【加部究コラム】プロの充実がなければ未来は暗い\n')

In [40]:
len(dataset)

7367

In [41]:
import sentencepiece as spm

tokenizer = spm.SentencePieceProcessor()
tokenizer.Load("wiki_data/wikiextractor/spm.model")

print(tokenizer.EncodeAsPieces(dataset[0][1]))

['▁', 'h', 't', 't', 'p', ':', '/', '/', 'ne', 'w', 's', '.', 'l', 'ive', 'd', 'o', 'or', '.', 'com', '/', 'art', 'ic', 'le', '/', 'de', 'ta', 'il', '/', '6', '28', '37', '39', '/', '▁2012', '-0', '2', '-', '16', 'T', '0', '8', ':', '00', ':', '00', '+', '0', '9', '00', '▁「', 'もう', '仮', '病', '使', 'え', 'よ', '」', '香', '川', '、', '長', '友', 'ら', '招', '集', 'に', '▁', '14', '日', '、', '日本', 'サッカー', '協会', 'は', '29', '日に', '行', 'な', 'われる', 'W', '杯', 'アジア', '3', '次', '予選', '・', 'ウ', 'ズ', 'ベ', 'キ', 'スタン', '戦', 'に向けて', '香', '川', '真', '司', '(', 'ドル', 'ト', 'ム', 'ント', '/', 'ドイツ', ')', '、', '長', '友', '佑', '都', '(', 'イン', 'テル', '/', 'イタリア', ')', 'ら', '海外', '組', '14', '人の', '招', '集', 'を', '求め', '、', '所属', 'クラブ', 'に', '協力', 'を', '要請', 'する', '文書', 'を', '送', '付', 'した', 'と', '発表した', '。', '負傷', '中の', '本', '田', '圭', '佑', '(', 'C', 'S', 'KA', 'モスクワ', '/', 'ロシア', ')', 'は', '含まれ', 'ない', 'ものの', '、', '所属', 'クラブ', 'への', '完全', '移籍', 'が', '見', '送', 'られた', '宇', '佐', '美', '貴', '史', '(', 'バイ', 'エル', 'ン', '/', 'ドイツ', ')', 

In [42]:
def tokenize_with_sp(dataset):
    tokenized_data = []
    
    for sample in dataset:
        tokens_list_for_each_sample = tokenizer.EncodeAsPieces(sample[1])
        tokenized_data.append(tokens_list_for_each_sample)
        
    return tokenized_data

In [43]:
def collect_labels(dataset):
    labels = []
    for sample in dataset:
        labels.append(sample[0])
    
    return labels

In [44]:
tokenized_inputs = tokenize_with_sp(dataset)
labels = collect_labels(dataset)

In [45]:
print('len(tokenized_inputs):', len(tokenized_inputs))
print('len(tokenized_inputs[0]):', len(tokenized_inputs[0]))
print('len(labels):', len(labels))

len(tokenized_inputs): 7367
len(tokenized_inputs[0]): 503
len(labels): 7367


In [46]:
split_data = int(len(tokenized_inputs)* 0.8)

x_train = tokenized_inputs[:split_data]
x_test = tokenized_inputs[split_data:]
y_train= labels[:split_data]
y_test = labels[split_data:]

In [47]:
#To check the maximum input steps among the entire dataset
max = 0
for elem in tokenized_inputs:
    if len(elem) > max:
        max = len(elem)
        
print('max step-length:', max)

max step-length: 7313


In [48]:
#To check the minimus input steps among the entire dataset
min = 7313
for elem in tokenized_inputs:
    if len(elem) < min:
        min = len(elem)
        
print('min step-length:', min)

min step-length: 69


In [49]:
#To check the average input steps among the entire dataset
sum = 0
total_num = len(tokenized_inputs)
for elem in tokenized_inputs:
     sum += len(elem)
        
print('avg step-length:', sum/total_num)

avg step-length: 890.2934708836705


In [50]:
max_len = 7313

In [51]:
from tqdm import tqdm

def pad_or_truncate_inputs(data, max_len):
    new_data = []
    pad_list = ["PAD"]
        
    for sample in tqdm(data):
        if len(sample) >= max_len:
            tmp = sample[:max_len]
        else:
            tmp = sample
            num_of_pads_needed = max_len - len(sample)
            for _ in range(num_of_pads_needed):
                tmp.append(pad_list)
                
        new_data.append(tmp)
        
    return new_data

In [52]:
import numpy as np

x_train = pad_or_truncate_inputs(x_train, max_len)
x_test = pad_or_truncate_inputs(x_test, max_len)

print('len(x_train):', len(x_train))
print('len(x_test):', len(x_test))

100%|██████████| 5893/5893 [00:00<00:00, 63324.24it/s]
100%|██████████| 1474/1474 [00:00<00:00, 78837.08it/s]

x_train.shape: 5893
x_test.shape: 1474





In [54]:
print('len(x_train[0]):', len(x_train[0]))
print('len(x_test[1]):', len(x_test[1]))
print('len(x_test[2]):', len(x_test[2]))

len(x_train[0]): 512
len(x_test[1]): 512
len(x_test[2]): 512


In [16]:
from keras.utils.np_utils import to_categorical

y_train = np.array(y_train)
y_test = np.array(y_test)
y_train = to_categorical(y_train.astype('int32'), 9)
y_test = to_categorical(y_test.astype('int32'), 9)

print('y_train.shape:', y_train.shape)
print('y_test.shape:', y_test.shape)

Using TensorFlow backend.


y_train.shape: (5893, 9)
y_test.shape: (1474, 9)


In [41]:
import tensorflow as tf

def save_data_as_tfrecord(X, Y, tfrecord_filename):
    with tf.python_io.TFRecordWriter(tfrecord_filename) as w:
        for x, y in tqdm(zip(X, Y)):
            x = x.reshape(-1)
            features = tf.train.Features(feature = {
                'X': tf.train.Feature(float_list = tf.train.FloatList(value=x)),
                'Y': tf.train.Feature(float_list = tf.train.FloatList(value=y))
            })
            
            example = tf.train.Example(features=features)
            w.write(example.SerializeToString())

In [42]:
save_data_as_tfrecord(x_train, y_train, 'train.tfrecord')
save_data_as_tfrecord(x_test, y_test, 'test.tfrecord')
print('TFRcord files are created for training and test data.')

5893it [51:02,  1.94it/s]
1474it [12:44,  1.92it/s]

TFRcord files are created for training and test data.



