In [4]:
import os
import urllib.request

def download_data(url, force_download=True): 
    fname = url.split("/")[-1]
    if force_download or not os.path.exists(fname):
        urllib.request.urlretrieve(url, fname)
    return fname

url_unidic = "https://unidic.ninjal.ac.jp/unidic_archive/cwj/2.3.0/unidic-cwj-2.3.0.zip"
unidic = download_data(url_unidic, force_download=False) 
print(unidic)

unidic-cwj-2.3.0.zip


In [5]:
url_neologdic = "https://github.com/neologd/mecab-ipadic-neologd/archive/master.zip"
neologdic = download_data(url_neologdic, force_download=False) 
print(neologdic)

master.zip


In [7]:
import zipfile

with zipfile.ZipFile(unidic) as unidic_zip:
    print(unidic_zip.namelist())
    unidic_zip.extract('unidic-cwj-2.3.0/lex.csv')

['unidic-cwj-2.3.0/AUTHORS', 'unidic-cwj-2.3.0/BSD', 'unidic-cwj-2.3.0/ChaMame for Windows/', 'unidic-cwj-2.3.0/ChaMame for Windows/ChaMame Install guide.pdf', 'unidic-cwj-2.3.0/ChaMame for Windows/ChaMameSetup.msi', 'unidic-cwj-2.3.0/char.bin', 'unidic-cwj-2.3.0/char.def', 'unidic-cwj-2.3.0/COPYING', 'unidic-cwj-2.3.0/dicrc', 'unidic-cwj-2.3.0/feature.def', 'unidic-cwj-2.3.0/GPL', 'unidic-cwj-2.3.0/left-id.def', 'unidic-cwj-2.3.0/lex.csv', 'unidic-cwj-2.3.0/LGPL', 'unidic-cwj-2.3.0/matrix.bin', 'unidic-cwj-2.3.0/matrix.def', 'unidic-cwj-2.3.0/model.bin', 'unidic-cwj-2.3.0/model.def', 'unidic-cwj-2.3.0/rewrite.def', 'unidic-cwj-2.3.0/right-id.def', 'unidic-cwj-2.3.0/sys.dic', 'unidic-cwj-2.3.0/unk.def', 'unidic-cwj-2.3.0/unk.dic']


In [8]:
import csv
import re

unidict = {}
pat = re.compile('^([ァ-ヶー]+)-([\s!-~]+)$')
with open('unidic-cwj-2.3.0/lex.csv', 'r') as f:
    reader = csv.reader(f)
    for row in reader:
        m = pat.match(row[11])
        if m:
            unidict[m.group(2)] = m.group(1)
print(len(unidict))

32103


In [9]:
with zipfile.ZipFile(neologdic) as neolog_zip:
    mecab_user_dict_seed = [n for n in neolog_zip.namelist() if 'mecab-user-dict-seed' in n][0]
    neolog_zip.extract(mecab_user_dict_seed)

In [10]:
import lzma

neodict = {}
pat = re.compile('^[\s!-~]+$')
with lzma.open(mecab_user_dict_seed, mode='rt') as f:
    reader = csv.reader(f)
    for row in reader:
        if pat.match(row[0]):
            neodict[row[0]] = row[11]
print(len(neodict))

216588


In [11]:
print(neodict['hey say jump'])

ヘイセイジャンプ


In [12]:
mergedict = dict(unidict)
mergedict.update(neodict)
print(len(mergedict))

245438


In [13]:
words = []
kanas = []

for k, v in mergedict.items():
    words.append(k)
    kanas.append(v)

In [14]:
idx = 1234
print(words[idx], kanas[idx])

abject アブジェクト


In [15]:
all_chars = set()
for word, kana in zip(words, kanas):
    for c in word:
        all_chars.add(c)
    for c in kana:
        all_chars.add(c)
print(all_chars)
print(len(all_chars))

{'セ', 'B', 'f', 'ネ', ']', 'l', '(', 'v', 'Q', 'L', 'ズ', 'ュ', 'ユ', 'ェ', 'ロ', '?', 'w', 'マ', '%', ')', '@', 'ォ', 'ペ', 'ワ', 'ア', '`', 'ギ', 'グ', '\\', 'ゥ', 'V', 'K', 'k', 'n', 'b', 'キ', 'O', 'Z', 'P', 'ゲ', 'ャ', 'ビ', 'T', 'N', 'ホ', 'ヌ', 'シ', 'ポ', '3', 'ィ', 'ボ', '*', 'チ', ';', 'ョ', '_', '&', 'ツ', ':', 'ゼ', 'ガ', '/', '9', 'S', 'ヴ', '5', 'ヨ', '#', '}', 'ナ', 'ル', "'", 'ヲ', '-', '|', '7', 'z', 'U', ' ', '[', 'デ', 'M', 'ニ', 'u', 'ヂ', 'パ', 'Y', 'テ', 'ジ', ',', 'メ', '㋘', 'c', 'ノ', '4', 'ブ', 'a', 'タ', 'オ', 'F', 't', 'ァ', 'D', 'ソ', 'ケ', '+', 'フ', '1', 'ヘ', '\u3000', 'ト', '.', 'ク', 'x', '~', 'd', '<', 'ミ', 'ス', 'ピ', 'E', 'リ', 'J', '{', 'エ', 'ヒ', 'ヱ', 'ッ', 'ヅ', '>', 'q', 'p', 'm', 'W', 'イ', 'ヮ', 'g', 'ゾ', '!', 'i', 'C', '^', 'ド', 'ウ', 'レ', 'コ', '0', 'H', 'e', 'o', 'y', 'X', 'サ', '=', 'ヤ', 'ベ', 'モ', 'j', 'r', 'A', 'カ', '$', 'R', 'ダ', 'ー', 'プ', 'ム', 'ザ', 'h', 'ゴ', 'ラ', 'G', 'I', '8', '6', 'ヰ', 'バ', 'ハ', 's', '2', 'ン'}
181


In [16]:
symbol_set = sorted(list(all_chars))

In [17]:
print(symbol_set)

[' ', '!', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '<', '=', '>', '?', '@', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', '\\', ']', '^', '_', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '{', '|', '}', '~', '\u3000', 'ァ', 'ア', 'ィ', 'イ', 'ゥ', 'ウ', 'ェ', 'エ', 'ォ', 'オ', 'カ', 'ガ', 'キ', 'ギ', 'ク', 'グ', 'ケ', 'ゲ', 'コ', 'ゴ', 'サ', 'ザ', 'シ', 'ジ', 'ス', 'ズ', 'セ', 'ゼ', 'ソ', 'ゾ', 'タ', 'ダ', 'チ', 'ヂ', 'ッ', 'ツ', 'ヅ', 'テ', 'デ', 'ト', 'ド', 'ナ', 'ニ', 'ヌ', 'ネ', 'ノ', 'ハ', 'バ', 'パ', 'ヒ', 'ビ', 'ピ', 'フ', 'ブ', 'プ', 'ヘ', 'ベ', 'ペ', 'ホ', 'ボ', 'ポ', 'マ', 'ミ', 'ム', 'メ', 'モ', 'ャ', 'ヤ', 'ュ', 'ユ', 'ョ', 'ヨ', 'ラ', 'リ', 'ル', 'レ', 'ロ', 'ヮ', 'ワ', 'ヰ', 'ヱ', 'ヲ', 'ン', 'ヴ', 'ー', '㋘']


In [18]:
def word_to_symbol_index(word):
    return [symbol_set.index(char) for char in word]

def symbol_index_to_word(indices):
    return [symbol_set[idx] for idx in indices]

In [19]:
idx = 1234
indices_word = word_to_symbol_index(words[idx])
print(indices_word, symbol_index_to_word(indices_word))
indices_kana = word_to_symbol_index(kanas[idx])
print(indices_kana, symbol_index_to_word(indices_kana))

[64, 65, 73, 68, 66, 83] ['a', 'b', 'j', 'e', 'c', 't']
[96, 148, 118, 101, 109, 134] ['ア', 'ブ', 'ジ', 'ェ', 'ク', 'ト']


In [20]:
import numpy as np

dataX = []
for word in words:
    dataX.append(np.array(word_to_symbol_index(word)))

In [21]:
idx = 2048
dataX[idx], symbol_index_to_word(dataX[idx])

(array([84, 77, 67, 68, 81, 70, 81, 78, 84, 77, 67]),
 ['u', 'n', 'd', 'e', 'r', 'g', 'r', 'o', 'u', 'n', 'd'])

In [22]:
dataY =[]
for k in kanas:
    dataY.append(np.array(word_to_symbol_index(k)))

In [23]:
dataY[idx], symbol_index_to_word(dataY[idx])

(array([ 96, 177, 126, 179, 110, 167, 100, 177, 135]),
 ['ア', 'ン', 'ダ', 'ー', 'グ', 'ラ', 'ウ', 'ン', 'ド'])

In [24]:
print("SRC: ", symbol_index_to_word(dataX[idx]))
print("TRG: ", symbol_index_to_word(dataY[idx])) 
print("SRC: ", dataX[idx])
print("TRG: ", dataY[idx])

SRC:  ['u', 'n', 'd', 'e', 'r', 'g', 'r', 'o', 'u', 'n', 'd']
TRG:  ['ア', 'ン', 'ダ', 'ー', 'グ', 'ラ', 'ウ', 'ン', 'ド']
SRC:  [84 77 67 68 81 70 81 78 84 77 67]
TRG:  [ 96 177 126 179 110 167 100 177 135]


In [25]:
def shuffle_together(a, b):
    assert len(a) == len(b)
    p = np.random.permutation(len(a))
    return a[p], b[p]

dataX, dataY = np.array(dataX), np.array(dataY)
dataX, dataY = shuffle_together(dataX, dataY)

N = int(len(dataX) * 0.9) # 90%

### First 4 indices are saved for special characters ###

trainX = dataX[:N] + 4
trainY = dataY[:N] + 4

valX = dataX[N:] + 4
valY = dataY[N:] + 4

In [26]:
vocab_dict = {c:i + 4 for i,c in enumerate(symbol_set)}
vocab_dict
PAD_SYMBOL = "<pad>" #0
UNK_SYMBOL = "<unk>" #1
BOS_SYMBOL = "<s>" #2
EOS_SYMBOL = "</s>" #3

VOCAB_SYMBOLS = [PAD_SYMBOL, UNK_SYMBOL, BOS_SYMBOL, EOS_SYMBOL]
vocab_dict[PAD_SYMBOL] = 0
vocab_dict[UNK_SYMBOL] = 1
vocab_dict[BOS_SYMBOL] = 2
vocab_dict[EOS_SYMBOL] = 3

In [27]:
import json
with open('vocab.src.json', 'w') as fp:
    json.dump(vocab_dict, fp, indent=4, ensure_ascii=False)
        
with open('vocab.trg.json', 'w') as fp:
    json.dump(vocab_dict, fp, indent=4, ensure_ascii=False)

In [36]:
import multiprocessing 
import logging
import sys
import os
import random

sys.path.append('./SageMaker_seq2seq_WordPronunciation')
from typing import List
from record_pb2 import Record ### record_pb2.py
from create_vocab_proto import write_worker, write_recordio, list_to_record_bytes, read_worker
import struct
import io

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

In [37]:
def write_to_file(np_dataX, np_dataY, file_type, output_file):
    num_read_workers = max(multiprocessing.cpu_count() - 1, 1) 
    logger.info('Spawning %s encoding worker(s) for encoding %s datasets!', str(num_read_workers), file_type) 
    
    q_in = [multiprocessing.Queue() for i in range(num_read_workers)] 
 
    q_out = multiprocessing.Queue() 

    read_process = [multiprocessing.Process(target=read_worker,
                    args=(q_in[i], q_out)) for i in range(num_read_workers)] 
   
    for p in read_process: 
        p.start()

    write_process = multiprocessing.Process(target=write_worker, args=(q_out, output_file)) 
    write_process.start() 
    
    lines_ignored = 0 # No ignored lines in this example. 
    lines_processed = 0
    
    for i, int_source  in enumerate(np_dataX):
        int_source = int_source.tolist()
        int_target = np_dataY[i].tolist()
        item = (int_source, int_target) ### <class 'list'>, <class 'list'>

        if random.random() < 0.0001:
            ### Print some SRC-TRG pairs. 
            print('===   ===   ===   ===   ===')
            print('SRC:', int_source)
            print(len(int_source), type(int_source), type(int_source[0])) # num <class 'list'> <class 'int'>
            print('---   ---   ---   ---   ---')
            print('TRG:', int_target)
            print(len(int_target), type(int_target), type(int_target[0])) # num <class 'list'> <class 'int'>

        q_in[lines_processed % len(q_in)].put(item) 

        lines_processed += 1 
    
    logger.info("""Processed %s lines for encoding to protobuf. %s lines were ignored as they didn't have
                any content in either the source or the target file!""", lines_processed, lines_ignored)
    
    logger.info('Completed writing the encoding queue!')

    for q in q_in: 
        q.put(None) 
    for p in read_process: 
        p.join()
    logger.info('Encoding finished! Writing records to "%s"', output_file)
    q_out.put(None) 
    write_process.join() 
    logger.info('Processed input and saved to "%s"', output_file)
    print('+++---+++---+++---+++---+++')

In [38]:
file_type = 'train'
output_file = "train.rec"
write_to_file(trainX, trainY, file_type, output_file)

INFO:__main__:Spawning 1 encoding worker(s) for encoding train datasets!


===   ===   ===   ===   ===
SRC: [20, 27, 22, 80, 68]
5 <class 'list'> <class 'int'>
---   ---   ---   ---   ---
TRG: [148, 165, 113, 145, 131, 122, 167, 104, 119, 181, 161, 172, 100, 181, 156, 100]
16 <class 'list'> <class 'int'>
===   ===   ===   ===   ===
SRC: [55, 75, 72, 4, 43, 82, 78, 88, 87, 82, 4, 37, 68, 81, 78, 4, 47, 87, 71, 17]
20 <class 'list'> <class 'int'>
---   ---   ---   ---   ---
TRG: [157, 113, 138, 112, 181, 117, 104]
7 <class 'list'> <class 'int'>
===   ===   ===   ===   ===
SRC: [92, 88, 16, 81, 68, 4, 78, 76, 80]
9 <class 'list'> <class 'int'>
---   ---   ---   ---   ---
TRG: [170, 140, 111, 162]
4 <class 'list'> <class 'int'>
===   ===   ===   ===   ===
SRC: [54, 75, 76, 81, 78, 82, 4, 58, 76, 85, 72, 4, 38, 82, 80, 83, 68, 81, 92]
19 <class 'list'> <class 'int'>
---   ---   ---   ---   ---
TRG: [121, 181, 117, 104, 117, 104, 125, 181, 117, 104, 112, 169, 104]
13 <class 'list'> <class 'int'>
===   ===   ===   ===   ===
SRC: [87, 68, 79, 76, 86, 80, 68, 81]
8 <c

INFO:__main__:Processed 220894 lines for encoding to protobuf. 0 lines were ignored as they didn't have
                any content in either the source or the target file!
INFO:__main__:Completed writing the encoding queue!
INFO:__main__:Encoding finished! Writing records to "train.rec"
INFO:__main__:Processed input and saved to "train.rec"


+++---+++---+++---+++---+++


In [39]:
file_type = 'validation'
output_file = "val.rec"
write_to_file(valX, valY, file_type, output_file)

INFO:__main__:Spawning 1 encoding worker(s) for encoding validation datasets!
INFO:__main__:Processed 24544 lines for encoding to protobuf. 0 lines were ignored as they didn't have
                any content in either the source or the target file!
INFO:__main__:Completed writing the encoding queue!
INFO:__main__:Encoding finished! Writing records to "val.rec"
INFO:__main__:Processed input and saved to "val.rec"


+++---+++---+++---+++---+++


In [42]:
bucket = 'sagemaker-word2kana'
prefix = 'seq2seq/word2kana'  

import boto3

def upload_to_s3(bucket, prefix, channel, file):
    s3 = boto3.resource('s3')
    data = open(file, "rb")
    key = prefix + "/" + channel + '/' + file
    s3.Bucket(bucket).put_object(Key=key, Body=data)

upload_to_s3(bucket, prefix, 'validation', 'val.rec') 
upload_to_s3(bucket, prefix, 'vocab', 'vocab.src.json') 
upload_to_s3(bucket, prefix, 'vocab', 'vocab.trg.json') 

In [43]:
region_name = boto3.Session().region_name

In [44]:
region_name

'us-east-2'

In [45]:
containers = {'us-west-2': '433757028032.dkr.ecr.us-west-2.amazonaws.com/seq2seq:latest',
              'us-east-1': '811284229777.dkr.ecr.us-east-1.amazonaws.com/seq2seq:latest',
              'us-east-2': '825641698319.dkr.ecr.us-east-2.amazonaws.com/seq2seq:latest',
              'eu-west-1': '685385470294.dkr.ecr.eu-west-1.amazonaws.com/seq2seq:latest'}
container = containers[region_name]
print('Using SageMaker Seq2Seq container: {} ({})'.format(container, region_name))

Using SageMaker Seq2Seq container: 825641698319.dkr.ecr.us-east-2.amazonaws.com/seq2seq:latest (us-east-2)


In [50]:
from time import gmtime, strftime
from sagemaker import get_execution_role

role = get_execution_role()
source_sequence_length = max([len(w) for w in words])
target_sequence_length = max([len(k) for k in kanas])

job_name = 'seq2seq-wrd-phn-p2-xlarge-' + strftime("%Y-%m-%d-%H-%M", gmtime())
print("Training job", job_name)

create_training_params = \
{
    "AlgorithmSpecification": {
        "TrainingImage": container,
        "TrainingInputMode": "File"
    },
    "RoleArn": role,
    "OutputDataConfig": {
        "S3OutputPath": "s3://{}/{}/".format(bucket, prefix)
    },
    "ResourceConfig": {
        # Seq2Seq does not support multiple machines. Currently, it only supports single machine, multiple GPUs
        "InstanceCount": 1,
        "InstanceType": "ml.p2.xlarge", # We suggest one of ["ml.p2.16xlarge", "ml.p2.8xlarge", "ml.p2.xlarge"]
        "VolumeSizeInGB": 50
    },
    "TrainingJobName": job_name,
    "HyperParameters": {
        # Please refer to the documentation for complete list of parameters
        "max_seq_len_source": str(source_sequence_length),
        "max_seq_len_target": str(target_sequence_length),
        "optimized_metric": "bleu", 
        "batch_size": "128", # Please use a larger batch size (256 or 512) if using ml.p2.8xlarge or ml.p2.16xlarge
        "checkpoint_frequency_num_batches": "1000",
        "rnn_num_hidden": "512",
        "num_layers_encoder": "1",
        "num_layers_decoder": "1",
        "num_embed_source": "512",
        "num_embed_target": "512",
        "checkpoint_threshold": "3",
        #"max_num_batches": "2100"
        # Training will stop after 2100 iterations/batches.
        # This is just for demo purposes. Remove the above parameter if you want a better model.
    },
    "StoppingCondition": {
        "MaxRuntimeInSeconds": 48 * 3600
    },
    "InputDataConfig": [
        {
            "ChannelName": "train",
            "DataSource": {
                "S3DataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://{}/{}/train/".format(bucket, prefix),
                    "S3DataDistributionType": "FullyReplicated"
                }
            },
        },
        {
            "ChannelName": "vocab",
            "DataSource": {
                "S3DataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://{}/{}/vocab/".format(bucket, prefix),
                    "S3DataDistributionType": "FullyReplicated"
                }
            },
        },
        {
            "ChannelName": "validation",
            "DataSource": {
                "S3DataSource": {
                    "S3DataType": "S3Prefix",
                    "S3Uri": "s3://{}/{}/validation/".format(bucket, prefix),
                    "S3DataDistributionType": "FullyReplicated"
                }
            },
        }
    ]
}

sagemaker_client = boto3.Session().client(service_name='sagemaker')
sagemaker_client.create_training_job(**create_training_params)

status = sagemaker_client.describe_training_job(TrainingJobName=job_name)['TrainingJobStatus']
print(status)

Training job seq2seq-wrd-phn-p2-xlarge-2018-12-23-08-00
InProgress


In [56]:
### Please keep on checking the status until this says "Completed". ###

status = sagemaker_client.describe_training_job(TrainingJobName=job_name)['TrainingJobStatus']
print(status)
# if the job failed, determine why
if status == 'Failed':
    message = sagemaker_client.describe_training_job(TrainingJobName=job_name)['FailureReason']
    print('Training failed with the following error: {}'.format(message))
    raise Exception('Training job failed')

InProgress


In [12]:
%%time
job_name = 'seq2seq-wrd-phn-p2-xlarge-2018-12-23-08-00'
region_name = boto3.Session().region_name
containers = {'us-west-2': '433757028032.dkr.ecr.us-west-2.amazonaws.com/seq2seq:latest',
              'us-east-1': '811284229777.dkr.ecr.us-east-1.amazonaws.com/seq2seq:latest',
              'us-east-2': '825641698319.dkr.ecr.us-east-2.amazonaws.com/seq2seq:latest',
              'eu-west-1': '685385470294.dkr.ecr.eu-west-1.amazonaws.com/seq2seq:latest'}
container = containers[region_name]

from sagemaker import get_execution_role
role = get_execution_role()

sage = boto3.client('sagemaker')

info = sage.describe_training_job(TrainingJobName=job_name)
model_name=job_name
model_data = info['ModelArtifacts']['S3ModelArtifacts']

print(model_name)
print(model_data)

primary_container = {
    'Image': container,
    'ModelDataUrl': model_data
}

create_model_response = sage.create_model(
    ModelName = model_name,
    ExecutionRoleArn = role,
    PrimaryContainer = primary_container)

print(create_model_response['ModelArn'])

seq2seq-wrd-phn-p2-xlarge-2018-12-23-08-00
s3://sagemaker-word2kana/seq2seq/word2kana/seq2seq-wrd-phn-p2-xlarge-2018-12-23-08-00/output/model.tar.gz
arn:aws:sagemaker:us-east-2:891101950329:model/seq2seq-wrd-phn-p2-xlarge-2018-12-23-08-00
CPU times: user 769 ms, sys: 48.2 ms, total: 818 ms
Wall time: 16.4 s


In [14]:
from time import gmtime, strftime

endpoint_config_name = 'Seq2SeqEndpointConfig-' + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
print(endpoint_config_name)
create_endpoint_config_response = sage.create_endpoint_config(
    EndpointConfigName = endpoint_config_name,
    ProductionVariants=[{
        'InstanceType':'ml.m4.xlarge', #####
        'InitialInstanceCount':1,
        'ModelName':model_name,
        'VariantName':'AllTraffic'}])
print("Endpoint Config Arn: " + create_endpoint_config_response['EndpointConfigArn'])

Seq2SeqEndpointConfig-2018-12-24-17-40-23
Endpoint Config Arn: arn:aws:sagemaker:us-east-2:891101950329:endpoint-config/seq2seqendpointconfig-2018-12-24-17-40-23


In [17]:
%time
import time

endpoint_name = 'Seq2SeqEndpoint-' + strftime("%Y-%m-%d-%H-%M-%S", gmtime())
print(endpoint_name)
create_endpoint_response = sage.create_endpoint(
    EndpointName=endpoint_name,
    EndpointConfigName=endpoint_config_name)
print(create_endpoint_response['EndpointArn'])

resp = sage.describe_endpoint(EndpointName=endpoint_name)
status = resp['EndpointStatus']
print("Status: " + status)

# wait until the status has changed
sage.get_waiter('endpoint_in_service').wait(EndpointName=endpoint_name)

# print the status of the endpoint
endpoint_response = sage.describe_endpoint(EndpointName=endpoint_name)
status = endpoint_response['EndpointStatus']
print('Endpoint creation ended with EndpointStatus = {}'.format(status))

if status != 'InService':
    raise Exception('Endpoint creation failed.')

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 5.96 µs
Seq2SeqEndpoint-2018-12-24-17-45-02
arn:aws:sagemaker:us-east-2:891101950329:endpoint/seq2seqendpoint-2018-12-24-17-45-02
Status: Creating
Endpoint creation ended with EndpointStatus = InService


In [None]:
runtime = boto3.client(service_name='runtime.sagemaker')

In [19]:
import json

words_infr = ["car",
        "cat",
        "tapeworm",
        "tapdance",
        "supercalifragilistic",
        "expialidocious"]

payload = {"instances" : []}
for word_infr in words_infr:
    
    payload["instances"].append({"data" : " ".join(list(word_infr.upper()))})

response = runtime.invoke_endpoint(EndpointName=endpoint_name, 
                                   ContentType='application/json', 
                                   Body=json.dumps(payload))

response = response["Body"].read().decode("utf-8")
response = json.loads(response)
print(response)

{'predictions': [{'target': 'カ ー'}, {'target': 'キ ャ ッ ト'}, {'target': 'テ ー プ ワ ー ム'}, {'target': 'タ ッ プ ダ ン ス'}, {'target': 'ス ー パ ー カ リ フ ラ ジ リ ス テ ィ ッ ク'}, {'target': 'エ ク ス パ イ ア リ ド シ ャ ス'}]}


In [34]:
import boto3

s3 = boto3.resource('s3')
bucket = 'sagemaker-word2kana'
prefix = 'seq2seq/word2kana'
key = prefix + "/" + 'translate' + '/' + 'words.json'
client = s3.meta.client
response = client.get_object(Bucket=bucket, Key=key)
words_json = response['Body'].read().decode('utf-8')

response = client.get_object(Bucket=bucket, Key='seq2seq/word2kana/vocab/vocab.src.json')
with open('vocab.src.json', 'w') as f:
    f.write(response['Body'].read().decode('utf-8'))
response = client.get_object(Bucket=bucket, Key='seq2seq/word2kana/vocab/vocab.trg.json')
with open('vocab.trg.json', 'w') as f:
    f.write(response['Body'].read().decode('utf-8'))

In [35]:
import os
import sys
sys.path.append('./SageMaker_seq2seq_WordPronunciation')
import io
import tempfile
from record_pb2 import Record
from create_vocab_proto import vocab_from_json, reverse_vocab, write_recordio, list_to_record_bytes, read_next

source = vocab_from_json("vocab.src.json")
target = vocab_from_json("vocab.trg.json")

source_rev = reverse_vocab(source)
target_rev = reverse_vocab(target)

In [68]:
import json
import re

words = json.loads(words_json)
transtable = {}
for word_infr in words:
    payload = {"instances" : []}
    payload["instances"].append({"data" : " ".join(list(word_infr))})
    response = runtime.invoke_endpoint(EndpointName=endpoint_name, 
                                       ContentType='application/json', 
                                       Body=json.dumps(payload))
    response = response["Body"].read().decode("utf-8")
    trans = json.loads(response)
    kana = trans['predictions'][0]['target']
    kana = re.sub(r' ', '', kana)
    transtable[word_infr] = kana
    print("{0} -> {1}".format(word_infr, kana))


Maxipriest degree -> マキシプリエステグリー
+2 -> プラスツー
SERGEKOUSSEVITZKY 12 -> セルゲコースセブンティーンツー
MILES 07 -> マイルキュウセンナナ
Streetwalkin' -> ストリートワルキン
Distant -> ディスタント
Bastard -> バスタード
Dreaming -> ドリーミング
Doller -> ダラー
Mes -> メス
bit -> ビット
Current -> カレント
FRENCH -> フレンチ
TECHNO -> テクノ
Visions -> ビジョンズ
Teardrop -> ティアドロップ
du -> ディーユー
Torpedo -> トルペド
1980 -> センキュウヒャクハチジュウ
Robbie -> ロビー
K.I.T -> ケイアイティー
Tutte, -> トゥッテル
Mission -> ミッション
Shorts -> ショーツ
ROSES -> ローズ
Lorin -> ローリン
beres -> ベレス
POINT -> ポイント
Mas -> マス
You? -> ユウ
Matters -> マターズ
Longer -> ロンガー
Partners -> パートナーズ
Tajmoo -> タジェイムー
Medley -> メドレー
Rag -> ラグ
Boyzone -> ボーイゾーン
REASONS -> リーズン
Made -> メイド
Real -> リアル
LISMO! -> リスモ
day? -> デイ
CONTROL -> コントロール
Both -> ボス
Islands -> アイランズ
SALAAM -> サラーム
Aida -> アイダ
1979 10 16 -> センキュウヒャクナナジュウキュ
Point -> ポイント
HEY -> ヘイ
tension -> テンション
Christ, -> クリスツ
tout -> タット
sweet -> スウィート
der -> デア
dead -> デッド
Memorial -> メモリアル
10 12 -> ヒャクイチジュウニ
Menuetto, -> メヌエトーショ
cartoons! -> カートゥーンズ
Sade -> シャーデー
number -> ナンバ

Variazioni -> バリアッツィオーニ
NightClub2 04 -> ナイトクラブツーフォー
Yuushoku -> ユウショク
CARIBBEAN -> カリビアン
BELLE -> ベル
DOUGAL -> ドゥーガル
Divorce -> ディヴォース
Sleep -> スリープ
Tameiki -> タメイキ
Tumpa -> タンパ
Vol.8 -> ボリュームエイト
Tonight -> トゥナイト
Stefano, -> ステファノ
WHISPERING -> ウィスペリング
Cycles -> サイクルズ
Kreisleriana, -> クライスルリアナ
op -> オープニング
Upon -> ウポン
Sick -> シック
2in1 -> ツーインワン
voice -> ヴォイス
1 08 -> ヒャクハチ
Lyrical -> リリカル
Fleming -> フレミング
'65 -> アイシックスティファイブ
Halpern -> ハーパーン
Movement -> ムーブメント
Llobet El -> ロベテル
Denied -> デナイド
Friendly -> フレンドリー
Happy! -> ハッピー
Stone -> ストーン
Sindbad -> シンドバッド
Composer -> コンポーザー
Handel -> ヘンデル
signal -> シグナル
Boy -> ボーイ
Swing -> スウィング
Tsuki -> ツキ
SEXTON -> セックストン
Angelo -> アンジェロ
maxi -> マキシ
SEXTET 08 -> セクステットゼロハチ
'60s, -> ロクマルハチエス
Rio -> リオ
Gump -> ガンプ
R.Kelly -> アールケリー
Sally -> サリー
Act3 -> アクトスリー
Precious -> プレシャス
Subjects -> サブジェクツ
Stiff -> ステッフ
Galers -> ギャラーズ
yumenon1000 -> ユメノン
Rumbel -> ランベル
Proposition -> プロポジション
51 -> ゴジュウイチ
Saying -> セーイング
Shine -> シャイン
Schadarapa -> シャダラパ
they? 

Biography -> バイオグラフィー
Tw/Nty -> ティーダブルエンティー
Frankie -> フランキー
Mask -> マスク
Bonus -> ボーナス
Curtis -> クルティス
FOOL IF -> フーリフ
hoshi -> ホシ
97 -> キュウジュウナナ
Kickin' -> キッキー
Waitin -> ウェイタン
Carlisle -> カーリスル
SEARCH -> サーチ
by -> ビーワイ
Winterreise, -> ウィンターレイズ
Josh -> ジョッシュ
CONCEPTION 17 -> コンセプションナナ
Kong -> コング
m'ennuie -> マンヌイエ
short -> ショート
Nick -> ネッキ
Cora -> コラ
Hikaru -> ヒカル
STOMPY -> ストンピー
TAPUARII -> タピュアリー
f. -> エフ
Wet -> ヘット
Koroshi -> コロシ
CONCEPTION 22 -> コンセプションツー
SoQuero -> ソクエロ
Ticket -> チケット
funk,we -> ファンクアン
KNOWN -> ノウン
Aladdin -> アラジン
Frideric -> フライダリック
Spinning -> スピニング
DIchter -> ディクター
Tu -> チュ
TRIPLE -> トリプル
Deai -> ディーアイ
Bride -> ブライド
Geils -> ガイルス
DiverCity -> ディバーシティ
Une -> ユーエヌイー
SY&ERUPTION -> シーアンドエラプション
Strictly -> ストリクトリー
Avalon -> アヴァロン
27/2, -> ニーナナニーラン
Filthy -> フイルシー
Liveth -> リブス
LEAVE -> リーブ
Hills -> ヒルズ
50'er, -> ゴレールコードワンダースレー
TIBETAN -> チベッタン
Parabens Danca -> パラベンスダンス
BUDDHA -> ブッダ
Sean -> ショーン
SERGEKOUSSEVITZKY 11 -> サージクースビートキルイレブジュウイチ
POLO -> ポロ
Hast -> ハスト
R

80s -> ハチジュウエス
Mirka -> ミルカ
FIGHTER! -> ファイター
Sony -> ソニー
OUR -> アワー
Honeymoon -> ハネムーン
Explanation -> エクスプラネーション
SPOT -> スポット
NICE -> ナイス
Kim -> キム
ns -> エヌエス
General -> ゼネラル
Bugler's -> バグラーズ
nomad -> ノマド
earth, -> アース
at -> アット
come! -> カム
Typewriter -> タイプライター
Mann -> マン
Sada -> サダ
Supersonic -> スーパーソニック
Namida -> ナミダ
1997 -> ヒャクキュウジュウナナ
Era -> イーラ
Puth -> プース
madrugada -> マドルガダ
Fried -> フライド
Groovalicious -> グルーヴァリシャス
Drugstore -> ドラッグストアー
Gone -> ゴーン
J. -> ジェイ
FRIENDS -> フレンズ
1979 10 24 -> センキュウヒャクナナジュウヨン
Players, -> プレイヤーズ
Il -> アイエル
Yin -> イン
Relight -> リライト
Notenshun -> ノーテンシュン
FREE TO -> フリート
Carpenters -> カーペンターズ
SELF -> セルフ
Starship -> スターシップ
org,Mroon -> オージムムーン
Masashi -> マサシ
Moroni -> モロニ
Control -> コントロール
TORPEDO -> トルペド
Remixes -> リミクセス
Scaena -> スケーナ
Doll -> ドール
Frances -> フランシェス
Smith -> スミス
THOUGHTS -> サウツ
11 21 -> ヒャクジュウニイチワン
Image -> イマージュ
Queens -> クイーンズ
Production -> プロダクション
NOSSO -> ノッソ
Spectacle. -> スペクタクル
Gabriel Marie -> ガブリエルマリー
104, -> ヒャクヨンジュウヨン
Kellerman

008 -> ゼロゼロハチ
Andar -> アンダール
Pacific -> パシフィック
Canzonetta -> カンツォネッタ
UN -> アン
Boyd -> ボーイド
LOLITA -> ロリータ
WASABI -> ワサビ
edit. -> エディット
Zettai! -> ゼッタイ
No.2, -> エヌオーツー
Funebre -> フネーブル
BROWNCHERRY -> ブラウンチェリー
HOZHO -> ホウジョウ
090 -> ゼロキュウセンキュウジュウ
Show's -> ショウズ
acima -> アシマ
Forget -> フォゲット
11 26 -> ヒャクジュウロクドル
Wi -> ワールドワン
Lark -> ラーク
Races -> レーセス
SEXY -> セクシー
Stripes -> ストライプス
musical -> ミュージカル
etc.... -> エクト
BROADCAST -> ブロードキャスト
Love remixed -> ラブリミクスト
GABILOU -> ガビルー
Hey!Say!JUMP -> ヘイセイジャンプ
KEY -> キー
Whose -> ホーズ
MODERN -> モダン
BUTTERFLY -> バタフライ
UNRELEASED -> アンリリースド
Ella -> エッラ
Charm -> チャーム
Jim -> ジム
artist looking -> アーティストルーキング
052 -> ゼロゴーニー
Rise -> リセ
Missing -> ミッシング
Solitude -> ソリチュード
beach -> ビーチ
#17 -> ジュウナナ
VENICE -> ヴェニーチェ
Soltesz -> ソルテス
Karaage -> カラエイジ
Midnite -> ミッドナイト
HAIR -> ヘアー
again -> アゲイン
Hibi -> エイチビーアイ
Friesen -> フリーゼン
Trust -> トラスト
Kissin' -> キッシン
Spandau -> スパンダー
622 -> ロッピャクニジュウニドル
Downs -> ダウンズ
Marley -> マーリー
Paper -> ペーパー
Bebes -> ベーベス
Tasty -> タスティー
Sempl

NAKAGITA -> ナカギタ
cappella -> カペラ
upon -> アポン
Bye -> バイ
same -> サメ
Rimes -> ライムズ
rations -> レーションズ
Wink -> ウインク
Havana -> ハバナ
Stan -> スタン
COMPARES -> コンパレス
Castalia -> カスタリア
Artists -> アーティスツ
Sojourn -> ソージョーン
Giganten -> ギガンテン
Gheorghiu -> ゲオルギュー
Way/One -> ウェイワン
LADIES -> レディース
Reputation -> レピュテーション
Smell -> スメル
Violins, -> バイオリンズ
Oysters -> オイスターズ
Richer -> リッチャー
Moderato -> モデラート
John's -> ジョンズ
Avi -> エーブイアイ
Larrieux -> ラリアックス
Bandeira -> バンデイラ
MILES 10 -> マイルエステン
Floating -> フローティング
TRACK -> トラック
Airborn -> エアボーン
Vegas -> ヴィーガス
DEGREE -> デグリ
Michelle -> ミシェル
Uranus, -> ウラヌス
stay -> ステイ
Tarrega Recuerdos -> タレガレクエルドス
SICK -> シック
SINGLE -> シングル
XXL -> エックスエルエックスエル
Letter -> レター
Robert -> ロバート
Calle -> コール
Taiyo -> タイヨー
Festouvert -> フェストアファート
Con -> コン
Triste -> トリステ
Remembering -> リメンバリング
Kottke -> コッテ
Etude -> エチュード
60s/70s -> ロクオーエスナナゼロエス
trio -> トリオ
11 24 -> センヒャクニジュウヨンドル
Progress -> プログレス
Stars -> スターズ
Snakeman -> スネークマン
Lerche -> ラルケ
COLLECTION4 -> コレクションフォー
Hombres -> オンブレス
S

She's -> シーズ
Cool -> クール
Organ -> オルガン
Zauberfl -> ザウバーフル
Sheeran -> シーラン
Prokofiev -> プロコフィーヴ
Choir -> クワイア
Maohi -> マオヒ
Everythings -> エブリシングス
Vocalise -> ボカリーズ
Stallions -> シュタリオンズ
Endlessly -> エンドレスリー
save -> サベ
Independent -> インディペンデント
Good It's -> グデイッツ
Collins -> コリンズ
Paradiso -> パラディーゾ
Crisis -> クリーゼ
Please! -> プリーズ
Explode -> エクスプロード
Aufgeregt -> オーエフジェレークト
Champaign -> チャンペーン
2002 -> ニセンニドル
Out -> アウト
Gheorghe -> ゲオルヘ
Rhythm -> リズム
Lacrimosa -> ラクリモーサ
had -> ハド
Watanabe -> ワタナベ
VERSION -> バージョン
Hoplessness, -> ホープレスネス
SCHUMANN&GRIEG PIANO -> シューマンアンドグリエプィアーノ
Kusha -> クーシャ
Leiermann -> ライエルマン
Madonna -> マドンナ
Odeon -> オデオン
Vital -> ビタル
Capitole -> カピトーレ
Perdue -> ペルデュー
Benedictus -> ベネディクトゥス
DRIVE! -> ドライブ
Serenader -> セレナーダー
4+FAN -> フォーティファン
Mi -> ミ
Asia -> エイジア
Into -> イントゥー
Design -> デザイン
MAN -> エムアーエヌ
Bay -> ベイ
ALL -> オール
Like -> ライク
Marilyn -> マリリン
#6 -> シックスティーシックスティーン
Gisela, -> ギセラ
Chinoise -> チノワーズ
RICARDO -> リカルド
ROZALLA -> ロザル
Celts -> セルツ
Fantasy 1 -> ファンタジーワン
Colo

ST. -> エスティ
Al -> アル
Mare -> メア
Nessun -> ネッスン
Wanne -> ウォーヌ
KAGAMI -> カガミ
YORK -> ヨーク
Budokan -> ブドウカン
bacardi -> バカルディ
Saisons, -> セゾンズ
Deus, -> デュース
Sounds -> サウンズ
ANYBODY -> アニーボディー
Deserts -> ディザーツ
Livin' -> リビン
WILD BARDS 13 -> ワイルドバード
Garage -> ガラージ
Sisters -> シスターズ
Eagles -> イーグルス
Moura -> モウラ
DIVE -> ダイブ
Bronco -> ブロンコ
di -> ディーアイ
Deadlines -> デッドラインズ
Grande, -> グランディーン
Pierre -> ピエール
Guilty -> ギルティ
HARMONIE -> ハーモニー
Kaiki -> カイキ
Music! -> ミュージック
sympathy -> シンパシー
Andre -> アンドレ
D, -> ディーエル
studio -> スタジオ
EVERY -> イーヴィーアイ
Oh -> オー
8, -> ハチ
Viva! -> ビバ
Part2 -> パートツー
Suitcase -> スーツケース
Portfolio -> ポートフォリオ
417 -> ヨンヒャクジュウナナドル
Mcgraw -> マクグロウ
Duo -> デュオ
LOW -> ロー
Scotto, -> スコットール
Will -> ウィル
Gould -> グールド
Write -> ライト
Music 0608 -> ミューズィーシーゼロロクゼロハチ
2000 12 -> ニセンイチネルトゥエルティーン
Brunch -> ブランチ
Soci -> ソシ
St -> エスティ
Better, -> ベター
COO -> クー
German -> ジャーマン
E Rotic -> エロチック
Tour -> トアー
Cure -> キュア
You'll -> ユール
Polo -> ポロ
TOCT 5706 -> トクトゴーナナマルロク
Marriner -> マリナー
Emerald -> エメラルド
Stur

Myself -> マイセルフ
ages -> エイジス
BLOOD -> ブラッド
SONG -> ソング
DOME -> ドーム
E, -> オーイーエス
Rigaudon -> リガウドン
Themes -> テムズ
Kavallerie -> カヴァレリー
warz -> ワーズ
Tennstedt -> テンシュテット
80% -> ハチジュウパーセント
Creation, -> クリエイション
Playground -> プレイグランド
metua -> メト
Beastie -> ビースティ
Ta ta ta ta -> タタタタ
620 -> ロッピャクニジュウドル
ckblick -> シーケーブリック
style -> スタイル
'84 -> アイトフォーティーフォー
Stereothief -> ステレオチーフ
Act2 -> アクトツー
iranai -> イラナイ
China -> チャイナ
Beethoven -> ベートーベン
KARA -> カラ
NightClub4 05 -> ナイトクラブフォーティーファイブ
Polish -> ポリッシュ
Mespl -> メスプル
Disc2 -> ディスクツー
Fantasie -> ファンタジー
025 -> ゼロニーゴー
Unforgettable -> アンフォゲッタブル
In -> イン
Hi Fi -> ハイファイ
Energy -> エネルギー
Mellow -> メロウ
sisches -> シッシェス
Kenshi -> ケンシ
prison -> プリズン
Twenty -> トゥエンティー
Canvas -> キャンバス
Japonesque -> ヤポネスク
MUSiC -> ミュージック
UC -> アンコモン
Drinking -> ドリンキング
Oil -> オイル
PRINCE -> プリンス
Ago -> アゴー
Abe -> エーブ
ECLIPSE -> エクリプス
Groove, -> グルーヴ
Boo! -> ブー
Forgive -> フォーギブ
SOMEDAY -> サムデイ
CORE -> コア
DRAGON -> ドラゴン
Nigh -> ナイ
EXPLODE -> エクスプロード
RPG -> アールピージー
Frontier -> フロンティ

Along -> アロング
SAYONARA -> サヨナラ
Dandelion -> ダンデライオン
Works -> ワークス
AHEAD 05 -> アヘデーファイブ
Ray -> レイ
Checks, -> チェックス
Times -> タイムズ
* -> アンドミスタイ
Jose -> ホセ
Princess -> プリンセス
Paganini -> パガニーニ
sing -> シング
Low, -> ローン
Cat -> キャット
Bizet -> ビゼー
Treasure -> トレジャー
HIP -> エイチアイピー
'95 -> アイナインティーファイブ
WILD BARDS 22 -> ワイルドバードエスニジュウニ
SINGLES -> シングルズ
meae -> ミーエ
Greather -> グレーザー
raggae -> ラゲエ
Decretum -> デクリタム
Monastery -> モナステリー
Odessa -> オデッサハルヨアンドマクーナ
Wholy -> ホーリー
Spice -> スパイス
Timing -> タイミング
BLOGGS -> ブロッグス
2/Op. -> トゥーオーピー
WILD -> ワイルド
Surmounted -> サーマウンテッド
atmosphere -> アトモスフィア
Drives -> ドライブス
NEVERLAND -> ネバーランド
DECCA -> デッカ
survival -> サバイバル
Dovo -> ドーボ
Honour -> オナフ
Immature -> イマチュア
perdoa -> ペルドア
Celebration! -> セレブレーション
D.D.R. -> ディーディーアール
Tough -> タフ
Delphinus -> デルフィヌス
PAPER -> ペーパー
Loner -> ロナー
Historias -> ヒストリアス
Tyler -> タイラー
Roddy -> ロディー
Ala -> アラ
SEXUALITY -> セクシャリティー
Find -> ファインド
Dell'amore -> デラモア
Over -> オーバー
Clementine -> クレメンタイン
Locust -> ローカスト
Tiger -> タイガー
Spectrum ->

3 1 -> サンジュウイチ
Brown -> ブラウン
Thinking -> シンキング
Cinqauntaine -> シンカウンテン
11 38 -> ジュウサンジュウハチトガ
054 -> ゼロゴーヨン
...Das -> ドットダス
Destiny -> デスティニー
Passion remixed -> パッションリミックスト
Garnett -> ガーネット
Seduction -> セダクション
Five -> ファイブ
I tak -> イタック
Carvalho -> カルバーリョ
Psycho -> サイコ
L'Invitation -> リンヴィテーション
Tupaia -> トゥペイア
worry -> ウォーリー
TRAVELING -> トラヴェリング
Tonight!!s -> トゥナイトエス
Knows -> ノウズ
Phill -> フィル
kubittake -> クビタケ
live -> ライヴ
back -> バック
Tours -> トール
WINDY -> ウィンディ
MELODIE -> メロディー
III, -> アイアイアイ
Bess, -> ベス
Eva -> エバ
Single -> シングル
73 -> ナナジュウサン
Danger -> デインジャー
Drifting -> ドライティング
EYE -> アイ
emergency -> エマージェンシー
Shinjuku -> シンジュク
Dry -> ディアールワイ
Citizens -> シチズンズ
HWV -> エイチダブリュヴイ
Polonaise -> ポロネーズ
chtig, -> チティグ
Makare -> マカレ
Coo -> クー
College, -> コレージュ
Our -> アワー
SAY!!! -> セイ
lander!! -> ランダー
A, -> アル
Helen -> ヘレン
Opus -> オーパス
WILD BARDS 30 -> ウィルドバード
III. -> スリー
Symphonie -> シンフォニー
Wine -> ワイン
UB40 -> ユービーフォーティ
Somos -> ソモス
Paradisia -> パラディシア
BoBo -> ボボ
FRIEND -> フレンド
Canon -> カノン
plus

Simple -> シンプル
57 -> ゴジュウナナ
WIND -> ワインド
Emotion -> エモーション
destructum -> デストラクタム
Bal -> バル
Rat -> ラット
no! -> ノー
Sons -> サンズ
Exprimer -> エクスプリメ
T SQUARE -> ティースクエア
Saigon -> サイゴン
Crawling -> クローリング
Steppes -> ステップス
nova, -> ノバ
Alhambra -> アルハンブラ
MUSH -> マッシュ
Softly -> ソフトリー
Sunshine -> サンシャイン
blue -> ブルー
SLIP -> スリップ
Hide -> ヒデ
D'Affeto -> ダフェト
Perry -> ペリー
Jewel -> ジュエル
grandes -> グランデス
Creek -> クリーク
Straight -> ストレート
Mugging -> マギング
Torrey -> トーレー
Evidence -> エビデンス
BLUES -> ブルース
Girl ORIGINAL -> ガーレジナル
Var. -> ヴァー
2007 -> ニセンナナ
Axe -> アックス
RHYTHM -> リズム
Shoop -> シュープ
II -> アイアイ
Southern -> サザーン
here -> ヒア
Pilgrim -> ピルグリム
Cooder -> クーダー
Rabbit -> ラビット
Ki -> キーアイ
Homely -> ホームリー
Rollins -> ローリンズ
Maids -> メイズ
Albatross -> アルバトロス
HITOMI -> ヒトミツー
Aquarius -> アクエリアス
Kokomo -> ココモ
GIVE -> ギブ
Doki -> ドキ
Volle -> ボレー
Godspell -> ゴッドスペル
GOT -> ジーオーティー
Abbott -> アボット
yr -> ワイアール
Give -> ギブ
Vampire -> バンパイア
Grazia -> グラツィア
Doin' -> ドーイン
Giorgia -> ジョルジア
VOCALOID -> ボーカロイド
Rough -> ラフ
Innocent ->

Feira -> フェイラ
Flack -> フラック
Eureka -> ユーレカ
CREADS -> クリーズ
Cantora -> カントーラ
Happenin' -> ハプニン
Agrabah -> アグラバ
DICE -> ダイス
Hop -> ホップ
Radio -> ラジオ
Scheherazade -> スケヘラザード
unknown -> アンノウン
Smugglers -> スマグラーズ
Elvis -> エルヴィス
Barbra -> バーブラ
Jewels -> ジュエルズ
11 02 -> ヒャクジュウニ
Recuerdo -> レクエルド
Jiko -> ジコ
sostenuto -> ソステヌート
train -> トレイン
Sinbad's -> シンバーズ
Ginga -> ギンガ
DISC10 -> ディスクイチゼロ
Rainy -> レイニー
Man ORIGINAL -> マノリジナル
Blessed -> ブレスド
babbino -> バビーノ
Dinner -> ディナー
Emancipation -> イーマンシペーション
TAXI mediumslow -> タクシメディアムスロー
Ivory -> アイヴォリー
Petrouchka II -> ペトルーシュカツー
CHENG -> チェン
Kristen -> クリステン
Suites -> スーツ
mes -> メス
KOHH -> コー
LUCILLE -> ルシル
Komachi -> コマチ
Verde -> ヴェルデ
Jarreau -> イエイエーアールイー
Pieces -> ピーシーズ
Pastoral -> パストラル
rainbow -> レインボー
Artistz -> アーティスツ
Backstreet -> バックストリート
REEL -> リール
News -> ニューズ
4 -> フォー
BRIGHT -> ブライト
BESS 04 -> ベスセフォー
Inst. -> インスト
Poeten. -> ポエテン
Gigolo -> ジゴロ
Gradus -> グラッドス
ROBINSON -> ロビンソン
Office -> オフィス
80's -> エイティーズ
Bamboo -> バンブー
Album -> アルブム
Viciou

22. -> トゥエンティートゥー
Charice -> チャリス
From. -> フロム
Aki -> アキ
Gary -> ゲアリー
Ipanema -> イパネマ
Fun -> ファン
Chrome -> クローム
Shake -> シェイク
Twelve -> トウェルブ
Daddy's -> ダディーズ
Affair -> アフェアー
Panis -> パニス
BEST! -> ベスト
Away! -> アウェイ
02 -> ゼロニ
ROUTES -> ルーツ
You ORIGINAL -> ヨウオリジナル
itoshi -> イトシ
779 -> ナナジュウナナキュウ
Sanctus -> サンクトゥス
Water -> ウォーター
GIVIN' -> ギヴィン
Heeling -> ヒーリング
Heartland -> ハートランド
Sake -> セーク
atashi -> アタシ
WILD BARDS 14 -> ワイルドバード
arigato -> アリガトウ
Bess -> ベス
However... -> ホウエバー
Rio, -> リオ
Single1989 -> シングルセンキュウヒャクハチジュウキュウ
Meke Meke -> メキメケ
hitomi -> ヒトミツー
Janero -> ジャネロ
FLITE -> フライト
house -> ハウス
Ver -> ベアール
Satirway -> サターウェイ
TASMIN -> タスミン
Foreplay -> フォープレイ
HORNS 07 -> ホーンズゼロナナ
Triple -> トリプル
NightClub4 08 -> ナイトクラブフォーティーエイト
Pense -> ペンス
Classics -> クラシックス
NP5500 -> エヌピーゴヒャクゴジュウ
MICHAEL -> マイケル
1992 -> センキュウヒャクキュウジュウニ
rmische -> アールミッシュ
Chus -> チャス
Sukiyaki -> スキヤキ
Smalltown -> スモールタウン
31 -> サンジュウイチ
Hymnes -> ヒムネス
Dang -> ダン
Generation -> ジェネレーション
P 1 -> ピーワン
1973 -> ヒャクキュウジュウサン
track 

Slip -> スリップ
Here ORIGINAL -> ヘレオリジナル
solo -> ソロ
AU -> エーユー
DEEP -> ディープ
Such -> サッチ
PITTMAN -> ピットマン
September -> セプテンバー
JET!!! -> ジェット
Me -> ミー
Benson -> ベンソン
Skipped -> スキップト
E ROTIC -> エロチック
God -> ゴッド
dialogue -> ダイアローグ
Andante, -> アンダンティーン
Dear. -> ディア
vincar -> ビンカー
Children's -> チルドレンズ
Alegria -> アレグリア
Caramel -> キャラメル
Temptations -> テンプテーションズ
Drop -> ドロップ
monogatari -> モノガタリ
Verkaik, -> ヴァーカイク
KNIVES -> ニブズ
wanna -> ワナ
Radio, -> レディオ
Fifth -> フィフス
Reggae -> レゲエ
STOMP -> ストンプ
BAYO -> バヨ
CRESCENDOLLS -> クレセンドールズ
Landern -> ランダン
Turandot -> トゥーランドット
Rats -> ラッツ
House, -> ハウス
PORTO -> ポルト
Camelot -> キャメロット
NEW -> ニュー
BESS 09 -> ベッサン
mundo -> ムンド
AGAIN -> アゲイン
Desperado -> デスペラード
Pace -> ペース
Nunca -> ヌンカ
Solstice -> ソルスティス
Housecall -> ハウスコール
Someone -> サムワン
valses -> バルス
Melodies -> メロディーズ
cuore -> クオーレ
Succo -> スッコ
Pliers -> プライヤーズ
Classic -> クラシック
Jobelle -> ジョベル
th -> ティーエッチ
Wilderness -> ビルダネス
SCENE -> シーン
HORNS 02 -> ホーンズレーツー
Anymore -> アニモア
holiday -> ホリデイ
Tamarii -> タマリー
hi

BOMBER -> ボマー
Please -> プリーズ
is -> イズ
5. -> ファイブ
M -> エム
Goodnight -> グッドナイト
TOKYO, -> トウキョウアイエー
Natives -> ネイティブズ
Hasche Mann -> ハシューマン
WALKIE -> ウォーキー
Faraway -> ファラウェイ
Bernward -> バーンワード
acid -> アシッド
Squeeze -> スクイーズ
Barcarolle -> バルカロール
MIRACLE -> ミラクル
Maggio -> マッジオ
Adiagietto -> アディアージェット
Foreve -> フォーエブ
Osborne -> オズボーン
Va -> ヴァエイトエーエー
Voyager -> ボイジャー
Assassination -> アサシネーション
Confessin' -> コンフェッシン
Atomic -> アトミック
Ben -> ベン
image4 -> イメージフォー
Mata -> マータ
Gabby -> ガビー
Jean Pierre -> ジャンピエール
innocence -> イノセンス
Tratsch -> トラッチ
Mov -> モブ
RESISTANCE -> レジスタンス
Sakenderu -> サーケンデル
Luxe -> ルークス
Symphonie Orchester -> シンフォニアケスター
Fantasia -> ファンタジア
Tongue In Cheek -> トニューインチーク
Prestige -> プレステージ
3.6.5 -> サンテンロクテンゴ
Streams -> ストリームス
Planning -> プランニング
Shinner -> シンナー
Fukase -> フカセ
5cm -> ゴセンチメートル
d/w -> ディーダブリュー
Bath -> バス
CIRCUIT -> サーキット
IVAN -> アイヴァン
ein -> アイン
Accapella -> アキャペラ
Update -> アップデート
BAND -> バンド
Never Japanese -> ネバージャパニーズ
Philipp -> フィリップピー
LIVE -> ライヴ
DaiJob.com -> ダイジョブド

Ranks -> ランクス
Stil, -> スティル
MAHINEPEU -> マヒネペウ
Wetterfahne -> ウエッターファーン
CIMENT -> シメント
Funiculi -> フュニクーリ
We've -> ウィーヴ
Feti'a -> フェティア
Larsson -> ラーソン
L.O.V.E. -> ラブ
WAB -> ダブリューエービー
Lil -> リル
Bell, -> ベル
Lakm -> ラクム
Charlie -> チャーリー
Desree -> デスリー
FLUSHIN' -> フラシン
todas -> トダス
Ibiza -> イビサ
68 -> ロクジュウハチドル
ordinary -> オーディナリー
eki -> イーケイアイ
vol.2 -> ボリュームツー
Overture, -> オーバーチュア
Pianist -> ピアニスト
morning -> モーニング
C'est -> セスト
Annie -> アニィ
Distance -> ディスタンス
Job? -> ジェイオブビー
Chet -> チェット
Even -> イーブン
Paganini, -> パガニーナイ
Style -> スタイル
Chu! -> チュー
Manuel -> マニュエル
Being -> ビーイング
PETER -> ピーター
VOXY -> ヴォクシー
28, -> ニジュウハチエー
Hoyos -> ホーヨーズ
Connected -> コネクテッド
Caria -> カリア
Lagos -> ラゴス
Mitchie -> ミッチー
Lins -> リンズ
Gingato -> ギンガート
Jobin -> ジョビン
E. -> イー
Strong -> シュトロング
Bit -> ビット
s -> エス
Refugee -> リフュジー
Sid's -> シッズ
SEXTET 04 -> セクステット
Modern -> モダン
Watkinson, -> ワトキンソン
110 -> ヒャクジュウ
less -> レス
kimi -> キミ
BRAND NEW -> ブランニュー
whiteeeen -> ホワイティーン
ANDRADE -> アンドレイド
Wishes -> ウィッシズ
wa -> ワイルドアームズ
S

COOL -> クール
WA -> ワイルドアームズ
pi -> ピーアイ
Fact -> ファクト
Monster -> モンスター
AFFAIRS -> エーエフフェアーズ
11 -> ジュウイチワン
wakare -> ワカレ
War -> ウォー
Dean -> ディーン
09 The -> ゼロナインテーインセットイー
3/4 -> サンジュウヨン
Living -> リビング
Khun -> クーン
Fragile -> フラジヤイル
Susanna -> スサンナ
MELLOW -> メロウ
1980 12 13 -> イチキュウハチマルイチサン
DORIELLE -> ドリエル
AM -> アム
L'amour -> ラムール
Carr,Jose -> カーリジョーゼ
MONEY -> マネー
in -> イン
variations -> バリエーションズ
masashi -> マサシ
'85 -> アイトハチジュウゴ
no. -> ノー
Didn't -> ディング
Fille -> フィル
Wow -> ワールドオブウォークラフト
Variations, -> バリエーションズ
Diffusion -> ディフュージョン
CANTARES -> カンタレス
rie -> リエ
Afterlife -> アフタライフ
On!! -> オーエヌ
Extended -> エクステンデッド
Barefoot -> ベアフット
More -> モア
Mondays -> マンデイズ
Casals -> カザルス
Turn -> ターン
Essex -> エセックス
Masterpieces -> マスターピーシズ
C20 -> シートゥエンティ
Bruch -> ブリュッ
*NSYNC -> アンシンク
Goulding -> グールディング
Vaughan -> ヴォーン
Reign -> レイン
Kieta -> キエタ
Pretenders -> プリテンダーズ
Kota -> コタ
SHU -> シュウ
That's -> ザッツ
Here's -> ヒアーズ
Windhan -> ウィンダン
Unknown -> アンノウン
BEFORE -> ビーフォー
taille -> テール
Between -> ビトウィーン
Scarlatti -> 

2nd -> ツーエヌディー
WILD BARDS 11 -> ワイルドバードエスイチイチ
Arioka -> アリオカ
HTIS -> エイチティーアイエス
BARBEE -> バービー
Marcato -> マルカート
C DAG -> シーディーエージー
Watergames -> ウォーターゲームズ
AHEAD 13 -> アヘディーワンスリー
Disco -> ディスコ
Ano -> アノ
New -> ニュー
Divide -> ディバイド
1 4, -> ジュウヨン
Green -> グリーン
Girl -> ガール
Bomb! -> ボン
Specials -> スペシャルズ
Polynesia -> ポリネシア
Sioux -> スー
sunny -> サニー
Heatwave -> ヒートウェイブ
Valens -> バレンズ
Old Fashioned -> オールドファッション
McKnight -> マックナイト
Steven -> スティーブン
Beth -> ベス
Rpmanves -> アールピーマンベス
Rudy -> ルーディー
Crusaders -> クルセダス
Bittendes -> ビットテンデス
Sundan -> サンダン
Lennon -> レノン
Hits -> ヒッツ
qu'aux -> クワー
give -> ギブ
#21 -> ニジュウイチ
Adventure -> アドベンチャー
30.Julio -> スリオ
Finger -> フィンガー
Half -> ハーフ
Chior -> キオール
Lifted -> リフテッド
JR -> ジェイアール
Money -> マネー
Isaac -> アイザック
EASY -> イージー
Royal -> ロイヤル
Moshi -> モシ
Luther -> ルター
RAVERS -> レイバーズ
74 -> ナナジュウヨン
Roaches -> ローチェス
Echoing -> エコーイング
Cowboy -> カウボーイ
064 -> ゼロロクヨン
Mediterranean -> メディターラニーン
pozo -> ポゾ
TRUST -> トラスト
SALT -> ソルト
GROOVER -> グルーバー
Astley -> アストリー
Mine -> ミ

Winding -> ウインディング
Ariitai -> アリイタイ
grands -> グランズ
Take -> テーク
song! -> ソング
CV -> シーブイ
V,Polonaise -> ヴィエヌポロネーズ
Dreamers -> ドリーマーズ
WILD BARDS 26 -> ワイルドバード
magnifique -> マグニフィク
DISC09 -> ディスクレイン
Karat -> カラート
Catalu -> カタル
Dreamer -> ドリーマー
2010 02 14 -> ニセンジュウネンジュウヨンニチ
Powdery -> パウダリー
Thinkin -> シンキン
Daphnis -> ダフニス
Sherrie -> シェリー
STRONGER -> ストロンガー
Looking -> ルッキング
Bieber, -> ビーベル
48 -> フォーティーエイト
Infernal -> インファーナル
Kuchide -> クチデ
Concertos -> コンサートス
Chango -> チャンゴ
10 6 -> ヒャクロクドル
McGarry -> マッキャリー
Iron -> アイロン
999 -> キュウジュウキュウジュウキュウ
Hizuke -> ヒズケ
Punk -> パンク
STEPS -> ステップス
JUN. featuring -> ジュンフィーチャリング
Ooishan -> オオイシャン
Chroi -> クロイ
Dat's -> ダッツ
Confusion -> コンフュージョン
Wind -> ワインド
Sarabande -> サラバンド
Koma -> コマ
11 18 -> ジュウイチテンゴイチャ
Dan -> ダン
Flora's -> フロラーズ
Rudolph -> ルードルフ
MIKA -> ミカ
Invader -> インベーダー
Mess -> メス
Grands -> グランズ
Pastorale -> パストレール
Ver. -> バージョンア
Unplugged -> アンプラグド
Muti -> ムーティ
Hurry -> ハリー
hands -> ハンズ
MAIO -> マイオ
shojo -> ショージョ
MISS -> ミス
org,Carly -> オージカリー
Pale 

Backstreet's -> バックストリーツ
B'z -> ビーズ
TSU -> ツウ
Gershwin -> ガーシュイン
Joel -> ジョエル
Amphitheater, -> アンフィシアター
90, -> キュウジュウメートル
Jair -> ジェイア
Nara -> ナラ
Coal -> コール
Ousama -> オウサマ
Snobisme -> スノビスム
Overture -> オーバーチュア
Sospiro -> ソスピーロ
IF -> アイエフ
SERGEKOUSSEVITZKY 22 -> セルジュースビーツキーニジュウニ
SEXTET 06 -> セクステット
040 -> ゼロヨンゼロ
Warwick -> ウォリック
WILD BARDS 04 -> ワイルドバード
Emmandal -> エマンダル
1980 04 23 -> イチキュウセンハッピャクニジュウサン
MAREVA -> マレーワ
pride -> プライド
Aaron -> アーロン
Name.mp3 -> ネームエメピスト
forty three -> フォーティスリー
KINDS -> キンズ
Bambee -> バンビー
Vibrolux -> ヴァイブロラックス
Namorada -> ナモラーダ
#27 -> ニジュウナナ
Twinkle -> トゥインクル
Rod -> ロッド
Wind, -> ウインド
Bandit -> バンディット
Violin -> バイオリン
SERGEKOUSSEVITZKY 13 -> セルゲコースセビットキュウサン
Accardo, -> アクカルドゥ
Braveheart -> ブレイブハート
Michele -> ミケール
duran -> ドゥラン
If -> イフ
Blonde -> ブロンド
Agnes -> アニエス
Sessions -> セッションズ
DIXIE -> デキシー
Controversy -> コントロヴァーシー
FOLLOW -> フォロー
Betcha -> ベチャ
FUTURE -> フューチャー
Keepin' -> キーピン
SHOULD -> シュッド
Left -> レフト
Do -> ドー
APPLE -> エーピーピーエルイー
Quero Te -> キュロート
Runn

sch -> エスシーエイチ
J POP/THE -> ジェイポップ
Luntana -> ルンターナ
JUKE -> ジューク
Window -> ウインドー
Kurt -> カート
Carroll -> キャロル
488 -> ヨンヒャクハチジュウハチドル
MIDNITE -> ミッドナイト
Rachmaninov -> ラフマニノフ
Married -> マリード
8/1, -> ハチジュウイチエヌ
Extract -> エクストラクト
U2 -> ユーツー
ROSE -> ローズ
Season's -> シーズン
Part -> パート
Baby -> ベビー
TGCOCM -> ティージーシーオーシーエム
Philip -> フィリップ
Astrud -> アストラッド
Chicago -> シカゴ
NO -> エヌオー
U.S.A -> ユーエスエー
Siren -> サイレン
Abner -> アブナー
24, -> ニジュウヨンアール
Burning -> バーニング
job? -> ジェイオービー
Lizzy -> リジー
NTT -> エヌティーティー
Salerno -> サレルノ
Making -> メーキング
Is... -> イズ
Milan -> ミラン
Ya -> ヤ
bateaux, -> バトー
hana -> ハナ
Surrender -> サレンダー
singers -> シンガーズ
Mrs. -> ミセス
Dick -> ディック
NOTHING'S -> ナッシングズ
Cocker, -> カッカー
Now -> ノウ
091 -> ゼロキュウイチ
Eschucha -> エシュチャ
Self -> セルフ
Um -> ユーエム
D MIX -> ディーエムアイエックス
VOCAL -> ボーカル
Technotronic -> テクノトロニック
BESS 12 -> ベストゥエルブ
Kekkon -> ケッコン
Bano -> バノ
Sharp -> シャープ
Sheena -> シーナ
2ND -> ツーエヌディー
1981 12 24 -> センキュウヒャクハチジュウイチニーヨン
Offenbach -> オッフェンバッハ
EVINHA -> エヴィンハ
Yukihiro -> ユキヒロ
mediumslow -> 

Unit -> ユニット
Holidays -> ホリデイズ
Gigi -> ジジ
Trinklied -> トランクライド
D04 -> ディーゼロヨン
TOI -> トワ
a ha -> エーエイチエー
Hammond -> ハモンド
Brasileiros -> ブラジレイロス
Tired -> タイアード
XEROX -> ゼロックス
Rubies -> ルビーズ
segundos -> セグンドス
MOTTO -> モットー
BESS 01 -> ベッサン
Virginity remixed -> バージニティーリミクスド
Boyfriends -> ボーイフレンズ
...? -> ドット
SUGOSHI -> スゴシ
She -> シー
org,Kygo -> オージーキーゴー
Glory -> グローリー
WILD BARDS 07 -> ワイルドバード
Pinkpop -> ピンクポップ
Lavigne -> ラビーニュ
bye bye -> バイバイ
Hall -> ホール
Warmth -> ウォームス
Rayvon -> レイボン
Izonsh -> アイゾンシュ
Paris -> パリス
Windham -> ウィンダム
M.A.Y -> メイ
BARREL -> バーレル
Fuoco -> フオコ
HENLEY -> ヘンリー
Mind -> マインド
Ambition -> アンビション
31Wonderland -> サーティーワンワンダーランド
Throwdown -> スローダウン
Victor -> ビクター
ROCKS -> ロックス
Gstaad -> グスタード
BIG -> ビッグ
TRANQUILLITY -> トランキリティ
Brick -> ブリック
CHILD -> チャイルド
Rap -> アールエーピー
C Sharp -> シーシャープ
Voices -> ボイス
Crap -> クラップ
Brand -> ブランド
2010 02 18 -> ニセンジュウネンジュウガツジュウハ
Sor Introdution -> ソーリントロデューション
presents -> プレゼンツ
N Sync -> インシンク
Soft -> ソフト
Cigarette -> シガレット
Holmes -> ホームズ
Forz

In [73]:
print(len(transtable))

def upload_to_s3(bucket, prefix, channel, file):
    s3 = boto3.resource('s3')
    data = open(file, "rb")
    key = prefix + "/" + channel + '/' + file
    s3.Bucket(bucket).put_object(Key=key, Body=data)

with open('transtable.json', 'w') as f:
    f.write(json.dumps(transtable))
upload_to_s3(bucket, prefix, 'translate', 'transtable.json') 

11306


In [42]:
word_infr = json.loads(words_json)
words_infr = [[source.get(token, 1) for token in "".join(list(str(word_infr)))] for word_infr in words_infr]

f = io.BytesIO()
for word_infr in words_infr:
    record = list_to_record_bytes(word_infr, [])
    write_recordio(f, record)

In [43]:
f = io.BytesIO()
for word_infr in words_infr:
    record = list_to_record_bytes(word_infr, [])
    write_recordio(f, record)

In [48]:
response = runtime.invoke_endpoint(EndpointName=endpoint_name, 
                                   ContentType='application/x-recordio-protobuf', 
                                   Body=f.getvalue())

response = response["Body"].read()

ReadTimeoutError: Read timeout on endpoint URL: "https://runtime.sagemaker.us-east-2.amazonaws.com/endpoints/Seq2SeqEndpoint-2018-12-24-17-45-02/invocations"

In [46]:
def _parse_proto_response(received_bytes):
    output_file = tempfile.NamedTemporaryFile()
    output_file.write(received_bytes)
    output_file.flush()
    target_sentences = []
    with open(output_file.name, 'rb') as datum:
        next_record = True
        while next_record:
            next_record = read_next(datum)
            if next_record:
                rec = Record()
                rec.ParseFromString(next_record)
                target = list(rec.features["target"].int32_tensor.values)
                target_sentences.append(target)
            else:
                break
    return target_sentences

In [None]:
targets = _parse_proto_response(response)
resp = [" ".join([target_rev.get(token, "<unk>") for token in phone_infr]) for
                               phone_infr in targets]
print(resp)