In [5]:
import time
import argparse
import math
import os
import torch
import torch.nn as nn
from torch import optim
import numpy
import matplotlib
from matplotlib import pyplot as plt


# Import your model files.
from model import make_model, Classifier, NoamOpt, LabelSmoothing, fgim_attack
from data import prepare_data, non_pair_data_loader, get_cuda, pad_batch_seuqences, load_human_answer,\
    id2text_sentence, to_var, calc_bleu


In [8]:
from attributedict.collections import AttributeDict

In [15]:
args = AttributeDict({'id_pad':0, 'id_unk':1, "id_bos" : 2, 'id_eos':3,'task':'dialect',\
                     'word_to_id_file': '', 'data_path' :'../../data/uae-eg/processed_files/', \
                     'word_dict_max_num' :5, 'batch_size' :128, 'max_sequence_length' :64, 'num_layers_AE':2,
                     'transformer_model_size':256, 'transformer_ff_size' : 1024,'latent_size': 256, \
                     'word_dropout': 1.0, 'embedding_dropout':0.5,'learning_rate':0.001, 'label_size':1})

In [17]:
args.id_bos

2

In [20]:
args.if_load_from_checkpoint = True
args.checkpoint_name = "1588047455"

In [21]:
def add_log(ss):
    now_time = time.strftime("[%Y-%m-%d %H:%M:%S]: ", time.localtime())
    print(now_time + ss)
    with open(args.log_file, 'a') as f:
        f.write(now_time + str(ss) + '\n')
    return


def add_output(ss):
    with open(args.output_file, 'a') as f:
        f.write(str(ss) + '\n')
    return


def preparation():
    # set model save path
    if args.if_load_from_checkpoint:
        timestamp = args.checkpoint_name
    else:
        timestamp = str(int(time.time()))
        print("create new model save path: %s" % timestamp)
    args.current_save_path = 'save/%s/' % timestamp
    args.log_file = args.current_save_path + time.strftime("log_%Y_%m_%d_%H_%M_%S.txt", time.localtime())
    args.output_file = args.current_save_path + time.strftime("output_%Y_%m_%d_%H_%M_%S.txt", time.localtime())
    print("create log file at path: %s" % args.log_file)

    if os.path.exists(args.current_save_path):
        add_log("Load checkpoint model from Path: %s" % args.current_save_path)
    else:
        os.makedirs(args.current_save_path)
        add_log("Path: %s is created" % args.current_save_path)

    # set task type
    if args.task == 'yelp':
        args.data_path = '../../data/yelp/processed_files/'
    elif args.task == 'amazon':
        args.data_path = '../../data/amazon/processed_files/'
    elif args.task == 'dialect':
        args.data_path = '../../data/uae-eg/processed_files/'
    elif args.task == 'imagecaption':
        pass
    else:
        raise TypeError('Wrong task type!')

    # prepare data
    args.id_to_word, args.vocab_size, \
    args.train_file_list, args.train_label_list = prepare_data(
        data_path=args.data_path, max_num=args.word_dict_max_num, task_type=args.task
    )
    return

In [22]:
preparation()

ae_model = get_cuda(make_model(d_vocab=args.vocab_size,
                               N=args.num_layers_AE,
                               d_model=args.transformer_model_size,
                               latent_size=args.latent_size,
                               d_ff=args.transformer_ff_size,
))
dis_model = get_cuda(Classifier(latent_size=args.latent_size, output_size=args.label_size))

create log file at path: save/1588047455/log_2020_04_28_17_15_21.txt
[2020-04-28 17:15:21]: Load checkpoint model from Path: save/1588047455/
prepare data ...
Load word-dict with 41286 size and 5 max_num.


In [23]:
ae_model.load_state_dict(torch.load(args.current_save_path + 'ae_model_params.pkl'))
dis_model.load_state_dict(torch.load(args.current_save_path + 'dis_model_params.pkl'))

<All keys matched successfully>

In [30]:
def eval_iters(ae_model, dis_model):
    eval_data_loader = non_pair_data_loader(
        batch_size=1, id_bos=args.id_bos,
        id_eos=args.id_eos, id_unk=args.id_unk,
        max_sequence_length=args.max_sequence_length, vocab_size=args.vocab_size
    )
    eval_file_list = [
        args.data_path + 'dialect_dev.uae',
        args.data_path + 'dialect_dev.eg',
    ]
    eval_label_list = [
        [0],
        [1],
    ]
    eval_data_loader.create_batches(eval_file_list, eval_label_list, if_shuffle=False)
#     gold_ans = load_human_answer(args.data_path)
#     assert len(gold_ans) == eval_data_loader.num_batch

    count = 0
    add_log("Start eval process.")
    ae_model.eval()
    dis_model.eval()
    for it in range(eval_data_loader.num_batch):
        batch_sentences, tensor_labels, \
        tensor_src, tensor_src_mask, tensor_tgt, tensor_tgt_y, \
        tensor_tgt_mask, tensor_ntokens = eval_data_loader.next_batch()

        print("------------%d------------" % it)
        print("origin_input","\n label is ", tensor_labels)
        print(id2text_sentence(tensor_tgt_y[0], args.id_to_word))

        latent, out = ae_model.forward(tensor_src, tensor_tgt, tensor_src_mask, tensor_tgt_mask)
        generator_text = ae_model.greedy_decode(latent,
                                                max_len=args.max_sequence_length,
                                                start_id=args.id_bos)
#         print("------------------------")
#         print("autoencoder output:")
#         print(id2text_sentence(generator_text[0], args.id_to_word))

        # Define target label
        target = get_cuda(torch.tensor([[1.0]], dtype=torch.float))
        if tensor_labels[0].item() > 0.5:
            target = get_cuda(torch.tensor([[0.0]], dtype=torch.float))
        print("target_labels", target)

        modify_text = fgim_attack(dis_model, latent, target, ae_model, args.max_sequence_length, args.id_bos,
                                        id2text_sentence, args.id_to_word, '')
        add_output(modify_text)
        count += 1
        if count >= 10:
            break
    return

In [31]:
eval_iters(ae_model, dis_model)

Load data from ../../data/uae-eg/processed_files/dialect_dev.uae ../../data/uae-eg/processed_files/dialect_dev.eg !
Create 59225 batches with 1 batch_size
[2020-04-28 18:39:47]: Start eval process.
------------0------------
user الانضباط <UNK> hash num الف درهم <UNK> له <UNK> <UNK> <UNK> <UNK> في مباراه راس الخيمه
origin_labels tensor([[0.]], device='cuda:0')
user hash ناديكم <UNK> num الف درهم له <UNK> <UNK> <UNK> <UNK> <UNK> <UNK> في راس الخيمه مباراه دبي محتاج حسابات
target_labels tensor([[1.]], device='cuda:0')
gold: 
epsilon: 2.0
| It  1 | dis model pred 0.0787 |
user hash ناديكم <UNK> num الف درهم له <UNK> <UNK> <UNK> <UNK> <UNK> <UNK> في راس الخيمه مباراه دبي محتاج حسابات
epsilon: 1.8
| It  2 | dis model pred 0.2038 |
user hash <UNK> ناديكم num له الف درهم <UNK> <UNK> <UNK> <UNK> <UNK> <UNK> في راس الخيمه وبعد مباراه واحده
epsilon: 1.62
| It  3 | dis model pred 0.3545 |
user hash <UNK> الفيفا num الف له درهم <UNK> <UNK> <UNK> <UNK> <UNK> <UNK> في راس الخيمه وفي اي حاجه hash
epsi

| It  3 | dis model pred 0.6090 |
ان البشر تسقط hash النعيم كثر num ولكن البعض <UNK> عيني الصافي لا يخلق شي اليك انسان
epsilon: 2.9160000000000004
| It  4 | dis model pred 0.6703 |
ان البشر تسقط hash النعيم كثر num ولكن البعض <UNK> عيني الصافي لا يضر فيك من امه خالد توفيق
epsilon: 2.6244000000000005
| It  5 | dis model pred 0.7049 |
ان البشر تسقط hash النعيم كثر num ولكن البعض <UNK> عيني الصافي لا يضر فيك من امه خالد توفيق
epsilon: 5.0
| It  1 | dis model pred 0.1535 |
ان البشر تسقط hash النعيم بصدق num ولكن هناك اشخاصا <UNK> راشق فيه وجه الشخص وهو احبه
epsilon: 4.5
| It  2 | dis model pred 0.5877 |
ان البشر تسقط hash النعيم بصدق num ولكن هناك موقف تحرر المحبه كان ربك دائما فانه يتالم
epsilon: 4.05
| It  3 | dis model pred 0.6523 |
ان البشر تسقط hash النعيم بصدق num ولكن هناك موقف تحرر المحبه كان ربك دائما فانه يتالم
epsilon: 3.645
| It  4 | dis model pred 0.7182 |
ان البشر تسقط hash النعيم بصدق num ولكن هناك موقف تحرر المحبه كان ربك دائما فانه يتالم
epsilon: 3.2805
| It  5 | dis model

| It  4 | dis model pred 0.9611 |
<UNK> الي <UNK> <UNK> <UNK> ليه الناس ومش تحبہ <UNK> الوجع لان واحده بس <UNK> الذين مؤمنين بقي
epsilon: 5.248800000000001
| It  5 | dis model pred 0.9688 |
<UNK> الي <UNK> <UNK> <UNK> ليه الناس ومش بتعمله كام <UNK> و <UNK> الحسين صعب طبعا
------------3------------
<UNK> بعدين <UNK> هذه شيم <UNK>
origin_labels tensor([[0.]], device='cuda:0')
<UNK> <UNK> بعدين <UNK> هذه الزلات <UNK> <UNK> ولو اخاف <UNK> <UNK> اثبتت اللعبه ال num feeling sad
target_labels tensor([[1.]], device='cuda:0')
gold: 
epsilon: 2.0
| It  1 | dis model pred 0.5104 |
<UNK> <UNK> بعدين <UNK> هذه الزلات <UNK> <UNK> ولو اخاف <UNK> <UNK> رايي والايمان علي حب الذي <UNK> عيل
epsilon: 1.8
| It  2 | dis model pred 0.5953 |
<UNK> <UNK> بعدين <UNK> هذه الزلات <UNK> <UNK> ولو اخاف <UNK> <UNK> رايي والايمان علي حب الذي <UNK> هه
epsilon: 1.62
| It  3 | dis model pred 0.6494 |
<UNK> <UNK> بعدين <UNK> هذه الزلات <UNK> ولو فيه تخصص الشخص <UNK> ولكن num اخيرا <UNK> عليكم كانوا حيا
epsilon: 1.4580000

| It  5 | dis model pred 0.5878 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من يتبدل لكم الليل والنهار لو كان قران الفجر بخير ٧٧ سوره الاسراء hash
epsilon: 5.0
| It  1 | dis model pred 0.3724 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من حفظها الله الاهلي كان الفجر قران الغفله وكان ذلك كما ربياني صغيرا hash
epsilon: 4.5
| It  2 | dis model pred 0.4583 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من يتبدل لكم الليل والنهار لو كان قران الفجر بخير ٧٧ سوره الاسراء hash
epsilon: 4.05
| It  3 | dis model pred 0.5235 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من يتبدل لكم الليل والنهار لو كان قران الفجر بخير ٧٧ سوره الاسراء hash
epsilon: 3.645
| It  4 | dis model pred 0.5730 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من يتبدل لكم الليل والنهار لو كان قران الفجر الفوز حكيما واصيلا hash
epsilon: 3.2805
| It  5 | dis model pred 0.6265 |
اقم الصلاه <UNK> الشمس الي بطون اثنين من اخيه كان قلبك قران الفجر نحن لهم يسبحون ٢ ان كان الغفله سوره الحديد hash
epsilon: 6.0
| It  1 | dis model pred 0.3724 |
اقم الصلاه <UNK> ا

| It  3 | dis model pred 0.9774 |
اكتر قلبي بيجيب احلام و تعبت و <UNK> عانقت نفسك num و عندكو تعلم جرح ام غيرها num شكلها لوحده
epsilon: 5.832000000000001
| It  4 | dis model pred 0.9802 |
اكتر قلبي بيجيب احلام و تعبت و <UNK> ندامه و عايز num من انها قايله ليها فكره الورد <UNK> بالمره
epsilon: 5.248800000000001
| It  5 | dis model pred 0.9821 |
اكتر قلبي بيجيب احلام و تعبت و <UNK> ندامه و عايز num من انها قايله ليها فكره الورد <UNK> بالمره
------------6------------
خيره الله تبقي فوق كل وجع ل يهمس لك قلبك كفاك الله شيئا تحبه كي لا يمسك ضر كفاك كي ينبت لك فرحا اكبر واجمل
origin_labels tensor([[0.]], device='cuda:0')
لعل الله تصبح كل شيء جميلا لا قسي قلبك عني لك قلبك كي لن يخلق لك شكثر ان يعجبني تحبه كي تخيب لك عند الله ﮩ
target_labels tensor([[1.]], device='cuda:0')
gold: 
epsilon: 2.0
| It  1 | dis model pred 0.0277 |
لعل الله تصبح كل شيء جميلا لا قسي قلبك عني لك قلبك كي لن يخلق لك شكثر ان يعجبني تحبه كي تخيب لك عند الله لابن القيم
epsilon: 1.8
| It  2 | dis model pred 0.0514 |
لعل الل

| It  2 | dis model pred 0.5516 |
في ال hash لانني احلف <UNK> الله ومن احب العبقريه الوحيد num الي قصر <UNK>
epsilon: 3.24
| It  3 | dis model pred 0.6292 |
في ال hash بعدين يسالوني الله من ايديك فهو <UNK> ليس مع الموت hash
epsilon: 2.9160000000000004
| It  4 | dis model pred 0.7530 |
في ال hash بعدين يسالوني ان الله يلعن منه اكيد خربت <UNK>
epsilon: 2.6244000000000005
| It  5 | dis model pred 0.8812 |
في ال hash بعدين يسالوني ان الله يلعن منه اكيد خربت <UNK>
epsilon: 5.0
| It  1 | dis model pred 0.1366 |
في ال hash لانني احلف <UNK> الله ومن احب العبقريه الوحيد num الي قصر <UNK>
epsilon: 4.5
| It  2 | dis model pred 0.5836 |
في ال hash اوه <UNK> الله تعالي قبل منتج كان الجزيره جيدا
epsilon: 4.05
| It  3 | dis model pred 0.6784 |
في ال hash بعدين يسالوني الله من ايديك فهو <UNK> ليس مع الموت hash
epsilon: 3.645
| It  4 | dis model pred 0.8084 |
في ال hash بعدين يسالوني الله من ايديك فهو <UNK> ياخي هو الازمه
epsilon: 3.2805
| It  5 | dis model pred 0.9054 |
في ال hash بعدين يسالوني الله ا

| It  1 | dis model pred 0.1117 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع نفوسنا علي خشيتك
epsilon: 1.8
| It  2 | dis model pred 0.2723 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع <UNK> رب
epsilon: 1.62
| It  3 | dis model pred 0.5137 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع <UNK> رب
epsilon: 1.4580000000000002
| It  4 | dis model pred 0.6599 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع <UNK> رب
epsilon: 1.3122000000000003
| It  5 | dis model pred 0.8054 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع <UNK> رب
epsilon: 3.0
| It  1 | dis model pred 0.1117 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشيتك و اجمع ارواحنا في جنتك و اجمع نفوسنا علي خشيتك
epsilon: 2.7
| It  2 | dis model pred 0.3781 |
اللهم في يوم num اجمع قلوبنا علي طاعتك و نفوسنا علي خشي

In [27]:
print(ae_model)

EncoderDecoder(
  (encoder): Encoder(
    (layers): ModuleList(
      (0): EncoderLayer(
        (self_attn): MultiHeadedAttention(
          (linears): ModuleList(
            (0): Linear(in_features=256, out_features=256, bias=True)
            (1): Linear(in_features=256, out_features=256, bias=True)
            (2): Linear(in_features=256, out_features=256, bias=True)
            (3): Linear(in_features=256, out_features=256, bias=True)
          )
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (feed_forward): PositionwiseFeedForward(
          (w_1): Linear(in_features=256, out_features=1024, bias=True)
          (w_2): Linear(in_features=1024, out_features=256, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (sublayer): ModuleList(
          (0): SublayerConnection(
            (norm): LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): SublayerConnection(
            (norm): LayerNorm()