## Preliminaries

In [11]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset
import pickle
import os
from collections import Counter
import pandas as pd

### table of contents
- Pytorch
- Datasets
- RNN
- Attention Mechanism
- RNN AutoEncoder with Attention mechanism
- CNN & CNN AutoEncoder

## Datasets
### Hadoop Distributed File System(HDFS)
Open dataset인 HDFS 데이터셋은 하둡 분산처리 시스템의 로그로 이루어져 있습니다.
정상 시스템 로그와 이상 시스템 로그로 이루어져 있습니다. 이상 로그 시스템의 비율은 약 3%입니다.  
로그 안에 있는 block_id는 해당 로그가 발생한 사건의 고유 정보를 의미합니다.   
같은 block_id인 데이터셋은 모두 같은 사건에 대한 정보를 담고 있습니다. 따라서 block_id로 데이터를 묶어 같은 block_id로 이루어진 로그 시퀀스는 한 개의 로그 시퀀스로 판단합니다.  

In [None]:
with open('./data/blk_logkey_seq.pkl', 'rb') as f:
    log = pickle.load(f)
templates = pd.read_csv('./data/test_logs_split_20.txt_templates.csv')

### Drain Log Parser
Log Parser는 비정형 로그 데이터를 정형화된 템플릿으로 변환하는 역할을 수행합니다.
학습된 Log Parser를 통해 HDFS 데이터셋을 템플릿으로 변환한 결과는 아래와 같습니다.

### Make Vocabulary File
데이터를 모델에 넣기 위해서는 인코딩 과정이 필요합니다.
본 과정에서는 이를 위해 간단한 Vocab 모듈을 제작해 사용합니다.
Vocab 모듈은 input 데이터의 각 원소들을 해당 원소에 해당하는 embedding matrix에 매칭시키는 역할을 수행합니다.

In [None]:
class Vocab:
    ''' 데이터 인코딩에 필요한 vocab을 만드는 모듈 '''
    def __init__(self, vocab_path):
        # 모델에 필요한 special token을 정의합니다.
        self.special_tokens = ['<PAD>', '<BOS>', '<EOS>', '<UNK>']
        self.vocab_path = vocab_path
        self.data = None
        self.vocab = None
        if os.path.isfile(vocab_path):
            self.load_vocab()

    def load_data(self, data_path):
        with open(data_path, 'rb') as f:
            data = pickle.load(f)
        self.data = list(data.values())

    def create_vocab(self):
        assert self.data is not None
        ctr = Counter()
        for d in self.data:
            ctr.update(d)
        vocab = list(ctr.keys())
        self.vocab = self.special_tokens + vocab
        self.save_vocab()

    def load_vocab(self):
        with open(self.vocab_path, 'r') as f:
            vocab = []
            for line in f:
                try:
                    vocab.append(int(line.strip()))
                except:
                    vocab.append(line.strip())
        self.vocab = vocab

    def save_vocab(self):
        assert self.vocab is not None
        with open(self.vocab_path, 'w') as f:
            for word in self.vocab:
                f.write(str(word) + '\n')

In [12]:
data_path = './data/train_data.log'
vocab_path = './data/vocab.txt'
# Create vocab.txt
vocab_module = Vocab(vocab_path)
vocab_module.create_vocab()
log_vocab = vocab_module.vocab

NameError: name 'vocab' is not defined

### Pytorch Custom Datasets
파이토치는 직접 datasets 모듈을 만들어 사용할 수 있습니다.
이 때 필요한 것은 해당 모듈에
__len__
__getitem__
메소드를 오버라이딩해어야 한다는 것입니다.


In [8]:
type(log)

dict

In [9]:
list(log.items())[0]

('blk_-1000002529962039464', [0, 0, 0, 3, 17, 18, 17, 18, 6, 6, 6, 17, 18])

In [3]:
templates.head()

Unnamed: 0,EventId,EventTemplate,Occurrences
0,09a53393,Receiving block <*> src: <*> dest: <*>,381308
1,3d91fa85,BLOCK* NameSystem.allocateBlock: <*> <*>,128483
2,dc2c74b7,PacketResponder <*> for block <*> terminating,366945
3,e3df2680,Received block <*> of size <*> from <*>,366780
4,5d5de21c,BLOCK* NameSystem.addStoredBlock: blockMap upd...,376002


## Simple Pytorch Explanations

## Datasets

In [8]:
logs = list(zip(*log.items()))

In [11]:
logs[1][0]

[0, 0, 0, 3, 17, 18, 17, 18, 6, 6, 6, 17, 18]

In [13]:
'test'.astype(int)

AttributeError: 'str' object has no attribute 'astype'