参考:  
https://blog.floydhub.com/long-short-term-memory-from-zero-to-hero-with-pytorch/  
https://github.com/gabrielloye/LSTM_Sentiment-Analysis/blob/master/LSTM_starter.ipynb  
https://github.com/gabrielloye/LSTM_Sentiment-Analysis/blob/master/main.ipynb

# LSTMの基礎

参考: https://github.com/gabrielloye/LSTM_Sentiment-Analysis/blob/master/LSTM_starter.ipynb

まずはLSTMの基礎的な部分について見てみましょう。  
PyTorchのLSTMのレイヤがどのように動いているのか、出力を可視化することで見てみましょう。  
モデルのレイヤの動きを見るためにインスタンス化する必要はありません。

In [48]:
import torch
import torch.nn as nn

LSTMのパラメータとしていろいろなものが設定できますが、ここでは入力の次元と隠れ層の次元と層の数を指定します。  

<ul>
    <li>Input dimension: 各タイムステップでの入力のサイズを示します。 e.g. サイズが5の場合、[1,3,8,2,3]</li>
    <li>Hidden dimension: 各タイムステップでの隠れ層の状態とセル状態のサイズを示します。 e.g. 次元が3の場合、共に[3,5,4]</li>
    <li>Number of layers: LSTMの層の数</li>
</ul>

In [49]:
input_dim=5 # 入力の次元
hidden_dim=10 # 隠れ層の次元
n_layers=1 # 層の数

入力の動きを見るために、試しにデータを生成してみます。入力の次元を5とすると、求められるテンソルの形は(1,1,5)です。（（バッチサイズ、シーケンスの長さ、入力の次元））  
加えて、LSTMを最初のセルとしているので、隠れ層の状態とセル状態を初期化する必要があります。これらはそれぞれ（隠れ層の状態、セル状態）の形式で格納されています。

In [50]:
batch_size=1 # バッチサイズ
seq_len=1 # シーケンスの長さ

inp=torch.randn(batch_size,seq_len,input_dim) # 入力データはランダムに

### レイヤの用意
lstm_layer=nn.LSTM(input_dim,hidden_dim,n_layers,batch_first=True) # LSTMレイヤ
hidden_state=torch.randn(n_layers,batch_size,hidden_dim) # 内部状態
cell_state=torch.randn(n_layers,batch_size,hidden_dim) # セル
hidden=(hidden_state,cell_state) # タプルで

print("Input shape: {}".format(inp.shape))
print("Hidden shape: ({},{})".format(hidden[0].shape,hidden[1].shape))

Input shape: torch.Size([1, 1, 5])
Hidden shape: (torch.Size([1, 1, 10]),torch.Size([1, 1, 10]))


上で用意したLSTMのレイヤにデータを入力してみます。

In [51]:
out,hidden=lstm_layer(inp,hidden) # LSTMの出力
print("Output shape: ",out.shape)
print("Hidden: ",hidden)

Output shape:  torch.Size([1, 1, 10])
Hidden:  (tensor([[[-0.0449, -0.3824, -0.1499, -0.4087,  0.1130, -0.1120,  0.7433,
           0.0934,  0.3570,  0.3538]]], grad_fn=<StackBackward>), tensor([[[-0.0628, -0.8317, -0.7305, -0.9544,  0.3643, -0.2340,  1.4044,
           0.2279,  0.8152,  0.6376]]], grad_fn=<StackBackward>))


上のプロセスでは、各ステップでLSTMのセルがどのように入力と隠れ層の状態を扱っているのかを見てきました。  
しかし多くのケースでは、大きい文章で入力データを扱います。  
LSTMは様々な長さのシーケンスを入力とし、各タイムステップで出力することができます。それではシーケンスの長さを変えてみます。

In [52]:
seq_len=3 # シーケンスの長さ
inp=torch.randn(batch_size,seq_len,input_dim) # 入力データ
out,hidden=lstm_layer(inp,hidden) # LSTMの出力
print(out.shape)

torch.Size([1, 3, 10])


ここでは、出力の第2次元は3です。これはLSTMの出力は3つであることを意味します。  
入力のシーケンスの長さと一致します。  
文章生成のように各タイムステップで出力が必要な場合、各タイムステップでの出力は第2次元から直接取得され、全結合層に入力されます。  
感情分析などの文章分類のタスクでは、最後のタイムステップでの出力が分類器の入力となります。

In [53]:
out=out.squeeze()[-1,:] # データの形を変換
print(out.shape)

torch.Size([10])


<img src="./LSTM_Cell_Equations.png" width="250" align="left">

# 感情分析

参考: https://github.com/gabrielloye/LSTM_Sentiment-Analysis/blob/master/main.ipynb

KaggleのAmazonのカスタマーレビューのデータセットを使って感情分析をしてみます。  
このデータセットには4,000,000ものレビューが含まれており、各レビューはポジティブもしくはネガティブのラベルが付けられています。  
（ちなみにこのチュートリアルはFloydHubを使って動かせます。）  

このチュートリアルの最終的な目標は、LSTMでレビューの感情の分類をすることです。  
そのために、まずデータの前処理、モデルの定義、そしてモデルの評価をします。

## データの用意

In [54]:
import bz2
from collections import Counter
import re
import nltk
import numpy as np

文法の辞書を入手します。

In [6]:
# nltk.download("punkt") # 文法データのダウンロード

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/kagawa/anaconda3/envs/MAIN/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

データセットをダウンロードします。

In [13]:
!wget  "https://www.kaggle.com/bittlingmayer/amazonreviews/download/train.ft.txt.bz2" -o ./../data/amazon_reviews/train.ft.txt.bz2
!wget "https://www.kaggle.com/bittlingmayer/amazonreviews/download/test.ft.txt.bz2" -o ./../data/amazon_reviews/test.ft.txt.bz2

ファイルを読み込みます。

In [55]:
train_file=bz2.BZ2File("./../data/amazon_reviews/train.ft.txt.bz2") # 訓練用データセット
test_file=bz2.BZ2File("./../data/amazon_reviews/test.ft.txt.bz2") # テスト用データセット

### ファイルを読み込むために、今回は下の処理も行う
train_file=train_file.readlines()
test_file=test_file.readlines()

データセットのサイズでも見てみましょう。

In [56]:
print("Number of training reviews: "+str(len(train_file))) # 訓練用データセットのサイズ
print("Number of test reviews: "+str(len(test_file))) # テスト用データセットのサイズ

Number of training reviews: 3600000
Number of test reviews: 400000


なんと訓練用データセットは3,600,000、テスト用は400,000もの大きさです。  
時間を節約するためにこの全てのデータを使うことは避けます。もし余裕があるようでしたらもっと使ってもいいと思います。

In [57]:
num_train=800000 # 訓練に使うデータ数
num_test=200000 # テストに使うデータ数

train_file=[x.decode("utf-8") for x in train_file[:num_train]] # 訓練用データセットの文字コードを変換
test_file=[x.decode("utf-8") for x in test_file[:num_test]] # テスト用データセットの文字コードを変換

print(train_file[0])

__label__2 Stuning even for the non-gamer: This sound track was beautiful! It paints the senery in your mind so well I would recomend it even to people who hate vid. game music! I have played the game Chrono Cross but out of all of the games I have ever played it has the best music! It backs away from crude keyboarding and takes a fresher step with grate guitars and soulful orchestras. It would impress anyone who cares to listen! ^_^



## 前処理

次に、文章整形を進めます。  
まず、文章からラベルを抽出します。フォーマットは、"__label__1/2 &lt; sentence &gt;" です。  
ラベルは、ポジティブが1でネガティブが0です。  
ここでは、全てのURLを"&lt; url &gt; "という形にします。感情分析にこれらは関係ありません。

In [58]:
train_labels=[0 if x.split(" ")[0]=="__label__1" else 1 for x in train_file] # 訓練用ラベル
train_sentences=[x.split(" ",1)[1][:-1].lower() for x in train_file] # 訓練用文章
test_labels=[0 if x.split(" ")[0]=="__label__1" else 1 for x in test_file] # テスト用ラベル
test_sentences=[x.split(" ",1)[1][:-1].lower() for x in test_file] # テスト用文章

for i in range(len(train_sentences)): # 訓練用文章について
    train_sentences[i]=re.sub("\d","0",train_sentences[i]) # \dを0に変換

for i in range(len(test_sentences)): # テスト用文章について
    test_sentences[i]=re.sub("\d","0",test_sentences[i]) # \dを0に変換

### URLを<url>に修正する
for i in range(len(train_sentences)): # 訓練用文章について
    if "www." in train_sentences[i] or "http:" in train_sentences[i] or "https:" in train_sentences[i] or "com" in train_sentences[i]:
        train_sentences[i]=re.sub(r"([^ ]+(?<=\.[a-z]{3}))","<url>",train_sentences[i])
        
for i in range(len(test_sentences)): # テスト用文章について
    if 'www.' in test_sentences[i] or 'http:' in test_sentences[i] or 'https:' in test_sentences[i] or '.com' in test_sentences[i]:
        test_sentences[i] = re.sub(r"([^ ]+(?<=\.[a-z]{3}))", "<url>", test_sentences[i])

（多分）メモリ節約のために、もう必要のない変数を削除しておきましょう。

In [59]:
del train_file,test_file

## トークン化

次にトークン化しましょう。  
この処理は自然言語処理のタスクではよくやられるものです。  
これは文章をワードや文法などの各トークンに分けるものです。  
これを行う際には辞書が必要です。spaCyやscikit-learnなどがありますが、NLTKを使うと早いです。  
そしてワードは、ワード→出現回数のマッピングを持つ辞書に入れられます。これが語彙となります。

In [60]:
words=Counter() # 訓練用の文章に出てくるワードについて、ワード→該当するワードの出現回数 のdict

for i,sentence in enumerate(train_sentences):
    # 文章はワード/トークンのリストとしてリストに追加されてゆく
    train_sentences[i]=[]
    
    for word in nltk.word_tokenize(sentence): # ワードをトークン化する
        words.update([word.lower()]) # 全てのワードを小文字に変換する
        train_sentences[i].append(word) # リストに追加
        
    if i%40000==0: # 2,000個の文章ごとに
        print(str((i*100)/num_train)+"% done")
        
print("100% done")

0.0% done
0.25% done
0.5% done
0.75% done
1.0% done
1.25% done
1.5% done
1.75% done
2.0% done
2.25% done
2.5% done
2.75% done
3.0% done
3.25% done
3.5% done
3.75% done
4.0% done
4.25% done
4.5% done
4.75% done
5.0% done
5.25% done
5.5% done
5.75% done
6.0% done
6.25% done
6.5% done
6.75% done
7.0% done
7.25% done
7.5% done
7.75% done
8.0% done
8.25% done
8.5% done
8.75% done
9.0% done
9.25% done
9.5% done
9.75% done
10.0% done
10.25% done
10.5% done
10.75% done
11.0% done
11.25% done
11.5% done
11.75% done
12.0% done
12.25% done
12.5% done
12.75% done
13.0% done
13.25% done
13.5% done
13.75% done
14.0% done
14.25% done
14.5% done
14.75% done
15.0% done
15.25% done
15.5% done
15.75% done
16.0% done
16.25% done
16.5% done
16.75% done
17.0% done
17.25% done
17.5% done
17.75% done
18.0% done
18.25% done
18.5% done
18.75% done
19.0% done
19.25% done
19.5% done
19.75% done
20.0% done
20.25% done
20.5% done
20.75% done
21.0% done
21.25% done
21.5% done
21.75% done
22.0% done
22.25% done
22.5%

## 語彙の整理

タイポや存在しないワードを排除するために、語彙から1回しか出現しなかったワードを削除します。  
unknownやpaddingに対処するために、それらを語彙に追加もします。  
各ワードには数字のインデックスが割り当てられ、これがマッピングとなります。

In [61]:
words={k:v for k,v in words.items() if v>1} # 出現回数が2回以上のワードに限定する
words=sorted(words,key=words.get,reverse=True) # 出現回数の多い順に並び替える
words=["_PAD","_UNK"]+words # paddingとunknownを辞書に追加する

word2idx={o:i for i,o in enumerate(words)} # ワード→インデックス
idx2word={i:o for i,o in enumerate(words)} # インデックス→ワード

これらのマッピングを使い、文章中の各ワードを変換してゆきます。

In [62]:
for i,sentence in enumerate(train_sentences): # 訓練用の文章について
    train_sentences[i]=[word2idx[word] if word in word2idx else 1 for word in sentence] # 文章中の各ワードを番号に変換
    
for i,sentence in enumerate(test_sentences): # テスト用の文章について
    test_sentences[i]=[word2idx[word] if word in word2idx else 1 for word in sentence] # 文章中の各ワードを番号に変換

学習を早めるために、短い文章を0埋めで長くしたり、長い文章を短くしたりします。

In [63]:
# 短い文章は0埋めして、長い文章は短くする関数
def pad_input(sentences,seq_len):
    features=np.zeros((len(sentences),seq_len),dtype=int) # 特徴量の長さ分の0
    
    for ii,review in enumerate(sentences): # 各文章について
        if len(review)!=0: # もし長さが1以上の場合
            features[ii,-len(review):]=np.array(review)[:seq_len] # 短い分だけ前を0埋め&長い分だけ短くする
            
    return features

seq_len=200 # 統一された文章の長さ
train_sentences=pad_input(train_sentences,seq_len) # 訓練用のシーケンス
test_sentences=pad_input(test_sentences,seq_len) # テスト用のシーケンス

例えば下のような形に変換されています。

In [64]:
print(train_sentences[0])

[     0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0      0      0      0      0      0      0      0
      0      0      0  65588     91     16      3 101561     13     11
    195    461     18    364     15      9   5743      3  89872     14
     77    437     36     94      5     51   1667      9     91      8
    14

## データセットの分割

データセットは既に訓練用とテスト用に分割されています。  
検証用の分も確保します。  
テスト用のものの半分を検証用とします。

検証用のデータを用意します。

In [65]:
train_labels=np.array(train_labels) # numpyの形に変換
test_labels=np.array(test_labels) # numpyの形に変換

split_frac=0.5 # テスト用データと検証用データの比率
split_id=int(split_frac*len(test_sentences)) # どこで区切るかのインデックス
val_sentences,test_sentences=test_sentences[:split_id],test_sentences[split_id:] # 文章を検証用とテスト用に分割
val_labels,test_labels=test_labels[:split_id],test_labels[split_id:] # ラベルを検証用とテスト用に分割

## データローダの定義

それではPyTorchの機能を使ってこのデータのローダを用意します。  
まずはPyTorchの型に変換します。

In [66]:
import torch
from torch.utils.data import TensorDataset,DataLoader

train_data=TensorDataset(torch.from_numpy(train_sentences),torch.from_numpy(train_labels)) # 訓練用データ
val_data=TensorDataset(torch.from_numpy(val_sentences),torch.from_numpy(val_labels)) # 検証用データ
test_data=TensorDataset(torch.from_numpy(test_sentences),torch.from_numpy(test_labels)) # テスト用データ

次にデータローダを作ります。

In [67]:
batch_size=400 # バッチサイズ
train_loader=DataLoader(train_data,shuffle=True,batch_size=batch_size) # 訓練用データのローダ
val_loader=DataLoader(val_data,shuffle=True,batch_size=batch_size) # 検証用データのローダ
test_loader=DataLoader(test_data,shuffle=True,batch_size=batch_size) # テスト用データのローダ

どのデバイスを利用するかを決定します。  
GPUを使える場合はGPUを使える設定にします。  
（FloydHubを使っている場合はGPUを利用できます。）

In [68]:
is_cuda=torch.cuda.is_available() # GPUが利用可能かどうか

if is_cuda: # GPUを利用できる場合
    device=torch.device("cuda")
    print("GPU is available")
else: # GPUを利用できない場合
    device=torch.device("cpu")
    print("GPU is not available, CPU used")

GPU is not available, CPU used


一つのバッチを読み込んでみます。

In [69]:
dataiter=iter(train_loader) # ローダはこういう使い方もできる
sample_x,sample_y=dataiter.next() # 一つバッチを読み込む
print(sample_x.shape,sample_y.shape)

torch.Size([400, 200]) torch.Size([400])


## モデルの定義

それではネットワークを構築します。LSTMのレイヤを持ったものにします。下のものでは、最初にembeddingをします。  
最後の層では全結合+シグモイドをすることで感情をポジティブ・ネガティブに分類します。

In [70]:
import torch.nn as nn

class SentimentNet(nn.Module): # 感情分類ネットワーク
    def __init__(self,vocab_size,output_size,embedding_dim,hidden_dim,n_layers,drop_prob=0.5):
        super(SentimentNet,self).__init__()
        self.output_size=output_size # 出力のサイズ
        self.n_layers=n_layers # LSTMの層の数
        self.hidden_dim=hidden_dim # LSTMの隠れ層の次元
        
        self.embedding=nn.Embedding(vocab_size,embedding_dim) # embedding
        self.lstm=nn.LSTM(embedding_dim,hidden_dim,n_layers,dropout=drop_prob,batch_first=True) # LSTMレイヤ
        self.dropout=nn.Dropout(0.2) # ドロップアウト
        self.fc=nn.Linear(hidden_dim,output_size) # 全結合層
        self.sigmoid=nn.Sigmoid() # シグモイド
        
    def forward(self,x,hidden):
        batch_size=x.size(0) # バッチごとに入力を得るとする
        x=x.long() # データの型を変更
        embeds=self.embedding(x) # embeddingをする
        lstm_out,hidden=self.lstm(embeds,hidden) # LSTMの出力を取得
        lstm_out=lstm_out.contiguous().view(-1,self.hidden_dim) # データの形を変換
        
        out=self.dropout(lstm_out) # ドロップアウト
        out=self.fc(out) # 全結合
        out=self.sigmoid(out) # シグモイド
        
        out=out.view(batch_size,-1) # データの形を変換
        out=out[:,-1]
        
        return out,hidden
    
    def init_hidden(self,batch_size): # 隠れ層の初期化
        weight=next(self.parameters()).data 
        hidden=(
            weight.new(self.n_layers,batch_size,self.hidden_dim).zero_().to(device),
            weight.new(self.n_layers,batch_size,self.hidden_dim).zero_().to(device)
        )
        
        return hidden

GloveやFastTextなどのembeddingを使えばモデルの学習もうまくいくでしょう。  
出力の次元は1です。今回は0/1だけが必要なためです。  
それではネットワークを用意します。

In [71]:
vocab_size=len(word2idx)+1 # 語彙のサイズ
output_size=1 # 出力のサイズ
embedding_dim=400 # embeddingの次元
hidden_dim=512 # 隠れ層のサイズ
n_layers=2 # LSTMのレイヤの数

model=SentimentNet(vocab_size,output_size,embedding_dim,hidden_dim,n_layers) # モデル
model.to(device) # デバイスに送る
print(model)

SentimentNet(
  (embedding): Embedding(217631, 400)
  (lstm): LSTM(400, 512, num_layers=2, batch_first=True, dropout=0.5)
  (dropout): Dropout(p=0.2, inplace=False)
  (fc): Linear(in_features=512, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


## モデルの学習

それではモデルを学習させます。  
各決められたステップごとに、検証用データセットに対する予測の性能も見ておきます。  
state_dictはPyTorchのmodelの重みです。

In [None]:
lr=0.005 # 学習率
criterion=nn.BCELoss() # ロス関数
optimizer=torch.optim.Adam(model.parameters(),lr=lr) # 最適化関数

epochs=2 # エポック数
counter=0 # データを何個読み込んだか
print_every=1000 # 何回ごとに表示するか
clip=5
valid_loss_min=np.Inf # 検証ロスの最小値

model.train() # モデルを学習させることを宣言

for i in range(epochs): # エポックごとに
    h=model.init_hidden(batch_size) # 内部状態の初期化
    
    for inputs,labels in train_loader:
        counter+=1
        h=tuple([e.data for e in h])
        inputs,labels=inputs.to(device),labels.to(device) # 入力とラベルをデバイスに送る
               
        model.zero_grad() # モデルの勾配を初期化する
        output,h=model(inputs,h) # モデルの出力を得る
        
        loss=criterion(output.squeeze(),labels.float()) # ロスを計算
        loss.backward() # 逆伝搬
        nn.utils.clip_grad_norm_(model.parameters(),clip) # ?
        optimizer.step() # 最適化する
        
        if counter%print_every==0: # 表示するとき
            val_h=model.init_hidden(batch_size) # 検証用の重みを初期化
            val_losses=[] # 検証ロスのリスト
            model.eval() # これから検証することを宣言
            
            for inp,lab in val_loader: # 検証用データの各バッチについて
                val_h=tuple([each.data for each in val_h])
                inp,lab=inp.to(device),lab.to(device) # デバイスに送る
                out,val_h=model(inp,val_h) # モデルの出力を得る
                val_loss=criterion(out.squeeze(),lab.float()) # 検証ロス
                val_losses.append(val_loss.item()) # 検証ロス
                
            model.train() # 検証が済んだので再び学習に戻る
            
            print(
                "Epoch: {}/{}...".format(i+1,epochs),
                "Step: {}...".format(counter),
                "Loss: {:.6f}...".format(loss.item()),
                "Val Loss: {:.6f}".format(np.mean(val_losses))
            )
            
            if np.mean(val_losses)<=valid_loss_min: # もし検証ロスが最小を更新したら
                torch.save(model.state_dict(),"./state_dict.pt") # ファイルに保存
                print("Validation loss decreased ({:.6f} --> {:.6f}). Saving model ...".format(valid_loss_min,np.mean(val_losses)))
                valid_loss_min=np.mean(val_losses) # 最小値を更新

## 精度の評価

それではテストデータについて、予測性能の評価をします。  
前回の学習では、最も検証データへのロスが小さいときのモデルのパラメータを保存しました。これを利用します。  

In [None]:
model.load_state_dict(torch.load("./state_dict.pt")) # モデルのパラメータをロードする

test_losses=[] # テストロスのリスト
num_correct=0 # 正しく分類できた数
h=model.init_hidden(batch_size) # 隠れ層の初期化

model.eval()

for inputs,labels in test_loader: # テストデータの各バッチについて
    h=tuple([each.data for each in h])
    inputs,labels=inputs.to(device),labels.to(device)
    output,h=model(inputs,h) # モデルの出力
    test_loss=criterion(output.squeeze(),labels.float()) # テストロスを算出
    test_losses.append(test_loss.item()) # ロスのリストに追加
    pred=torch.round(output.squeeze()) # 値を0/1にすることで予測クラスとする
    correct_tensor=pred.eq(labels.float().view_as(pred))
    correct=np.squeeze(correct_tensor.cpu().numpy())
    num_correct+=np.sum(correct) # 正しく分類できた数
    
print("Test loss: {:.3f}".format(np.mean(test_losses)))
test_acc=num_correct/len(test_loader.dataset) # テストの予測精度
print("Test accuracy: {:.3f}%".format(test_acc*100))

LSTMを使った予測の精度を見ることができました。  
ハイパーパラメータのチューニングもせずにこんなものでした。