#**Phân tích quan điểm với RNNs**
Dữ liệu:
+ reviews.txt:Các nhận xét của người dùng. Mỗi nhận xét 1 dòng được phân tách bởi dấu `\n`
+ labels.txt: nhãn tương ứng (positive, negative)

In [None]:
import numpy as np
import tensorflow as tf

In [None]:
# đọc dữ liệu reviews và nhãn
with open('reviews.txt', 'r') as f:
    reviews = f.read()
with open('labels.txt', 'r') as f:
    labels = f.read()

##**1. Xử lý dữ liệu**
Xóa bỏ các dấu câu

In [None]:
from string import punctuation
all_text = ''.join([c for c in reviews if c not in punctuation])
reviews = all_text.split('\n')

all_text = ' '.join(reviews)
words = all_text.split()

In [None]:
labels = list(labels.split('\n'))

In [None]:
reviews[0]

'bromwell high is a cartoon comedy  it ran at the same time as some other programs about school life  such as  teachers   my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers   the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students  when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled          at           high  a classic line inspector i  m here to sack one of your teachers  student welcome to bromwell high  i expect that many adults of my age think that bromwell high is far fetched  what a pity that it isn  t   '

In [None]:
labels[0]

'positive'

In [None]:
all_text[:200]

'bromwell high is a cartoon comedy  it ran at the same time as some other programs about school life  such as  teachers   my   years in the teaching profession lead me to believe that bromwell high  s '

In [None]:
words[:10]

['bromwell', 'high', 'is', 'a', 'cartoon', 'comedy', 'it', 'ran', 'at', 'the']

In [None]:
len(reviews), len(labels), len(words)

(25001, 25001, 6020196)

##**2. Encode các từ**
+ Mỗi từ được biểu diễn là 1 số nguyên.
+ Cách đơn giản nhất: tạo từ điển và ánh xạ các từ trong từ điển thành các số nguyên.

In [None]:
from collections import Counter
# tạo từ điển, sắp xếp các từ theo tần suất xuất hiện từ lớn đến bé
counts = Counter(words)
vocab = # YOUR CODE HERE

# tạo biển diễn số nguyên cho các từ trong từ điển (mỗi từ - 1 số nguyên là số thứ tự xuất hiện của từ)
vocab_to_int = # YOUR CODE HERE

# Biểu diễn vector cho các reviews.
# mỗi review => 1 vector chứa biểu diễn số nguyên của các từ.
review_ints = [] # tập các (review- biểu diễn) trong cơ sở dữ liệu
for review in reviews:
    # biểu diễn vector cho mỗi review sau đó thêm vào review_ints
    # YOUR CODE HERE

In [None]:
print(review_ints[0])

[21025, 308, 6, 3, 1050, 207, 8, 2138, 32, 1, 171, 57, 15, 49, 81, 5785, 44, 382, 110, 140, 15, 5194, 60, 154, 9, 1, 4975, 5852, 475, 71, 5, 260, 12, 21025, 308, 13, 1978, 6, 74, 2395, 5, 613, 73, 6, 5194, 1, 24103, 5, 1983, 10166, 1, 5786, 1499, 36, 51, 66, 204, 145, 67, 1199, 5194, 19869, 1, 37442, 4, 1, 221, 883, 31, 2988, 71, 4, 1, 5787, 10, 686, 2, 67, 1499, 54, 10, 216, 1, 383, 9, 62, 3, 1406, 3686, 783, 5, 3483, 180, 1, 382, 10, 1212, 13583, 32, 308, 3, 349, 341, 2913, 10, 143, 127, 5, 7690, 30, 4, 129, 5194, 1406, 2326, 5, 21025, 308, 10, 528, 12, 109, 1448, 4, 60, 543, 102, 12, 21025, 308, 6, 227, 4146, 48, 3, 2211, 12, 8, 215, 23]


###**Phân tích dữ liệu cơ bản**

In [None]:
# xử lý dữ liệu
from collections import Counter
# tính chiều dài của các reviews
review_lens = Counter([len(x) for x in review_ints])
print("Độ dài dài nhất của review: {}".format(max(review_lens)))
print("Độ dài ngắn nhất review: {}".format(min(review_lens)))

Độ dài dài nhất của review: 2514
Độ dài ngắn nhất review: 0


###**Xoá review trống và label tương ứng**

In [None]:
len(review_ints), len(labels)

(25001, 25001)

In [None]:
preprocess_data = [(review_int, label) for review_int, label in zip(review_ints, labels) if len(review_int)>0]
review_ints = [item[0] for item in preprocess_data]
labels = [item[1] for item in preprocess_data]

In [None]:
len(review_ints), len(labels)

(25000, 25000)

###**Padding review cùng độ dài, padding với giá trị 0**

In [None]:
seq_len = 200
# Chuẩn hóa vector biểu diễn số nguyên cho các review về cùng chiều dài 200.
# Padding bên phải: [1, 2, 3] => [0, 0, 1, 2, 3]
features = np.zeros((len(review_ints), seq_len), dtype=int)
for i, row in enumerate(review_ints):
    # YOUR CODE HERE

In [None]:
features.shape

(25000, 200)

In [None]:
features[0]

array([    0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0, 21025,   308,     6,
           3,  1050,   207,     8,  2138,    32,     1,   171,    57,
          15,    49,    81,  5785,    44,   382,   110,   140,    15,
        5194,    60,   154,     9,     1,  4975,  5852,   475,    71,
           5,   260,    12, 21025,   308,    13,  1978,     6,    74,
        2395,     5,   613,    73,     6,  5194,     1, 24103,     5,
        1983, 10166,     1,  5786,  1499,    36,    51,    66,   204,
         145,    67,  1199,  5194, 19869,     1, 37442,     4,     1,
         221,   883,

In [None]:
features[-1]

array([    0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,    11,     6,    30,     4,     1,  6973,   107,    10,
         139,   124,   108,     8,  7147,   123,   742,   124,   542,
           4,   689,     2,  1004,     5,    94,     3,   921,     4,
          96,    31,     7,     7,    40,    13,    24,     3,   671,
          50,   341,    42,   104,     9,     1,   221,   921,    46,
          40,    14,     3,   112,     8,    14,    35, 11424,     2,
          15,   227,    15,   113,   266,    40,    13,   163,    50,
           5,   133,    37,  1787,   133,   163,    10,  1228,  2251,
         387,    87,

##**3. Encode các nhãn**
Có 2 nhãn là "positive" or "negative", biểu diễn chúng thành 0 và 1.

In [None]:
len(labels), set(labels)

(25000, {'negative', 'positive'})

In [None]:
# chuyển 'positive' thành 1 và negative thành 0 xong rồi chuyển vào mảng numpy
labels = # YOUR CODE HERE
labels[0]

1

In [None]:
labels.shape

(25000,)

##**4. Chia tập: train: valid: test**
Chia train, valid, test theo tỉ lệ 8:1:1



In [None]:
features.shape, labels.shape

((25000, 200), (25000,))

In [None]:
# chia train, test, valid theo tỉ lệ 8:1:1
# các biến: đặc trưng (train_x, valid_x, test_x)
# nhãn (train_y, valid_y, test_y)

from sklearn.model_selection import train_test_split

### YOUR CODE HERE ###

print("\t\t\tFeature Shapes:")
print("Train set: \t\t{}".format(train_x.shape),
      "\nValidation set: \t{}".format(valid_x.shape),
      "\nTest set: \t\t{}".format(test_x.shape))

			Feature Shapes:
Train set: 		(20000, 200) 
Validation set: 	(2500, 200) 
Test set: 		(2500, 200)


##**5. Chuyển dữ liệu từ Numpy array sang Tensor**

In [None]:
train_dataset = tf.data.Dataset.from_tensor_slices((train_x, train_y))
valid_dataset = tf.data.Dataset.from_tensor_slices((valid_x, valid_y))
test_dataset = tf.data.Dataset.from_tensor_slices((test_x, test_y))

In [None]:
BATCH_SIZE = 1024
SHUFFLE_BUFFER_SIZE = 100

train_dataset = train_dataset.shuffle(SHUFFLE_BUFFER_SIZE).batch(BATCH_SIZE)
valid_dataset = valid_dataset.batch(BATCH_SIZE)
test_dataset = test_dataset.batch(BATCH_SIZE)

In [None]:
next(iter(train_dataset))

(<tf.Tensor: shape=(1024, 200), dtype=int64, numpy=
 array([[    0,     0,     0, ...,   193,     7,     7],
        [16205, 17893,    13, ...,  7670,  4675,    41],
        [    0,     0,     0, ...,     2,  2127,  5027],
        ...,
        [    0,     0,     0, ...,   108,    11,   274],
        [31398,  1066,  2415, ...,    22,     8,    13],
        [    0,     0,     0, ...,    16,     1,  2065]])>,
 <tf.Tensor: shape=(1024,), dtype=int64, numpy=array([0, 1, 0, ..., 1, 1, 1])>)

##**6. Xây dựng model**
![](https://drive.google.com/uc?export=view&id=12brOzdpMHwG7h8fN4gFv_XDpambypiGb)

**Xây dựng model gồm các layers sau:**
1. Embedding Layer: ánh xạ từ index của từ trong vocab sang vector đại diện với `input_dim`: kích thuớc bộ từ điển, `output_dim`: 300
2. LSTM Layer: 1 lớp LSTM, với `lstm_units`: 128
3. Dense Layer: 1 lớp Dense với `dense_units`: 64 và `activattion`: 'relu'
4. Classifier: 1 lớp dense với `output_units`: 1

In [None]:
n_words = len(vocab)
embed_dim = 300
lstm_units = 128
dense_units = 64
output_units = 1

In [None]:
model = tf.keras.Sequential([
    # YOUR CODE HERE
])

##**7. Huấn luyện mô hình**

In [None]:
learning_rate = 1e-4

model.compile(
    loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
    optimizer=tf.keras.optimizers.Adam(learning_rate),
    metrics=['accuracy']
)

In [None]:
num_epochs = 10

history = model.fit(
    train_dataset,
    epochs=num_epochs,
    validation_data=valid_dataset
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


##**8. Đánh giá mô hình trên tập test**

In [None]:
test_loss, test_acc = model.evaluate(test_dataset)

print('Test Loss:', test_loss)
print('Test Accuracy:', test_acc)

Test Loss: 0.33819055557250977
Test Accuracy: 0.8640000224113464
