# Tutorial 3: Làm việc với dữ liệu

> "Học Máy (Machine Learning) là một lĩnh vực nghiên cứu và xây dựng các giải thuật có khả năng học tự động từ dữ liệu để giải quyết các vấn đề cụ thể". Từ đó có thể thấy, dữ liệu (data) đóng một vai trò cực kì quan trọng và là yếu tố đầu tiên cần có khi thực hiện một ứng dụng Machine Learning.

*Trong bài thực hành ngay hôm nay, chúng ta sẽ cùng tìm hiểu một số khái niệm và kĩ thuật căn bản khi làm việc với các loại dữ liệu.*


### Mục tiểu buổi học
- Tìm hiểu các kiểu dữ liệu cơ bản trong Machine Learning
- Làm việc với dữ liệu bảng, hình ảnh và văn bản trên Python
- Giới thiệu một số phương pháp lưu trữ dữ liệu 

### Nội dung 
1 - Dữ liệu có cấu trúc

2 - Dữ liệu không có cấu trúc
- Dữ liệu hình ảnh
- Dữ liệu văn bản

3 - Lưu trữ dữ liệu (Đọc thêm)


## 0.1 Kết nối và lấy dữ liệu trong Google Drive 

Để kết nối với Google Drive, có thể dùng lệnh 
```
from google.colab import drive
drive.mount('/content/drive')
```
Hoặc chọn vào biểu tượng `File` góc phía bên trái chọn `Mount Drive` khi đó Google Colab sẽ tự tạo kết nối tới Google Drive.

![alt text](https://imgur.com/ElUvFGW.png)
<!-- [link text](https://imgur.com/ElUvFGW.png) -->

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive


In [2]:
!ls 

drive  sample_data


Trong Machine Learning, dữ liệu được chia thành 2 nhóm chính, là **dữ liệu có cấu trúc** (Structured Data) và **dữ liệu không có cấu trúc** (Unstructured Data).
## 1. Dữ liệu có cấu trúc
- Dữ liệu thường biểu diễn ở dạng bảng
- Mỗi hàng biểu diễn một **điểm dữ liệu (instance)**
- Các cột là các **đặc trưng (features)** và **nhãn (label)** của dữ liệu đó
- Một cách thường dùng để lưu trữ dữ liệu có cấu trúc là lưu trữ ở dạng file **.csv** <sup>(1)</sup>

Ví dụ: Iris Dataset

<img src = "https://imgur.com/SyhcVvY.jpg" width="500px"/>

<sup> 1 </sup> **csv** (comma-separated values) là một định dạng file thông dụng để lưu trữ dữ liệu dạng bảng. Mỗi dòng trong file tương ứng với một hàng, dữ liệu trong một dòng mặc định được phân cách bằng dấu **phẩy**, hoặc các kí tự khác được tự định nghĩa (khoảng cách, tab, etc.)

In [0]:
# Có thể sử dụng thư viện hỗ trợ đọc file csv trong Python
# Hoặc tiến hành đọc file như file text thông thường
import csv

with open('data/iris.csv', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    for row in list(reader)[::20]:
        print(row)
        

Để dễ dàng trong phân tích và xử lý các dữ liệu dạng bảng trên Python, một công cụ thường được sử dụng là **Pandas**

In [0]:
import pandas as pd
dataset = pd.read_csv('data/iris.csv')

# Lấy ra 5 mẫu ngẫu nhiên 
print(dataset.sample(5))

In [0]:
dataset.head(5)

In [0]:
import seaborn as sns
sns.pairplot(dataset.iloc[:,0:5],hue="species")

Một số kĩ thuật tiền xử lý dữ liệu có cấu trúc: 

- Xử lý dữ liệu bị mất (missing data)
- Chuẩn hóa dữ liệu (normalization) 
- Rời rạc hóa dữ liệu (discretization)
- Phát hiện và xử lý dữ liệu ngoại lai (outlier)

Readmore: [Feature-Normalization](https://nbviewer.jupyter.org/github/thanhhff/AIVN-Machine-Learning/blob/master/Week%203/Feature-Normalization.ipynb)


In [0]:
### Rescaling Data: Max-min scaling - đưa các Future về đoạn [0;1] 

import matplotlib.pyplot as plt
from sklearn.preprocessing import minmax_scale

# Dữ liệu sepal_length 
original_data = dataset.iloc[:,0].values

# dữ dữ liệu về đoạn [0;1]
scaled_data = minmax_scale(original_data)

# vẽ 2 đồ thị giữ liệu ban đầu và sau khi Scaling 
fig, ax=plt.subplots(1,2)
sns.distplot(original_data, ax=ax[0], color='y')
ax[0].set_title("Original Data")
sns.distplot(scaled_data, ax=ax[1])
ax[1].set_title("Scaled data")
plt.show()

## 2. Dữ liệu không có cấu trúc
Các loại dữ liệu không có cấu trúc thường gặp:
- Dữ liệu văn bản (text)
- Dữ liệu hình ảnh (image)
- Dữ liệu âm thanh (audio)
- Dữ liệu chuỗi thời gian (time series)
- etc.

Đối với các dữ liệu không có cấu trúc, cần có các phương pháp khác nhau để chuyển đổi dữ liệu thô (raw data) thành dạng vector đặc trưng (feature vector) trước khi áp dụng các giải thuật Machine Learning.

### 2.1 Dữ liệu hình ảnh

#### a. Vector đặc trưng của ảnh
- Hình ảnh được lưu trữ trong máy tính dưới dạng ma trận số, các số này thể hiện thông tin về màu sắc của các pixel trong ảnh. 
- Đối với định dạng ảnh RGB: kích thước ma trận gồm chiều dài, chiều rộng và chiều sâu, giá trị mỗi số trong ma trận nằm trong phạm vi [0-255] và thể hiện độ sáng của pixel.


In [0]:
# Ví dụ sử dụng thư viện Open-CV cho xử lý ảnh trong Python
# https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_tutorials.html
import cv2
image = cv2.imread("img/cat.jpg")

print("shape =", image.shape)
print(image[:, :, 2])

# Sử dụng thư viện Matplotlib để hiển thị ảnh trong Python
# https://matplotlib.org/
%matplotlib inline
from matplotlib import pyplot as plt
plt.subplots()
plt.imshow(image)

In [0]:
# CHÚ Ý: opencv đọc ảnh vào theo thứ tự BGR nên màu của ảnh bị "ngược" khi hiển thị ra
# Chỉ cần đảo lại thứ tự của chiều channel để lấy lại thứ tự RGB nếu bạn muôn
image = image[:, :, ::-1]
plt.imshow(image)

#### b. Một số kỹ thuật tiền xử lý ảnh
- Khi làm việc với dữ liệu ảnh trong Machine Learning/Deep Learning, kích thước của ảnh thường là cố định. Cần thay đổi kích thước ảnh đầu vào (resize hoặc crop ảnh)

In [0]:
# Thay đổi kích thước ảnh
resized_image = cv2.resize(image, (25, 25)) 
print("shape =", resized_image.shape)
print(resized_image[:, :, 2])

plt.subplots()
plt.imshow(resized_image)

- Khi không quan tâm đến màu sắc của ảnh, có thể chuyển ảnh thành dạng ảnh xám (greyscale), lúc này, kích thước của ma trận chỉ gồm 2 giá trị là chiều dài và chiều rộng ảnh.

In [0]:
# Chuyển sang ảnh xám
greyscale_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
print ("shape =", greyscale_image.shape)
print (greyscale_image[:, :])

plt.subplots()
plt.imshow(greyscale_image,cmap = 'gray')

- Để làm giàu cho tập dữ liệu (data augmentation), có thể sử dụng một số kỹ thuật như lật ảnh, xoay ảnh, hay dùng cách lớp mặt nạ (mask) để tạo ra các điểm dữ liệu mới.

In [0]:
import numpy as np
plt.subplots(figsize=(20, 10))

# Lật ảnh
horizontal_img = cv2.flip(image, 0 )
plt.subplot(141),plt.imshow(horizontal_img)
plt.xticks([])
plt.yticks([])

vertical_img = cv2.flip(image, 1 )
plt.subplot(142),plt.imshow(vertical_img)
plt.xticks([])
plt.yticks([])


both_img = cv2.flip(image, -1 )
plt.subplot(143),plt.imshow(both_img)
plt.xticks([])
plt.yticks([])

# Xoay ảnh
angle = 20
image_center = tuple(np.array(image.shape[1::-1]) / 2)
rot_mat = cv2.getRotationMatrix2D(image_center, angle, 1.0)
rot_img = cv2.warpAffine(image, rot_mat, image.shape[1::-1], flags=cv2.INTER_LINEAR)
plt.subplot(144),plt.imshow(rot_img)
plt.xticks([])
plt.yticks([])

In [0]:
# Với "Mask" là một ma trận cho trước 
# Sử dụng phép nhân hadamard để áp dụng lớp "Mask" lên hình ảnh

mask = np.random.random(greyscale_image.shape[:2])
masked_image = mask * greyscale_image

plt.subplots()
plt.imshow(masked_image,cmap = 'gray')

### 2.2 Dữ liệu văn bản 

Mục đích của tiền xử lý dữ liệu văn bản là chuyển đổi các từ/kí tự trong văn bản thành các vector thể hiện đặc trưng của văn bản.

Các phương pháp tiền xử lý văn bản thường gặp:

#### a. Tokenization
Là quá trình phân tách văn bản thành các từ.

In [0]:
sample_text = "I am writing a sample text."

In [0]:
tokenized_text = sample_text.split()
print(tokenized_text)

In [0]:
# Sử dụng thư viện nltk để hỗ trợ xử lý dữ liệu text
# https://www.nltk.org/

import nltk

"""
Chú ý: Tải package phụ trợ nếu chưa có
"""
nltk.download('punkt')  

tokenized_text = nltk.word_tokenize(sample_text)
print(tokenized_text)

#### b. Loại bỏ Stopword: 
Stopword là các từ phổ biến trong ngôn ngữ và không mang ý nghĩa đặc trưng. Đối với các bài toán về phân loại văn bản, các stopword này sẽ được loại bỏ để giảm kích thước tập từ vựng (vocabulary) cũng như hạn chế nhiễu.

In [0]:
from nltk.corpus import stopwords

"""
Chú ý: Tải package phụ trợ nếu chưa có
"""
nltk.download('stopwords') 

english_stopword = stopwords.words('english')
print(english_stopword[::5])

#### c. Stemming
Với một số ngôn ngữ như tiếng anh, từ vựng thường được biến đổi về hình thức do quy tắc về ngữ pháp. Đối với các bài toán chỉ quan tâm đến ngữ nghĩa của từ mà bỏ qua cấu trúc ngữ pháp, người ta thường dùng kỹ thuật stemming để đưa các từ về dạng gốc (cats -> cat, playing -> play).

In [0]:
from nltk.stem.porter import PorterStemmer
ps = PorterStemmer()
stemmed_text = [ps.stem(word) for word in tokenized_text]
print(stemmed_text)

#### d. Xác định tập từ vựng (vocabulary)
Đối với các bài toán về dữ liệu văn bản, cần xác định một tập từ vựng cố định, là các đặc trưng của văn bản. 

Tập từ vựng thường là tập hợp các từ xuất hiện trong tập dữ liệu huấn luyện, sau khi đã qua các bước như loại bỏ stopword, stemming, etc. Ngoài ra, để giới hạn kích thước tập từ vựng, ta cũng có thể loại bỏ các từ có tần xuất suất hiện quá thấp (các từ hiếm, nhiễu) hay quá phổ biến (các từ không mang nhiều ý nghĩa phân loại) trong toàn tập dữ liệu huấn luyện.

Có thể sử dụng 1 phần từ **< UNK >** (Unknown word) để biểu diễn cho các từ không xuất hiện trong tập từ vựng.


In [0]:
sample_texts = [
    "I am playing with text",
    "It is a cat",
    "I like cat"
]

sample_texts = [nltk.word_tokenize(text) for text in sample_texts]
vocab = set(sum(sample_texts, []))
print(vocab)

#### e. Chuyển văn bản về dạng vector đặc trưng (Word to Vectors)

Nội dung phần này sẽ được giảng chi tiết trong "Bài 11: Deep Learning trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP)".

In [0]:
# CHÚ Ý: cần tạo index cho @UNKNOWN@ - từ/token không có trong từ điển\
vocab = set(sum(sample_texts, []))
word2index = {'@UNKNOWN@': 0}
index2word = {0: '@UNKNOWN@'}

for i, word in enumerate(vocab):

    # word2index : key   - từ thuộc vocab 
    #               value - chỉ số của từ trong vocab
    #               {'am': 0, 'I': 1, 'with': 2, ... } 
    # index2word : key   - chỉ số của từ trong vocab
    #               value - từ thuộc vocab 
    #               {0: 'am', 1: 'I', 2: 'with', ... }
    #
    word2index[word] = i+1
    index2word[i+1] = word
    
print(word2index)
print(index2word)

##### **Biểu diễn One-hot Vector**

One-hot vector là vector có tất cả các giá trị bằng 0 và một giá trị duy nhất bằng 1. Vị trí có giá trị bằng 1 chính là giá trị integer mà vector đó biểu diễn. 

One-hot vector thường đường sử dụng để biểu diễn các biến kiểu phân loại (categorical variable) như các nhãn (label) của bài toán phân loại (classification). Trong các bài toán trên dữ liệu văn bản, One-hot vector cũng được sử đụng để biểu diễn các từ, thay cho giá trị index được biểu diễn ở trên.

```Python
        Ex: index_vector = [9, 7, 6, 2, 9, 7] 
        vocab = ['I', 'am', 'write', 'a', 'sampl', 'text', '.']
        onehot_vectors = [[0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
                          [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
                          [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
                          [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
                          [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
                          [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.]]
```

## 3. Lưu trữ dữ liệu
Trong quá trình huấn luyện mô hình, tiền xử lý dữ liệu là một bước làm tốn nhiều thời gian và bộ nhớ. Vì vậy thông thường, ta sẽ xử lý các dữ liệu thô (raw data), chuyển thành dạng vector đặc trưng và lưu trữ các vector này dưới dạng nhị phân để thuận tiện trong việc lưu trữ và sử dụng.


#### Python Pickle
- Cho phép lưu trữ các cấu trúc dữ liệu trong Python dưới dạng file nhị phân.
- Các thao tác làm việc vói Pickle đơn giản và nhanh chóng

- Lưu trữ file ở dạng Pickle gặp phải một số hạn chế về kích thước không gian lưu trữ tốc độ truy xuất dữ liệu khi làm việc với dữ liệu lớn 

READMORE: https://docs.python.org/3/library/pickle.html

#### HDF5
- Định dạng HDF5 được sử dụng để lưu trữ dữ liệu lớn dưới dạng file nhị phân
- Dữ liệu được lưu trữ dưới dạng cấu trúc phân cấp (hierarchical structure)
- Dễ dàng lưu trữ và làm việc với dữ liệu số, dữ liệu Numpy

READMORE: http://docs.h5py.org/en/stable/