# Đọc và xử lý dữ liệu với numpy 

## 1. Dữ liệu dạng text

Dữ liệu dạng text thường được lưu trong file .csv. Mỗi mẫu dữ liệu được lưu thành một dòng và các trường dữ liệu cách nhau bằng dấu phẩy.

**Ví dụ 1:** Chúng ta cần đọc bộ dữ liệu giá nhà [Boston](https://www.dropbox.com/s/ibwzn974mb1in52/Boston.csv?dl=0), được lưu trong file Boston.csv. File Boston.csv có 334 dòng, trong đó dòng đầu tiên chứa thông tin các trường dữ liệu (header). Bộ dữ liệu có trường dữ liệu, trong đó trường dữ liệu cuối cùng medv là thông tin giá nhà thực. Các trường dữ liệu cách nhau bằng dấu phẩy.

<img src="https://www.dropbox.com/s/eeokimsvad66c3d/boston.png?raw=1">

Nhiệm vụ của bước xử lý data là đọc dữ liệu và lưu thành 2 biến: biến X chứa các trường dữ liệu đặc trưng và biến y chứa thông tin giá nhà. Do file chứa thông tin header, nên khi đọc file dùng numpy, chúng ta cần chú ý bỏ qua dòng đầu tiên. Code đọc file Boston.csv như sau

In [9]:
import numpy as np
data = np.genfromtxt('../data/Boston_Dataset.csv', dtype='float', delimiter=',', skip_header=1) 
print(data.shape)
X = data[:,:-1]
y = data[:,-1]
print(X.shape)
print(y.shape)

(333, 15)
(333, 14)
(333,)


Chúng ta dùng skip_header=1 để bỏ dòng đầu tiên, và chọn dtype='float' vì nội dung file (đã bỏ header) chỉ chứa số. Sau khi đọc nội dung file và lưu vào biến data, tách các dữ liệu đặc trưng và dữ liệu giá nhà dựa vào kỹ thuật slicing trong numpy.

**Ví dụ 2:** Chúng ta cần đọc và xứ lý dữ liệu hoa [Iris](https://www.dropbox.com/s/xzol2tbckx16o8g/IRIS.csv?dl=0) có nội dung như sau

<img src="https://www.dropbox.com/s/2xy3bezl8yc6lbf/iris.png?raw=1">

Dữ liệu hoa Iris có 150 mẫu và được lưu vào file IRIS.csv, trong đó có 4 trường dữ liệu đặc trưng và 1 trường dữ liệu phân loại hoa (species). Ở đây, các dữ liệu species ở dạng chuỗi. Do đó, khi xử lý bộ dữ liệu này, chúng ta cần đổi các chuỗi này qua dạng số. Code mẫu đọc và xử lý file IRIS.csv như sau

In [17]:
import numpy as np
import numpy.core.defchararray as np_f
# lấy các đặc trưng và lưu vào biến X
X = np.genfromtxt('../data/IRIS.csv', delimiter=',', dtype='float', usecols=[0,1,2,3], skip_header=1)
print(X.shape)
# lấy species và lưu vào biến y
y = np.genfromtxt('../data/IRIS.csv', delimiter=',', dtype='str', usecols=4, skip_header=1)
# thay chuỗi bằng số
categories = np.unique(y)
for i in range(categories.size):
    y = np_f.replace(y, categories[i], str(i))    
# đưa về kiểu float    
y = y.astype('float')


(150, 4)


Ở đây, chúng ta sử dụng hàm np.unique() để lấy các loại chuỗi duy nhất trong một mảng numpy chứa các chuỗi khác nhau; và dùng hàm np_f.replace() để thay giá trị kiểu chuỗi.

Kết quả hiển thị cho đoạn code trên như sau

In [19]:
print(y)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2. 2.
 2. 2. 2. 2. 2. 2.]


## 2. Dữ liệu ảnh dạng binary: Fashion-MNIST dataset

Fashion-MNIST là bộ dữ liệu hình ảnh, bao gồm dữ liệu để training (60.000 mẫu) và dữ liệu cho testing (10.000 mẫu). Mỗi mẫu là một hình ảnh kích thước 28x28, ánh xạ cho một nhãn gồm 10 loại. Bộ dữ liệu Fashion-MNIST được tạo ra nhằm thay thế cho bộ dữ liệu MNIST đã trở nên đơn giản cho những mô hình hiện tại.

Hình bên dưới minh họa một vài ảnh mẫu từ bộ dữ liệu Fashion-MNIST.



<img src="https://www.dropbox.com/s/pkmy05n5ljod2cq/MNIST.png?raw=1" style="width:200px, height:200px">

Code để download dataset như sau

In [21]:
import numpy as np
from urllib import request
import gzip
import pickle
filename = [
            ["training_images","train-images-idx3-ubyte.gz"],
            ["test_images","train-labels-idx1-ubyte.gz"],
            ["training_labels","t10k-images-idx3-ubyte.gz"],
            ["test_labels","t10k-labels-idx1-ubyte.gz"]
            ]
def download_fashion_mnist(folder):
    base_url = "http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/"
    for name in filename:
        print("Downloading " + name[1] + "...")
        
        # lưu vào folder data_fashion_mnist
        request.urlretrieve(base_url + name[1], folder + name[1])
    print("Download complete.")
# download dataset và lưu vào folder 'data_fashion_mnist/'
folder = '../data/data_fashion_mnist/'
download_fashion_mnist(folder)

Downloading train-images-idx3-ubyte.gz...
Downloading train-labels-idx1-ubyte.gz...
Downloading t10k-images-idx3-ubyte.gz...
Downloading t10k-labels-idx1-ubyte.gz...
Download complete.


Chú ý, các bạn cần tạo thư mục '../data/data_fashion_mnist/' trước khi chạy code trên. Sau khi chạy xong đoạn code trên, chúng ta có 4 file như hình trong trong thư mục được chỉ định.

<img src="https://www.dropbox.com/s/rpr2x3bw3lykvgh/data_fashion_mnist_gz.png?raw=1">

Source code để đọc file .gz và xử lý dữ liệu như sau

In [23]:
import os
import gzip
import numpy as np
def load_fashion_mnist(path, kind='train'):    
    """Load fashion_MNIST data from `path`"""
    labels_path = os.path.join(path, '%s-labels-idx1-ubyte.gz' % kind)
    images_path = os.path.join(path, '%s-images-idx3-ubyte.gz' % kind)
    with gzip.open(labels_path, 'rb') as lbpath:
        labels = np.frombuffer(lbpath.read(), dtype=np.uint8, offset=8)
    with gzip.open(images_path, 'rb') as imgpath:
        images = np.frombuffer(imgpath.read(), dtype=np.uint8, offset=16).reshape(len(labels), 784)
    return images, labels
X_train, y_train = load_fashion_mnist('../data/data_fashion_mnist/')
print(X_train.shape)
print(y_train.shape)
X_test, y_test = load_fashion_mnist('../data/data_fashion_mnist/', kind='t10k')
print(X_test.shape)
print(y_test.shape)

(60000, 784)
(60000,)
(10000, 784)
(10000,)


Theo mô tả file dữ liệu, 8 byte đầu của tập label chứa thông tin mô tả về file (metadata) nên chúng ta bỏ qua 8 byte đầu tiên khi đọc file. Tương tự, chúng ta bỏ qua 16 byte đầu tiên khi đọc file cho tập training. Dữ liệu hình được lưu ở dạng vector cho độ dài là 784 thay cho dạng dữ liệu mảng 2D 28x28.

Kiểm tra ngẫu nhiên các mẫu training trong tổng số 60.000 mẫu.

In [24]:
import matplotlib.pyplot as plt 
import numpy as np 
# Tạo dang sách 100 phần tử ngẫu nhiên từ X_train có 60.000 phần tử
indices = list(np.random.randint(X_train.shape[0],size=100))
fig =plt.figure(figsize=(9,9))
columns = 10
rows = 10
for i in range(1, columns*rows +1):
    img = X_train[indices[i-1]].reshape(28,28)
    fig.add_subplot(rows, columns, i)
    plt.axis('off')
    plt.imshow(img, cmap='gray', vmin=0, vmax=255)
plt.show()

<Figure size 900x900 with 100 Axes>

Một số thuật toán yêu cầu data được chia làm ba phần: training, validation và testing. Chúng ta sẽ chia tập  training (60000 mẫu) thành hai phần nhỏ hơn: tập training (50000 mẫu) và tập validation (10000 mẫu). Code để xử lý việc tạo tập validation như sau

In [26]:
import os
import gzip
import numpy as np
def load_fashion_mnist(path, kind='train'):    
    """Load fashion_MNIST data from `path`"""
    labels_path = os.path.join(path, '%s-labels-idx1-ubyte.gz' % kind)
    images_path = os.path.join(path, '%s-images-idx3-ubyte.gz' % kind)
    with gzip.open(labels_path, 'rb') as lbpath:
        labels = np.frombuffer(lbpath.read(), dtype=np.uint8, offset=8)
    with gzip.open(images_path, 'rb') as imgpath:
        images = np.frombuffer(imgpath.read(), dtype=np.uint8, offset=16).reshape(len(labels), 784)
    return images, labels
X_train, y_train = load_fashion_mnist('../data/data_fashion_mnist/')
X_test, y_test = load_fashion_mnist('../data/data_fashion_mnist/', kind='t10k')
# lấy số hàng của tập X_traint va X_test
m_train = 50000
m_test  = 10000
m_validation = 10000
### validation set
# Tạo list gồm 10000 số 
mask = list(range(m_train, m_train + m_validation)) 
# Tập con X_val gồm 10000 hình từ X_train
X_val = X_train[mask] 
# Lấy 10000 nhãn từ tập nhãn y_train
y_val = y_train[mask] 
### training set
# Tạo list gồm 50000 số từ 0 đến 49999
mask = list(range(m_train)) 
# Tạo lại tập X_train gồm 50000 hình 
X_train = X_train[mask] 
# Tạo lại tập nhãn y_train
y_train = y_train[mask] 
# Reshape data to rows
X_train = X_train.reshape(m_train, -1)
X_val   = X_val.reshape(m_validation, -1)
X_test  = X_test.reshape(m_test, -1)
print("X_train shape: ", X_train.shape)
print("y_train shape: ", y_train.shape)
print("X_val shape: ", X_val.shape)
print("y_val shape: ", y_val.shape)
print("X_test shape: ", X_test.shape)
print("y_test shape: ", y_test.shape)

X_train shape:  (50000, 784)
y_train shape:  (50000,)
X_val shape:  (10000, 784)
y_val shape:  (10000,)
X_test shape:  (10000, 784)
y_test shape:  (10000,)


Để đảm bảo dữ liệu hình được xử lý đúng, chúng ta sẽ lưu vài mẫu dữ liệu từ tập training như sau

In [27]:
from PIL import Image
indices = list(np.random.randint(50000,size=5))
for i in range(5):
    im = Image.fromarray(X_train[indices[i]].reshape(28,28))
    im.save("../data/data_fashion_mnist/image_" + str(i) +".png")

Kiểm tra thư mục lưu hình ta được

<img src="https://www.dropbox.com/s/z9yas70cxtac1jn/data_mnist_example.png?raw=1">

Vậy là chúng ta đã xử lý cơ bản cho bộ dữ liệu Fashion-MNIST.