# **The universal workflow of machine learning**

<img src="https://images.datacamp.com/image/upload/v1662726672/image2_2daaea8e04.png" style="width: 90vw"/>

## **Overview**

Có thể nói, đây là một quy trình tổng quát để giải quyết bất kỳ vấn đề nào trong machine learning. Tất nhiên, mỗi vấn đề sẽ có những đặc thù riêng, nhưng nói chung, chúng ta có thể áp dụng quy trình này để giải quyết bất kỳ vấn đề nào trong machine learning.

Quy trình này được chia ra làm 3 phần chính:
  1. **Define the task (Xác định nhiệm vụ chính)**: Hiểu được bài toán cần giải quyết là gì, đặc điểm của bài toán, các ràng buộc, các giả định, các giải pháp có sẵn, ... Thu thập dữ liệu, xử lý dữ liệu, hiểu được dữ liệu bao gồm những gì, ...
  2. **Develop a model (Xây dựng mô hình)**: Chuẩn bị tập dữ liệu để có thể đưa vào mô hình, chọn mô hình phù hợp, huấn luyện model đầu tiên và đánh giá model đầu tiên. Từ những đánh giá đó, có thể tinh chỉnh model, tinh chỉnh dữ liệu, ... để có thể tạo ra model tốt hơn.
  3. **Deploy the model (Triển khai mô hình)**: Đưa mô hình vào sử dụng, đánh giá mô hình trong thực tế, tinh chỉnh mô hình trong thực tế, ... Triển khai qua REST Api, triển khai lên giao diện người dùng từ REST Api có sẵn (web, mobile, ...)

## **1. Define the task**

### **1.1. Frame the problem (Đặt vấn đề)**

Đặt vấn đề là bước đầu tiên trong quy trình giải quyết bất kỳ vấn đề nào. Đặt vấn đề là bước quan trọng nhất trong quy trình giải quyết vấn đề. Nếu đặt vấn đề không đúng, thì cả quy trình giải quyết vấn đề sẽ không đúng. Dưới đây là những câu hỏi nên tự đặt cho bản thân:
  * Dữ liệu đầu vào sẽ là gì? Bài toán của chúng ta muốn dự đoán gì? (Predict what?) Chúng ta chỉ có thể dự đoán (predict) một vật, điều gì đó chỉ khi chúng ta có tập dữ liệu phù hợp.

  * Bài toán của chúng ta thuộc loại gì? Có thể là: phân loại nhị phân (binary classification), phân loại đa lớp (multiclass classification), phân loại đa nhãn (multilabel classification), hồi quy (regression), phân cụm (clustering), phát hiện bất thường (anomaly detection), ...? Ví dụ:
    - Hệ thống tìm kiếm bằng hình ảnh (image search system): phân loại đa lớp (multiclass classification).
    - Hệ thống phát hiện spam (spam detection system): phân loại nhị phân (binary classification).
    - Hệ thống nhận diện chữ (optical character recognition system): phân loại đa nhãn (multilabel classification).
  * Phương án giải quyết sẽ như thế nào? Chúng ta sẽ sử dụng phương pháp nào để giải quyết bài toán? Ví dụ:
    - Hệ thống tìm kiếm bằng hình ảnh (image search system): sử dụng mạng nơ-ron tích chập (convolutional neural network).
    - Hệ thống phát hiện spam (spam detection system): sử dụng mô hình học máy (machine learning model).
    - Hệ thống nhận diện chữ (optical character recognition system): sử dụng mạng nơ-ron tích chập (convolutional neural network).
  * Có những hạn chế cụ thể nào cần phải giải quyết? Ví dụ:
    - Hệ thống tìm kiếm bằng hình ảnh (image search system): hệ thống chỉ có thể tìm kiếm được những hình ảnh có trong tập dữ liệu huấn luyện.
    - Hệ thống phát hiện spam (spam detection system): hệ thống chỉ có thể phát hiện được những email có trong tập dữ liệu huấn luyện.
    - Hệ thống nhận diện chữ (optical character recognition system): hệ thống chỉ có thể nhận diện được những chữ cái có trong tập dữ liệu huấn luyện.

### **1.2. Collect a dataset (Thu thập dữ liệu)**

<div style="display: flex; flex-direction: column; align-items: center">
  <div style="width: 40vw">
    <img src='https://cdn.pixabay.com/photo/2022/01/30/13/33/github-6980894_1280.png'>
    <img src='https://upload.wikimedia.org/wikipedia/commons/7/7c/Kaggle_logo.png'>
  </div>
</div>

### **1.3. Understand the data (Hiểu dữ liệu)**

<img src="https://editor.analyticsvidhya.com/uploads/22957fIRST.png"/>

## **2. Develop a model**

### 2.1. **Prepare the data (Xử lý dữ liệu)**

Các mô hình học máy về cơ bản không trực tiếp chạy qua dữ liệu thô (raw data). Quá trình tiền xử lý dữ liệu (data preprocessing) nắm vai trò biến dữ liệu thô thành kiểu dữ liệu phù hợp hơn với các công việc liên quan đến hệ thống neuron. Việc này bao gồm vector hóa (vectorization), chuẩn hóa (normalization), mã hóa (encoding), ... Các công việc tiền xử lý dữ liệu thường được thực hiện trước khi đưa dữ liệu vào mô hình học máy.

  * **Vectorization:** Tất cả dữ liệu đầu vào và mục tiêu đầu ra trong hệ thống neuron đều phải được chuyển thành các tensor ở dạng số thực. Với bất kì dạng dữ liệu nào: âm thanh (sound), hình ảnh (images), chữ viết (text), ... đều phải được chuyển thành các tensor ở dạng số thực. Ví dụ:
    - Hình ảnh: 3D tensor (samples, height, width, channels).
    - Video: 5D tensor (samples, frames, height, width, channels).
    - Văn bản: 2D tensor (samples, features).

In [20]:
from tensorflow.keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) =\
  imdb.load_data(num_words=10000)
max([max(sequence) for sequence in train_data])
word_index = imdb.get_word_index()
reverse_word_index=dict([(value, key) for (key, value) in word_index.items()])
decoded_review=" ".join([reverse_word_index.get(i-3, "?") for i in train_data[0]])
import numpy as np
def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequences in enumerate(sequences):
        results[i, sequences] = 1.
    return results
X_train = vectorize_sequences(train_data)
X_test = vectorize_sequences(test_data)
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

display(X_train[0], y_train[0])

array([0., 1., 1., ..., 0., 0., 0.])

1.0

  * **Value Normalization:** Các giá trị của dữ liệu đầu vào thường không cùng đơn vị, ví dụ: giá trị của một pixel trong ảnh có thể nằm trong khoảng từ 0 đến 255, trong khi đó giá trị của một từ trong văn bản có thể nằm trong khoảng từ 0 đến 10000. Việc này sẽ làm cho mô hình học máy khó hội tụ. Do đó, cần chuẩn hóa các giá trị của dữ liệu đầu vào về cùng một đơn vị. Ví dụ:
    - Hình ảnh: chuẩn hóa giá trị của các pixel về khoảng từ 0 đến 1.
    - Văn bản: chuẩn hóa giá trị của các từ về khoảng từ 0 đến 1.


In [21]:
from tensorflow.keras.datasets import mnist
from tensorflow import keras
from tensorflow.keras import layers

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

display(train_images.shape, test_images.shape)

model = keras.Sequential([
    layers.Dense(512, activation='relu'),
    layers.Dense(10, activation='softmax')
])

model.compile(optimizer='rmsprop',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

try:
  model.fit(train_images, train_labels, epochs=1, batch_size=128)
except Exception as e:
  print(e)

(60000, 28, 28)

(10000, 28, 28)

Graph execution error:

Detected at node 'sparse_categorical_crossentropy/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits' defined at (most recent call last):
    File "c:\Users\tien2\miniconda3\envs\intel\lib\runpy.py", line 197, in _run_module_as_main
      return _run_code(code, main_globals, None,
    File "c:\Users\tien2\miniconda3\envs\intel\lib\runpy.py", line 87, in _run_code
      exec(code, run_globals)
    File "c:\Users\tien2\miniconda3\envs\intel\lib\site-packages\ipykernel_launcher.py", line 17, in <module>
      app.launch_new_instance()
    File "c:\Users\tien2\miniconda3\envs\intel\lib\site-packages\traitlets\config\application.py", line 1046, in launch_instance
      app.start()
    File "c:\Users\tien2\miniconda3\envs\intel\lib\site-packages\ipykernel\kernelapp.py", line 736, in start
      self.io_loop.start()
    File "c:\Users\tien2\miniconda3\envs\intel\lib\site-packages\tornado\platform\asyncio.py", line 215, in start
      self.asyncio_l

In [33]:
model = keras.Sequential([
    layers.Dense(512, activation='relu'),
    layers.Dense(10, activation='softmax')
])

model.compile(optimizer='rmsprop',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255 
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype("float32") / 255
display(train_images.shape, test_images.shape)

model.fit(train_images, train_labels, epochs=5, batch_size=128)

(60000, 784)

(10000, 784)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x28c12356340>

In [32]:
test_digits = test_images[0:10]
predictions = model.predict(test_digits)
predictions[0]



array([0.09866352, 0.11279394, 0.09947205, 0.10210522, 0.09705193,
       0.09015024, 0.09924809, 0.10398537, 0.09743252, 0.0990971 ],
      dtype=float32)

### 2.2. **Choose an evaluation protocol (Chọn giao thức xử lý)**

* Có 3 phương pháp phổ biến nhất:
  - Simple holdout validation: chia tập dữ liệu thành 2 phần: tập huấn luyện (training set) và tập kiểm tra (test set).

  <img src="https://community.alteryx.com/t5/image/serverpage/image-id/71542i222AF143484A2306/image-size/large?v=v2&px=999">
  <img src="https://community.alteryx.com/t5/image/serverpage/image-id/71548iB33D10C7233B394A/image-size/large?v=v2&px=999"/>
  
  - K-fold validation: chia tập dữ liệu thành k phần, sẽ sử dụng k - 1 phần dữ liệu phục vụ việc huấn luyện mô hình, phần còn lại của mỗi k phần kia sẽ được sử dụng làm phần evaluate.
  
  <img src="https://community.alteryx.com/t5/image/serverpage/image-id/71553i43D85DE352069CB9/image-size/large?v=v2&px=999">
  
  - Iterated K-fold validation with shuffling: chia tập dữ liệu thành k phần, mỗi phần sẽ được dùng lần lượt làm tập kiểm tra, các phần còn lại sẽ được dùng làm tập huấn luyện. Tuy nhiên, trước khi chia, tập dữ liệu sẽ được xáo trộn.

### 2.3. **Beat a baseline**

Công việc chính ở bước này là xây dựng một mô hình đơn giản nhất có thể, một mô hình đơn giản nhất có thể là một mô hình hoàn toàn ngẫu nhiên. Mô hình này sẽ được dùng làm mô hình baseline để đánh giá các mô hình tiếp theo. Nếu mô hình tiếp theo không tốt hơn mô hình baseline, thì có thể xem như mô hình tiếp theo không có tác dụng.

### 2.4. **Develop a model that overfits**

Công việc chính ở mô hình này là xây dựng một mô hình có độ phức tạp cao, một mô hình có độ phức tạp cao có thể là một mạng nơ-ron có nhiều tầng ẩn, một mạng nơ-ron có nhiều tầng ẩn có thể là một mạng nơ-ron tích chập (convolutional neural network), một mạng nơ-ron tích chập có thể là một mạng nơ-ron tích chập sâu (deep convolutional neural network), ... Mô hình này sẽ được dùng để đánh giá mô hình tiếp theo. Nếu mô hình tiếp theo không tốt hơn mô hình có độ phức tạp cao, thì có thể xem như mô hình tiếp theo không có tác dụng. Có thể là:

  - Thêm nhiều layer vào mạng nơ-ron.
  - Làm cho mỗi layer có nhiều unit hơn (mở rộng layer).
  - Tăng số epoch để huấn luyện lên nhiều hơn.

## **3. Deploy the model**

Nhiệm vụ chính ở bước này là đánh giá mô hình trong thực tế, tinh chỉnh mô hình trong thực tế, ... Triển khai qua REST Api, triển khai lên giao diện người dùng từ REST Api có sẵn (web, mobile, ...)

**Ví dụ:** Triển khai một mô hình học máy nhận dạng chữ viết tay (handwritten character recognition) lên giao diện người dùng (user interface) sử dụng FastAPI để phát triển REST Api và ReactJS để phát triển giao diện người dùng.

<img src="./img/swagger.png">
<img src="./img/interface.png">