# Bringing features onto the same scale

**Feature scaling** là bước quan trọng và cần thiế trong tiến trình xử lý mà ta hay bị lãng quên nó. **Decision tree** và **Random forests** là hai trong số ít những thuật toán machine learning mà ta không cần bận tâm đến feature scaling. Những thuật toán này được gọi là **scale invariant**. Tuy nhiên, phần lớn thuật toán machine learning và thuật toán tối ưu sẽ thực hiện tốt hơn nếu nhữ các feature có cùng tỉ lệ với nhau, giống như những gì ta đã thảo luận trong chương 2 của cuốn sách, khi ta cài đặt **gradient descent optimization**.

Điều quan trọng của feature scaling có thể được mô tả bởi một ví dụ đơn giản. Giả sử rằng ta có 2 thuộc tính mà mỗi thuộc tính được đo với tí lệ từ 1 đến 10 và thuộc tính thứ 2 được đo đạc với tỉ lệ 1 đến 100000. Nếu ta nghĩ đến hàm **Squared Error** trong **ADALINE** từ chương 2, ta thấy rằng thuật toán sẽ khá bận rộn trong việc tối ưu trọng số bởi vì lượng error sẽ xuất hiện lớn hơn trong feature thứ 2. Một ví dụ khác là **K-nearest neighbors (KNN)** khi sử dụng độ đo **Eucliean**: khoảng cách đo đạc giữa các mẫu sẽ bị phụ thuộc hoàn toàn vào thuộc tính thứ hai.

Bây giờ, ta có hai cách tiếp cận thông thường để mang các thuộc tính của chúng ta về lại scale chuẩn như nhau, đó là: **normalization** và **standardization**. Những thuật ngữ này được sử dụng khá lỏng lẻo trong các lĩnh vực khác nhau, và nghĩa của nó có thể thay đổi cho nhau trong từng trường hợp. Thông thường, **normalization** là phương thức chuyển hóa, rescaling các features về lại khoảng [0, 1], đó là trường hợp đặc biệt mang tên **min-max scaling** (min max normalization). Để normalize dữ liệu, đơn giản là áp dụng min-max scaling cho mỗi cột feature, nơi giá trị mới $x_{norm}^{(i)}$ của mẫu $x^{(i)}$ được tính toán theo công thức: 



![](https://latex.codecogs.com/gif.latex?x_%7Bnorm%7D%5E%7B%28i%29%7D%20%3D%20%5Cfrac%7Bx%5E%7B%28i%29%7D%20-%20x_%7Bmin%7D%7D%7Bx_%7Bmax%7D%20-%20x_%7Bmin%7D%7D)

Với $x^{(i)}$ là mẫu thứ i, $x_{min}$ là gía trị nhỏ nhất trong mỗi feature column, và $x_{max}$ là giá trị lớn nhất.

Quá trình min-max scaling được cài đặt bằng Sklearn và được sử dụng như sau: 

In [3]:
# Tao du lieu mẫu
import pandas as pd
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=(range(6)))
s2 = pd.Series([10, 9, 8, 7, 6, 5], index=(range(6)))
df = pd.DataFrame(s1, columns=['s1'])
df['s2'] = s2
df

Unnamed: 0,s1,s2
0,1,10
1,2,9
2,3,8
3,4,7
4,5,6
5,6,5


In [5]:
# Su dung Sklearn cho min-max normalization
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
data_transform = mms.fit_transform(df.values)
data_transform

array([[0. , 1. ],
       [0.2, 0.8],
       [0.4, 0.6],
       [0.6, 0.4],
       [0.8, 0.2],
       [1. , 0. ]])

Mặc dù việc normalization thông tua min-max scaling là kỹ thuật sử dụng thông dụng và hữu ích khi ta muốn các giá trị nằm trong khoảng nhất định, nhưng **standardization** có thể vẫn là lựa chọn đầu tiền trong các thuật toán learning algorithm, đặc biệt là đối với các thuật toán tối ưu như là **gradient descent**. Lý do mà nhiều model tuyến tính (linear models) như là logistic regression và SVM trong chương 3, ta khởi tạo giá trị của các trọng số về 0 hoặc ccs số random ngẫu nhiên có giá trị gần với 0. Sử dụng standardization, ta căng chỉnh các feature columns về mean tại 0 và standard deviation là 1 và chuyển các cột thuộc tính về dạng phân phối chuẩn (zero mean và unit variance), điều này làm cho thuật toán học dễ dàng hơn. Hơn nữa, standardization duy trì được những thông tin hữu ích về những thằng "ngoại lai" (**outliers**) và làm cho thuật toán có thể nhận biết được những điểm như vậy. Ngược lại đối với thằng min-max scaling, thì range của dữ liệu scale được nằm trong khoảng giá trị nhất định mà thôi.

Quá trình standardization được trình bày thông qua biểu thức: 


![](https://latex.codecogs.com/gif.latex?x_%7Bstd%7D%5E%7B%28i%29%7D%20%3D%20%5Cfrac%7Bx%5E%7B%28i%29%7D%20-%20%5Cmu_%7Bx%7D%7D%7B%5Csigma%20_%7Bx%7D%7D)


Ở đây $\mu_{x}$ là giá trị mean của một cột cụ thể, và $\sigma_{x}$ tương ứng là giá trị standard deviation của cột đó. Nhắc lại công thức: $\sigma_{x} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu_{x})^{2}}$

Bảng dưới đây mô tả điểm khác biệt giữa hai kỹ thuật scaling feature phổ biến, **standardization** và **normalization**, trên bảng dataset chứa tập number từ 1 đến 5