# Prepare Your Data For Machine Learning

## 7.1 Need For Data Pre-processing

Tiền xử lý dữ liệu là một bước gần như bắt buộc. Các thuật toán khác nhau có thể yêu cầu các phép biến đổi khác nhau. Đôi khi, thuật toán có thể hoạt động tốt hơn mà không cần tiền xử lý. Khuyến nghị nên tạo nhiều dạng xem và biến đổi dữ liệu, sau đó thử nghiệm các thuật toán trên từng dạng xem để xác định phép biến đổi nào phù hợp nhất.

## 7.2 Data Transforms

Scikit-learn cung cấp hai phương pháp chuẩn để biến đổi dữ liệu:
* **Fit and Multiple Transform:** Tính toán tham số biến đổi bằng `fit()` trên dữ liệu huấn luyện, sau đó áp dụng biến đổi bằng `transform()` lên dữ liệu huấn luyện, kiểm định và dữ liệu mới. Đây là cách tiếp cận được ưu tiên.
* **Combined Fit-And-Transform:** Hàm `fit_transform()` tiện lợi cho các tác vụ một lần như vẽ đồ thị hoặc tóm tắt dữ liệu đã biến đổi.
Các công thức sau sử dụng bộ dữ liệu Pima Indians.

## 7.3 Rescale Data

Khi các thuộc tính có thang đo khác nhau, việc điều chỉnh lại tỷ lệ (thường về khoảng 0-1) có thể mang lại lợi ích cho nhiều thuật toán, đặc biệt là những thuật toán sử dụng gradient descent, gán trọng số hoặc thước đo khoảng cách (như KNN). Sử dụng lớp `MinMaxScaler`.

In [None]:
# Thay đổi tỷ lệ dữ liệu (từ 0 đến 1) (Rescale data (between 0 and 1))
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
# Tách mảng thành các thành phần đầu vào và đầu ra
X = array[:,0:8]
Y = array[:,8]
scaler = MinMaxScaler(feature_range=(0, 1))
rescaledX = scaler.fit_transform(X)
# Tóm tắt dữ liệu đã biến đổi
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## 7.4 Standardize Data

Chuẩn hóa biến đổi các thuộc tính có phân phối Gaussian thành phân phối Gaussian chuẩn (trung bình 0, độ lệch chuẩn 1). Phù hợp cho các kỹ thuật giả định phân phối Gaussian như hồi quy tuyến tính, logistic và LDA. Sử dụng lớp `StandardScaler`.

In [None]:
# Chuẩn hóa dữ liệu (trung bình 0, độ lệch chuẩn 1) (Standardize data (0 mean, 1 stdev))
from sklearn.preprocessing import StandardScaler
from pandas import read_csv
from numpy import set_printoptions

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
# Tách mảng thành các thành phần đầu vào và đầu ra
X = array[:,0:8]
Y = array[:,8]
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)
# Tóm tắt dữ liệu đã biến đổi
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## 7.5 Normalize Data

Chuẩn hóa vector (normalizing) điều chỉnh lại tỷ lệ của mỗi quan sát (hàng) để có độ dài là 1 (unit norm). Hữu ích cho dữ liệu thưa và các thuật toán dựa trên trọng số hoặc khoảng cách như mạng nơ-ron và KNN. Sử dụng lớp `Normalizer`.


In [None]:
# Chuẩn hóa dữ liệu (độ dài là 1) (Normalize data (length of 1))
from sklearn.preprocessing import Normalizer
from pandas import read_csv
from numpy import set_printoptions

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
# Tách mảng thành các thành phần đầu vào và đầu ra
X = array[:,0:8]
Y = array[:,8]
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)
# Tóm tắt dữ liệu đã biến đổi
set_printoptions(precision=3)
print(normalizedX[0:5,:])

## 7.6 Binarize Data - Make Binary

In [None]:
# Nhị phân hóa (binarization)
from sklearn.preprocessing import Binarizer
from pandas import read_csv
from numpy import set_printoptions

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
# Tách mảng thành các thành phần đầu vào và đầu ra
X = array[:,0:8]
Y = array[:,8]
binarizer = Binarizer(threshold=0.0).fit(X)
binaryX = binarizer.transform(X)
# Tóm tắt dữ liệu đã biến đổi
set_printoptions(precision=3)
print(binaryX[0:5,:])