### Numeric features

0. Định nghĩa

Dữ liệu số (numeric data) thường biểu thị dữ liệu dưới dạng giá trị vô hướng mô tả các quan sát, bản ghi hoặc thang đo. Ở đây, với từ numeric data chúng ta cần hiểu là dữ liệu liên tục mà không phải dạng dữ liệu rời rạc thường được coi như dạng dữ liệu phân loại (categorical data).

1. Preprocess: Scale

Đưa dữ liệu về một khoảng giá trị nào đó thống thường:

+ [0, 1] 

sklearn.preprocessing.MinMaxScaler 

X =(X - X.min())/(X.max()- X.min())

+ mean = 0, std = 1

sklearn.preprocessing.StandardScaler

X =(X -  X.mean())/X.std()


In [1]:
# Load libraries
import numpy as np
from sklearn import preprocessing

# Create feature
feature = np.array([[-500.5],
                    [-100.1],
                    [0],
                    [100.1],
                    [900.9]])

# Create scaler
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# Scale feature
scaled_feature = minmax_scale.fit_transform(feature)

# Show feature
scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

In [2]:
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

# Create scaler
scaler = preprocessing.StandardScaler()

# Transform the feature
standardized = scaler.fit_transform(x)

# Show feature
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

2. Preprocess: Outliers
    
Trong TH dữ liệu của bạn điểm dữ liệu ngoại lệ khiến cho ảnh hưởng đến tính toán trung bình và kết quả của phương sai khi đó ta có thể sử dụng trung vị và phương sai trung vị.

Trong sklearn có thể sử dụng: RobustScaler


In [3]:
# Create scaler
robust_scaler = preprocessing.RobustScaler()

# Transform feature
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

3. Preprocess: Rank

Xếp hạng dữ liệu theo thứ hạng giá trị của nó:

*  rank([-100, 0, 1e5]) == [0,1,2] 

* rank([1000,1,10]) = [2,0,1]

*  rank([-100, 0, 1e5]) == [0,1,2] 

*  rank([1000,1,10]) = [2,0,1] 

scipy.stats.rankdata


In [6]:
import scipy 
x = [8, 2, 1, 3, 9]
scipy.stats.rankdata(x)

array([4., 2., 1., 3., 5.])

4. Preprocess: 
+ Log transform: np.log(1 + x)
    
Ý nghĩa chính của chúng là giúp ổn định phương sai, tuân thủ chặt chẽ phân phối chuẩn và làm cho các dữ liệu độc lập với giá trị trung bình dựa trên phân phối của nó.

   + Raising to the power < 1: np.sqrt(x + 2/3)


5. Preprocess: generation

    Từ các dữ liệu đã có sinh ra các dữ liệu mới 

6. Normalizing Observations

Trong TH bạn có dữ liệu có chiều dài lớn hơn 1 trên mỗi mẫu ta sử dụng: Normalizer
    
    

In [19]:
from sklearn.preprocessing import Normalizer
features = np.array([[0.5, 0.5, 0.9],
                     [1.1, 3.4, 1.2],
                     [1.5, 20.2, 2.5],
                     [1.63, 34.4, 4],
                     [10.9, 3.3, 3]])

# Create normalizer
normalizer = Normalizer(norm="l2") # l1 áp dụng cho từng hàng riêng lẻ so sum = 1 , l2 áp dụng cho chung 1 cột

# Transform feature matrix
print(normalizer.transform(features))

normalizer2 = Normalizer(norm="l1")
print(normalizer2.transform(features))

[[0.43685203 0.43685203 0.78633365]
 [0.29180696 0.90194879 0.31833487]
 [0.07349586 0.98974431 0.12249311]
 [0.04701455 0.99220899 0.11537314]
 [0.92552524 0.28020489 0.25473172]]
[[0.26315789 0.26315789 0.47368421]
 [0.19298246 0.59649123 0.21052632]
 [0.06198347 0.83471074 0.10330579]
 [0.04071946 0.85935548 0.09992506]
 [0.63372093 0.19186047 0.1744186 ]]


7.  Transforming Features

Bạn muốn chuyển đổi tính năng thành 1 hay nhiều tính năng 


In [21]:
from sklearn.preprocessing import FunctionTransformer

# Create feature matrix
features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

# Define a simple function
def add_ten(x):
    return x + 10

# Create transformer
ten_transformer = FunctionTransformer(add_ten)

# Transform feature matrix
ten_transformer.transform(features)



array([[12, 13],
       [12, 13],
       [12, 13]])

In [23]:
import pandas as pd
# Create DataFrame
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# Apply function
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,12,13
1,12,13
2,12,13


8. Detecting Outliers

Thật không may, phát hiện ra các ngoại lệ là một nghệ thuật hơn là một khoa học. Tuy nhiên, một phương pháp phổ biến là giả sử dữ liệu được phân phối chuẩn và dựa trên giả định đó, rút ra một hình elip xung quanh dữ liệu, phân loại bất kỳ quan sát nào bên trong hình elip là một hình ảnh trước đó (được dán nhãn 1) và bất kỳ quan sát nào bên ngoài hình elip là ngoại lệ ( dán nhãn là -1):

In [24]:
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs

# Create simulated data
features, _ = make_blobs(n_samples = 10,
                         n_features = 2,
                         centers = 1,
                         random_state = 1)

# Replace the first observation's values with extreme values
features[0,0] = 10000
features[0,1] = 10000

# Create detector
outlier_detector = EllipticEnvelope(contamination=.1)

# Fit detector
outlier_detector.fit(features)

# Predict outliers
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

9. Handle Outliers

Cần quan sát dữ liệu để xử lí ngoại lệ chẳng hạn:


In [31]:
import pandas as pd

# Create DataFrame
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]

# Filter observations
houses[houses['Bathrooms'] < 20]

# Có một giá trị bất thường so vs các giá trị còn lại

Unnamed: 0,Price,Bathrooms,Square_Feet
0,534433,2.0,1500
1,392333,3.5,2500
2,293222,2.0,1500


In [30]:
import numpy as np

# Create feature based on boolean condition
houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

# Show data
houses

Unnamed: 0,Price,Bathrooms,Square_Feet,Outlier
0,534433,2.0,1500,0
1,392333,3.5,2500,0
2,293222,2.0,1500,0
3,4322032,116.0,48000,1


Rất khó khăn phát hiện các ngoại lệ, nhưng chúng ta cũng có thể phát hiện nếu nghi ngờ, đôi khi các giá trị từ cảm biến, hay thiết bị đo bị hỏng nên khiến sinh sự sai lệch số liệu khi đó chúng ta có thể đánh dấu và gán giá trị đó là NaN.

Gía trị bất thường còn phụ thuộc vào sự hiểu biết kiến thức chẳng hạn như ngôi nhà có 2000 phòng, tuổi 200 là sự vô lí nên cần đọc rõ từng cột ước lượng và xử lí.

10. Discretizating Features

Bạn có một tính năng số và muốn chia nó thành các thùng rời rạc.

Đây là một cách khá cần thiết khi bạn muốn áp dụng trong TH tìm hiểu yêu cầu và khoảng giá trị cùng đáp ứng người dùng.

Chẳng hạn xu hướng nghe nhac:

Những người than thiếu niên trong độ tuổi 16 - 22 thích nghe pop, balad, loving song.... Trong khi đó những người trên 50 thích nghe nhạc vàng, đỏ, bolero...

Có 2 cách để thực hiện:

+ Nhị phân tính năng theo một ngưỡng.

+ Nhị phân với nhiều ngưỡng khác nhau

In [32]:
from sklearn.preprocessing import Binarizer

# Create feature
age = np.array([[6],
                [12],
                [20],
                [36],
                [65]])

# Create binarizer
binarizer = Binarizer(18)

# Transform feature
binarizer.fit_transform(age)

array([[0],
       [0],
       [1],
       [1],
       [1]])

In [36]:
np.digitize(age, bins=[20,30,64]) # giá trị trong bins tham chiếu việc 
# lấy các giá trị nhỏ hơn. nếu muôn lấy lớn hơn đặt right =  True
# np.digitize(age, bins=[20,30,64], right = True)

array([[0],
       [0],
       [1],
       [2],
       [3]], dtype=int64)

11. Grouping Observations Using Clustering

Quan sát dữ liệu thành các cụm


In [37]:
import pandas as pd
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# Make simulated feature matrix
features, _ = make_blobs(n_samples = 50,
                         n_features = 2,
                         centers = 3,
                         random_state = 1)

# Create DataFrame
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# Make k-means clusterer
clusterer = KMeans(3, random_state=0)

# Fit clusterer
clusterer.fit(features)

# Predict values
dataframe["group"] = clusterer.predict(features)

# View first few observations
dataframe.head(5)

Unnamed: 0,feature_1,feature_2,group
0,-9.877554,-3.336145,0
1,-7.28721,-8.353986,2
2,-6.943061,-7.023744,2
3,-7.440167,-8.791959,2
4,-6.641388,-8.075888,2


12. Deleting Observations with Missing Values

Xóa các tính năng giá trị bị thiếu

In [38]:
# Load library
import numpy as np

# Create feature matrix
features = np.array([[1.1, 11.1],
                     [2.2, 22.2],
                     [3.3, 33.3],
                     [4.4, 44.4],
                     [np.nan, 55]])

# Keep only observations that are not (denoted by ~) missing
features[~np.isnan(features).any(axis=1)]

array([[ 1.1, 11.1],
       [ 2.2, 22.2],
       [ 3.3, 33.3],
       [ 4.4, 44.4]])

In [39]:
# Load library
import pandas as pd

# Load data
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# Remove observations with missing values
dataframe.dropna()

Unnamed: 0,feature_1,feature_2
0,1.1,11.1
1,2.2,22.2
2,3.3,33.3
3,4.4,44.4


13. Imputing Missing Values

Đôi khi chung ta muốn fill các giá trị còn thiếu.



In [46]:
# Load libraries
import numpy as np
from fancyimpute import KNN
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_blobs

# Make a simulated feature matrix
features, _ = make_blobs(n_samples = 1000,
                         n_features = 2,
                         random_state = 1)

# Standardize the features
scaler = StandardScaler()
standardized_features = scaler.fit_transform(features)

# Replace the first feature's first value with a missing value
true_value = standardized_features[0,0]
standardized_features[0,0] = np.nan

# Predict the missing values in the feature matrix
features_knn_imputed = KNN(k=5, verbose=0).complete(standardized_features)

# Compare true and imputed values
print("True Value:", true_value)
print("Imputed Value:", features_knn_imputed[0,0])

ModuleNotFoundError: No module named 'fancyimpute'