In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Standard Scaler
- Xấp xỉ phân phối chuẩn
- Trung bình bằng 0
- Độ lệch chuẩn bằng 1

In [None]:
np.random.seed(1)
df = pd.DataFrame({
    'x1': np.random.normal(0, 2, 10000),
    'x2': np.random.normal(5, 3, 10000),
    'x3': np.random.normal(-5, 5, 10000)
})
df.head()

In [None]:
plt.figure(figsize=(10,5))
plt.subplot(1, 3, 1)
sns.distplot(df['x1'])
plt.subplot(1, 3, 2)
sns.distplot(df['x2'])
plt.subplot(1, 3, 3)
sns.distplot(df['x3'])
plt.tight_layout()
plt.show()

In [None]:
from scipy import stats

In [None]:
# Kiểm định Shapiro-Wilk
statistic, p_value = stats.shapiro(df['x1']) 
# H0: dữ liệu có dạng phân phối chuẩn
# Ha: dữ liệu không có dạng phân phối chuẩn

In [None]:
statistic, p_value

In [None]:
# Mức ý nghĩa (alpha)
alpha = 0.05

# So sánh giá trị p với mức ý nghĩa
if p_value <= alpha:
    print("Có bằng chứng để từ chối giả thuyết H0.")
else:
    print("Không có bằng chứng để từ chối giả thuyết H0.")

In [None]:
from sklearn import preprocessing

In [None]:
scaler = preprocessing.StandardScaler()
scaled_df = scaler.fit_transform(df) # fit + transform
scaled_df = pd.DataFrame(scaled_df, columns=['x1', 'x2', 'x3'])

In [None]:
scaled_df.head()

In [None]:
fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(10, 5))# axes
ax1.set_title('Before Scaling')
sns.kdeplot(df['x1'], ax=ax1, label='x1')
sns.kdeplot(df['x2'], ax=ax1, label='x2')
sns.kdeplot(df['x3'], ax=ax1, label='x3')
ax1.legend()

ax2.set_title('After Standard Scaler')
sns.kdeplot(scaled_df['x1'], ax=ax2)
sns.kdeplot(scaled_df['x2'], ax=ax2)
sns.kdeplot(scaled_df['x3'], ax=ax2)

plt.show()

# MinMax Scaler
- không là phân phối chuẩn
- không có outlier (hoặc phải xử lý outlier trước đó)

In [None]:
df= pd.read_csv('data/Data_for_Values.csv') 
df

In [None]:
df.dtypes

In [None]:
df.hist()
plt.show() # không phải phân phối chuẩn

In [None]:
X = df[["Age", "Salary"]].astype('float64')
X

In [None]:
plt.figure(figsize=(8,5))
plt.subplot(1, 2, 1)
plt.boxplot(X['Age'])
plt.title("Age")
plt.xticks([])
plt.subplot(1, 2, 2)
plt.boxplot(X['Salary'])
plt.title("Salary")
plt.xticks([])
plt.tight_layout()
plt.show() # không có outlier

In [None]:
min_max_scaler = preprocessing.MinMaxScaler()  # feature_range =(0, 1)

In [None]:
X_after_min_max_scaler = min_max_scaler.fit_transform(X) 

In [None]:
X_after_min_max_scaler = pd.DataFrame(X_after_min_max_scaler, columns=['Age', 'Salary'])

In [None]:
X_after_min_max_scaler

In [None]:
fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(10, 5))
ax1.set_title('Before Scaling')
sns.kdeplot(X["Age"], ax=ax1)
sns.kdeplot(X["Salary"], ax=ax1)
ax2.set_title('After Min-Max Scaling')
sns.kdeplot(X_after_min_max_scaler["Age"], ax=ax2, label='Age')
sns.kdeplot(X_after_min_max_scaler["Salary"], ax=ax2, label='Salary')
plt.legend()
plt.show()

# Robust Scaler
- không là phân phối chuẩn
- có outlier

In [None]:
df = pd.read_csv('Data/Data_for_Values_1.csv') 
df

In [None]:
X = df[["Age", "Salary"]].astype('float64')
X

In [None]:
plt.figure(figsize=(8,5))
plt.subplot(1, 2, 1)
plt.boxplot(X['Age'])
plt.title("Age")
plt.subplot(1, 2, 2)
plt.boxplot(X['Salary'])
plt.title("Salary")
plt.tight_layout()
plt.show() # có outlier

In [None]:
robust_scaler = preprocessing.RobustScaler()
robust_scaled_df = robust_scaler.fit_transform(X)
robust_scaled_df = pd.DataFrame(robust_scaled_df, columns=['Age', 'Salary'])

In [None]:
robust_scaled_df

In [None]:
plt.figure(figsize=(8,5))
plt.subplot(1, 2, 1)
plt.boxplot(robust_scaled_df['Age'])
plt.title("Age")
plt.subplot(1, 2, 2)
plt.boxplot(robust_scaled_df['Salary'])
plt.title("Salary")
plt.tight_layout()
plt.show() # có outlier

In [None]:
fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(10, 5))
ax1.set_title('Before Scaling')
sns.kdeplot(X["Age"], ax=ax1)
sns.kdeplot(X["Salary"], ax=ax1)
ax2.set_title('After Robust Scaling')
sns.kdeplot(robust_scaled_df["Age"], ax=ax2, label='Age')
sns.kdeplot(robust_scaled_df["Salary"], ax=ax2, label='Salary')
plt.legend()
plt.show()

# Binarizer

In [None]:
Y = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.],
     [ 3. , -2., 1. ]]

In [None]:
scaler = preprocessing.Binarizer(threshold=0) # x>0 --> 1; x<=0 --> 0
scaled_Y = scaler.fit_transform(Y)
scaled_Y