# Tiền sử lý dữ liệu

## Đọc thư viện cần thiết

In [None]:
import numpy as np
import pandas as pd

In [None]:
# Đọc dữ liệu từ pandas
df = pd.read_csv('../Dataset/archive/WA_Fn-UseC_-HR-Employee-Attrition.csv')

## Xử lý dữ liệu

Dữ liệu sau khi đọc

In [None]:
df

Mô tả sơ bộ về dữ liệu của tập dataset trên

In [None]:
df.describe()

In [None]:
df.info()


Nhận xét:

Dữ liệu ban đầu có tổng cộng 35 cột trong đó có:
- 01 cột nhãn quyết định xem có nghỉ việc hay không.
- 34 cột còn lại là các trường của dữ liệu.
- Các trường dữ liệu của tập dữ liệu chứa cả dữ liệu liên tục và dữ liệu rời rạc, không chứa dữ liệu Null hoặc các dữ liệu đặc biệt.

Tách lấy các cột X (các trường dữ liệu), cột y (nhãn của dữ liệu).

In [None]:
X = df.drop(['Attrition', 'EmployeeNumber'], axis=1) # tách thêm Empl number: đó là ID của các nhân viên
y = df['Attrition']

In [None]:
print(f'Số bản ghi dữ liệu: {len(X)}')
print(f'Số cột dữ liệu (tập X): {len(X.columns)}')


Thống kê chi tiết các trường.

In [None]:
columns = X.columns

for col in columns:
    print(f'Thống kê cho cột {col}')
    print(X[col].value_counts())
    print('=' * 50)


X ban đầu:

In [None]:
X

y ban đầu:

In [None]:
y

Về độ cân bằng của dữ liệu.

In [None]:
count_yes = np.sum(y == 'Yes')
count_no = np.sum(y == 'No')

print(f'Count yes: {count_yes}')
print(f'Count no: {count_no}')
print(f'yes / no: {float(count_yes) / float(count_yes + count_no):.2f}')

## Mã hóa dữ liệu ban đầu bằng Onehot encode trong thư viện sklearn

In [None]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# sử dụng OHE để mã hóa các categories của dữ liệu, Label Encode để mã hóa lại đầu ra của y
one_hot_encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
label_encoder = LabelEncoder()


In [None]:
X_origin = X.copy()
y_origin = y.copy()

In [None]:
X_origin.shape

In [None]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Giả sử X_origin là DataFrame ban đầu
encode_cols = [
    'BusinessTravel', 'Department', 'Education', 'EducationField',
    'EnvironmentSatisfaction', 'Gender', 'JobInvolvement', 'JobLevel',
    'JobRole', 'JobSatisfaction', 'MaritalStatus', 'Over18', 'OverTime',
    'PerformanceRating', 'RelationshipSatisfaction', 'StockOptionLevel',
    'WorkLifeBalance'
]
one_hot_encoder = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
# fit chuyển đổi luôn
X_encoded_array = one_hot_encoder.fit_transform(X_origin[encode_cols]) 

# Lấy tên cột mới sau khi mã hóa
encoded_columns = one_hot_encoder.get_feature_names_out(encode_cols)

# Tạo DataFrame từ mảng mã hóa
X_encoded_df = pd.DataFrame(X_encoded_array, columns=encoded_columns, index=X_origin.index)

# Gộp với phần dữ liệu còn lại
X_encode = pd.concat([X_origin.drop(columns=encode_cols), X_encoded_df], axis=1)

In [None]:
X_encode.shape

Nhận xét: 

Dữ liệu X ban đầu code shape là: (1470, 33)
Sau khi encode thì X có dạng: (1470, 81)
Các cột sau khi qua One hot encode thì các categories sẽ tạo thêm cột mới trương ứng với các categories để biểu diễn dữ liệu. Ví dụ cột A chứa kiểu cate như: A1, A2, A3 thì sau khi encode thì sẽ tạo thêm các cột mới và đánh dẫu xem mẫu nào thì tương ứng với A1, 2, 3...

Mã hóa Labels về dạng số sử dụng Labels Encode

In [None]:
y_encode = label_encoder.fit_transform(y)

In [None]:
y_encode

Nhận xét: 
Dữ liệu ban đầu chỉ có `Yes` và `No` thì sau khi mã hóa thì đã chuyển về tương ứng với `1` và `0` để dễ dàng trong việc tính toán.

## Chia dữ liệu

In [None]:
X_origin = X.copy()
y_origin = y.copy()

In [None]:
continous_data = [
    'Age',
    'DailyRate',
    'DistanceFromHome',
    'EmployeeCount',
    'HourlyRate',
    'MonthlyIncome',
    'MonthlyRate',
    'NumCompaniesWorked',
    'PercentSalaryHike',
    'StandardHours',
    'TotalWorkingYears',
    'TrainingTimesLastYear',
    'YearsAtCompany',
    'YearsInCurrentRole',
    'YearsSinceLastPromotion',
    'YearsWithCurrManager'
]

classified_data = [
    'BusinessTravel',
    'Department',
    'Education',
    'EducationField',
    'EnvironmentSatisfaction',
    'Gender',
    'JobInvolvement',
    'JobLevel',
    'JobRole',
    'JobSatisfaction',
    'MaritalStatus',
    'Over18',
    'OverTime',
    'PerformanceRating',
    'RelationshipSatisfaction',
    'StockOptionLevel',
    'WorkLifeBalance'
]

X_continous = X_origin[continous_data]
X_classifieds = X_origin[classified_data]

### Dữ liệu liên tục

In [None]:
X_continous

### Dữ liệu rời rạc

In [None]:
X_classifieds

### Chuẩn hóa dữ liệu liên tục

In [None]:
X_continous_std = X_continous.copy()

In [None]:
X_continous_std

Để chuẩn hóa dữ liệu, ở đây chúng tôi sử dụng gói `sklearn.preprocessing.StandardScaler` trong thư viện sklearn.

Về  `StandardScaler` là một kỹ thuật chia tỷ lệ đặc trưng tuân theo phân phối chuẩn và được sử dụng để chuẩn hóa giá trị của các đặc trưng số. Nó biến đổi dữ liệu sao cho giá trị trung bình bằng 0 và độ lệch chuẩn bằng 1. Kỹ thuật này lý tưởng cho các thuật toán như SVM, hồi quy logistic hoặc mạng nơ-ron nhân tạo giả định dữ liệu phân phối chuẩn.

Phương pháp này trừ đi giá trị trung bình của dữ liệu và chia cho độ lệch chuẩn. Phương pháp này tập trung dữ liệu quanh giá trị 0 và chuẩn hóa độ biến thiên:

$$
X_{\text{scaled}} = \frac{X - \mu}{\sigma}
$$

Trong đó:
- `X` là giá trị ban đầu,
- `μ` là giá trị trung bình của tính năng,
- `σ` là độ lệch chuẩn.

Về ưu điểm:
- Nó xử lý các tính năng với các đơn vị khác nhau một cách hiệu quả.
- Nó làm giảm tác động của các giá trị ngoại lai mà không loại bỏ chúng hoàn toàn.

Về nhược điểm:
- Nó nhạy cảm với các giá trị ngoại lệ và các giá trị cực đoan có thể làm lệch giá trị trung bình và độ lệch chuẩn, dẫn đến khả năng mở rộng kém.
- Nó không lý tưởng cho các phân phối không chuẩn.


Thực hiện chuẩn hóa.

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_continous_std = scaler.fit_transform(X_continous_std)

In [None]:
X_continous_std

In [None]:
# đưa về dạng df cho dễ nhìn
X_continous_std_df = pd.DataFrame(X_continous_std)

In [None]:
X_continous_std_df

#### Mô tả dữ liệu sau khi chuẩn hóa

Trước khi chuẩn hóa, dữ liệu của các trường `Age`, `DailyRate`, .. có độ lớn rất khác nhau, điều này gây mất cân bằng thang đo cho các thuộc tính, các biến giá trị lớn như `MonthlyIncome` hay `MonthlyRate` có thể sẽ chi phối mô hình.

Sau khi chuẩn hóa bằng `StandardScaler`, Các giá trị dao động quanh 0, thường nằm trong khoảng từ -3 đến 3, Các cột có trung bình ≈ 0, độ lệch chuẩn ≈ 1

In [None]:
X_continous_std_df.describe()

Trên đây là file thống kê chi tiết.