In [1]:
#one hot encoding using OneHotEncoder of Scikit-Learn
# sử dụng thư viện Scikit learn
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

In [2]:
#Building a dummy employee dataset for example
data = {'Employee id': [10, 20, 15, 25, 30],
        'Gender': ['M', 'F', 'F', 'M', 'F'],
        'Remarks': ['Good', 'Nice', 'Good', 'Great', 'Nice'],
        }
#Converting into a Pandas dataframe
df = pd.DataFrame(data)
#Print the dataframe:
print(f"Employee data : \n{df}")

Employee data : 
   Employee id Gender Remarks
0           10      M    Good
1           20      F    Nice
2           15      F    Good
3           25      M   Great
4           30      F    Nice


### Lọc ra các cột categorical kiểu Object

In [12]:
#Extract categorical columns from the dataframe
#Trích xuất các cột phân loại từ khung dữ liệu

#Here we extract the columns with object datatype as they are the categorical columns
#Ở đây chúng tôi trích xuất các cột có kiểu dữ liệu đối tượng vì chúng là các cột phân loại

categorical_columns = df.select_dtypes(include=['object']).columns.tolist()
print(categorical_columns)

['Gender', 'Remarks']


### Khởi tạo và áp dụng OneHotEncoder cho các cột categorical

In [17]:
#Initialize(khởi tạo) OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)

In [18]:
# Apply one-hot encoding to the categorical columns
one_hot_encoded = encoder.fit_transform(df[categorical_columns])
print(one_hot_encoded)

[[0. 1. 1. 0. 0.]
 [1. 0. 0. 0. 1.]
 [1. 0. 1. 0. 0.]
 [0. 1. 0. 1. 0.]
 [1. 0. 0. 0. 1.]]


### Gắn lại tên đã được mã hóa cho các cột

In [19]:
#Create a DataFrame with the one-hot encoded columns
#We use get_feature_names_out() to get the column names for the encoded data
# Hàm get_feature_names_out() của OneHotEncoder trả về tên cột đã được mã hóa,
# giúp dễ dàng theo dõi các giá trị phân loại đã được mã hóa thành các cột nào.
one_hot_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out(categorical_columns))
print(one_hot_df)

   Gender_F  Gender_M  Remarks_Good  Remarks_Great  Remarks_Nice
0       0.0       1.0           1.0            0.0           0.0
1       1.0       0.0           0.0            0.0           1.0
2       1.0       0.0           1.0            0.0           0.0
3       0.0       1.0           0.0            1.0           0.0
4       1.0       0.0           0.0            0.0           1.0


### Nối bảng OneHotEncoder đó với bảng ban đầu rồi cắt các cột categorical ban đầu

In [35]:
# Concatenate(nối) the one-hot encoded dataframe with the original dataframe
df_encoded = pd.concat([df, one_hot_df], axis=1)

In [36]:
# Drop the original categorical columns
df_encoded = df_encoded.drop(categorical_columns, axis=1)

In [9]:
# Display the resulting dataframe
print(f"Encoded Employee data : \n{df_encoded}")

Encoded Employee data : 
   Employee id  Gender_F  Gender_M  Remarks_Good  Remarks_Great  Remarks_Nice
0           10       0.0       1.0           1.0            0.0           0.0
1           20       1.0       0.0           0.0            0.0           1.0
2           15       1.0       0.0           1.0            0.0           0.0
3           25       0.0       1.0           0.0            1.0           0.0
4           30       1.0       0.0           0.0            0.0           1.0
