In [1]:
# -----------------------
import pandas as pd

df = pd.DataFrame({'Math': [4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25],
                   'Eng': [2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8]})
df.shape

(12, 2)

In [2]:
df.shape

(12, 2)

In [None]:
# pd.qcut(): Hàm này chia dữ liệu thành các nhóm (bins) có kích thước bằng nhau dựa trên các phân vị (quantiles). 
# Tham số q=5 cho biết bạn muốn chia dữ liệu thành 5 nhóm
# df['bin1']: Cột mới bin1 sẽ được thêm vào DataFrame df, chứa các nhãn nhóm (bin labels) tương ứng với mỗi giá trị trong cột Math.
df['bin1'] = pd.qcut(df['Math'], q=5)
df

Unnamed: 0,Math,Eng,bin1
0,4,2,"(3.999, 7.2]"
1,4,5,"(3.999, 7.2]"
2,7,4,"(3.999, 7.2]"
3,8,7,"(7.2, 12.4]"
4,12,7,"(7.2, 12.4]"
5,13,8,"(12.4, 16.8]"
6,15,5,"(12.4, 16.8]"
7,18,4,"(16.8, 22.8]"
8,22,5,"(16.8, 22.8]"
9,23,11,"(22.8, 25.0]"


In [4]:
df['bin1'].value_counts()

bin1
(3.999, 7.2]    3
(22.8, 25.0]    3
(7.2, 12.4]     2
(12.4, 16.8]    2
(16.8, 22.8]    2
Name: count, dtype: int64

In [5]:
df['bin2'] = pd.qcut(df['Math'], q=[0, .2, .4, .6, .8, 1])
df

Unnamed: 0,Math,Eng,bin1,bin2
0,4,2,"(3.999, 7.2]","(3.999, 7.2]"
1,4,5,"(3.999, 7.2]","(3.999, 7.2]"
2,7,4,"(3.999, 7.2]","(3.999, 7.2]"
3,8,7,"(7.2, 12.4]","(7.2, 12.4]"
4,12,7,"(7.2, 12.4]","(7.2, 12.4]"
5,13,8,"(12.4, 16.8]","(12.4, 16.8]"
6,15,5,"(12.4, 16.8]","(12.4, 16.8]"
7,18,4,"(16.8, 22.8]","(16.8, 22.8]"
8,22,5,"(16.8, 22.8]","(16.8, 22.8]"
9,23,11,"(22.8, 25.0]","(22.8, 25.0]"


In [6]:
# ---------------------------------------

import pandas as pd

gdp = [11, 22, 33, 44, 55, 66, 77]
countries = ['Spain', 'France', 'Spain', 'Germany', 'France']
df = pd.DataFrame(list(zip(gdp, countries)),
                  columns=['GDP', 'Countries'])
df

Unnamed: 0,GDP,Countries
0,11,Spain
1,22,France
2,33,Spain
3,44,Germany
4,55,France


In [None]:
# preprocessing.LabelEncoder(): Đây là một đối tượng dùng để chuyển đổi các giá trị phân loại (categorical values) thành các số nguyên.
#  Ví dụ, nếu cột Countries chứa các quốc gia như "USA", "India", "Vietnam", thì sau khi mã hóa, chúng sẽ được chuyển thành các số như 0, 1, 2
from sklearn import preprocessing
label_encoder = preprocessing.LabelEncoder()
df['labelCountries']= label_encoder.fit_transform(df['Countries']) 
df

Unnamed: 0,GDP,Countries,labelCountries
0,11,Spain,2
1,22,France,0
2,33,Spain,2
3,44,Germany,1
4,55,France,0


In [None]:
# Thực hiện One-Hot Encoding cho cột Countries. 
# Đây là một kỹ thuật phổ biến để chuyển đổi các giá trị phân loại (categorical values) thành dạng số để có thể sử dụng trong các thuật toán học máy.
dfOneHotEncoding = pd.get_dummies(df.Countries, prefix='Country')
print(dfOneHotEncoding.head())

   Country_France  Country_Germany  Country_Spain
0           False            False           True
1            True            False          False
2           False            False           True
3           False             True          False
4            True            False          False


In [None]:
# pd.concat() là một hàm của pandas được sử dụng để nối hai hoặc nhiều DataFrame lại với nhau
df = pd.concat([df, dfOneHotEncoding], axis=1)
df

Unnamed: 0,GDP,Countries,labelCountries,Country_France,Country_Germany,Country_Spain
0,11,Spain,2,False,False,True
1,22,France,0,True,False,False
2,33,Spain,2,False,False,True
3,44,Germany,1,False,True,False
4,55,France,0,True,False,False


In [None]:
# Đây là một công cụ dùng để chuyển đổi các nhãn phân loại (categorical labels) thành các giá trị nhị phân (binary labels)
#  với mỗi cột đại diện cho một nhãn (label). Nếu cột chứa các giá trị dạng chuỗi, 
# LabelBinarizer sẽ tạo các cột cho từng giá trị khác nhau của cột đó, với giá trị 1 chỉ ra rằng hàng đó thuộc về nhãn tương ứng và 0 nếu không.
from sklearn.preprocessing import LabelBinarizer
y = LabelBinarizer().fit_transform(df.Countries)
y

array([[0, 0, 1],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0],
       [1, 0, 0]])

In [None]:
# toarray(): Chuyển đổi ma trận kết quả thành một mảng numpy
from sklearn.preprocessing import OneHotEncoder
y = OneHotEncoder().fit_transform(df[['Countries']]).toarray()
print(y)

[[0. 0. 1.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]]


In [12]:
# ---------------------------------------
import pandas as pd

year = [2010,2011,2012,2013,2014,2015]

salaryHCM = [8.5,9.0,10.5,12.0,11.0,10.0]

salaryLA = [5.5,6.0,6.0,5.5,6.0,5.0]

df = pd.DataFrame(list(zip(year, salaryHCM,salaryLA)),
                  columns=['Year', 'HCM','LA'])
df

Unnamed: 0,Year,HCM,LA
0,2010,8.5,5.5
1,2011,9.0,6.0
2,2012,10.5,6.0
3,2013,12.0,5.5
4,2014,11.0,6.0
5,2015,10.0,5.0


In [None]:
# Tính giá trị tuyệt đối lớn nhất của cột LA
max_la = df['LA'].abs().max()
df['macLA'] = df['LA'] / max_la

df

Unnamed: 0,Year,HCM,LA,macLA
0,2010,8.5,5.5,0.916667
1,2011,9.0,6.0,1.0
2,2012,10.5,6.0,1.0
3,2013,12.0,5.5,0.916667
4,2014,11.0,6.0,1.0
5,2015,10.0,5.0,0.833333


In [None]:
# MaxAbsScaler: Là một phương pháp chuẩn hóa giúp biến đổi dữ liệu sao cho giá trị lớn nhất (tính theo giá trị tuyệt đối) 
# trong mỗi cột được điều chỉnh về 1, và giá trị nhỏ nhất (theo giá trị tuyệt đối) sẽ được điều chỉnh về -1
# scaler.fit_transform(df[['HCM','LA']]): Phương thức fit_transform sẽ tính toán và áp dụng phép chuẩn hóa cho cột HCM và LA trong DataFrame df.
#  Kết quả trả về là một mảng chuẩn hóa với các giá trị nằm trong khoảng từ -1 đến 1.
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
scaled = scaler.fit_transform(df[['HCM','LA']])
scaled_df = pd.DataFrame(scaled, columns=df[['HCM','LA']].columns)

print(scaled_df)

# scaler.transform([[4.5, 5.75]]): Phương thức transform sẽ chuẩn hóa một ví dụ mới với giá trị đầu vào [4.5, 5.75]. 
# Các giá trị này sẽ được chia cho giá trị tuyệt đối lớn nhất trong mỗi cột của df[['HCM','LA']].
vSc = scaler.transform([[4.5,5.75]])
vSc


        HCM        LA
0  0.708333  0.916667
1  0.750000  1.000000
2  0.875000  1.000000
3  1.000000  0.916667
4  0.916667  1.000000
5  0.833333  0.833333




array([[0.375     , 0.95833333]])

In [None]:
# scaler.inverse_transform([[0.5, 0.8]]): Phương thức inverse_transform sẽ chuyển đổi các giá trị chuẩn hóa [0.5, 0.8] 
# trở lại phạm vi ban đầu của dữ liệu gốc trong cột HCM và LA.
vR = scaler.inverse_transform([[0.5,0.8]])
vR

array([[6. , 4.8]])

In [None]:
# Áp dụng chuẩn hóa Min-Max (Min-Max Scaling)
# Mục đích của chuẩn hóa Min-Max là đưa dữ liệu về phạm vi từ 0 đến 1, giúp tăng tính đồng nhất và khả năng so sánh giữa các giá trị trong cột
min_la = df['LA'].min()
max_la = df['LA'].max()
df['mmcLA'] = (df['LA'] - min_la) / (max_la - min_la)

df

Unnamed: 0,Year,HCM,LA,macLA,mmcLA
0,2010,8.5,5.5,0.916667,0.5
1,2011,9.0,6.0,1.0,1.0
2,2012,10.5,6.0,1.0,1.0
3,2013,12.0,5.5,0.916667,0.5
4,2014,11.0,6.0,1.0,1.0
5,2015,10.0,5.0,0.833333,0.0


In [None]:
# -----------------------------
#  thực hiện chuẩn hóa theo phương pháp Z-Score Normalization (chuẩn hóa theo điểm z) trên cột LA của DataFrame df. 
# Phương pháp này chuẩn hóa dữ liệu sao cho giá trị của mỗi mục trong cột có trung bình là 0 và độ lệch chuẩn là 1.
mean_la = df['LA'].mean()
std_la = df['LA'].std()
df['zLA'] = (df['LA'] - mean_la) / std_la

df

Unnamed: 0,Year,HCM,LA,macLA,mmcLA,zLA
0,2010,8.5,5.5,0.916667,0.5,-0.408248
1,2011,9.0,6.0,1.0,1.0,0.816497
2,2012,10.5,6.0,1.0,1.0,0.816497
3,2013,12.0,5.5,0.916667,0.5,-0.408248
4,2014,11.0,6.0,1.0,1.0,0.816497
5,2015,10.0,5.0,0.833333,0.0,-1.632993


In [None]:
# StandardScaler chuẩn hóa dữ liệu theo Z-Score Normalization, nghĩa là mỗi cột trong DataFrame sau khi chuẩn hóa sẽ có:

# Trung bình = 0.
# Độ lệch chuẩn = 1.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaled = scaler.fit_transform(df[['HCM','LA']])

scaled_df = pd.DataFrame(scaled, columns=df[['HCM','LA']].columns)

print(scaled_df)

        HCM        LA
0 -1.414214 -0.447214
1 -0.989949  0.894427
2  0.282843  0.894427
3  1.555635 -0.447214
4  0.707107  0.894427
5 -0.141421 -1.788854


In [None]:
# -------------------------------
# Hàm này nhận một đối số x, tính bình phương của x và cộng thêm 1 vào kết quả. Đây là một phép toán đơn giản thực hiện trên các giá trị đầu vào.
# Cột TransformX sẽ chứa các giá trị là bình phương của các giá trị trong cột LA cộng thêm 1.

# Ví dụ: Nếu LA có các giá trị [2, 3, 4], thì TransformX sẽ có các giá trị [5, 10, 17], vì:

# 2*2 + 1 = 5
# 3*3 + 1 = 10
# 4*4 + 1 = 17
def funcX(x):
    return x*x + 1

df['TransformX'] = funcX(df[["LA"]])

df

Unnamed: 0,Year,HCM,LA,macLA,mmcLA,zLA,TransformX
0,2010,8.5,5.5,0.916667,0.5,-0.408248,31.25
1,2011,9.0,6.0,1.0,1.0,0.816497,37.0
2,2012,10.5,6.0,1.0,1.0,0.816497,37.0
3,2013,12.0,5.5,0.916667,0.5,-0.408248,31.25
4,2014,11.0,6.0,1.0,1.0,0.816497,37.0
5,2015,10.0,5.0,0.833333,0.0,-1.632993,26.0
