#### 1. Giới Thiệu Các Phương Pháp Biến Đổi Dữ Liệu

##### Phương pháp biến đổi hàm số
- **Normalization**: Chuẩn hóa dữ liệu vào một khoảng nhất định, thường là từ 0 đến 1.
- **Standardization**: Biến đổi dữ liệu để có trung bình bằng 0 và độ lệch chuẩn bằng 1.
- **Function**: Chỉ ra rằng các biến đổi hàm số cũng có thể được áp dụng để xử lý dữ liệu.


#### 2. Tạo DataFrame với Dữ Liệu Ví Dụ

In [100]:
import pandas as pd

Giải thích: Tạo một DataFrame df chứa ba cột: Year, HCM (lương ở Hồ Chí Minh), và LA (lương ở Los Angeles).

In [101]:
year = [2010,2011,2012,2013,2014,2015]

salaryHCM = [8.5,9.0,10.5,12.0,11.0,10.0]

salaryLA = [5.5,6.0,6.0,5.5,6.0,5.0]

df = pd.DataFrame(list(zip(year, salaryHCM,salaryLA)),
                  columns=['Year', 'HCM','LA'])
df

Unnamed: 0,Year,HCM,LA
0,2010,8.5,5.5
1,2011,9.0,6.0
2,2012,10.5,6.0
3,2013,12.0,5.5
4,2014,11.0,6.0
5,2015,10.0,5.0


#
- int32 => 2^32
- int64 => 2^64

<h3 style="color: skyblue">3.  Max Absolute Scaling</h3>


- Giải thích: Phần này đề cập đến phương pháp chuẩn hóa dựa trên giá trị tuyệt đối lớn nhất. <br>
- Max Absolute Scaling là một phương pháp chuẩn hóa dữ liệu, trong đó mỗi giá trị trong cột được chia cho giá trị tuyệt đối lớn nhất trong cột đó. Mục đích là để đưa tất cả các giá trị về khoảng [-1, 1].

##### Ví dụ cho `macLA`

**Năm 2011**:
- Giá trị `LA` = 6.0, và giá trị lớn nhất trong `LA` là 6.0.

**Tính toán**:
 macLA= 6.0/6.0 = 1.0



In [102]:
# Hướng dẫn max absolute scale về đoạn [-1,1]
max_la = df['LA'].abs().max()
df['macLA'] = df['LA'] / max_la

df

# x_moi = x / max(|x|)

Unnamed: 0,Year,HCM,LA,macLA
0,2010,8.5,5.5,0.916667
1,2011,9.0,6.0,1.0
2,2012,10.5,6.0,1.0
3,2013,12.0,5.5,0.916667
4,2014,11.0,6.0,1.0
5,2015,10.0,5.0,0.833333


In [103]:
max_la = df['HCM'].abs().max()
df['macHCM'] = df['HCM'] / max_la

df


Unnamed: 0,Year,HCM,LA,macLA,macHCM
0,2010,8.5,5.5,0.916667,0.708333
1,2011,9.0,6.0,1.0,0.75
2,2012,10.5,6.0,1.0,0.875
3,2013,12.0,5.5,0.916667,1.0
4,2014,11.0,6.0,1.0,0.916667
5,2015,10.0,5.0,0.833333,0.833333


<h3 style="color: skyblue">4. Sử Dụng MaxAbsScaler<h3>


Giải thích: Sử dụng MaxAbsScaler từ sklearn để chuẩn hóa dữ liệu về khoảng [-1, 1] dựa trên giá trị tuyệt đối lớn nhất.


1. Tính Toán Giá Trị Lớn Nhất

Cột HCM: <br>
Giá trị lớn nhất là 12.0.<br>
8.5 / 12.0 =  0.708333


Cột LA:<br>
Giá trị lớn nhất là 6.0.
<br>5.5 /6.0 = 0.916667


In [104]:
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
scaled = scaler.fit_transform(df[['HCM','LA']])
scaled_df = pd.DataFrame(scaled, columns=df[['HCM','LA']].columns)

print(scaled_df)


        HCM        LA
0  0.708333  0.916667
1  0.750000  1.000000
2  0.875000  1.000000
3  1.000000  0.916667
4  0.916667  1.000000
5  0.833333  0.833333


##### 5. Dùng Scaler Để Chuyển Đổi Giá Trị Mới

In [105]:
vSc = scaler.transform([[4.5,5.75]])
vSc
# Giải thích: Dùng scaler đã được huấn luyện để biến đổi một giá trị mới [4.5, 5.75] 
# theo cùng một chuẩn hóa mà đã áp dụng cho dữ liệu trước đó.



array([[0.375     , 0.95833333]])

<img src="./1.png" style="border: 1px solid white; border-radius: 10px"></img>

#### 6. Chuyển Đổi Ngược

Giải thích: Sử dụng inverse_transform để chuyển đổi giá trị đã chuẩn hóa về giá trị ban đầu tương ứng.

In [106]:
vR = scaler.inverse_transform([[0.5,0.8]])
vR


array([[6. , 4.8]])

<h3 style="color: skyblue"> 7. Min-Max Scaling</h3>
Min-Max Scaling là một kỹ thuật chuẩn hóa dữ liệu, trong đó các giá trị được chuyển đổi để nằm trong một khoảng xác định, thường là [0, 1]. Công thức cho Min-Max Scaling là:

<img src="./2.png"></img>

1. x: Giá trị gốc cần chuẩn hóa.


2. min: Giá trị nhỏ nhất trong cột.

3. max: Giá trị lớn nhất trong cột.



### Min_Max_Scaler
- x_new = (x_std - min) / (max - min) thuộc [0,1] 
- VD: (5.5-5.0)/(6.0-5.0) = 0.5

In [107]:
# Min_Max_Scaler cho LA
min_la = df['LA'].min()
max_la = df['LA'].max()
df['mmcLA'] = (df['LA'] - min_la) / (max_la - min_la)

df

Unnamed: 0,Year,HCM,LA,macLA,macHCM,mmcLA
0,2010,8.5,5.5,0.916667,0.708333,0.5
1,2011,9.0,6.0,1.0,0.75,1.0
2,2012,10.5,6.0,1.0,0.875,1.0
3,2013,12.0,5.5,0.916667,1.0,0.5
4,2014,11.0,6.0,1.0,0.916667,1.0
5,2015,10.0,5.0,0.833333,0.833333,0.0


In [108]:
# Min_Max_Scaler cho HCM
min_la = df['HCM'].min()
max_la = df['HCM'].max()
df['mmcHCM'] = (df['HCM'] - min_la) / (max_la - min_la)

df

Unnamed: 0,Year,HCM,LA,macLA,macHCM,mmcLA,mmcHCM
0,2010,8.5,5.5,0.916667,0.708333,0.5,0.0
1,2011,9.0,6.0,1.0,0.75,1.0,0.142857
2,2012,10.5,6.0,1.0,0.875,1.0,0.571429
3,2013,12.0,5.5,0.916667,1.0,0.5,1.0
4,2014,11.0,6.0,1.0,0.916667,1.0,0.714286
5,2015,10.0,5.0,0.833333,0.833333,0.0,0.428571


In [109]:
from sklearn.preprocessing import MinMaxScaler
# Tạo một đối tượng scaler từ lớp MinMaxScaler.
scaler = MinMaxScaler()

# fit: Tính toán giá trị lớn nhất và giá trị nhỏ nhất trong dữ liệu ở các cột HCM và LA.
# transform: Sử dụng các giá trị đã tính toán để chuẩn hóa dữ liệu trong các cột đó.
scaled = scaler.fit_transform(df[['HCM','LA']])

# huẩn hóa thành một DataFrame mới scaled_df, với các cột có tên giống như trong DataFrame gốc df.
scaled_df = pd.DataFrame(scaled, columns=df[['HCM','LA']].columns)

print(scaled_df)

        HCM   LA
0  0.000000  0.5
1  0.142857  1.0
2  0.571429  1.0
3  1.000000  0.5
4  0.714286  1.0
5  0.428571  0.0


In [110]:
# giả sử lương HCM 10 triệu LA 4,5 triệu khi qua Min_Max_Scaler bằng bao nhiêu

min_hcm = df['HCM'].min()
max_hcm = df['HCM'].max()
min_la = df['LA'].min()
max_la = df['LA'].max()

# Lương mới
new_salary_hcm = 10  # triệu
new_salary_la = 4.5  # triệu

# Áp dụng Min-Max Scaling
scaled_hcm = (new_salary_hcm - min_hcm) / (max_hcm - min_hcm)
scaled_la = (new_salary_la - min_la) / (max_la - min_la)

# In kết quả
print(f"Lương HCM đã chuẩn hóa: {scaled_hcm:.4f}")
print(f"Lương LA đã chuẩn hóa: {scaled_la:.4f}")

Lương HCM đã chuẩn hóa: 0.4286
Lương LA đã chuẩn hóa: -0.5000


<img src="./3.png"></img>

<h3 style="color:skyblue">8. Z-score Normalization</h3>

Z-score normalization (hay còn gọi là chuẩn hóa Z) là một phương pháp chuẩn hóa dữ liệu mà trong đó giá trị được điều chỉnh sao cho có trung bình bằng 0 và độ lệch chuẩn bằng 1. Công thức tính Z-score là:

<img src="./4.png"><img>

- z: Giá trị chuẩn hóa Z-score.
- x: Giá trị gốc.
- μ: Trung bình của tập dữ liệu.
- σ: Độ lệch chuẩn của tập dữ liệu.

In [111]:
# Nếu 1 người thu nhập ở HCM 15 triệu và 
# một người ở LA là 12 triệu,  người nào thoải máy hơn.
df[['HCM','LA']].describe()

Unnamed: 0,HCM,LA
count,6.0,6.0
mean,10.166667,5.666667
std,1.290994,0.408248
min,8.5,5.0
25%,9.25,5.5
50%,10.25,5.75
75%,10.875,6.0
max,12.0,6.0


#### Chuẩn hóa dữ liệu

In [112]:
# Chuẩn hóa dữ liệu của LA
mean_la = df['LA'].mean()
std_la = df['LA'].std()
df['zLA'] = (df['LA'] - mean_la) / std_la

df

Unnamed: 0,Year,HCM,LA,macLA,macHCM,mmcLA,mmcHCM,zLA
0,2010,8.5,5.5,0.916667,0.708333,0.5,0.0,-0.408248
1,2011,9.0,6.0,1.0,0.75,1.0,0.142857,0.816497
2,2012,10.5,6.0,1.0,0.875,1.0,0.571429,0.816497
3,2013,12.0,5.5,0.916667,1.0,0.5,1.0,-0.408248
4,2014,11.0,6.0,1.0,0.916667,1.0,0.714286,0.816497
5,2015,10.0,5.0,0.833333,0.833333,0.0,0.428571,-1.632993


In [113]:
# z_HCM = (8.5-10.17)/1.29
(8.5-10.17)/1.29

-1.2945736434108526

In [114]:
# z_LA = (5.5-5.67)/0.4
(5.5-5.67)/0.4

-0.4249999999999998

In [115]:
# Chuẩn hóa dữ liệu của HCM
mean_la = df['HCM'].mean()
std_la = df['HCM'].std()
df['zHCM'] = (df['HCM'] - mean_la) / std_la

df

Unnamed: 0,Year,HCM,LA,macLA,macHCM,mmcLA,mmcHCM,zLA,zHCM
0,2010,8.5,5.5,0.916667,0.708333,0.5,0.0,-0.408248,-1.290994
1,2011,9.0,6.0,1.0,0.75,1.0,0.142857,0.816497,-0.903696
2,2012,10.5,6.0,1.0,0.875,1.0,0.571429,0.816497,0.258199
3,2013,12.0,5.5,0.916667,1.0,0.5,1.0,-0.408248,1.420094
4,2014,11.0,6.0,1.0,0.916667,1.0,0.714286,0.816497,0.645497
5,2015,10.0,5.0,0.833333,0.833333,0.0,0.428571,-1.632993,-0.129099


> ##### So sanh 2 thanh pho dung: Min-Max Scaling or Z-score Normalization

In [116]:
# 1 người thu nhập 15 triệu ở TPHCM và 1 người thu nhập  12 triệu ở LA thì ở đâu thoải máy hơn
sV = scaler.transform([[15,12]])
sV
# ==> Sống ở LA thoải mái hơn
# Nếu 7.0 lớn hơn 1.85714286, điều này có nghĩa là thu nhập của người ở LA tương đối cao hơn so với thu nhập của người ở HCM 
# trong bối cảnh dữ liệu mà bạn đã huấn luyện. Điều này cho thấy rằng người ở LA có thể sống thoải mái hơn so với người ở HCM.



array([[1.85714286, 7.        ]])

<h3 style="color: skyblue">9. Transfrom Function</h3>

In [117]:
def funcX(x):
    return x*x + 1

df['TransformX'] = funcX(df[["LA"]])

df


Unnamed: 0,Year,HCM,LA,macLA,macHCM,mmcLA,mmcHCM,zLA,zHCM,TransformX
0,2010,8.5,5.5,0.916667,0.708333,0.5,0.0,-0.408248,-1.290994,31.25
1,2011,9.0,6.0,1.0,0.75,1.0,0.142857,0.816497,-0.903696,37.0
2,2012,10.5,6.0,1.0,0.875,1.0,0.571429,0.816497,0.258199,37.0
3,2013,12.0,5.5,0.916667,1.0,0.5,1.0,-0.408248,1.420094,31.25
4,2014,11.0,6.0,1.0,0.916667,1.0,0.714286,0.816497,0.645497,37.0
5,2015,10.0,5.0,0.833333,0.833333,0.0,0.428571,-1.632993,-0.129099,26.0
