In [None]:
# Làm sạch dữ liệu trong một bộ dữ liệu sức khỏe
 
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# **Bước 1: Tạo dữ liệu ban đầu**
data = {
    'Age': [25, 30, np.nan, 40, 50],  # Dữ liệu về tuổi, có giá trị thiếu
    'Blood Pressure': [120, np.nan, 135, 140, 130],  # Dữ liệu huyết áp, có giá trị thiếu
    'Weight': [70, 80, 75, np.nan, 85],  # Dữ liệu cân nặng, có giá trị thiếu
    'Revenue Growth': [5, 10, 15, 20, 25],  # Dữ liệu tăng trưởng doanh thu
    'Stock Price': [100, 200, 300, 400, 500]  # Dữ liệu giá cổ phiếu
}

# Chuyển dữ liệu thành DataFrame
df = pd.DataFrame(data)

print("Dữ liệu ban đầu:")
print(df)

# **Bước 2: Làm sạch dữ liệu - Điền giá trị thiếu bằng giá trị trung bình**
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Blood Pressure'].fillna(df['Blood Pressure'].mean(), inplace=True)
df['Weight'].fillna(df['Weight'].mean(), inplace=True)

print("\nDữ liệu sau khi làm sạch (điền giá trị thiếu):")
print(df)

# **Bước 3: Chuẩn hóa dữ liệu - Min-Max Scaling**
scaler = MinMaxScaler()

# Chọn các cột cần chuẩn hóa (tất cả các cột số)
columns_to_scale = ['Age', 'Blood Pressure', 'Weight', 'Revenue Growth', 'Stock Price']

# Chuẩn hóa dữ liệu
df_scaled = df.copy()
df_scaled[columns_to_scale] = scaler.fit_transform(df[columns_to_scale])

print("\nDữ liệu sau khi chuẩn hóa:")
print(df_scaled)


Dữ liệu ban đầu:
    Age  Blood Pressure  Weight  Revenue Growth  Stock Price
0  25.0           120.0    70.0               5          100
1  30.0             NaN    80.0              10          200
2   NaN           135.0    75.0              15          300
3  40.0           140.0     NaN              20          400
4  50.0           130.0    85.0              25          500

Dữ liệu sau khi làm sạch (điền giá trị thiếu):
     Age  Blood Pressure  Weight  Revenue Growth  Stock Price
0  25.00          120.00    70.0               5          100
1  30.00          131.25    80.0              10          200
2  36.25          135.00    75.0              15          300
3  40.00          140.00    77.5              20          400
4  50.00          130.00    85.0              25          500

Dữ liệu sau khi chuẩn hóa:
    Age  Blood Pressure    Weight  Revenue Growth  Stock Price
0  0.00          0.0000  0.000000            0.00         0.00
1  0.20          0.5625  0.666667          

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Age'].fillna(df['Age'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Blood Pressure'].fillna(df['Blood Pressure'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on w

In [4]:
# Xử lý và chuẩn hóa dữ liệu về điểm thi học sinh 
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# **Bước 1: Tạo dữ liệu ban đầu**
data = {
    'Student': ['A', 'B', 'C', 'D', 'E'],  # Tên học sinh
    'Math': [80, np.nan, 90, 85, 88],  # Điểm thi môn Toán (có giá trị thiếu)
    'Physics': [75, 80, np.nan, 90, 85],  # Điểm thi môn Vật lý (có giá trị thiếu)
    'Chemistry': [70, 85, 88, np.nan, 90]  # Điểm thi môn Hóa học (có giá trị thiếu)
}

# Chuyển dữ liệu thành DataFrame
df = pd.DataFrame(data)

print("Dữ liệu ban đầu:")
print(df)

# **Bước 2: Làm sạch dữ liệu - Điền giá trị thiếu bằng giá trị trung bình**
df['Math'].fillna(df['Math'].mean(), inplace=True)
df['Physics'].fillna(df['Physics'].mean(), inplace=True)
df['Chemistry'].fillna(df['Chemistry'].mean(), inplace=True)

print("\nDữ liệu sau khi làm sạch (điền giá trị thiếu):")
print(df)

# **Bước 3: Chuẩn hóa dữ liệu - Z-Score Standardization**
scaler = StandardScaler()

# Chọn các cột cần chuẩn hóa (tất cả các cột số)
columns_to_scale = ['Math', 'Physics', 'Chemistry']

# Chuẩn hóa dữ liệu
df_scaled = df.copy()
df_scaled[columns_to_scale] = scaler.fit_transform(df[columns_to_scale])

print("\nDữ liệu sau khi chuẩn hóa (Z-Score):")
print(df_scaled)


Dữ liệu ban đầu:
  Student  Math  Physics  Chemistry
0       A  80.0     75.0       70.0
1       B   NaN     80.0       85.0
2       C  90.0      NaN       88.0
3       D  85.0     90.0        NaN
4       E  88.0     85.0       90.0

Dữ liệu sau khi làm sạch (điền giá trị thiếu):
  Student   Math  Physics  Chemistry
0       A  80.00     75.0      70.00
1       B  85.75     80.0      85.00
2       C  90.00     82.5      88.00
3       D  85.00     90.0      83.25
4       E  88.00     85.0      90.00

Dữ liệu sau khi chuẩn hóa (Z-Score):
  Student      Math  Physics  Chemistry
0       A -1.706750     -1.5  -1.886133
1       B  0.000000     -0.5   0.249112
2       C  1.261511      0.0   0.676161
3       D -0.222620      1.5   0.000000
4       E  0.667859      0.5   0.960860


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Math'].fillna(df['Math'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Physics'].fillna(df['Physics'].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are 

In [None]:
# Xử lý dữ liệu trong phân loại sản phẩm

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# **Bước 1: Tạo dữ liệu ban đầu**
data = {
    'Product Type': ['Phone', 'Laptop', 'Tablet', 'Laptop', 'Phone'],  # Dữ liệu phân loại sản phẩm
    'Revenue': [1000, 2000, 1500, 2500, 1800],  # Dữ liệu về doanh thu
    'Stock Quantity': [500, 300, 400, 200, 600],  # Dữ liệu về số lượng tồn kho
}

# Chuyển dữ liệu thành DataFrame
df = pd.DataFrame(data)

print("Dữ liệu ban đầu:")
print(df)

# **Bước 2: Làm sạch dữ liệu - Giả sử có dữ liệu thiếu**
df['Revenue'].fillna(df['Revenue'].mean(), inplace=True)  # Điền giá trị thiếu trong cột Revenue
df['Stock Quantity'].fillna(df['Stock Quantity'].mean(), inplace=True)  # Điền giá trị thiếu trong cột Stock Quantity

print("\nDữ liệu sau khi làm sạch (điền giá trị thiếu):")
print(df)

# **Bước 3: Mã hóa dữ liệu phân loại bằng One-Hot Encoding**
df_encoded = pd.get_dummies(df, columns=['Product Type'], drop_first=False)

# **Bước 4: Chuẩn hóa dữ liệu - Min-Max Scaling**
scaler = MinMaxScaler()

# Chọn các cột cần chuẩn hóa (tất cả các cột số)
columns_to_scale = ['Revenue', 'Stock Quantity']

# Chuẩn hóa dữ liệu
df_encoded_scaled = df_encoded.copy()
df_encoded_scaled[columns_to_scale] = scaler.fit_transform(df_encoded[columns_to_scale])

print("\nDữ liệu sau khi mã hóa và chuẩn hóa:")
print(df_encoded_scaled)



Dữ liệu ban đầu:
  Product Type  Revenue  Stock Quantity
0        Phone     1000             500
1       Laptop     2000             300
2       Tablet     1500             400
3       Laptop     2500             200
4        Phone     1800             600

Dữ liệu sau khi làm sạch (điền giá trị thiếu):
  Product Type  Revenue  Stock Quantity
0        Phone     1000             500
1       Laptop     2000             300
2       Tablet     1500             400
3       Laptop     2500             200
4        Phone     1800             600

Dữ liệu sau khi mã hóa và chuẩn hóa:
    Revenue  Stock Quantity  Product Type_Laptop  Product Type_Phone  \
0  0.000000            0.75                False                True   
1  0.666667            0.25                 True               False   
2  0.333333            0.50                False               False   
3  1.000000            0.00                 True               False   
4  0.533333            1.00                False         

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Revenue'].fillna(df['Revenue'].mean(), inplace=True)  # Điền giá trị thiếu trong cột Revenue
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Stock Quantity'].fillna(df['Stock Quantity'].mean(), inplace=True)  # Điền giá trị thiếu trong cột Stock Quantity
