In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import re

# Giả sử chúng ta có DataFrame khách hàng
data = {
    'Tên': ['An', 'Bình', 'Châu', 'Dũng', 'An'],
    'Email': ['an@example.com', 'binh@example', 'chau@example.com', 'dung@example.com', 'an@example.com'],
    'Số điện thoại': ['0123456789', '0987654321', '0123456789', '0912345678', '0123456789'],
    'Tuổi': [25, np.nan, 30, 22, 25],
    'Thu nhập': [50000, 60000, np.nan, 45000, 50000]
}

df = pd.DataFrame(data)
print("Dữ liệu gốc:")
print(df)

# 1. Xử lý Dữ liệu Thiếu
# Thay thế giá trị thiếu trong 'Tuổi' bằng trung bình
df['Tuổi'] = df['Tuổi'].fillna(df['Tuổi'].mean())

# Thay thế giá trị thiếu trong 'Thu nhập' bằng trung vị
df['Thu nhập'] = df['Thu nhập'].fillna(df['Thu nhập'].median())

# 2. Kiểm tra Định dạng Email
def is_valid_email(email):
    # Sử dụng regex để kiểm tra định dạng email
    # Sửa regex để loại bỏ \b và sửa [A-Z|a-z] thành [A-Za-z]
    regex = r'^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$'
    return bool(re.match(regex, email))

# Áp dụng hàm và lọc các email hợp lệ
df = df[df['Email'].apply(is_valid_email)]
df.reset_index(drop=True, inplace=True)

# 3. Xử lý Dữ liệu Trùng lặp
df = df.drop_duplicates(subset=['Email', 'Số điện thoại']).reset_index(drop=True)

# 4. Chuẩn hóa Tuổi và Thu nhập
scaler = MinMaxScaler()
df[['Tuổi', 'Thu nhập']] = scaler.fit_transform(df[['Tuổi', 'Thu nhập']])

print("\nDữ liệu sau khi làm sạch và chuẩn hóa:")
print(df)


Dữ liệu gốc:
    Tên             Email Số điện thoại  Tuổi  Thu nhập
0    An    an@example.com    0123456789  25.0   50000.0
1  Bình      binh@example    0987654321   NaN   60000.0
2  Châu  chau@example.com    0123456789  30.0       NaN
3  Dũng  dung@example.com    0912345678  22.0   45000.0
4    An    an@example.com    0123456789  25.0   50000.0

Dữ liệu sau khi làm sạch và chuẩn hóa:
    Tên             Email Số điện thoại   Tuổi  Thu nhập
0    An    an@example.com    0123456789  0.375       1.0
1  Châu  chau@example.com    0123456789  1.000       1.0
2  Dũng  dung@example.com    0912345678  0.000       0.0


In [5]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Tạo mảng pixel đại diện cho hình ảnh 3x3
pixels = np.array([
    [255, 128, 64],
    [32, 256, -10],  # Giá trị bất thường ở ô [1,1] và [1,2]
    [0, 64, 128]
])

print("Dữ liệu gốc:")
print(pixels)

# 1. Kiểm tra Dữ liệu Bất thường
pixels = np.clip(pixels, 0, 255)
print("\nDữ liệu sau khi xử lý bất thường:")
print(pixels)

# 2. Chuẩn hóa Giá trị Pixel
df_pixels = pd.DataFrame(pixels)
scaler = MinMaxScaler()
df_pixels_normalized = scaler.fit_transform(df_pixels)

print("\nDữ liệu sau khi chuẩn hóa:")
print(df_pixels_normalized)

# Nếu muốn chuyển lại thành mảng numpy
pixels_normalized = df_pixels_normalized.reshape(pixels.shape)
print("\nDữ liệu chuẩn hóa dưới dạng mảng:")
print(pixels_normalized)


Dữ liệu gốc:
[[255 128  64]
 [ 32 256 -10]
 [  0  64 128]]

Dữ liệu sau khi xử lý bất thường:
[[255 128  64]
 [ 32 255   0]
 [  0  64 128]]

Dữ liệu sau khi chuẩn hóa:
[[1.         0.33507853 0.5       ]
 [0.1254902  1.         0.        ]
 [0.         0.         1.        ]]

Dữ liệu chuẩn hóa dưới dạng mảng:
[[1.         0.33507853 0.5       ]
 [0.1254902  1.         0.        ]
 [0.         0.         1.        ]]


In [7]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# Tạo DataFrame doanh thu từ nhiều nguồn
data = {
    'Tháng': ['2023-01', '2023-02', '2023-03', '2023-04', '2023-02'],
    'Nguồn': ['Online', 'Offline', 'Online', 'Offline', 'Online'],
    'Doanh thu': [100000, 150000, np.nan, 130000, 150000],
    'Đơn vị tiền tệ': ['VND', 'VND', 'VND', 'VND', 'VND']
}

df_revenue = pd.DataFrame(data)
print("Dữ liệu gốc:")
print(df_revenue)

# 1. Xử lý Thiếu Dữ liệu
df_revenue['Doanh thu'] = df_revenue['Doanh thu'].fillna(df_revenue['Doanh thu'].mean())

# 2. Kiểm tra Tính Nhất Quán
if df_revenue['Đơn vị tiền tệ'].nunique() != 1:
    usd_exchange_rate = 23000
    df_revenue.loc[df_revenue['Đơn vị tiền tệ'] == 'VND', 'Doanh thu'] = df_revenue['Doanh thu'] / usd_exchange_rate
    df_revenue['Đơn vị tiền tệ'] = 'USD'

# 3. Xử lý Dữ liệu Trùng lặp
df_revenue = df_revenue.drop_duplicates(subset=['Tháng', 'Nguồn']).reset_index(drop=True)

# 4. Chuẩn hóa Doanh thu
scaler = StandardScaler()
df_revenue[['Doanh thu']] = scaler.fit_transform(df_revenue[['Doanh thu']])

print("\nDữ liệu sau khi làm sạch và chuẩn hóa:")
print(df_revenue)


Dữ liệu gốc:
     Tháng    Nguồn  Doanh thu Đơn vị tiền tệ
0  2023-01   Online   100000.0            VND
1  2023-02  Offline   150000.0            VND
2  2023-03   Online        NaN            VND
3  2023-04  Offline   130000.0            VND
4  2023-02   Online   150000.0            VND

Dữ liệu sau khi làm sạch và chuẩn hóa:
     Tháng    Nguồn  Doanh thu Đơn vị tiền tệ
0  2023-01   Online  -1.775665            VND
1  2023-02  Offline   0.956127            VND
2  2023-03   Online   0.000000            VND
3  2023-04  Offline  -0.136590            VND
4  2023-02   Online   0.956127            VND
