In [94]:
import pandas as pd

# 1. LOAD DATA

In [None]:
files = {
    "bao_chau": "../data/raw/bao_chau_data.csv",
    "duy_thai": "../data/raw/duy_thai_data.csv",
    "minh_huy": "../data/raw/minh_huy_data.csv",
    "quoc_trung": "../data/raw/quoc_trung_data.csv"
}

dfs = []
for name,path in files.items():
    df = pd.read_csv(
    path,
    sep=None,
    engine="python"
)

    df.columns = df.columns.str.lower().str.strip()
    df = df.rename(columns={
        'product name': 'product_name',
        'describe': 'description',
        'brand': 'brand',
        'category': 'category'
    })

    expected_cols = ["product_name", "description", "brand", "category"]
    df = df[[c for c in expected_cols if c in df.columns]]

    dfs.append(df)

df = pd.concat(dfs, ignore_index=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3602 entries, 0 to 3601
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   product_name  3602 non-null   object
 1   description   3602 non-null   object
 2   brand         3415 non-null   object
 3   category      3601 non-null   object
dtypes: object(4)
memory usage: 112.7+ KB


# 2. XỬ LÝ MISSING VALUES

In [96]:
df.isnull().sum()

product_name      0
description       0
brand           187
category          1
dtype: int64

In [97]:
num_null_brand = df["brand"].isna().sum()
ratio = num_null_brand / len(df) * 100
print(f"Tỷ lệ thiếu brand: {ratio:.2f}%")

Tỷ lệ thiếu brand: 5.19%


Nhận xét về dữ liệu thiếu
- Không có giá trị thiếu ở `product_name` và `description`
- Cột `brand` có 187 giá trị bị thiếu, chiếm tỷ lệ 5.19%
- Cột `category` có 1 giá trị bị thiếu

Hướng giải quyết:
- Với brand: điền giá trị mặc định `'Unknown'`
- Với `category`: xóa bỏ, do chỉ có 1 dòng

In [98]:
df = df.dropna(subset=['category'])
df["brand"] = df["brand"].fillna("Unknown")

In [99]:
#KIỂM TRA LẠI
print("Số lượng missing values sau khi xử lý:")
print(df.isnull().sum())

print(f"\nKích thước dữ liệu hiện tại: {df.shape}")

Số lượng missing values sau khi xử lý:
product_name    0
description     0
brand           0
category        0
dtype: int64

Kích thước dữ liệu hiện tại: (3601, 4)


# 3. XỬ LÝ DUPLICATES

In [100]:
dup_mask = df.duplicated(subset=["product_name", "brand", "category"], keep=False)

dup_by_category = (
    df[dup_mask]
    .groupby("category")
    .size()
    .reset_index(name="num_duplicates")
    .sort_values("num_duplicates", ascending=False)
)

print(f"Tổng số dòng trùng: {dup_mask.sum()}")
print(f"Tỉ lệ dòng trùng: {dup_mask.sum() / len(df) * 100:.2f}%")
dup_by_category

Tổng số dòng trùng: 82
Tỉ lệ dòng trùng: 2.28%


Unnamed: 0,category,num_duplicates
2,Nhà cửa & Đời sống,39
7,Đồ chơi trẻ em,18
0,Giày dép,9
3,Thể thao & Du lịch,4
4,Thời trang Nam,4
5,Thời trang Nữ,4
1,Mỹ phẩm & Làm đẹp,2
6,Điện thoại & Phụ kiện,2


Hướng giải quyết:
- Do tỷ lệ trùng lặp nhỏ, nên lựa chọn loại bỏ các dòng trùng lặp để dữ liệu sạch hơn

In [101]:
df_cleaned = df.drop_duplicates(
    subset=['product_name', 'brand', 'category'],
    keep='first'
).copy()

print(f"Tổng số dòng sau khi loại duplicates: {len(df_cleaned)}")
print(f"Đã loại bỏ: {len(df) - len(df_cleaned)} dòng")

Tổng số dòng sau khi loại duplicates: 3558
Đã loại bỏ: 43 dòng


# 4. CHUẨN HÓA TEXT TIẾNG VIỆT

In [102]:
import re
from bs4 import BeautifulSoup

In [103]:
def clean_text(text):
    if not isinstance(text, str):
        return ""
    # 1. Xử lý HTML tags
    try:
        soup = BeautifulSoup(text, "html.parser")
        for data in soup(['style', 'script', 'head', 'title', 'meta', '[document]']):
            data.decompose()
        text = soup.get_text(" ")
    except:
        pass    
    # 2. Chuyển thành chữ thường
    text = text.lower()
    # 3. Loại bỏ URL và email
    text = re.sub(r"http\S+|www\S+|\S+@\S+", " ", text)
    # 4. Loại bỏ các ký tự xuống dòng, tab đặc biệt (\n, \t, \r, \v)
    text = re.sub(r"[\n\t\r\v]+", " ", text)
    # 5. Chuẩn hóa các từ nối dài
    text = re.sub(r'(\w)\1{2,}', r'\1', text)
    # 6. Loại bỏ ký tự đặc biệt (giữ tiếng Việt + số)
    text = re.sub(
        r"[^0-9a-zàáạảãâầấậẩẫăằắặẳẵèéẹẻẽêềếệểễìíịỉĩòóọỏõôồốộổỗơờớợởỡùúụủũưừứựửữỳýỵỷỹđ\s]",
        " ",
        text
    )
    # 7. Loại bỏ số điện thoại, mã số...
    text = re.sub(r'\d{10,}', '', text)
    # 8. Loại bỏ khoảng trắng thừa
    text = re.sub(r"\s+", " ", text).strip()
    return text

In [104]:
for col in ["product_name", "description", "brand"]:
    df_cleaned.loc[:, col] = df_cleaned[col].apply(clean_text)
df_cleaned.head()

Unnamed: 0,product_name,description,brand,category
0,set áo váy hồng tay hoa ngado set áo váy dài s...,thông tin sản phẩm tên sản phẩm set áo váy hồn...,ngado,Thời trang Nữ
1,set áo dài s1872 thương hiệu zonbig,chất liệu thun phủ nhung phối quần lụa màu sắc...,zonbig,Thời trang Nữ
2,set áo gile nữ thanh lịch nhẹ nhàng kèm quần d...,giới thiệu sản phẩm set gồm áo gile mặc cùng q...,haint boutique,Thời trang Nữ
3,set áo dài s1860 thương hiệu zonbig,chất liệu vải lụa ý có co giãn nhẹ hoạ tiết in...,zonbig,Thời trang Nữ
4,set vest croptop chân váy cielo màu đen thiết ...,thiết kế set vest croptop thời thượng sang trọ...,white chic,Thời trang Nữ


Nhận xét:
- Cột `Description` còn nhiều dòng bắt đầu bằng các cụm từ không có ý nghĩa, lặp lại nhiều lần: "thông tin sản phẩm", "giới thiệu sản phẩm", "chi tiết sản phẩm"...
- Lựa chọn loại bỏ để thông tin giá trị hơn

In [105]:
def remove_boilerplate(text):
    if not isinstance(text, str) or len(text) == 0:
        return ""
    patterns = [
        r"^mô tả sản phẩm",
        r"^thông tin sản phẩm", 
        r"^chi tiết sản phẩm",
        r"^thông số kỹ thuật",
        r"^giới thiệu sản phẩm"
    ]
    combined_pattern = "|".join(patterns)
    text = re.sub(combined_pattern, "", text).strip()
    return text

# Áp dụng CHỈ cho cột description
df_cleaned['description'] = df_cleaned['description'].apply(remove_boilerplate)

In [106]:
#KIỂM TRA LẠI SAU XỬ LÝ CÓ CHUỖI RỖNG KHÔNG
def check_empty_strings(df):
    for col in df.columns:
        if df[col].dtype == "object":
            num_empty = (df[col].str.strip() == "").sum()
            print(f"Số chuỗi rỗng trong cột '{col}': {num_empty}")
check_empty_strings(df_cleaned)

Số chuỗi rỗng trong cột 'product_name': 0
Số chuỗi rỗng trong cột 'description': 0
Số chuỗi rỗng trong cột 'brand': 1
Số chuỗi rỗng trong cột 'category': 0


In [107]:
#THAY THẾ CHUỖI RỖNG BẰNG 'unknown'
df_cleaned['brand'] = df_cleaned['brand'].replace('', 'unknown')

In [108]:
#KIỂM TRA CHẤT LƯỢNG DATA
df_cleaned['name_length'] = df_cleaned['product_name'].str.len()
df_cleaned['desc_length'] = df_cleaned['description'].str.len()
df_cleaned['name_word_count'] = df_cleaned['product_name'].str.split().str.len()
df_cleaned['desc_word_count'] = df_cleaned['description'].str.split().str.len()

print("Thống kê độ dài:")
print(f"Product name - Trung bình: {df_cleaned['name_length'].mean():.1f} ký tự")
print(f"Description - Trung bình: {df_cleaned['desc_length'].mean():.1f} ký tự")
print(f"Product name - Trung bình: {df_cleaned['name_word_count'].mean():.1f} từ")
print(f"Description - Trung bình: {df_cleaned['desc_word_count'].mean():.1f} từ")

Thống kê độ dài:
Product name - Trung bình: 63.7 ký tự
Description - Trung bình: 1297.6 ký tự
Product name - Trung bình: 13.5 từ
Description - Trung bình: 291.5 từ


Nhận xét:    
- Một số sản phẩm có tên quá ngắn hoặc mô tả quá ít từ, hay tên chỉ là số, không đủ thông tin.  
- Hướng xử lý: loại bỏ các sản phẩm không đạt tiêu chuẩn tối thiểu (tên ≥2 từ, mô tả ≥5 từ, tên không phải số) để đảm bảo dữ liệu sạch và chất lượng hơn.


In [109]:
#LOẠI BỎ CÁC SẢN PHẨM KHÔNG ĐỦ TIÊU CHUẨN
df_cleaned = df_cleaned[
    (df_cleaned['name_word_count'] >= 2) &  # Tên ít nhất 2 từ
    (df_cleaned['desc_word_count'] >= 5)  &   # Mô tả ít nhất 5 từ
    (df_cleaned['product_name'].str.isnumeric() == False)  # Tên không phải là số
].copy()
print(f"Số dòng sau khi loại bỏ sản phẩm không đủ tiêu chuẩn: {len(df_cleaned)}")
print(f"Số dòng đã loại bỏ: {len(df) - len(df_cleaned)}")

Số dòng sau khi loại bỏ sản phẩm không đủ tiêu chuẩn: 3556
Số dòng đã loại bỏ: 45


# 5. DỮ LIỆU ĐÃ LÀM SẠCH

In [None]:
columns_to_save = ['product_name', 'description', 'brand', 'category']
df_cleaned[columns_to_save].to_csv('../data/processed/data_cleaned.csv', index=False, encoding='utf-8')