# Import thư viện + Load data

In [2]:
import os
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [3]:
def read_parquet_by_type(train_path: str):
    # Lấy tất cả các file parquet trong thư mục
    files = [os.path.join(train_path, f) for f in os.listdir(train_path) if f.endswith('.parquet')]
    
    # Phân loại các file theo loại tên
    user_chunk_files = [file for file in files if 'user_chunk' in file]
    purchase_history_chunk_files = [file for file in files if 'purchase_history_daily_chunk' in file]
    item_chunk_files = [file for file in files if 'item_chunk' in file]
    
    # Đọc các file riêng biệt thành DataFrame
    user_chunk_df = pl.concat([pl.read_parquet(file) for file in user_chunk_files]) if user_chunk_files else None
    purchase_history_chunk_df = pl.concat([pl.read_parquet(file) for file in purchase_history_chunk_files]) if purchase_history_chunk_files else None
    item_chunk_df = pl.concat([pl.read_parquet(file) for file in item_chunk_files]) if item_chunk_files else None
    
    # Trả về một dictionary chứa các DataFrame
    return {
        "user_chunk": user_chunk_df,
        "purchase_history_chunk": purchase_history_chunk_df,
        "item_chunk": item_chunk_df
    }

In [4]:
data = read_parquet_by_type("C:/Users/tncn2/Downloads/recommendation dataset")

# history_df = data["purchase_history_chunk"]
# user_df = data["user_chunk"]
item_df = data["item_chunk"]

# Kiểm tra

In [5]:
cols_to_show = [
    "description_new", "color", "size", "origin",
    "volume", "material", "gender_target"
]

# --- Cấu hình để hiển thị đầy đủ text ---
pl.Config.set_tbl_cols(-1)           # Hiển thị tất cả các cột
pl.Config.set_tbl_width_chars(2000)  # Tăng độ rộng bảng để tránh bị '...'

# --- Lấy 5 hàng đầu ---
subset_df = item_df.select(cols_to_show).head(5)

# --- In ra ---
print(subset_df)

shape: (5, 7)
┌─────────────────────────────────┬────────────────┬────────────────┬────────────────────┬────────────────┬─────────────────────────────────┬────────────────┐
│ description_new                 ┆ color          ┆ size           ┆ origin             ┆ volume         ┆ material                        ┆ gender_target  │
│ ---                             ┆ ---            ┆ ---            ┆ ---                ┆ ---            ┆ ---                             ┆ ---            │
│ str                             ┆ str            ┆ str            ┆ str                ┆ str            ┆ str                             ┆ str            │
╞═════════════════════════════════╪════════════════╪════════════════╪════════════════════╪════════════════╪═════════════════════════════════╪════════════════╡
│ Chi tiết sản phẩm             … ┆ Không xác định ┆ Không xác định ┆ Không xác định     ┆ Không xác định ┆ Không xác định                  ┆ Không xác định │
│ Không xác định                

### Xem thử 2 cột

In [6]:
pl.Config.set_tbl_rows(50)             # số dòng tối đa hiển thị
pl.Config.set_tbl_cols(10)             # số cột tối đa hiển thị
pl.Config.set_tbl_width_chars(200)     # tổng chiều rộng bảng ký tự
pl.Config.set_fmt_str_lengths(2000)     # độ dài chuỗi tối đa hiển thị (quan trọng nhất!)

item_df.select(["description", "description_new", "item_type"]).head(10)

description,description_new,item_type
str,str,str
"""Không xác định""","""Chi tiết sản phẩm Tên sản phẩm: Hộp 2 núm ty DrBrown's Options Plus cổ rộng Y cut (Trên 9 tháng) Loại sản phẩm: Núm ty Đối tượng sử dụng: Trẻ trên 9 tháng Thương hiệu: DrBrown's Điểm nổi bật: Núm vú silicon siêu mềm giúp phát triển cơ hàm của bé thông qua sự cử động lưỡi tự nhiên. Hộp 2 núm ty DrBrown's Options Plus cổ rộng Y cut (Trên 9 tháng) là núm ty dành cho trẻ trên 9 tháng của thương hiệu DrBrown's đến từ Mỹ. Núm vú silicon siêu mềm giúp phát triển cơ hàm của bé thông qua sự cử động lưỡi một cách tự nhiên. Núm ty silicon mềm mại Núm vú silicon siêu mềm giúp phát triển cơ hàm của bé thông qua sự cử động lưỡi một cách tự nhiên. Thiết kế đầu núm vừa vặn với vòm miệng bé, mang lại sự thoải mái khi sử dụng. Thiết kế thông minh Núm ty DrBrown's Options Plus được thiết kế với lỗ tiết sữa Y cut, phù hợp với nhu cầu ăn cháo đặc của bé trên 9 tháng tuổi, từ đó giúp bé có cảm giác gần gũi hơn trong từng lần bú. Hướng dẫn sử dụng Rửa sạch núm ty bằng nước rửa chuyên dụng trước khi sử dụng lần đầu. Đun sôi núm vú trong vòng 3-5 phút để tiệt trùng sau mỗi lần sử dụng. Kiểm tra núm vú trước khi cho bé sử dụng, đảm bảo không có dấu hiệu rách hoặc thủng. Không cho trẻ bú bình khi không có sự giám sát của người lớn. Hướng dẫn bảo quản Bảo quản ở nhiệt độ phòng, nơi khô ráo, thoáng mát. Tránh ánh nắng mặt trời trực tiếp. Thay núm ty mới sau khi sử dụng từ 1 - 2 tháng để đảm bảo vệ sinh cho trẻ. Lưu ý Không rửa núm ty bằng xà phòng hoặc nước tẩy rửa. Không tiệt trùng núm ty bằng lò vi sóng. Kiểm tra núm vú thường xuyên trước khi sử dụng. Thành phần Silicon cao cấp Không chứa BPA Chất đàn hồi tốt""","""Không xác định"""
"""Không xác định""","""Không xác định""","""Bộ quần áo"""
"""- Chất liệu: Sản phẩm được làm bằng chất liệu silicone mềm, dẻo và nước đã được chưng cất đảm bảo an toàn cho bé. - Dành cho các bé trong giai đoạn mọc răng, giúp làm giảm đau, ngứa lợi cho bé. - Bề mặt có các núm mát-xa nhỏ, mềm mịn, tạo cảm giác dễ chịu cho bé. - Có độ đàn hồi tốt, dễ dàng uốn dẻo, bền đẹp không gây ảnh hưởng tới sức khỏe cho bé. - Thiết kế dạng hình các con vật đồ dùng ngộ nghỉnh, đặc biệt có tay cầm, giúp bé dễ cầm nắm. - Trước khi cho bé sử dụng, bạn có thể cho vào tủ lạnh tạo cảm giác mát lạnh bé thích thú Lưu ý: Không sử dụng nước sôi để khử trùng sản phẩm. Xuất xứ: Thái Lan﻿﻿""","""Chi tiết sản phẩm Tên sản phẩm: Miếng Gặm Nướu Papa (CEQ004) (Cá hồng) Chất liệu: Silicone mềm, dẻo và nước đã được chưng cất Đối tượng sử dụng: Dành cho các bé trong giai đoạn mọc răng Thương hiệu: Papa Xuất xứ: Thái Lan Giá: 45.000₫ **Miếng Gặm Nướu Papa (CEQ004) (Cá hồng)** là một sản phẩm giúp bé giảm đau trong giai đoạn mọc răng của thương hiệu **Papa đến từ Thái Lan**. Sản phẩm được thiết kế đặc biệt để tạo cảm giác dễ chịu cho bé khi nhai. Chất liệu an toàn: Silicone mềm, dẻo Miếng gặm nướu được làm bằng chất liệu silicone mềm, dẻo và nước đã được chưng cất, đảm bảo an toàn tuyệt đối cho sức khỏe của bé. Cảm giác dễ chịu: Bề mặt núm mát-xa Bề mặt có các núm mát-xa nhỏ, mềm mịn, tạo cảm giác dễ chịu và thích thú khi bé sử dụng. Thiết kế ngộ nghĩnh: Hình động vật với tay cầm Sản phẩm được thiết kế dạng hình các con vật đồ dùng ngộ nghĩnh, đặc biệt có tay cầm giúp bé dễ cầm nắm và chơi đùa. Độ đàn hồi tốt: Bền đẹp và dễ sử dụng Miếng gặm nướu có độ đàn hồi tốt, dễ dàng uốn dẻo, bền đẹp mà không gây ảnh hưởng đến sức khỏe cho bé. Cảm giác mát lạnh: Hỗ trợ giảm đau Trước khi cho bé sử dụng, bạn có thể cho vào tủ lạnh tạo cảm giác mát lạnh, giúp bé thích thú và giảm đau nướu. Hướng dẫn sử dụng Rửa sạch sản phẩm trước khi cho bé sử dụng. Để sản phẩm trong tủ lạnh trước khi cho bé sử dụng để tạo cảm giác mát lạnh. Giám sát bé khi sử dụng để đảm bảo an toàn. Hướng dẫn bảo quản Bảo quản sản phẩm ở nơi khô ráo, thoáng mát. Không sử dụng nước sôi để khử trùng sản phẩm. Thường xuyên kiểm tra sản phẩm để đảm bảo không bị hư hỏng. Lưu ý Sản phẩm chỉ dành cho bé trong giai đoạn mọc răng. Khi sản phẩm có dấu hiệu hư hỏng, không nên cho bé sử dụng. …","""Không xác định"""
"""﻿﻿Tã dán Merries size S 82 miếng là sản phẩm dành cho bé 4-8kg đến từ thương hiệu uy tín Merries của Nhật Bản. Ra đời với công nghệ ""4 siêu"" - siêu mềm mại, siêu thông thoáng, siêu thấm hút, siêu linh hoạt, tã dán Merries trở thành ""người bạn"" của hàng ngàn em bé trên toàn thế giới.﻿﻿﻿Ưu điểm nổi bật. Siêu mềm mại: được làm từ bông siêu mỏng và các hạt thấm hút nhanh, có bề mặt mềm mại, xốp mịn, tiếp xúc nhẹ nhàng, không gây hằn đỏ trên da bé.. Siêu thông thoáng: dựa vào công nghệ siêu thoát khí từ chất liệu màng đáy thoát khí đặc biệt giúp bé yêu cảm thấy luôn dễ chịu, thoải mái. Cha mẹ có thể xóa tan nỗi lo nóng ẩm và hầm hơi do nước tiểu và mồ hôi cũng như kích ứng da do các tác nhân gây hại.. Siêu thấm hút: thiết kế chống tràn khóa chặt chất lỏng đến 6-8 tiếng và không vón cục. Các hạt thấm hút kép cùng với bề mặt tiếp xúc điểm xốp mịn tạo ra những khoảng trống giúp thấm chất lỏng cực nhanh và không bị lan ra khắp bề mặt tã.. Siêu linh hoạt: thiết kế vừa vặn với cơ thể bé với vách chống tràn co dãn và phần eo mềm mại ôm khít, thiết kế phần đáy hình chữ ""W"" không gây cảm giác vướng víu và linh hoạt theo từng chuyển động của bé.. Vạch báo thời gian thay tã thông minh: thay đổi sang màu xanh lá đậm sẽ giúp bố mẹ dễ dàng nhận biết thời điểm cần thiết để thay tã cho bé.Hướng dẫn sử dụng""","""Không xác định""","""Không xác định"""
"""﻿﻿﻿Bỉm tã quần Merries size M 58 miếng là sản phẩm dành cho bé từ 6-11kg đến từ thương hiệu uy tín Merries của Nhật Bản. ﻿﻿﻿﻿Tã quần Merries – một sản phẩm mang tính đột phá đến từ Nhật Bản, khác biệt hoàn toàn so với những loại tã giấy khác trên thị trường, đặc biệt mỏng nhẹ giúp bé tung tăng chạy nhảy suốt 24h mà vẫn khô thoáng và êm dịu.Ưu điểm nổi bật﻿. Siêu mềm mại với bề mặt tiếp xúc điểm xốp mịn và chất liệu mỏng nhẹ, không gây kích ứng lên làn da mỏng manh của bé.. Siêu thông thoáng với chất liệu màng đáy thoát khí đặc biệt. Các đường thun được thiết kế để không khí dễ dàng thổi qua giữa miếng tã và da. Bé sẽ luôn cảm thấy khô ráo ngay cả khi vân động nhiều.. Siêu thấm hút với lõi siêu thấm trung tâm độc đáo giúp thấm hút và khoá chặt một lượng lớn chất lỏng ngay lập tức. Đặc biệt tã không bị vón cục sau khi thấm hút.. Siêu linh hoạt trong chuyển động với thiết kế chữ “W” biến đổi linh hoạt với đáy quần thích ứng theo chuyển động của bé. Đường thun ôm vừa vặn không để lại vết hằn trên da.. Vạch báo thời gian thay tã thông minh: Thay tã khi vạch đổi sang màu xanh lá đậmHướng dẫn sử dụng ﻿﻿""","""Không xác định""","""Không xác định"""
"""Áo thun bé trai tay ngắn CF B078010 Xanh là sản phẩm với chất liệu cotton mềm mại, thấm hút mồ hôi, đường may kỹ lưỡng chắc chắn sẽ giúp bé thoải mái vận động. Bên cạnh đó, sản phẩm có kiểu dáng cá tính cùng họa tiết đáng yêu sẽ giúp bé thêm phần thời trang. ĐẶC ĐIỂM NỔI BẬT Chất liệu cotton mềm mại Sản phẩm được may từ vải cotton mềm mại cho phép bé thoải mái chơi đùa, vận động mà không cảm thấy khó chịu. Bên cạnh đó, chất liệu cotton không gây kích ứng da và có khả năng thấm hút mồ hôi tốt nên Mẹ không phải lo lắng bé yêu bị nổi rôm, tuyệt đối an toàn khi sử dụng. Thiết kế thoải mái, đáng yêu Thiết kế thoải mái phối cùng họa tiết cá tính sẽ mang đến phong cách thoải mái và không kém phần thời trang cho bé của bạn. Ngoài ra, các đường nối, đường cuốn biên trên sản phẩm không bị nổi cộm gây khó chịu và ngứa da bé cho phép bé vận động dễ dàng. THÔNG TIN SẢN PHẨM Tên sản phẩm: Áo thun bé trai tay ngắn CF B078010 Xanh Thương hiệu: CF Sản xuất tại: CÔNG TY TNHH MAY MẶC HẢI NAM , Việt Nam Chất liệu: 95% Cotton5% Spandex BẢO QUẢN SẢN PHẨM - Hạn chế dùng sản phẩm giặt tẩy - Không ngâm, giặt chung với sản phẩm ra màu - Không giặt trong nước nóng trên 40°C - Nên ủi/là mặt trái sản phẩm""","""Không xác định""","""Áo"""
"""- Sản phẩm dành cho bé từ 3 - 36 tháng tuổi. - Nguyên liệu được làm bằng cao su có tính đàn hồi tốt, dùng lót sàn. Giúp bé vừa học vừa chơi mà không lo bị bé yêu bị va đập. - Thảm có nhiều màu sắc, hình các chữ cái và số kích thích bé vừa học vừa chơi, mẹ yên tâm làm việc nhà. Hướng dẫn sử dụng: Nối các tấm xốp với nhau bằng răng nối. Cảnh báo: Không nên cho bé ngậm, cắn hay đưa sản phẩm vào miệng. Thông tin sản phẩm - Tên sản phẩm: Thảm xốp hình chữ 30x30cm, 26 miếng - Chất liệu: Cao su - Kích thước: 30x30x1cm/ miếng. - Khối lượng tịnh: 58g/miếng. - Xuất xứ: Việt Nam - Năm sản xuất: 2018 Sản xuất tại: - Công Ty TNHH SX-TM THOẠI TÂN THÀNH (28/36/23 Lương Thế Vinh, P.Tân Thới Hoà, Q.Tân phú, TP.HCM) Chịu trách nhiệm hàng hóa: - CÔNG TY CỔ PHẦN CON CƯNG (101-103 Trần Quang Khải, P.Tân Định, Q.1, HCM) Lưu ý: Họa tiết và màu sắc có thể thay đổi tùy vào đợt hàng về﻿""","""Chi tiết sản phẩm Tên sản phẩm: Thảm xốp hình chữ 30x30cm, 26 miếng Chất liệu: Cao su Kích thước: 30x30x1cm/miếng Khối lượng tịnh: 58g/miếng Xuất xứ: Việt Nam Năm sản xuất: 2018 Sản xuất tại: Công Ty TNHH SX-TM THOẠI TÂN THÀNH (28/36/23 Lương Thế Vinh, P.Tân Thới Hoà, Q.Tân phú, TP.HCM) Chịu trách nhiệm hàng hóa: CÔNG TY CỔ PHẦN CON CƯNG (101-103 Trần Quang Khải, P.Tân Định, Q.1, HCM) **Thảm xốp hình chữ 30x30cm, 26 miếng** là thảm xốp dành cho bé từ 3 - 36 tháng tuổi của Con Cưng đến từ Việt Nam. Sản phẩm được làm từ cao su có tính đàn hồi tốt, giúp bé học chơi mà không lo bị va đập. Thảm xốp hình chữ - Nguyên liệu cao su, tính đàn hồi tốt Thảm xốp hình chữ với thiết kế nhiều màu sắc, hình các chữ cái và số, giúp bé vừa học vừa chơi, tạo điều kiện cho sự phát triển trí tuệ và thể chất mà mẹ có thể yên tâm làm việc nhà. Cảnh báo an toàn - Bé không nên ngậm hay cắn Để đảm bảo an toàn cho trẻ, không nên cho bé ngậm, cắn hoặc đưa sản phẩm vào miệng trong quá trình vui chơi. Hướng dẫn sử dụng Nối các tấm xốp với nhau bằng răng nối. Hướng dẫn bảo quản Để sản phẩm ở nơi khô ráo, thoáng mát. Tránh ánh nắng mặt trời trực tiếp. Vệ sinh bề mặt sản phẩm bằng vải ẩm khi cần thiết. Lưu ý Họa tiết và màu sắc có thể thay đổi tùy vào đợt hàng về. Thành phần Cao su""","""Không xác định"""
"""﻿﻿﻿Dòng sản phẩm tã quần Huggies Dry với tinh chất tràm trà tự nhiên sẽ mang đến cho da con cảm giác dễ chịu. Đặc biệt, sản phẩm cũng được chứng minh lâm sàng giúp ngừa hăm tã hiệu quả. Ưu điểm nổi bật. Tã quần Huggies Dry cải tiến mới với công nghệ lưng thun đệm mây, chống hằn da;. Bề mặt tã quần Huggies được bổ sung tinh chất tràm trà tự nhiên giúp mang đến cảm giác dịu da;. Khả năng thoáng khí được chứng minh lâm sàng giúp ngăn ngừa hăm tã, giữ mông bé luôn khô thoáng;. Nhờ chất liệu mềm mại, bỉm Huggies giúp nâng niu làn da nhạy cảm của bé.Hướng dẫn thay tã. Mặt tã như mặt quần của bé với chữ ""SAU-BACK"" ở mặt sau.. Chỉnh tã ôm vừa chân, tránh bị gập vào để chống tràn hiệu quả.. Khi tã bị bẩn, xé đường thun 2 bên hông để cởi bỏ.Hướng dẫn chọn size tã* Sản phẩm sẽ được giao hàng với bao bì ngẫu nhiên. ﻿""","""Không xác định""","""Không xác định"""
"""Không xác định""",,"""Không xác định"""
"""Sản phẩm Tã dán sơ sinh Moony dưới 5kg, 90 miếng với đặc điểm nổi bật: VIỀN ĐIỀU HÒA THÔNG MINH giúp tã cong ôm vừa vặn cơ thể bé, chống trào hiệu quả. MÀNG VẢI LƯNG THUN 3 VÒNG CO GIÃN 360° giúp khô thoáng cả ngày dài, không lo bị hầm bí và hăm đỏ RÃNH RỐN OHESO giúp bảo vệ phần rốn non nớt của bé sơ sinh SỢI NANO SIÊU MỀM MỊN nhẹ nhàng nâng niu làn da nhạy cảm, mong manh của bé LÕI BÔNG CAO CẤP siêu chống trào CHỈ THỊ ƯỚT giúp báo hiệu cho mẹ thời điểm thay tã cho bé - Bỉm tã Moony là loại bỉm nổi tiếng tại Nhật Bản được sản xuất bởi tập đoàn Unicharm danh tiếng. - Thấm hút rất tốt, với lớp bông mềm và lớp thoáng khí, tạo cảm giác thoải mái, khô thoáng, dễ chịu cho bé. - Đặc biệt Bỉm tã Moony có chất dưỡng da và Vitamin E giúp chống hăm cho bé. - Lưng thun được thiết kế co dãn rất hợp lí, chống trào ngược lên áo khi bé nằm. Các bé sẽ được hưởng cảm giác vừa vặn, êm ái đặc biệt với những bé còn nhỏ phải dùng bỉm 24/24h. - Độ thấm hút cao, tuyệt đối an toàn cho bé Moony với thiết kế chống tràn ra ngoài, bảo vệ bé tốt nhất. - Tã bỉm Moony Nhật có cả miếng dán và quần, rất tiện dụng. THÔNG TIN SẢN PHẨM: Hướng dẫn sử dụng: - Mặt sau tã có miếng dán cố định. Mở miếng tã mới và tròng vào chân bé, kéo CAO ngang hông. - Kéo chắc tay phần băng dính để tã vừa thật khít phần LƯNG hoàn toàn có thể co giãn nên mẹ không phải lo tã ôm quá chặt. Lưu ý: - Đảm bảo vùng đai lưng tã nằm trên rốn bé - Khi dán, nên căng phần băng dính sao cho vùng chống tràn sau lưng được kéo ra Hướng dẫn bảo quản: - Bảo quản nơi khô ráo, thoáng mát, tránh ánh nắng trực tiếp, để xa tầm tay trẻ em. ﻿""","""Chi tiết sản phẩm Tên sản phẩm: Bỉm - Tã dán Moony newborn 90 miếng ( Thương hiệu: Unicharm Xuất xứ thương hiệu: Nhật Bản Kích cỡ (size): Newborn, Số miếng: 90 Bỉm - Tã dán Moony newborn 90 miếng ( là bỉm tã dán dành cho bé sơ sinh của thương hiệu Moony đến từ Nhật Bản. Với viền điều hòa thông minh, sản phẩm giúp bé thoải mái mà không lo trào tã. Viền điều hòa thông minh giúp sản phẩm ôm vừa vặn cơ thể bé, chống trào hiệu quả. Viền điều hòa thông minh là tính năng giúp tã Moony cong ôm vừa vặn cơ thể bé, ngăn ngừa nguy cơ trào tã, mang lại sự thoải mái tốt nhất cho trẻ nhỏ. Màng vải lưng thun 3 vòng co giãn 360° giúp khô thoáng cả ngày dài. Màng vải này giúp tã không bị hầm bí và hăm đỏ, cho bé thoải mái tiếp xúc với không khí, mỗi cử động đều dễ dàng và không bị cản trở. Rãnh rốn Oheso bảo vệ phần rốn non nớt của bé sơ sinh. Rãnh rốn OHESO được thiết kế riêng, giúp bảo vệ phần rốn nhạy cảm của trẻ, tạo cảm giác thoải mái nhất cho các bé ngay từ những ngày đầu đời. Sợi Nano siêu mềm mịn nhẹ nhàng nâng niu làn da nhạy cảm. Chất liệu sợi Nano giúp tã Moony siêu nhẹ, mang lại cảm giác mềm mại và dễ chịu cho làn da của bé yêu, giảm thiểu tình trạng kích ứng da. Lõi bông cao cấp siêu chống trào. Lõi bông được thiết kế để thấm hút cực tốt, giúp sản phẩm giữ cho bé luôn khô thoáng, mà không lo bị tràn ra ngoài. Chỉ thị ướt báo hiệu thời điểm thay tã cho bé. Thêm vào đó, chỉ thị ướt tiện lợi giúp mẹ nhanh chóng nhận biết khi nào cần thay tã cho bé, mang lại sự tiện lợi và chăm sóc tốt nhất. Hướng dẫn chọn size Chọn đúng size tã cho bé là rất quan trọng. Với tã Moony, size Newborn ( Hướng dẫn sử dụng Mặt sau tã có miếng dán cố định. Mở miếng tã mới và tròng vào chân bé, kéo CAO ngang hông. Kéo ch…","""Không xác định"""


**Độ phủ hai cột mô tả: `description_new` vs `description`**

**Bảng tóm tắt (đếm theo NULL thuần):**

| Trường hợp | Số dòng | Tỷ lệ (%) |
|---|---:|---:|
| **Cả hai đều có** (`both_present`) | **6,308** | **23.08** |
| **Chỉ có `description_new`** | **3,194** | **11.69** |
| **Chỉ có `description`** | **2,395** | **8.76** |
| **Không có cả hai** (`neither_present`) | **15,435** | **56.47** |
| **Tổng** | **27,332** | **100.00** |

- Hàng **có `description_new`** = 6,308 + 3,194 = **9,502** (**34.77%**).  
  ⟶ **Thiếu `description_new`** ≈ **17,830**.
- Hàng **có `description`** = 6,308 + 2,395 = **8,703** (**31.84%**).  
  ⟶ **Thiếu `description`** ≈ **18,629**.
- Hàng **có ít nhất một** mô tả = 27,332 − 15,435 = **11,897** (**43.53%**).  
  ⟶ Dù **gộp/điền qua lại**, vẫn còn **56.47%** dòng **không có mô tả**.


### Gợi ý tiền xử lý
- Tạo cột hợp nhất **`description_merged`**: ưu tiên `description_new`, nếu thiếu thì dùng `description`.
- Với nhóm **thiếu cả hai**:
  - Loại/giảm trọng số nếu mô hình cần văn bản, **hoặc**
  - Bổ sung đặc trưng từ metadata (brand, material, category, …), **hoặc**
  - Sinh mô tả tóm tắt từ metadata (nếu phù hợp).


In [12]:
kxd_list = ["không xác định","null"]

s_new = pl.col("description_new").cast(pl.Utf8).str.to_lowercase().str.strip_chars()
s_old = pl.col("description").cast(pl.Utf8).str.to_lowercase().str.strip_chars()

new_has_text = pl.col("description_new").is_not_null() & (s_new.str.len_chars() > 0) & (~s_new.is_in(kxd_list))
old_has_text = pl.col("description").is_not_null() & (s_old.str.len_chars() > 0) & (~s_old.is_in(kxd_list))

counts_value = (
    item_df.select(
        (new_has_text & old_has_text).sum().alias("both_present"),
        (new_has_text & ~old_has_text).sum().alias("only_description_new"),
        (~new_has_text & old_has_text).sum().alias("only_description"),
        (~new_has_text & ~old_has_text).sum().alias("neither_present"),
    )
    .with_columns(
        total = pl.sum_horizontal(pl.all())
    )
    .with_columns(
        *[(pl.col(c) / pl.col("total") * 100).round(2).alias(f"{c}_pct")
          for c in ["both_present","only_description_new","only_description","neither_present"]]
    )
)
print(counts_value)

shape: (1, 9)
┌──────────────┬──────────────────────┬──────────────────┬─────────────────┬───────┬──────────────────┬──────────────────────────┬──────────────────────┬─────────────────────┐
│ both_present ┆ only_description_new ┆ only_description ┆ neither_present ┆ total ┆ both_present_pct ┆ only_description_new_pct ┆ only_description_pct ┆ neither_present_pct │
│ ---          ┆ ---                  ┆ ---              ┆ ---             ┆ ---   ┆ ---              ┆ ---                      ┆ ---                  ┆ ---                 │
│ u32          ┆ u32                  ┆ u32              ┆ u32             ┆ u32   ┆ f64              ┆ f64                      ┆ f64                  ┆ f64                 │
╞══════════════╪══════════════════════╪══════════════════╪═════════════════╪═══════╪══════════════════╪══════════════════════════╪══════════════════════╪═════════════════════╡
│ 6308         ┆ 3194                 ┆ 2395             ┆ 15435           ┆ 27332 ┆ 23.08            ┆ 11

In [None]:
# df_item = item_df.with_columns(
#     pl.when(pl.col("description_new").is_not_null() & (pl.col("description_new").str.len_chars()>0))
#       .then(pl.col("description_new"))
#       .otherwise(pl.col("description"))
#       .alias("description_merged")
# )

#### Tính Cramer's V giữa des_new và des với một số feature có thể liên quan

In [5]:
import polars as pl
from math import sqrt

def cramers_v_fast_pl(df: pl.DataFrame, x: str, y: str):
    """
    Cramér's V (raw) giữa 2 cột phân loại x, y.
    - Chỉ drop NULL ở x,y (giữ nguyên dữ liệu gốc).
    - Không tạo cross-join r*c nên rất nhẹ.
    Trả về: (V, n, r, c)
    """
    d = df.select([x, y]).drop_nulls()
    n = d.height
    if n == 0:
        return float("nan"), 0, 0, 0

    # O_ij
    obs = d.group_by([x, y]).len().rename({"len": "obs"})
    # Tổng hàng & cột
    row = d.group_by(x).len().rename({"len": "row"})
    col = d.group_by(y).len().rename({"len": "col"})
    t = obs.join(row, on=x, how="left").join(col, on=y, how="left")

    # Chi-square: sum(O^2 / E) - N, với E = row_i * col_j / N
    term_sum = t.select(
        ((pl.col("obs") ** 2) / (pl.col("row") * pl.col("col") / n)).sum()
    ).to_series()[0]
    chi2 = term_sum - n
    r, c = d.select(pl.col(x).n_unique().alias("r"),
                    pl.col(y).n_unique().alias("c")).row(0)
    if r < 2 or c < 2:
        return float("nan"), n, r, c
    phi2 = chi2 / n
    V = sqrt(phi2 / min(r - 1, c - 1))
    return float(V), n, r, c

def compare_feature_pl(df: pl.DataFrame, feature: str) -> pl.DataFrame:
    rows = []
    for txt in ["description_new", "description"]:
        v, n, r, c = cramers_v_fast_pl(df, txt, feature)
        rows.append({"feature": feature, "text_col": txt,
                     "n_used": n, "x_levels": r, "y_levels": c,
                     "cramers_v": None if v != v else round(v, 3)})
    return pl.DataFrame(rows)


In [8]:
# 1 feature
print(compare_feature_pl(item_df, "material"))

# Nhiều feature
features = ["material","origin","size","color","item_type",
            "age_group","gender_target","brand","manufacturer","category"]
res = pl.concat([compare_feature_pl(item_df, f) for f in features])
print(res.select(["feature","text_col","cramers_v"])
         .pivot(values="cramers_v", index="feature", columns="text_col")
         .sort("feature"))


shape: (2, 6)
┌──────────┬─────────────────┬────────┬──────────┬──────────┬───────────┐
│ feature  ┆ text_col        ┆ n_used ┆ x_levels ┆ y_levels ┆ cramers_v │
│ ---      ┆ ---             ┆ ---    ┆ ---      ┆ ---      ┆ ---       │
│ str      ┆ str             ┆ i64    ┆ i64      ┆ i64      ┆ f64       │
╞══════════╪═════════════════╪════════╪══════════╪══════════╪═══════════╡
│ material ┆ description_new ┆ 22317  ┆ 9501     ┆ 583      ┆ 0.884     │
│ material ┆ description     ┆ 27332  ┆ 8583     ┆ 583      ┆ 0.964     │
└──────────┴─────────────────┴────────┴──────────┴──────────┴───────────┘
shape: (10, 3)
┌───────────────┬─────────────────┬─────────────┐
│ feature       ┆ description_new ┆ description │
│ ---           ┆ ---             ┆ ---         │
│ str           ┆ f64             ┆ f64         │
╞═══════════════╪═════════════════╪═════════════╡
│ age_group     ┆ 0.762           ┆ 0.818       │
│ brand         ┆ 0.867           ┆ 0.837       │
│ category      ┆ 0.838      

  .pivot(values="cramers_v", index="feature", columns="text_col")


### Tính contain_ratio cho những dòng both present des_new và des

In [12]:
import polars as pl
import re

# =======================
# 1) Tham số có thể chỉnh
# =======================
LEVEL = "word"   # "word" (theo từ) hoặc "char" (theo ký tự)
N     = 2        # n-gram: word bigram (2) / trigram (3) ; hoặc char-gram (ví dụ 5)

# =======================
# 2) Hàm tiện ích
# =======================
def tokenize(s: str):
    # Tách từ đơn giản, giữ unicode (phù hợp TV/TViệt)
    return re.findall(r"\w+", s.lower())

def ngrams(tokens, n=2):
    if len(tokens) < n: 
        return []
    return [" ".join(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

def build_set(s: str, level="word", n=2):
    if not s:
        return set()
    if level == "char":
        s_norm = re.sub(r"\s+", " ", s.lower())
        if len(s_norm) < n:
            return set()
        return set(s_norm[i:i+n] for i in range(len(s_norm)-n+1))
    elif level == "word":
        toks = tokenize(s)
        if n == 1:
            return set(toks)
        else:
            return set(ngrams(toks, n))
    else:
        raise ValueError("LEVEL phải là 'word' hoặc 'char'.")

def contain_ratio_sets(A_set: set, B_set: set) -> float:
    return 0.0 if not A_set else len(A_set & B_set) / len(A_set)

def contain_pair(a: str, b: str, level="word", n=2):
    """
    Trả về (recall=A|B, precision=B|A, F1, sizeA, sizeB)
    """
    A = build_set(a, level=level, n=n)
    B = build_set(b, level=level, n=n)
    r = contain_ratio_sets(A, B)  # A nằm trong B bao nhiêu %
    p = contain_ratio_sets(B, A)  # B nằm trong A bao nhiêu %
    f1 = 0.0 if (p + r) == 0 else 2 * p * r / (p + r)
    return (r, p, f1, len(A), len(B))

# ===========================================
# 3) Mask both_present & báo cáo tình trạng null
# ===========================================
mask_both = (
    pl.col("description").is_not_null() & pl.col("description_new").is_not_null() &
    (pl.col("description").str.len_chars() > 0) &
    (pl.col("description_new").str.len_chars() > 0)
)

null_report = item_df.select([
    (pl.col("description").is_null() & pl.col("description_new").is_null()).mean().alias("both_null_frac"),
    (pl.col("description").is_null() & pl.col("description_new").is_not_null()).mean().alias("desc_null_only_frac"),
    (pl.col("description").is_not_null() & pl.col("description_new").is_null()).mean().alias("desc_new_null_only_frac"),
    mask_both.mean().alias("both_present_frac"),
])
print("=== Null report (fraction) ===")
print(null_report)

# ===========================================
# 4) Tính contain trên tập both_present
# ===========================================
both_df = item_df.filter(mask_both)

# Thêm 3 cột: recall(A|B), precision(B|A), F1
res = both_df.with_columns([
    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[0]
    ).alias("contain_desc_in_descnew"),  # recall: A|B

    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[1]
    ).alias("contain_descnew_in_desc"),  # precision: B|A

    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[2]
    ).alias("contain_f1"),
])

# Tóm tắt nhanh
summary = res.select([
    pl.len().alias("n_both_present"),
    pl.col("contain_desc_in_descnew").mean().alias("mean_contain(A|B)"),
    pl.col("contain_descnew_in_desc").mean().alias("mean_contain(B|A)"),
    pl.col("contain_f1").mean().alias("mean_contain_F1"),
    pl.col("contain_desc_in_descnew").quantile(0.5).alias("median_contain(A|B)"),
    pl.col("contain_desc_in_descnew").quantile(0.9).alias("p90_contain(A|B)"),
])
print("=== Containment summary (LEVEL={}, N={}) ===".format(LEVEL, N))
print(summary)

# (Tuỳ chọn) xem vài dòng có F1 cao để sanity-check
print(res.select(["description", "description_new", "contain_desc_in_descnew", "contain_descnew_in_desc", "contain_f1"])
        .sort("contain_f1", descending=True)
        .head(10))

=== Null report (fraction) ===
shape: (1, 4)
┌────────────────┬─────────────────────┬─────────────────────────┬───────────────────┐
│ both_null_frac ┆ desc_null_only_frac ┆ desc_new_null_only_frac ┆ both_present_frac │
│ ---            ┆ ---                 ┆ ---                     ┆ ---               │
│ f64            ┆ f64                 ┆ f64                     ┆ f64               │
╞════════════════╪═════════════════════╪═════════════════════════╪═══════════════════╡
│ 0.0            ┆ 0.0                 ┆ 0.183485                ┆ 0.816515          │
└────────────────┴─────────────────────┴─────────────────────────┴───────────────────┘
=== Containment summary (LEVEL=word, N=2) ===
shape: (1, 6)
┌────────────────┬───────────────────┬───────────────────┬─────────────────┬─────────────────────┬──────────────────┐
│ n_both_present ┆ mean_contain(A|B) ┆ mean_contain(B|A) ┆ mean_contain_F1 ┆ median_contain(A|B) ┆ p90_contain(A|B) │
│ ---            ┆ ---               ┆ ---        

Ở trên chưa bỏ Không xác định -> sai

In [13]:
import polars as pl
import re

# ===== 1) Cấu hình =====
LEVEL = "word"   # "word" hoặc "char"
N = 2            # n-gram: 1/2/3... ; ví dụ word-bigram = 2

# Các giá trị được coi là "thiếu"
PLACEHOLDERS = [
    "", "-", "--",
    "không xác định", "khong xac dinh", "không xac dinh",
    "không rõ", "chưa rõ", "không có thông tin",
    "n/a", "na", "none", "null", "unk", "unknown"
]

# ===== 2) Hàm tiện ích =====
def tokenize(s: str):
    return re.findall(r"\w+", s.lower())

def ngrams(tokens, n=2):
    if len(tokens) < n: 
        return []
    return [" ".join(tokens[i:i+n]) for i in range(len(tokens)-n+1)]

def build_set(s: str, level="word", n=2):
    if not s:
        return set()
    if level == "char":
        s_norm = re.sub(r"\s+", " ", s.lower()).strip()
        if len(s_norm) < n:
            return set()
        return set(s_norm[i:i+n] for i in range(len(s_norm)-n+1))
    else:
        toks = tokenize(s)
        return set(toks) if n == 1 else set(ngrams(toks, n))

def contain_ratio_sets(A_set: set, B_set: set) -> float:
    return 0.0 if not A_set else len(A_set & B_set) / len(A_set)

def contain_pair(a: str, b: str, level="word", n=2):
    A = build_set(a, level=level, n=n)
    B = build_set(b, level=level, n=n)
    r = contain_ratio_sets(A, B)  # Contain(A|B)
    p = contain_ratio_sets(B, A)  # Contain(B|A)
    f1 = 0.0 if (p + r) == 0 else 2 * p * r / (p + r)
    return (r, p, f1, len(A), len(B))

# Chuẩn hoá text để so đối chiếu placeholder
def norm_expr(colname: str):
    return (
        pl.col(colname).cast(pl.Utf8)
        .str.to_lowercase()
        .str.replace_all(r"\s+", " ")
        .str.strip_chars(" .,-:;—–_/\\|\"'`")  # bỏ dấu câu ở đầu/cuối
        .str.strip_chars()                     # bỏ khoảng trắng thừa
    )

def is_missing(colname: str):
    n = norm_expr(colname)
    return pl.col(colname).is_null() | n.is_in(PLACEHOLDERS)

# ===== 3) Mask both_present với định nghĩa "thiếu" mới =====
miss_desc     = is_missing("description")
miss_desc_new = is_missing("description_new")
both_present  = (~miss_desc) & (~miss_desc_new)

# Báo cáo thiếu dữ liệu (fraction)
null_report = item_df.select([
    (miss_desc & miss_desc_new).mean().alias("both_null_frac"),
    (miss_desc & (~miss_desc_new)).mean().alias("desc_null_only_frac"),
    ((~miss_desc) & miss_desc_new).mean().alias("desc_new_null_only_frac"),
    both_present.mean().alias("both_present_frac"),
])
print("=== Null report (fraction) — placeholders treated as null ===")
print(null_report)

# ===== 4) Tính containment chỉ trên both_present =====
both_df = item_df.filter(both_present)

res = both_df.with_columns([
    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[0]
    ).alias("contain_desc_in_descnew"),   # recall: A|B

    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[1]
    ).alias("contain_descnew_in_desc"),   # precision: B|A

    pl.struct(["description", "description_new"]).map_elements(
        lambda row: contain_pair(row["description"], row["description_new"], level=LEVEL, n=N)[2]
    ).alias("contain_f1"),
])

summary = res.select([
    pl.len().alias("n_both_present"),
    pl.col("contain_desc_in_descnew").mean().alias("mean_contain(A|B)"),
    pl.col("contain_descnew_in_desc").mean().alias("mean_contain(B|A)"),
    pl.col("contain_f1").mean().alias("mean_contain_F1"),
    pl.col("contain_desc_in_descnew").quantile(0.5).alias("median_contain(A|B)"),
    pl.col("contain_desc_in_descnew").quantile(0.9).alias("p90_contain(A|B)"),
])
print(f"=== Containment summary (LEVEL={LEVEL}, N={N}) — after placeholder filtering ===")
print(summary)

# (Tuỳ chọn) kiểm tra vài dòng F1 cao
print(res.select(["description", "description_new", "contain_desc_in_descnew", "contain_descnew_in_desc", "contain_f1"])
        .sort("contain_f1", descending=True)
        .head(10))


=== Null report (fraction) — placeholders treated as null ===
shape: (1, 4)
┌────────────────┬─────────────────────┬─────────────────────────┬───────────────────┐
│ both_null_frac ┆ desc_null_only_frac ┆ desc_new_null_only_frac ┆ both_present_frac │
│ ---            ┆ ---                 ┆ ---                     ┆ ---               │
│ f64            ┆ f64                 ┆ f64                     ┆ f64               │
╞════════════════╪═════════════════════╪═════════════════════════╪═══════════════════╡
│ 0.564723       ┆ 0.116859            ┆ 0.087626                ┆ 0.230792          │
└────────────────┴─────────────────────┴─────────────────────────┴───────────────────┘
=== Containment summary (LEVEL=word, N=2) — after placeholder filtering ===
shape: (1, 6)
┌────────────────┬───────────────────┬───────────────────┬─────────────────┬─────────────────────┬──────────────────┐
│ n_both_present ┆ mean_contain(A|B) ┆ mean_contain(B|A) ┆ mean_contain_F1 ┆ median_contain(A|B) ┆ p90_cont

**mean Contain(A|B) = 0.623**
- Trung bình 62.3% bigram trong description cũng có trong description_new.
- Khi có dữ liệu thật, description_new bao phủ phần lớn nội dung của description.

**mean Contain(B|A) = 0.324**
- Chỉ 32.4% bigram trong description_new xuất hiện trong description.
-  description_new giàu/chi tiết hơn, có nhiều cụm mới (vd. “Tên sản phẩm/Thương hiệu/Xuất xứ/Kích thước…”) mà description không có.
-  Đây là lý do precision thấp.

**mean F1 = 0.405**
- Trung bình độ khớp hai chiều chỉ ở mức vừa (hàm hòa hợp của hai contain). Bị kéo xuống bởi B|A thấp.

**median Contain(A|B) = 0.620; p90 = 0.807**
- 50% cặp có ≥62% nội dung description được bao bởi description_new; top 10% đạt ≥80.7%.
- Phân bố khá lệch: nhiều cặp khớp tốt, nhưng cũng có không ít cặp lệch mạnh (kéo mean xuống).