# Đọc dữ liệu

In [1]:
import os
import polars as pl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
def read_parquet_by_type(train_path: str):
    # Lấy tất cả các file parquet trong thư mục
    files = [os.path.join(train_path, f) for f in os.listdir(train_path) if f.endswith('.parquet')]
    
    # Phân loại các file theo loại tên
    user_chunk_files = [file for file in files if 'user_chunk' in file]
    purchase_history_chunk_files = [file for file in files if 'purchase_history_daily_chunk' in file]
    item_chunk_files = [file for file in files if 'item_chunk' in file]
    
    # Đọc các file riêng biệt thành DataFrame
    user_chunk_df = pl.concat([pl.read_parquet(file) for file in user_chunk_files]) if user_chunk_files else None
    purchase_history_chunk_df = pl.concat([pl.read_parquet(file) for file in purchase_history_chunk_files]) if purchase_history_chunk_files else None
    item_chunk_df = pl.concat([pl.read_parquet(file) for file in item_chunk_files]) if item_chunk_files else None
    
    # Trả về một dictionary chứa các DataFrame
    return {
        "user_chunk": user_chunk_df,
        "purchase_history_chunk": purchase_history_chunk_df,
        "item_chunk": item_chunk_df
    }

In [3]:
train_path = 'E:/KHMT2023_CS_UIT/05_C_Python_For_ML/recommendation_dataset'
dataframes = read_parquet_by_type(train_path)

In [4]:
df_user = dataframes["user_chunk"]
df_purchase = dataframes["purchase_history_chunk"]
df_item = dataframes["item_chunk"]

In [25]:
print(df_purchase.columns)
print(df_item.columns)
print(df_user.columns)

['timestamp', 'user_id', 'item_id', 'event_type', 'event_value', 'price', 'date_key', 'quantity', 'customer_id', 'created_date', 'updated_date', 'channel', 'payment', 'location', 'discount', 'is_deleted']
['p_id', 'item_id', 'price', 'category_l1_id', 'category_l1', 'category_l2_id', 'category_l2', 'category_l3_id', 'category_l3', 'category_id', 'category', 'description', 'brand', 'manufacturer', 'creation_timestamp', 'is_deleted', 'created_date', 'updated_date', 'sync_status_id', 'last_sync_date', 'sync_error_message', 'image_url', 'gender_target', 'age_group', 'item_type', 'gp', 'weight', 'color', 'size', 'origin', 'volume', 'material', 'sale_status', 'description_new']
['customer_id', 'gender', 'location', 'province', 'membership', 'timestamp', 'created_date', 'updated_date', 'sync_status_id', 'last_sync_date', 'sync_error_message', 'region', 'location_name', 'install_app', 'install_date', 'district', 'user_id', 'is_deleted']


In [10]:
print(df_item['age_group'].unique().to_list())

['9M-20M', '0-12Y', 'Từ 8M', '1Y-6Y', 'Từ 18M', '0-4Y', '3Y-10Y', '["Từ 3M", "Từ 6M"]', '0-6Y', '0-9M', '6M-15M', '4M-4Y', '1Y-11Y', '4M-6M', '["Từ 0M", "Từ 3M", "Từ 6M"]', '7Y-14Y', '2Y-6Y', 'Từ 13Y', '3M-6M', '3Y-5Y', 'Từ 9M', '0-24M', 'Từ 10Y', '["Từ 0M", "Từ 3M"]', '1M-12M', '9M-36M', 'Từ 19M', '["Từ 3M", "Từ 6M", "Từ 9M", "Từ 1Y"]', '0-3M', '2Y-3Y', 'Từ 1M', '11Y-12Y', '0-18M', 'Mẹ', '13M-24M', '3Y-6Y', '6M-6Y', '7Y-10Y', '10Y-12Y', '3M-12M', 'Từ 1Y', 'Từ 7Y', '12M-18M', '18M-24M', '3Y-12Y', '1Y-16Y', '6M-5Y', '0-5M', '["Từ 3M", "Từ 6M", "Từ 1Y"]', 'Từ 3Y', 'Không xác định', '3M-24M', '8Y-14Y', '7Y-8Y', '2M-6M', 'Từ 4Y', 'Từ 2M', '1M-15M', '0-5Y', '18M-4Y', '6M-24M', '1Y-12Y', 'Từ 12Y', 'Trên 6M', 'Từ 0M', '9M-4Y', '0-2M', 'Từ 3M', 'Từ 5Y', '6M-18M', '0-10M', '9M-12M', 'Trên 1Y', '1Y-2Y', 'Từ 4M', 'Trên 2Y', 'Từ 2Y', '1Y-3Y', '6M-9M', '9M-24M', '6M-12M', '["Từ 6M", "Từ 9M", "Từ 1Y"]', '1Y-10Y', '0-1M', 'Từ 10M', 'Từ 19Y', '3M-18M', '9M-6Y', '2Y-10Y', '1Y-4Y', '3Y-4Y', '6M-12Y', '1

In [11]:
print(df_item['category'].unique().to_list())

['Bình sữa Pigeon', 'Ildong', 'Giày tập đi 165k S15', 'Goon Mommy Kiss_Tã Quần', 'Sữa tắm Lifebuoy', 'Khăn giấy khô Kleenex', 'Balo, túi cho mẹ', 'Bellamy Mom', 'Máy hâm sữa, tiệt trùng Moaz BéBé', 'Túi rác', 'Friso Pro Step 4', 'Lắp ráp/Xếp hình', 'Kun', 'Nồi nấu chậm Bear', 'Xe đẩy Combi', 'Bubs A2 Step 3', 'Sáp thơm Felce Azzurra', 'Giày chút chít 179k S14', 'Thú bông', 'Địu ngừng bán', 'Nuvi Grow', 'Purelac Step 3', 'Tắm gội thảo dược Diệp An Nhi', 'Enfa Step 3', 'Quần lót cho bé', 'President', 'Dưỡng môi Palmer', 'Kem đánh răng Chicco', 'Lactozim', 'Set 6 Bộ bao tay chân', 'Áo sơ sinh', 'Enfa Mom', 'Huggies Thường_Tã Dán M-XXL', 'Lotte', 'Tokyo Noodle', 'Kidsmania', 'Kem đánh răng cho bé Bzu Bzu', 'Pediasure Step 0', 'Xông vùng kín', 'Bodysuit', 'Đầm cũ', 'Nhập vai Unisex', 'Chela', 'Khăn gạc, khăn sữa Sợi Tre Animo', 'XiaoLeFeng', 'Dầu Đậu nành', 'Bodysuit Chống muỗi set 2', 'Pocky', 'Ba lô', 'Colosbaby Step 1', 'Băng vệ sinh Diana thường', 'Metafresh', 'Nestle', 'Colosbaby Step 

In [22]:
import pandas as pd
df_item['age_group'].unique().to_pandas().to_csv('E:/KHMT2023_CS_UIT/05_C_Python_For_ML/Team_Github/05_C_Python_For_ML/Task_2.1_Important_Feature/age_group.csv', index=False)

In [23]:
df_item['category'].unique().to_pandas().to_csv('E:/KHMT2023_CS_UIT/05_C_Python_For_ML/Team_Github/05_C_Python_For_ML/Task_2.1_Important_Feature/category.csv', index=False)

In [31]:
import polars as pl
import datetime

# Giả sử df_item chứa các cột 'category_l1', 'category_l2', 'category_l3', 'description', 'description_new'
# Giả sử df_purchase chứa các cột 'user_id', 'item_id', 'timestamp'

# Chuyển 'timestamp' thành kiểu dữ liệu DateTime
df_purchase = df_purchase.with_columns([
    pl.col('timestamp').cast(pl.Datetime).alias('timestamp_converted')  # Không cần fmt
])

# Tạo một DataFrame mới với các cột 'user_id' và 'item_id' từ df_purchase và thông tin từ df_item
df_combined = df_purchase.join(df_item, on='item_id', how='left')

# Tạo cột first_day_step_1: Ngày đầu tiên mua item có category chứa 'step 1'
df_combined = df_combined.with_columns([
    pl.when(pl.col('category').str.contains('step 1', case=False))
    .then(pl.col('timestamp'))
    .otherwise(pl.lit(None).cast(pl.Datetime))
    .alias('first_day_step_1')
])

# Tính tuổi dựa trên first_day_step_1
current_date = pl.lit(datetime.date.today())
df_combined = df_combined.with_columns([
    (current_date - pl.col('first_day_step_1')).alias('age_by_step1')
])

# Tạo cột first_day_age: Ngày đầu tiên mua item có age_group chứa các giá trị liên quan đến độ tuổi 0M, 0-3M, 0-2M
df_combined = df_combined.with_columns([
    pl.when(pl.col('age_group').str.contains('0M|0-3M|0-2M', case=False))
    .then(pl.col('timestamp'))
    .otherwise(pl.lit(None).cast(pl.Datetime))
    .alias('first_day_age')
])

# Tính tuổi dựa trên first_day_age
df_combined = df_combined.with_columns([
    (current_date - pl.col('first_day_age')).alias('age_by_age')
])

# Tạo cột first_day_milk: Ngày đầu tiên mua item có category chứa các từ khóa liên quan đến sữa
milk_keywords = ['Máy hâm sữa', 'Hút sữa', 'trữ sữa', 'pha sữa', 'bình sữa', 'ủ sữa', 'thấm sữa', 'khăn sữa']
df_combined = df_combined.with_columns([
    pl.when(pl.col('category').str.contains('|'.join(milk_keywords), case=False))
    .then(pl.col('timestamp'))
    .otherwise(pl.lit(None).cast(pl.Datetime))
    .alias('first_day_milk')
])

# Tính tuổi dựa trên first_day_milk
df_combined = df_combined.with_columns([
    (current_date - pl.col('first_day_milk')).alias('age_by_milk')
])

# Chỉ giữ lại các cột cần thiết
df_result = df_combined.select([
    'user_id', 'item_id', 'first_day_step_1', 'age_by_step1', 'first_day_age', 'age_by_age', 'first_day_milk', 'age_by_milk'
])

# Kiểm tra kết quả
print(df_result.head())


: 