# Installation

In [None]:
import numpy as np
import pandas as pd
import re
import gdown

In [None]:
!mkdir -p data

In [None]:
file_id = '1iFU-jK5zROLR1xnb3WnT0u0qjZeq58Z7'
url = f'https://drive.google.com/uc?id={file_id}'
output = 'data/general_info_v3.csv'
gdown.download(url, output, quiet=False )

Downloading...
From: https://drive.google.com/uc?id=1iFU-jK5zROLR1xnb3WnT0u0qjZeq58Z7
To: /content/data/general_info_v3.csv
100%|██████████| 1.52M/1.52M [00:00<00:00, 43.1MB/s]


'data/general_info_v3.csv'

In [None]:
df_general_v2 = pd.read_csv('data/general_info_v3.csv')


In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', None)

# Check laptop_variant

In [None]:
file_id = "1CIbqME8HqdJ_QY9mMtnsiWmKFU_3tWJx"
url = f"https://drive.google.com/uc?id={file_id}"
output = "data/laptop_price_color.csv"
gdown.download(url, output, quiet=False)

Downloading...
From: https://drive.google.com/uc?id=1CIbqME8HqdJ_QY9mMtnsiWmKFU_3tWJx
To: /content/data/laptop_price_color.csv
100%|██████████| 697k/697k [00:00<00:00, 85.6MB/s]


'data/laptop_price_color.csv'

In [None]:
df_variant = pd.read_csv("data/laptop_price_color.csv")

# Merge laptop & variants

In [None]:
file_id = "12l9A9o69S71RCvT2sCGPLUUF1ux3FPje"
url = f"https://drive.google.com/uc?id={file_id}"
output = "data/general_info_v3.csv"
gdown.download(url, output, quiet=False)


Downloading...
From: https://drive.google.com/uc?id=12l9A9o69S71RCvT2sCGPLUUF1ux3FPje
To: /content/data/general_info_v3.csv
100%|██████████| 1.53M/1.53M [00:00<00:00, 126MB/s]


'data/general_info_v3.csv'

In [None]:
df_general_v3 = pd.read_csv('data/general_info_v3.csv')

In [None]:
df_general_v3.columns

Index(['product_id', 'name', 'image', 'display_size', 'storage_gb',
       'key_selling_points', 'cam_ung', 'material', 'laptop_special_feature',
       'laptop_nganh_hoc', 'ram_storage', 'ram_max_support', 'product_state',
       'storage_max_support', 'nhu_cau_su_dung', 'manufacturer',
       'filter_label', 'cpu_brand', 'is_installment', 'filter_id',
       'warranty_info', 'product_weight', 'url_path', 'url_key', 'os_version',
       'display_width', 'vga_brand', 'bluetooth_version', 'has_bluetooth',
       'display_height', 'ram_type', 'cpu_series', 'o_cung_laptop', 'vga_type',
       'ports_slots', 'width_mm', 'height_mm', 'depth_mm', 'display_type',
       'battery_capacity', 'laptop_camera', 'laptop_cong_nghe_am_thanh',
       'ram_slots', 'cpu_model', 'ram_speed', 'cpu_cores',
       'laptop_tam_nen_man_hinh', 'root_price', 'discounted_price',
       'cpu_max_speed', 'refresh_rate', 'cpu_threads', 'cpu_speed',
       'vga_vram'],
      dtype='object')

In [None]:
if df_general_v3['product_id'].dtypes != df_variant['root-laptop_id'].dtypes:
  print("Error: Data types do not match")
  df_general_v3['product_id'] = df_general_v3['product_id'].astype(int)
  df_variant['root-laptop_id'] = df_variant['root-laptop_id'].astype(int)

# LEFT JOIN with left side is df_general_v3 --> keep all
merged_df = pd.merge(df_general_v3, df_variant,
                     how = 'left',
                     left_on = 'product_id',
                     right_on = 'root-laptop_id',
                     suffixes = ('_general', '_variant') # add suffix for same-name columns
                     )

In [None]:
print(f"Số dòng trong DataFrame đã merge: {len(merged_df)}")

Số dòng trong DataFrame đã merge: 903


# Fixing (1) + (2)

In [None]:
merged_df.columns

Index(['product_id', 'name', 'display_size', 'storage_gb', 'cam_ung',
       'key_selling_points', 'material', 'laptop_nganh_hoc', 'refresh_rate',
       'ram_storage', 'laptop_tam_nen_man_hinh', 'ram_max_support',
       'product_state', 'storage_max_support', 'nhu_cau_su_dung',
       'manufacturer', 'filter_label', 'cpu_brand', 'is_installment',
       'filter_id', 'warranty_information', 'product_weight', 'url_path',
       'vga_vram', 'vga_brand', 'ram_speed', 'ram_slots', 'ram_type',
       'cpu_cores', 'cpu_model', 'cpu_series', 'display_width', 'os_version',
       'display_height', 'bluetooth_version', 'width_mm', 'battery_capacity',
       'height_mm', 'depth_mm', 'laptop_camera', 'vga_type', 'has_bluetooth',
       'o_cung_laptop', 'ports_slots', 'laptop_screen_size_filter',
       'display_type', 'laptop_cong_nghe_am_thanh', 'laptop_special_feature',
       'root_price', 'discounted_price', 'cpu_threads', 'child_laptop_image',
       'child_laptop_link', 'laptop_color'],
  

## product_id
* if (root-laptop_id): product_id = child-laptop_id
* else: product_id = product-id
* delete root-laptop_id and child-laptoop_id

In [None]:
merged_df['product_id'] = merged_df.apply(
    lambda row: row['child-laptop_id'] if pd.notna(row['root-laptop_id']) else row['product_id'],
    axis=1
)


In [None]:
merged_df[['product_id','root-laptop_id','child-laptop_id']]

Unnamed: 0,product_id,root-laptop_id,child-laptop_id
0,75444.0,75443.0,75444.0
1,86461.0,49568.0,86461.0
2,86460.0,49568.0,86460.0
3,86462.0,49568.0,86462.0
4,86459.0,49568.0,86459.0
5,101837.0,101832.0,101837.0
6,101838.0,101832.0,101838.0
7,101835.0,101832.0,101835.0
8,101836.0,101832.0,101836.0
9,91455.0,91451.0,91455.0


In [None]:
# check if there is any duplicate in 'product_id' column

if merged_df['product_id'].duplicated().any():
  print("There are duplicate product_id values.")
else:
  print("There are no duplicate product_id values.")

There are no duplicate product_id values.


In [None]:
merged_df.drop(columns=['root-laptop_id', 'child-laptop_id'], inplace=True)

In [None]:
print(f'Null: {merged_df["product_id"].isna().sum()}')

Null: 0


## name & child-laptop_name

In [None]:
merged_df[['name', 'child_laptop_name']]

Unnamed: 0,name,child_laptop_name
0,Laptop Gaming Acer Nitro V ANV15-51-58AN,Laptop Gaming Acer Nitro V ANV15-51-58AN-Đen
1,Apple MacBook Air M2 2024 8CPU 8GPU 16GB 256GB I Chnh hng Apple Vit Nam,MacBook Air M2 2022 16GB 256GB 2022 Sạc 30W I Chính hãng Apple Việt Nam-Trắng vàng
2,Apple MacBook Air M2 2024 8CPU 8GPU 16GB 256GB I Chnh hng Apple Vit Nam,MacBook Air M2 2022 16GB 256GB 2022 Sạc 30W I Chính hãng Apple Việt Nam-Xám
3,Apple MacBook Air M2 2024 8CPU 8GPU 16GB 256GB I Chnh hng Apple Vit Nam,MacBook Air M2 2022 16GB 256GB 2022 Sạc 30W I Chính hãng Apple Việt Nam-Đen
4,Apple MacBook Air M2 2024 8CPU 8GPU 16GB 256GB I Chnh hng Apple Vit Nam,MacBook Air M2 2022 16GB 256GB 2022 Sạc 30W I Chính hãng Apple Việt Nam-Bạc
5,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB | Chính hãng Apple Việt Nam-Ánh sao
6,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB | Chính hãng Apple Việt Nam-Đêm xanh thẳm
7,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB | Chính hãng Apple Việt Nam-Xanh da trời
8,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB,MacBook Air M4 13 inch 2025 10CPU 8GPU 16GB 256GB | Chính hãng Apple Việt Nam-Bạc
9,Laptop ASUS TUF Gaming A15 FA506NCR-HN047W,Laptop ASUS TUF Gaming A15 FA506NCR-HN047W-Đen


In [None]:
merged_df['name'] = merged_df.apply(
    lambda row: row['child_laptop_name'] if pd.notna(row['child_laptop_name']) else row['name'],
    axis=1
)

In [None]:
print(f'Null: {merged_df["name"].isna().sum()}')

Null: 0


In [None]:
merged_df.drop(columns = ['child_laptop_name'], inplace=True)

## url_key, url_path, child_laptop_link

In [None]:
merged_df['child_laptop_link']

Unnamed: 0,child_laptop_link
0,/laptop-gaming-acer-nitro-v-anv15-51-58an.html?product_id=75444
1,/macbook-air-m2-2022-16gb.html?product_id=86461
2,/macbook-air-m2-2022-16gb.html?product_id=86460
3,/macbook-air-m2-2022-16gb.html?product_id=86462
4,/macbook-air-m2-2022-16gb.html?product_id=86459
5,/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101837
6,/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101838
7,/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101835
8,/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101836
9,/laptop-asus-tuf-gaming-a15-fa506ncr-hn047w.html?product_id=91455


In [None]:
merged_df['url_path'] = merged_df.apply(
    lambda row: row['child_laptop_link'] if pd.notna(row['child_laptop_link']) else row['url_path'],
    axis=1
)

In [None]:
print(f'Null: {merged_df["url_path"].isna().sum()}')

Null: 0


In [None]:
# Add 'https://cellphones.com.vn' to url_path
merged_df['url_path'] = 'https://cellphones.com.vn' + merged_df['url_path']

In [None]:
merged_df['url_path']

Unnamed: 0,url_path
0,https://cellphones.com.vn/laptop-gaming-acer-nitro-v-anv15-51-58an.html?product_id=75444
1,https://cellphones.com.vn/macbook-air-m2-2022-16gb.html?product_id=86461
2,https://cellphones.com.vn/macbook-air-m2-2022-16gb.html?product_id=86460
3,https://cellphones.com.vn/macbook-air-m2-2022-16gb.html?product_id=86462
4,https://cellphones.com.vn/macbook-air-m2-2022-16gb.html?product_id=86459
5,https://cellphones.com.vn/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101837
6,https://cellphones.com.vn/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101838
7,https://cellphones.com.vn/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101835
8,https://cellphones.com.vn/apple-macbook-air-13-m4-10cpu-8gpu-16gb-256gb-2025.html?product_id=101836
9,https://cellphones.com.vn/laptop-asus-tuf-gaming-a15-fa506ncr-hn047w.html?product_id=91455


In [None]:
merged_df.drop(columns =[['url_key','child_laptop_link']], inplace=True)

## image & child_laptop_image

In [None]:
merged_df['image'] = merged_df.apply(
    lambda row: row['child_laptop_image'] if pd.notna(row['child_laptop_image']) else row['image'],
    axis=1
)

In [None]:
merged_df.drop(columns =['child_laptop_image'], inplace=True)

## child_laptop_color

In [None]:
merged_df.rename(columns={'child_laptop_color': 'laptop_color'}, inplace=True)
merged_df['laptop_color'] = merged_df['laptop_color'].str.lower()
merged_df['laptop_color'].fillna('đen', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  merged_df['laptop_color'].fillna('đen', inplace=True)


## root_price, discounted_price & child_laptop_price

In [None]:
merged_df[['root_price','discounted_price','child_laptop_price']]

Unnamed: 0,root_price,discounted_price,child_laptop_price
0,21490000.0,16390000.0,16.990.000₫
1,24990000.0,21190000.0,21.390.000₫
2,24990000.0,21190000.0,21.790.000₫
3,24990000.0,21190000.0,21.090.000₫
4,24990000.0,21190000.0,21.790.000₫
5,26990000.0,26390000.0,26.990.000₫
6,26990000.0,26390000.0,26.490.000₫
7,26990000.0,26390000.0,26.990.000₫
8,26990000.0,26390000.0,26.990.000₫
9,23490000.0,19090000.0,19.490.000₫


In [None]:
def clear_unit(text):
  if pd.isna(text):
    return None
  match = text.replace('₫','').replace('.', '').strip()
  return int(match)

In [None]:
merged_df['child_laptop_price'] = merged_df['child_laptop_price'].apply(clear_unit)
def choose_best_price(row):
    child_price = row['child_laptop_price']
    discounted_price = row['discounted_price']

    # If discounted_price is NaN or child_price is less than discounted
    if pd.isna(discounted_price):
      if pd.isna(child_price):
        return None
      else:
        return child_price
    elif pd.isna(child_price):
      if pd.isna(discounted_price):
        return None
      else:
        return discounted_price
    elif child_price < discounted_price:
        return child_price
    else:
        return discounted_price

merged_df['discounted_price'] = merged_df.apply(choose_best_price, axis=1)


In [None]:
merged_df[['root_price','discounted_price','child_laptop_price']]

Unnamed: 0,root_price,discounted_price,child_laptop_price
0,21490000.0,16390000.0,16990000.0
1,24990000.0,21190000.0,21390000.0
2,24990000.0,21190000.0,21790000.0
3,24990000.0,21090000.0,21090000.0
4,24990000.0,21190000.0,21790000.0
5,26990000.0,26390000.0,26990000.0
6,26990000.0,26390000.0,26490000.0
7,26990000.0,26390000.0,26990000.0
8,26990000.0,26390000.0,26990000.0
9,23490000.0,19090000.0,19490000.0


In [None]:
merged_df.drop(columns =['child_laptop_price'], inplace=True)

In [None]:
print(f'Null: {merged_df["discounted_price"].isna().sum()}')

Null: 224


In [None]:
print(f'Null: {merged_df["root_price"].isna().sum()}')

Null: 228


## key_selling_points & child_features

In [None]:
merged_df[['key_selling_points', 'special_features']]

Unnamed: 0,key_selling_points,special_features
0,"['CPU Intel Core i5-13420H cân mọi tựa game từ AAA đến game Esport.', 'GPU GeForce RTX 2050 mới nhất cho đồ họa cực đỉnh, chiến mọi tựa game với mức cài đặt cao.', 'RAM 16 GB DDR5 5200Mhz, khả năng xử lý đa nhiệm và đa tác vụ của máy càng được tăng tốc tối đa.', 'Màn hình 15.6 inch Full HD, tần số quét chuẩn chiến game 144Hz.', 'Ổ cứng 512GB PCIE rộng rãi, lưu mọi tựa game dễ dàng.']","['CPU Intel Core i5-13420H cân mọi tựa game từ AAA đến game Esport.', 'GPU GeForce RTX 2050 mới nhất cho đồ họa cực đỉnh, chiến mọi tựa game với mức cài đặt cao.', 'RAM 16 GB DDR5 5200Mhz, khả năng xử lý đa nhiệm và đa tác vụ của máy càng được tăng tốc tối đa.', 'Màn hình 15.6 inch Full HD, tần số quét chuẩn chiến game 144Hz.', 'Ổ cứng\xa0512GB PCIE rộng rãi, lưu mọi tựa game dễ dàng.']"
1,"['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']","['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']"
2,"['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']","['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']"
3,"['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']","['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']"
4,"['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']","['Thiết kế sang trọng, lịch lãm - siêu mỏng 11.3mm, chỉ 1.24kg', 'Hiệu năng hàng đầu - Chip Apple m2, 8 nhân GPU, hỗ trợ tốt các phần mềm như Word, Axel, Adoble Premier', 'Đa nhiệm mượt mà - Ram 16GB, SSD 256GB cho phép vừa làm việc, vừa nghe nhạc', 'Màn hình sắc nét - Độ phân giải 2560 x 1664 cùng độ sáng 500 nits', 'Âm thanh sống động - 4 loa tramg bị công nghệ dolby atmos và âm thanh đa chiều']"
5,"['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid Retina 13.6 inch với độ phân giải 2560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']","['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid\xa0Retina 13.6 inch với độ phân giải\xa02560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']"
6,"['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid Retina 13.6 inch với độ phân giải 2560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']","['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid\xa0Retina 13.6 inch với độ phân giải\xa02560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']"
7,"['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid Retina 13.6 inch với độ phân giải 2560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']","['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid\xa0Retina 13.6 inch với độ phân giải\xa02560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']"
8,"['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid Retina 13.6 inch với độ phân giải 2560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']","['MacBook Air 13 M4 2025 sở hữu thiết kế siêu mỏng nhẹ với màu sắc sang trọng, độ dày chỉ 1.13 cm và trọng lượng 1.24 kg.', 'Máy được trang bị chip M4 thế hệ mới nhất của Apple với 10 CPU và 8 GPU, mang lại hiệu năng xử lý mạnh mẽ và khả năng đồ họa ấn tượng.', 'RAM 16GB và ổ cứng SSD 256GB giúp đa nhiệm mượt mà, khởi động nhanh chóng và lưu trữ đủ dùng cho công việc hàng ngày.', 'Màn hình Liquid\xa0Retina 13.6 inch với độ phân giải\xa02560x1664 pixels cho hình ảnh sắc nét, màu sắc chân thực và độ sáng cao lên đến 500 nits.']"
9,"['Trang bị bộ vi xử lý AMD Ryzen 7 7435HS, mang lại hiệu suất cao cho các tác vụ đa nhiệm và gaming.', 'Với GPU NVIDIA RTX 3050 4GB, laptop có khả năng xử lý đồ họa mượt mà, lý tưởng cho game thủ và thiết kế đồ họa.', 'Màn hình 15.6 inch Full HD với tần số quét 144Hz giúp hiển thị hình ảnh mượt mà và sống động trong các trò chơi.', '16GB RAM cho phép xử lý nhiều ứng dụng cùng lúc mà không gặp khó khăn, tăng cường trải nghiệm người dùng.', '512GB PCIe SSD cung cấp không gian lưu trữ rộng rãi và tốc độ truy xuất dữ liệu nhanh, giúp khởi động máy và ứng dụng nhanh chóng.']","['Trang bị bộ vi xử lý AMD Ryzen 7 7435HS, mang lại hiệu suất cao cho các tác vụ đa nhiệm và gaming.', 'Với GPU NVIDIA RTX 3050 4GB, laptop có khả năng xử lý đồ họa mượt mà, lý tưởng cho game thủ và thiết kế đồ họa.', 'Màn hình 15.6 inch Full HD với tần số quét 144Hz giúp hiển thị hình ảnh mượt mà và sống động trong các trò chơi.', '16GB RAM cho phép xử lý nhiều ứng dụng cùng lúc mà không gặp khó khăn, tăng cường trải nghiệm người dùng.', '512GB PCIe SSD cung cấp không gian lưu trữ rộng rãi và tốc độ truy xuất dữ liệu nhanh, giúp khởi động máy và ứng dụng nhanh chóng.']"


In [None]:
print(f'Null: {merged_df["key_selling_points"].isna().sum()}')
print(f'Null: {merged_df["special_features"].isna().sum()}')

Null: 0
Null: 146


In [None]:
merged_df.drop(columns=['special_features'], inplace=True)

In [None]:
overview_merged_v1 = pd.DataFrame({
    "Column name": merged_df.columns,
    "Data type":merged_df.dtypes,
    "Null count": merged_df.isnull().sum().values,
    'Null %': (merged_df.isnull().sum().values/ merged_df.shape[0]*100 ).round(2),
    "Unique count": merged_df.nunique()
})
overview_merged_v1.reset_index(drop=True, inplace=True)
overview_merged_v1




Unnamed: 0,Column name,Data type,Null count,Null %,Unique count
0,product_id,float64,0,0.0,903
1,name,object,0,0.0,897
2,image,object,0,0.0,734
3,display_size,float64,0,0.0,23
4,storage_gb,float64,0,0.0,10
5,key_selling_points,object,0,0.0,666
6,cam_ung,int64,0,0.0,2
7,material,object,0,0.0,3
8,laptop_special_feature,object,0,0.0,70
9,laptop_nganh_hoc,object,0,0.0,7


In [None]:
merged_df.shape

(903, 57)

In [None]:
!mkdir -p output

In [None]:
merged_df.to_csv('output/general_info_v4.csv', index=False)