# Tiền xử lý dữ liệu giá Macbook pro 14" m1 pro

### Mô tả tập dữ liệu `macbook.csv`

Tập dữ liệu `macbook.csv` chứa thông tin về các sản phẩm MacBook Pro 14" M1 Pro được thu thập từ trang web Chợ Tốt. Dưới đây là mô tả chi tiết về các cột trong tập dữ liệu:

- **name**: Tên sản phẩm, bao gồm thông tin về dòng máy, cấu hình (RAM, ROM), màu sắc, và tình trạng.
- **price**: Giá của sản phẩm (đơn vị: VNĐ).
- **district**: Quận/huyện nơi sản phẩm được rao bán.
- **date_crawl**: Thời gian thu thập dữ liệu (định dạng: YYYY-MM-DD HH:MM:SS).
- **product_type**: Thông tin chi tiết về cấu hình sản phẩm, bao gồm loại chip, dung lượng RAM, ROM, và loại ổ cứng.
- **time_since_posted**: Khoảng thời gian kể từ khi bài đăng được tạo (ví dụ: "8 giờ trước", "2 ngày trước").
- **image_link**: Đường dẫn đến hình ảnh của sản phẩm.
- **product_link**: Đường dẫn đến trang chi tiết của sản phẩm trên Chợ Tốt.
- **page**: Số trang mà sản phẩm xuất hiện trong kết quả tìm kiếm.
- **ram**: Dung lượng RAM của sản phẩm (đơn vị: GB).
- **rom**: Dung lượng bộ nhớ trong (ROM) của sản phẩm (đơn vị: GB).

Tập dữ liệu này được sử dụng để phân tích và xử lý thông tin về các sản phẩm MacBook Pro 14" M1 Pro, hỗ trợ việc so sánh giá cả, cấu hình, và các thông tin liên quan khác.

## Đọc và khám phá dữ liệu

In [55]:
import pandas as pd

# Tiền xử lý dữ liệu giá macbook pro m1 pro ở chợ tốt
# Đọc dữ liệu từ file CSV macbooks.csv
df = pd.read_csv('macbooks.csv')

In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 833 entries, 0 to 832
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   name                   833 non-null    object
 1   price                  833 non-null    object
 2   district               833 non-null    object
 3   date_crawl             833 non-null    object
 4   product_type           833 non-null    object
 5   time_since_date_crawl  833 non-null    object
 6   image_link             833 non-null    object
 7   product_link           833 non-null    object
 8   page                   833 non-null    int64 
dtypes: int64(1), object(8)
memory usage: 58.7+ KB


Dữ liệu không có giá trị null. Sạch sẽ nha 

In [57]:
df.head()

Unnamed: 0,name,price,district,date_crawl,product_type,time_since_date_crawl,image_link,product_link,page
0,"Macbook Pro 14"" M1 Pro 16/512 Gray 99%",22.500.000 đ,Quận Tân Bình,2025-04-29 01:54:33,Khác | 16 GB | 512 GB | SSD |,9 giờ trước,https://cdn.chotot.com/9lpAwUMGCmGQSgynQRlQZRm...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1
1,Macbook Pro 14 inch M1 Pro/16/512Gb đẹp keng Zin,24.990.000 đ,Quận Tân Phú,2025-04-29 01:54:33,Khác | 16 GB | 512 GB |,16 giờ trước,https://cdn.chotot.com/L5c3e-nN58HNyKWuUC9gBcl...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1
2,Macbook Pro 14 inch M1 Pro 32Gb 1TB 99% pin 94%,28.990.000 đ,Quận Tân Bình,2025-04-29 01:54:33,Unknown,hôm qua,https://cdn.chotot.com/i86MNxyO09GNVb-31k6pn2G...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1
3,Macbook Pro 14 inch M1 Pro 32/1TB Gray VN 98-99%,27.500.000 đ,Quận Tân Bình,2025-04-29 01:54:33,32 GB | 1 TB |,15 giờ trước,https://cdn.chotot.com/OPD3ovnRn_bEpVrf0HYb1Ot...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1
4,"Macbook Pro 14"" M1 Pro 16/512 Gray 99% Pin cao",26.490.000 đ,Quận 10,2025-04-29 01:54:33,Khác | 16 GB | 512 GB | SSD |,2 ngày trước,https://cdn.chotot.com/6HaDV5GN5vQNDfObNltCCYF...,https://www.chotot.com/mua-ban-laptop-quan-10-...,1


### Đọc qua thì có một vài vấn đề cần xử lý
- Tên sản phẩm có những cái tên không phải là dòng Macbook Pro 14" M1 Pro 
--> (1) Xử lý theo Regex bình thường (2) Xử lý bằng Model AI (Mình chọn Regex vì nó đơn giản, nhanh)
- Xử lý giá tiền (Ví dụ: 22.990.000 đ --> 22990000)
- Chưa có thuộc tính để biết được Ram và Rom của máy bao nhiêu.
--> Mình sẽ dựa vào Product_type để trích xuất ra.

### Loại bỏ những sản phẩm không phải là Macbook Pro 14" M1 Pro

In [58]:
import re
def isMacbookProM1Pro14(text):
    text = text.lower()
    # Chỉ cần kiểm tra xem có chứa 'm1' và '14' trong text hay không
    if re.search(r'm1',text) and re.search(r'14',text):
        return True
    
    return False


In [59]:
# Lọc những dòng có liên quan đến macbook pro m1 pro 14
df = df[df['name'].apply(lambda x: isMacbookProM1Pro14(x))]


In [60]:
print(df.head(10))
df.shape

                                                name         price  \
0             Macbook Pro 14" M1 Pro 16/512 Gray 99%  22.500.000 đ   
1   Macbook Pro 14 inch M1 Pro/16/512Gb đẹp keng Zin  24.990.000 đ   
2    Macbook Pro 14 inch M1 Pro 32Gb 1TB 99% pin 94%  28.990.000 đ   
3   Macbook Pro 14 inch M1 Pro 32/1TB Gray VN 98-99%  27.500.000 đ   
4     Macbook Pro 14" M1 Pro 16/512 Gray 99% Pin cao  26.490.000 đ   
5         MacBook Pro 14" M1, 16GB, 1TB, Máy Đẹp sạc  28.900.000 đ   
6                                 MACBOOK PRO 14" M1  21.900.000 đ   
7   Macbook pro 14 inch M1 pro 32G RAM/1TB 99% gi...  31.990.000 đ   
8                    Macbook pro m1 14” - 16/512 99%  24.000.000 đ   
9          Macbook Pro 14" M1 Pro 16/512 Gray 99% VN  25.990.000 đ   

        district           date_crawl                           product_type  \
0  Quận Tân Bình  2025-04-29 01:54:33         Khác | 16 GB | 512 GB | SSD |    
1   Quận Tân Phú  2025-04-29 01:54:33               Khác | 16 GB | 51

(50, 9)

### Chuyển đổi giá tiền

In [61]:
# Xử lý cột price
def extract_price(price_str):
    # Tìm tất cả các số trong chuỗi
    numbers = re.findall(r'\d+', price_str)
    # Ghép các số lại thành một chuỗi duy nhất
    return int(''.join(numbers)) if numbers else 0

# Áp dụng hàm extract_price cho cột price
df['price'] = df['price'].apply(extract_price)
# Chuyển đổi cột price thành kiểu số nguyên
df['price'] = df['price'].astype(int)


### Phân loại dung lượng Ram cho mỗi máy

In [62]:
rams = {'16': 16, '32': 32, '64': 64}

# Tính toán ram dựa vào cột product_type
def extract_ram(product_type, name):
    for ram in rams:
        if re.search(ram, product_type) or re.search(ram, name):
            return rams[ram]
    return 0

# Áp dụng hàm extract_ram cho cột product_type và cột name
df['ram'] = df.apply(lambda row: extract_ram(row['product_type'], row['name']), axis=1)

# Chuyển đổi cột ram thành kiểu số nguyên
df['ram'] = df['ram'].astype(int)



### Phân loại dung lượng Rom cho mỗi máy

In [63]:
roms = {'512': 512, '1 tb': 1024, '1tb': 1024, '512gb': 512}
    
# Tính toán rom dựa vào cột product_type
def extract_rom(product_type, name):
    # Tìm tất cả các số trong chuỗi
    for rom in roms:
        if re.search(rom, product_type.lower()) or re.search(rom, name.lower()):
            return roms[rom]
    return 0

# Áp dụng hàm extract_rom cho cột product_type và name
df['rom'] = df.apply(lambda row: extract_rom(row['product_type'], row['name']), axis=1)
# Chuyển đổi cột rom thành kiểu số nguyên
df['rom'] = df['rom'].astype(int)

In [64]:
df.head(20)

Unnamed: 0,name,price,district,date_crawl,product_type,time_since_date_crawl,image_link,product_link,page,ram,rom
0,"Macbook Pro 14"" M1 Pro 16/512 Gray 99%",22500000,Quận Tân Bình,2025-04-29 01:54:33,Khác | 16 GB | 512 GB | SSD |,9 giờ trước,https://cdn.chotot.com/9lpAwUMGCmGQSgynQRlQZRm...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,16,512
1,Macbook Pro 14 inch M1 Pro/16/512Gb đẹp keng Zin,24990000,Quận Tân Phú,2025-04-29 01:54:33,Khác | 16 GB | 512 GB |,16 giờ trước,https://cdn.chotot.com/L5c3e-nN58HNyKWuUC9gBcl...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,16,512
2,Macbook Pro 14 inch M1 Pro 32Gb 1TB 99% pin 94%,28990000,Quận Tân Bình,2025-04-29 01:54:33,Unknown,hôm qua,https://cdn.chotot.com/i86MNxyO09GNVb-31k6pn2G...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,32,1024
3,Macbook Pro 14 inch M1 Pro 32/1TB Gray VN 98-99%,27500000,Quận Tân Bình,2025-04-29 01:54:33,32 GB | 1 TB |,15 giờ trước,https://cdn.chotot.com/OPD3ovnRn_bEpVrf0HYb1Ot...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,32,1024
4,"Macbook Pro 14"" M1 Pro 16/512 Gray 99% Pin cao",26490000,Quận 10,2025-04-29 01:54:33,Khác | 16 GB | 512 GB | SSD |,2 ngày trước,https://cdn.chotot.com/6HaDV5GN5vQNDfObNltCCYF...,https://www.chotot.com/mua-ban-laptop-quan-10-...,1,16,512
5,"MacBook Pro 14"" M1, 16GB, 1TB, Máy Đẹp sạc",28900000,Quận Tân Bình,2025-04-29 01:54:33,Intel Core i7 | 16 GB | 1 TB | SSD |,2 ngày trước,https://cdn.chotot.com/zG9Yms9xjW1Nq1zu1QYaTDw...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,16,1024
6,"MACBOOK PRO 14"" M1",21900000,Quận 10,2025-04-29 01:54:33,Khác | 16 GB | 512 GB | SSD |,4 ngày trước,https://cdn.chotot.com/IdYa0NubD2PXIFZ_dfWWHZP...,https://www.chotot.com/mua-ban-laptop-quan-10-...,1,16,512
7,Macbook pro 14 inch M1 pro 32G RAM/1TB 99% gi...,31990000,Quận Tân Bình,2025-04-29 01:54:33,Khác | 32 GB | 1 TB | SSD |,hôm qua,https://cdn.chotot.com/2y22bR5pNYfLrdMQPSw4RDl...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,32,1024
8,Macbook pro m1 14” - 16/512 99%,24000000,Quận Tân Phú,2025-04-29 01:54:33,16 GB | 512 GB | SSD |,3 ngày trước,https://cdn.chotot.com/Loz3g-yLiTyC5dWAXZt31W5...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,16,512
9,"Macbook Pro 14"" M1 Pro 16/512 Gray 99% VN",25990000,Quận Tân Bình,2025-04-29 01:54:33,16 GB | 512 GB | SSD |,5 ngày trước,https://cdn.chotot.com/t9JIWrAjbjQ0NbiEUpzcSRK...,https://www.chotot.com/mua-ban-laptop-quan-tan...,1,16,512


### Xuất dữ liệu đã được làm sạch ra môt file macbook_pro_m1_pro_14.csv

In [68]:
print(df[df['ram'] == 0].head(10))
# Xóa các dòng có ram = 0
df = df[df['ram'] != 0]
# Xóa các dòng có rom = 0
df = df[df['rom'] != 0]

Empty DataFrame
Columns: [name, price, district, date_crawl, product_type, time_since_date_crawl, image_link, product_link, page, ram, rom]
Index: []


In [69]:
# lưu dữ liệu vào file csv
df.to_csv('macbook_pro_m1_pro_14.csv', index=False)