## Import thư viện

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
%config InlineBackend.figure_format = 'retina'
from pathlib import Path
from dotenv import load_dotenv

load_dotenv()
raw_path = os.getenv('RAW_PATH')
cleaned_path = os.getenv('CLEANED_PATH')

## Import csv

In [2]:
df_parent_categories = pd.read_csv(f'{raw_path}fahasa_parent_categories.csv')
df_child_categories = pd.read_csv(f'{raw_path}fahasa_child_categories.csv')
df_products = pd.read_csv(f'{raw_path}fahasa_products.csv')
df_comments = pd.read_csv(f'{raw_path}fahasa_comments.csv')

Hàm tóm tắt thông tin có trong dữ liệu

In [3]:
def summary_data(df):
    print(f'Dataframe có tất cả: {df.shape[0]} hàng và {df.shape[1]} cột\n\n')
    print(f'Kiểu dữ liệu:\n\n{df.dtypes} \n\n')
    print(f'Missing values:\n\n{df.isnull().sum()} \n\n')
    print('Duplicated rows:', df.duplicated().sum())
summary_data(df_products)

Dataframe có tất cả: 18266 hàng và 12 cột


Kiểu dữ liệu:

Liên kết                object
Mã sản phẩm             object
Tên sản phẩm            object
Mã danh mục              int64
Giá                     object
Giá Thị Trường          object
Số sản phẩm đã bán      object
Nhà xuất bản            object
Tác giả                 object
Số trang                object
Đánh Giá trung bình    float64
Số lượt đánh giá       float64
dtype: object 


Missing values:

Liên kết                  0
Mã sản phẩm              26
Tên sản phẩm             26
Mã danh mục               0
Giá                      26
Giá Thị Trường          957
Số sản phẩm đã bán     1164
Nhà xuất bản            108
Tác giả                 126
Số trang                693
Đánh Giá trung bình      26
Số lượt đánh giá         26
dtype: int64 


Duplicated rows: 2945


## Cleaning


In [4]:
# tạo 1 bản sao của df để tiến hành xử lý dữ liệu
products = df_products.copy()

### Tác Giả

In [5]:
products[products['Tác giả'].isnull()]

Unnamed: 0,Liên kết,Mã sản phẩm,Tên sản phẩm,Mã danh mục,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá
209,https://www.fahasa.com/series-ehon-moi-moi.htm...,,,14,,,,,,,,
219,https://www.fahasa.com/series-ehon-am-thanh-ca...,,,14,,,,,,,,
317,https://www.fahasa.com/series-ehon-hinh-khoi.h...,,,14,,,,,,,,
363,https://www.fahasa.com/series-ehon-ky-nang-son...,,,14,,,,,,,,
440,https://www.fahasa.com/truyen-co-tich-the-gioi...,8935212341660,Truyện Cổ Tích Thế Giới Hay Nhất - Thỏ Và Rùa ...,14,12.8,16.0,74,NXB Văn Học,,,5.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...
17177,https://www.fahasa.com/the-little-book-of-hygg...,9780241283912,The Little Book of Hygge,4199,319.5,355.0,58,Penguin Books UK,,,5.0,1.0
17290,https://www.fahasa.com/be-the-hands-and-feet.h...,9780735291850,Be The Hands And Feet,4199,260.1,289.0,,NXB Random house,,256.0,0.0,0.0
17310,https://www.fahasa.com/be-the-hands-and-feet.h...,9780735291850,Be The Hands And Feet,4199,260.1,289.0,,NXB Random house,,256.0,0.0,0.0
18138,https://www.fahasa.com/the-ultimate-selfie-kit...,9781472393678,The Ultimate Selfie Kit,3497,163.800,182.000,,Parragon Book Service Ltd,,,0.0,0.0


### Lấy tên danh mục từ df_child_categories

In [6]:

# merge products với df_categories dựa vào cột 'Mã danh mục' và phương thức inner
# inner để giữ lại các record có mã danh mục trong cả 2 bảng
products = pd.merge(products, df_child_categories, on='Mã danh mục', how='inner')
#productsframe mới sau khi merge có thêm cột Tên danh mục
products[['Tên sản phẩm', 'Nhà xuất bản' , 'Tên danh mục c1' , 'Tên danh mục c2']].head(5)

Unnamed: 0,Tên sản phẩm,Nhà xuất bản,Tên danh mục c1,Tên danh mục c2
0,Búp Sen Xanh (Tái Bản 2020),NXB Kim Đồng,Sách Trong Nước,Thiếu nhi
1,Lược Sử Nước Việt Bằng Tranh (Tái Bản 2022),NXB Kim Đồng,Sách Trong Nước,Thiếu nhi
2,100 Kỹ Năng Sinh Tồn,NXB Thanh Niên,Sách Trong Nước,Thiếu nhi
3,Tuổi Thơ Dữ Dội - Tập 1 (Tái Bản 2019),NXB Kim Đồng,Sách Trong Nước,Thiếu nhi
4,Tuổi Thơ Dữ Dội - Tập 2 (Tái Bản 2019),NXB Kim Đồng,Sách Trong Nước,Thiếu nhi


### Drop các cột không dùng để phân tích

In [7]:

col_drop = ['Liên kết_x' , 'Mã danh mục' , 'Liên kết_y']
products.drop(col_drop, axis=1, inplace=True)

### Mã sản phẩm

In [8]:
# Kiểm tra các record không có mã sản phẩm
non_id_products =products['Mã sản phẩm'].isna()
products[products['Mã sản phẩm'].isna()].sample(10)

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2
941,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
13263,,,,,,,,,,,Sách Trong Nước,Âm Nhạc - Mỹ Thuật - Thời Trang
752,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
943,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
16619,,,,,,,,,,,FOREIGN BOOKS,Fiction
829,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
2257,,,,,,,,,,,Sách Trong Nước,Văn học
317,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
748,,,,,,,,,,,Sách Trong Nước,Thiếu nhi
958,,,,,,,,,,,Sách Trong Nước,Thiếu nhi


Các row khong có mã sp cũng không mang được thông tin hữu ít, vậy nên ta sẽ drop các row này

In [9]:
non_id_products =products['Mã sản phẩm'].isna()
products.drop(products[non_id_products].index, inplace=True)

Kết quả

In [10]:
products[non_id_products].head()

  products[non_id_products].head()


Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2


### Nhà xuất bản

In [11]:
# Đếm số lượng từng nhà xuất bản
products['Nhà xuất bản'].value_counts()

Nhà xuất bản
Kim Đồng                                      1077
Dân Trí                                        790
Thế Giới                                       681
Hồng Đức                                       632
Trẻ                                            579
                                              ... 
Potter Style                                     1
The University of Chicago Press                  1
Baen Books                                       1
G.P. Putnam's Sons Books for Young Readers       1
Gallery/Saga Press                               1
Name: count, Length: 966, dtype: int64

1 vài nhà xuất bản bị thừa cụm NXB ở đầu. Ví dụ NXB Kim Đồng và Kim Đồng là giống nhau.

Replace các NXB bị thừa cụm NXB

In [12]:
products['Nhà xuất bản'] = products[ 'Nhà xuất bản'].replace(r'^NXB','', regex=True).str.strip()

In [13]:
products['Nhà xuất bản'].value_counts()

Nhà xuất bản
Kim Đồng                           1603
Dân Trí                            1163
Hồng Đức                           1099
Thế Giới                           1074
Trẻ                                 964
                                   ... 
Page Street                           1
ABRSM                                 1
The Gioi Publisher                    1
Berrett-Koehler Publishers            1
The University of Chicago Press       1
Name: count, Length: 903, dtype: int64

Số lượng nhà xuất bản đã giảm xuống từ 966 còn 903.

### Giá Thị Trường

In [14]:
#Kiểm tra các record không có giá   
# Gán index là các record có giá thị trường = 'Không có giá'
non_old_price = products['Giá Thị Trường'].isna()
products[non_old_price].head(5)

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2
1126,9786040393371,Ngữ Văn 12 - Tập 1 (Chân Trời) (Chuẩn),23.0,,1.5k,Giáo Dục Việt Nam,Nhiều Tác Giả,172.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1127,3300000026817,Sách Giáo Khoa Bộ Lớp 1 - Chân Trời Sáng Tạo -...,153.0,,1.5k,Đại Học Sư Phạm TPHCM,Nhiều Tác Giả,,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1128,9786040351951,Toán 11 - Tập 1 (Chân Trời Sáng Tạo) (Chuẩn),21.0,,1.2k,Giáo Dục Việt Nam,Nhiều Tác Giả,152.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1129,9786040393708,Global Success - Tiếng Anh 12 - Sách Học Sinh ...,70.0,,1.2k,Giáo Dục Việt Nam,"Hoàng Văn Vân, Vũ Hải Hà, Chu Quang Bình, Hoàn...",155.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1130,9786044863061,Toán 12 - Tập 1 (Cánh Diều) (Chuẩn),16.0,,1.2k,Đại Học Sư Phạm,Nhiều Tác Giả,126.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo


Các dòng không có giá thị trường ta sẽ mặc định là chính giá bán.
Fill các sp không có giá trị trường bằng giá bán

In [15]:
# Slicing các record có giá thị trường = 'Không có giá' và gán giá trị mới
non_old_price = products['Giá Thị Trường'].isna()
products.loc[non_old_price , 'Giá Thị Trường'] = products['Giá']

Kiểm tra kết quả

In [16]:
products[non_old_price].head(5)

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2
1126,9786040393371,Ngữ Văn 12 - Tập 1 (Chân Trời) (Chuẩn),23.0,23.0,1.5k,Giáo Dục Việt Nam,Nhiều Tác Giả,172.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1127,3300000026817,Sách Giáo Khoa Bộ Lớp 1 - Chân Trời Sáng Tạo -...,153.0,153.0,1.5k,Đại Học Sư Phạm TPHCM,Nhiều Tác Giả,,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1128,9786040351951,Toán 11 - Tập 1 (Chân Trời Sáng Tạo) (Chuẩn),21.0,21.0,1.2k,Giáo Dục Việt Nam,Nhiều Tác Giả,152.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1129,9786040393708,Global Success - Tiếng Anh 12 - Sách Học Sinh ...,70.0,70.0,1.2k,Giáo Dục Việt Nam,"Hoàng Văn Vân, Vũ Hải Hà, Chu Quang Bình, Hoàn...",155.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1130,9786044863061,Toán 12 - Tập 1 (Cánh Diều) (Chuẩn),16.0,16.0,1.2k,Đại Học Sư Phạm,Nhiều Tác Giả,126.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo


### Xử lý 2 cột giá

In [17]:
products[['Giá' , 'Giá Thị Trường']].head(5)

Unnamed: 0,Giá,Giá Thị Trường
0,61.2,72.0
1,119.0,140.0
2,74.25,99.0
3,60.0,80.0
4,60.0,80.0


Kết quả


In [18]:
products[non_old_price].head(5)

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2
1126,9786040393371,Ngữ Văn 12 - Tập 1 (Chân Trời) (Chuẩn),23.0,23.0,1.5k,Giáo Dục Việt Nam,Nhiều Tác Giả,172.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1127,3300000026817,Sách Giáo Khoa Bộ Lớp 1 - Chân Trời Sáng Tạo -...,153.0,153.0,1.5k,Đại Học Sư Phạm TPHCM,Nhiều Tác Giả,,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1128,9786040351951,Toán 11 - Tập 1 (Chân Trời Sáng Tạo) (Chuẩn),21.0,21.0,1.2k,Giáo Dục Việt Nam,Nhiều Tác Giả,152.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1129,9786040393708,Global Success - Tiếng Anh 12 - Sách Học Sinh ...,70.0,70.0,1.2k,Giáo Dục Việt Nam,"Hoàng Văn Vân, Vũ Hải Hà, Chu Quang Bình, Hoàn...",155.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo
1130,9786044863061,Toán 12 - Tập 1 (Cánh Diều) (Chuẩn),16.0,16.0,1.2k,Đại Học Sư Phạm,Nhiều Tác Giả,126.0,0.0,0.0,Sách Trong Nước,Giáo khoa - Tham khảo


Ta sẽ loại bỏ dấu chấm để chuyển cột về dạng số nguyên.

In [19]:
# Hàm nhân giá trị của cột 'Giá' và 'Giá Thị Trường' với 100
def convert_price(x):
        return x * 100

# replace các dấu chấm thành rỗng
products['Giá'] = products['Giá'].replace(r'\.' , '', regex=True)
products['Giá Thị Trường'] = products['Giá Thị Trường'].replace(r'\.' , '', regex=True)

# Chuyển kiểu dữ liệu về int
products['Giá Thị Trường'] = products['Giá Thị Trường'].astype(int)
products['Giá'] = products['Giá'].astype(int)

#apply hàm convert_price cho cột 'Giá' và 'Giá Thị Trường'

products['Giá'] = products['Giá'].apply(convert_price)
products['Giá Thị Trường'] = products['Giá Thị Trường'].apply(convert_price)

Kiểm tra kết quả

In [20]:
products[['Giá' , 'Giá Thị Trường']].head(5)

Unnamed: 0,Giá,Giá Thị Trường
0,61200,72000
1,119000,140000
2,742500,99000
3,60000,80000
4,60000,80000


In [21]:
products[['Giá' , 'Giá Thị Trường']].dtypes

Giá               int64
Giá Thị Trường    int64
dtype: object

### Xử lý cột số sản phẩm đã bán

In [22]:
sold_1k = products['Số sản phẩm đã bán'] == '1.0k'
products[sold_1k][['Tên sản phẩm','Giá','Giá Thị Trường','Số sản phẩm đã bán']].head(2)

Unnamed: 0,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán
1133,Ngữ Văn 12 - Tập 2 (Chân Trời) (Chuẩn),19000,19000,1.0k
1134,Sách Giáo Khoa Bộ Lớp 4 - Chân Trời - Sách Bài...,173000,173000,1.0k


In [23]:
sold_10k_plus =products['Số sản phẩm đã bán'] == '10k+'
products[sold_10k_plus][['Tên sản phẩm','Giá','Giá Thị Trường','Số sản phẩm đã bán']].head(2)


Unnamed: 0,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán
0,Búp Sen Xanh (Tái Bản 2020),61200,72000,10k+
7537,Chia Sẻ Từ Trái Tim (Thích Pháp Hòa),12600000,16800000,10k+


Cột sp đã bán có chứa 'k' được hiểu là 1000, ta sẽ xử lý nó về dạng số nguyên
10k+ được hiểu là trên 10 nghìn cuốn sách. do không có số liệu cụ thể nên ta cũng sẽ nhân cho 1000 để có số liệu tương đối.

In [24]:
non_sol = products['Số sản phẩm đã bán'].isna()
products[non_sol][['Số sản phẩm đã bán', 'Đánh Giá trung bình']].sample(10)

Unnamed: 0,Số sản phẩm đã bán,Đánh Giá trung bình
17094,,0.0
8672,,0.0
11143,,0.0
17496,,0.0
12944,,0.0
12696,,0.0
8679,,0.0
18215,,0.0
12097,,5.0
17578,,0.0


Các row có sp đã bán bị nan có vẻ cũng không có đánh giá trung bình nên ta sẽ replace nan bằng 0

In [25]:
products['Số sản phẩm đã bán'] = products['Số sản phẩm đã bán'].fillna(0)

Kết quả


In [26]:
products[non_sol][['Số sản phẩm đã bán', 'Đánh Giá trung bình']].sample(10)

Unnamed: 0,Số sản phẩm đã bán,Đánh Giá trung bình
12945,0,0.0
13135,0,0.0
13146,0,0.0
17977,0,0.0
17719,0,4.0
18107,0,0.0
18174,0,0.0
17901,0,0.0
10429,0,0.0
16746,0,0.0


In [27]:
# hàm chuyển đổi giá trị số sản phẩm đã bán
def convert_abbreviations(value):
    if isinstance(value, str):
        value = value.lower().strip()
        # Xử lý các giá trị kèm theo ký tự
        if value.endswith('k'):
            # Lấy từ ký tự đầu tới ký tự áp chót
            return float(value[:-1]) * 1000
        elif value.endswith('k+'):
            # Lấy từ ký tự đầu tới trước 2 ký tự cuối
            return float(value[:-2]) * 1000
        else:
            return float(value)
    return value

# Áp dụng hàm cho cột Số sản phẩm đã bán
products['Số sản phẩm đã bán'] = products['Số sản phẩm đã bán'].apply(convert_abbreviations)
# Chuyển kiểu dữ liệu của cột thành kiểu số nguyên
products['Số sản phẩm đã bán'] = products['Số sản phẩm đã bán'].astype(int)

Kiểm tra kết quả sau khi chuyển đổi


In [28]:
products[sold_1k][['Tên sản phẩm','Giá','Giá Thị Trường','Số sản phẩm đã bán']].head(2)

Unnamed: 0,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán
1133,Ngữ Văn 12 - Tập 2 (Chân Trời) (Chuẩn),19000,19000,1000
1134,Sách Giáo Khoa Bộ Lớp 4 - Chân Trời - Sách Bài...,173000,173000,1000


In [29]:
products[sold_10k_plus][['Tên sản phẩm','Giá','Giá Thị Trường','Số sản phẩm đã bán']].head(2)

Unnamed: 0,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán
0,Búp Sen Xanh (Tái Bản 2020),61200,72000,10000
7537,Chia Sẻ Từ Trái Tim (Thích Pháp Hòa),12600000,16800000,10000


### Fill Tác Giả

In [30]:
non_author = products[products['Tác giả'].isnull()]
products.fillna({'Tác giả':'Other'}, inplace=True)



### Fill NXB

In [31]:
non_NXB = products['Nhà xuất bản'].isnull()
products.fillna({'Nhà xuất bản':'Other'}, inplace=True)
products[non_NXB][["Tên sản phẩm" , "Nhà xuất bản" , "Tác giả"]].head()

Unnamed: 0,Tên sản phẩm,Nhà xuất bản,Tác giả
1318,i-Learn Smart World 8 Student Book (2023),Other,Other
1394,i-Learn Smart World 8 Workbook (2023),Other,Other
1556,Amazing Science 3 (Tái Bản 2023),Other,Nhiều Tác Giả
2445,Combo Sách Nhà Giả Kim + Hành Trình Về Phương ...,Other,"Paulo Coelho, Baird T Spalding"
2709,Combo Sách Bến Xe + Thất Tịch Không Mưa (Bộ 2 ...,Other,"Lâu Vũ Tình, Thương Thái Vi"


### Features Engineering

#### Tạo cluster cho cột sản phẩm đã bán
Định nghĩa nhóm : 
 - từ 0 đến 500 : 0
 - từ 500 đến 999 : 1
 - từ 1000 đến 4999 : 2
 - từ 5000 đến 1000 : 3

In [32]:
def categorize_quantity(value):
    if 0 <= value < 500:
        return 0
    elif 500 <= value < 1000:
        return 1
    elif 1000 <= value < 5000:
        return 2
    elif 5000 <= value:
        return 3
    else:
        return None


products['Loại doanh số sản phẩm'] = products['Số sản phẩm đã bán'].apply(categorize_quantity)
products['Loại doanh số sản phẩm'] = products['Loại doanh số sản phẩm'].astype('category')

Kết quả cột vừa tạo

In [33]:
products[products['Loại doanh số sản phẩm'] == 0][['Tên sản phẩm' , 'Giá' ,'Số sản phẩm đã bán', 'Loại doanh số sản phẩm']].head(2)

Unnamed: 0,Tên sản phẩm,Giá,Số sản phẩm đã bán,Loại doanh số sản phẩm
34,Mẹ Hỏi Bé Trả Lời 3-4 Tuổi (Tái Bản 2019),25500,499,0
35,Hoàng Tử Bé (Tái Bản),60000,482,0


In [34]:
products[products['Loại doanh số sản phẩm'] == 1][['Tên sản phẩm' , 'Giá' ,'Số sản phẩm đã bán', 'Loại doanh số sản phẩm']].head(2)


Unnamed: 0,Tên sản phẩm,Giá,Số sản phẩm đã bán,Loại doanh số sản phẩm
16,Đất Rừng Phương Nam (Tái Bản),607500,999,1
17,Những Câu Chuyện Tò Mò Của Bé - Con Có Thể Đán...,21000,991,1


In [35]:
products[products['Loại doanh số sản phẩm'] == 2][['Tên sản phẩm' , 'Giá' ,'Số sản phẩm đã bán', 'Loại doanh số sản phẩm']].head(2)


Unnamed: 0,Tên sản phẩm,Giá,Số sản phẩm đã bán,Loại doanh số sản phẩm
2,100 Kỹ Năng Sinh Tồn,742500,2400,2
3,Tuổi Thơ Dữ Dội - Tập 1 (Tái Bản 2019),60000,2000,2


In [36]:
products[products['Loại doanh số sản phẩm'] == 3][['Tên sản phẩm' , 'Giá' ,'Số sản phẩm đã bán', 'Loại doanh số sản phẩm']].head(2)


Unnamed: 0,Tên sản phẩm,Giá,Số sản phẩm đã bán,Loại doanh số sản phẩm
0,Búp Sen Xanh (Tái Bản 2020),61200,10000,3
1,Lược Sử Nước Việt Bằng Tranh (Tái Bản 2022),119000,8100,3


### Xoá hàng bị trùng

Ví dụ 1 dòng dữ liệu bị trùng

In [37]:
products[products['Mã sản phẩm'] == '8935244841619']

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2,Loại doanh số sản phẩm
226,8935244841619,Who? Chuyện Kể Về Danh Nhân Thế Giới - Anh Em ...,467500,55000,133,Kim Đồng,"Team kids, Han, Nana",164.0,0.0,0.0,Sách Trong Nước,Thiếu nhi,0
228,8935244841619,Who? Chuyện Kể Về Danh Nhân Thế Giới - Anh Em ...,467500,55000,133,Kim Đồng,"Team kids, Han, Nana",164.0,0.0,0.0,Sách Trong Nước,Thiếu nhi,0


Tổng các dòng bị trùng

In [38]:
print(products.duplicated().sum())


2943


Tiến hành xoá dòng bị trùng, giữ lại dòng đầu tiên

In [39]:
# Xóa các dòng trùng lặp, drop_duplicates() sẽ giữ lại dòng đầu tiên
# Nếu muốn giữ lại dòng cuối cùng, thêm tham số keep='last'
products = products.drop_duplicates()

Kết quả

In [40]:
products.duplicated().sum()

np.int64(0)

Sau khi drop thì dòng bị trùng trước đó chỉ còn 1 dòng

In [41]:
products[products['Mã sản phẩm'] == '8935244841619']

Unnamed: 0,Mã sản phẩm,Tên sản phẩm,Giá,Giá Thị Trường,Số sản phẩm đã bán,Nhà xuất bản,Tác giả,Số trang,Đánh Giá trung bình,Số lượt đánh giá,Tên danh mục c1,Tên danh mục c2,Loại doanh số sản phẩm
226,8935244841619,Who? Chuyện Kể Về Danh Nhân Thế Giới - Anh Em ...,467500,55000,133,Kim Đồng,"Team kids, Han, Nana",164.0,0.0,0.0,Sách Trong Nước,Thiếu nhi,0


In [43]:
summary_data(products)

Dataframe có tất cả: 15297 hàng và 13 cột


Kiểu dữ liệu:

Mã sản phẩm                 object
Tên sản phẩm                object
Giá                          int64
Giá Thị Trường               int64
Số sản phẩm đã bán           int64
Nhà xuất bản                object
Tác giả                     object
Số trang                    object
Đánh Giá trung bình        float64
Số lượt đánh giá           float64
Tên danh mục c1             object
Tên danh mục c2             object
Loại doanh số sản phẩm    category
dtype: object 


Missing values:

Mã sản phẩm                 0
Tên sản phẩm                0
Giá                         0
Giá Thị Trường              0
Số sản phẩm đã bán          0
Nhà xuất bản                0
Tác giả                     0
Số trang                  567
Đánh Giá trung bình         0
Số lượt đánh giá            0
Tên danh mục c1             0
Tên danh mục c2             0
Loại doanh số sản phẩm      0
dtype: int64 


Duplicated rows: 0


Xuất ra file csv các file đã clean

In [42]:
clean_path = Path(cleaned_path).mkdir(parents=True, exist_ok=True)
products.to_csv(cleaned_path + 'products_cleaned.csv', index=False, encoding='utf-8-sig' )
df_child_categories.to_csv(cleaned_path + 'child_categories_cleaned.csv', index=False, encoding='utf-8-sig')
df_parent_categories.to_csv(cleaned_path + 'parent_categories_cleaned.csv', index=False, encoding='utf-8-sig')
df_comments.to_csv(cleaned_path + 'comments_cleaned.csv', index=False, encoding='utf-8-sig')