In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd 

# 2. Exploring data (often interleaved with preprocessing)

In [2]:
book_df = pd.read_csv('data/book_data.csv')
book_df.head()

Unnamed: 0,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
0,74021317,Cây Cam Ngọt Của Tôi,José Mauro de Vasconcelos,108000,64800,53075.0,Tiểu Thuyết,11481,5.0,244,Nhà Xuất Bản Hội Nhà Văn,https://salt.tikicdn.com/ts/product/5e/18/24/2...
1,74021317,Cây Cam Ngọt Của Tôi,José Mauro de Vasconcelos,108000,64800,53075.0,Tiểu Thuyết,11481,5.0,244,Nhà Xuất Bản Hội Nhà Văn,https://salt.tikicdn.com/ts/product/5e/18/24/2...
2,184466860,Hành Tinh Của Một Kẻ Nghĩ Nhiều,Nguyễn Đoàn Minh Thư,86000,59900,7929.0,Sách tư duy - Kỹ năng sống,780,4.8,184,Nhà Xuất Bản Thế Giới,https://salt.tikicdn.com/ts/product/d7/99/24/1...
3,73787185,Những Tù Nhân Của Địa Lý,Tim Marshall,210000,126000,17896.0,Lĩnh vực khác,3623,4.8,430,Nhà Xuất Bản Hội Nhà Văn,https://salt.tikicdn.com/ts/product/8d/96/9e/c...
4,52789367,Nhà Giả Kim (Tái Bản 2020),Paulo Coelho,79000,47400,24668.0,Tác phẩm kinh điển,5131,5.0,228,Nhà Xuất Bản Hà Nội,https://salt.tikicdn.com/ts/product/45/3b/fc/a...


In [3]:
comment_df = pd.read_csv('data/comments.csv')
comment_df.head()

Unnamed: 0,product_id,comment_id,title,thank_count,customer_id,rating,content
0,74021317,12559756,Cực kì hài lòng,313,22051463,5,"Có những người bước đến, họ lấp đầy hạnh phúc ..."
1,74021317,16979365,Cực kì hài lòng,6,27791831,5,"Thấy nhiều bạn chê tiki gói hàng quá, may sao ..."
2,74021317,14069617,Cực kì hài lòng,25,17748750,5,"Bìa cực xinh, tiki giao hàng nhanh, sách không..."
3,74021317,8569824,Cực kì hài lòng,57,410797,5,"Sách lúc nhận hình thức rất ổn, không cong vên..."
4,74021317,18368714,Cực kì hài lòng,0,28545286,5,Một cuốn sách rất đáng đọc về tình yêu thương ...


### 2.1 How many rows and how many columns?

In [4]:
num_rows = book_df.shape[0]
num_cols = book_df.shape[1]
print(f'Number of rows: ',num_rows)
print(f'Number of cols: ',num_cols)

Number of rows:  1796
Number of cols:  12


In [5]:
num_rows = comment_df.shape[0]
num_cols = comment_df.shape[1]
print(f'Number of rows: ',num_rows)
print(f'Number of cols: ',num_cols)

Number of rows:  141281
Number of cols:  7


### 2.2 What is the meaning of each column?

| Column      | Description |
| :---        |    :----   |    
| `product_id`      | Id of the product in the Tiki database (unique)      | 
| `title`   |  Name of the book, maybe contain republish time       | 
| `authors`    |    same with it's name              |
| `original_price`    |      price at the first time             |
| `current_price`    |  price at present if having a discount                 |
| `quantity`    |  	total number of books sold of all time                 |
| `category`    |  	kind of book                 |
| `n_review`    |   number of reviews               |
| `avg_rating`    |  average rating (max 5.0)                 |
| `pages`    |     total pages of each book              |


### 2.3 Are there duplicated rows?

In [6]:
num_duplicated_rows = book_df[book_df.duplicated(keep=False)].shape[0]
num_duplicated_rows

35

In [7]:
book_df = book_df.drop_duplicates()
num_rows = book_df.shape[0]
num_rows

1777

In [8]:
num_duplicated_rows = comment_df[comment_df.duplicated(keep=False)].shape[0]
num_duplicated_rows

39299

In [9]:
comment_df = comment_df.drop_duplicates()
num_rows = comment_df.shape[0]
num_rows

121393

### 2.4 What is the current data type of each column? Are there columns having inappropriate data types?

In [10]:
dtypes = pd.Series(dict(book_df.dtypes))
dtypes

product_id          int64
title              object
authors            object
original_price      int64
current_price       int64
quantity          float64
category           object
n_review            int64
avg_rating        float64
pages              object
manufacturer       object
cover_link         object
dtype: object

In [11]:
book_df[book_df.pages.isnull()].head()

Unnamed: 0,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
26,8885999,Totto - Chan Bên Cửa Sổ (Tái Bản),Kuroyanagi Tetsuko,98000,58800,18288.0,Truyện dài,1829,5.0,,,https://salt.tikicdn.com/ts/product/24/39/01/1...
47,204317934,1111 - Nhật Ký Sáu Vạn Dặm Trên Yên Xe Cà Tàng,Trần Đặng Đăng Khoa,325000,262000,768.0,Du ký,59,5.0,,NXB Trẻ,https://salt.tikicdn.com/ts/product/16/99/f6/b...
93,204806201,Chiến Tranh Tiền Tệ - Tập 5,Song Hong Bing,195000,137000,182.0,"Sách quản trị, lãnh đạo",15,5.0,,Nhà Xuất Bản Lao Động,https://salt.tikicdn.com/ts/product/27/fb/94/9...
101,8886001,Giết Con Chim Nhại (Tái Bản),Harper Lee,120000,72000,12199.0,Truyện dài,1379,4.8,,,https://salt.tikicdn.com/ts/product/f9/43/fe/c...
127,147988216,Combo 2 Cuốn : Dám Bị Ghét + Dám Hạnh Phúc,Kishimi Ichiro,206000,119480,1482.0,Sách tư duy - Kỹ năng sống,267,5.0,,Nhà Xuất Bản Lao Động,https://salt.tikicdn.com/ts/product/6b/f7/cf/0...


In [12]:
comment_df[comment_df.customer_id.duplicated(keep=False)].shape[0]
comment_df.customer_id.value_counts()[:10000]

12088578    95
6492212     88
642183      79
7859171     74
8599820     73
            ..
10075928     2
20406189     2
6927788      2
20210667     2
5320933      2
Name: customer_id, Length: 10000, dtype: int64

In [13]:
# book_df.astype({'pages': np.float32})
book_df['pages'] = pd.to_numeric(book_df['pages'] , errors='coerce')

In [14]:
def open_object_dtype(s):
    dtypes = set()
    s.apply(lambda x: dtypes.add(type(x)))
    return dtypes
print('category',open_object_dtype(book_df.category) )
print('manufacturer',open_object_dtype(book_df.manufacturer) )
book_df.loc[book_df['category'].str.strip() == '','category'] = np.nan
book_df.loc[book_df['manufacturer'].str.strip() == '','manufacturer'] = np.nan
book_df = book_df.astype({'manufacturer': str,'category':str})

category {<class 'str'>}
manufacturer {<class 'str'>, <class 'float'>}


In [15]:
dtypes = pd.Series(dict(comment_df.dtypes))
dtypes

product_id      int64
comment_id      int64
title          object
thank_count     int64
customer_id     int64
rating          int64
content        object
dtype: object

In [16]:
print('title',open_object_dtype(comment_df.title ) )
print('content',open_object_dtype(comment_df.content ) )
comment_df.loc[comment_df['title'].str.strip() == '','title'] = np.nan
comment_df.loc[comment_df['content'].str.strip() == '','content'] = np.nan
comment_df = comment_df.astype({'title': str,'content':str})

title {<class 'str'>, <class 'float'>}
content {<class 'str'>, <class 'float'>}


### With each numerical column, how are values distributed?


In [17]:
cols = book_df.select_dtypes([np.number]).columns
min = book_df[cols].min()
missing_percentage = book_df[cols].isnull().sum()/num_rows*100
lower_quartile = book_df[cols].quantile(0.25)
median = book_df[cols].quantile(0.5)
upper_quartile = book_df[cols].quantile(0.75)
max = book_df[cols].max()
nume_col_info_df = pd.concat([missing_percentage,min,lower_quartile,median,upper_quartile,max],axis = 1).T
nume_col_info_df.index = [ "missing_percentage", "min", "lower_quartile", "median", "upper_quartile", "max"]
nume_col_info_df = nume_col_info_df.round(1)
nume_col_info_df

Unnamed: 0,product_id,original_price,current_price,quantity,n_review,avg_rating,pages
missing_percentage,0.0,0.0,0.0,0.0,0.0,0.0,0.2
min,335337.0,0.0,0.0,1.0,0.0,0.0,10.0
lower_quartile,52785564.0,89000.0,60000.0,173.0,16.0,4.8,208.0
median,115078649.0,129000.0,88800.0,565.5,74.0,4.8,300.0
upper_quartile,192908778.0,190000.0,136600.0,2127.8,303.0,5.0,408.0
max,207909812.0,1550000.0,1200000.0,671121.0,11481.0,5.0,192000.0


In [18]:
book_df[book_df.n_review==11481.0]

Unnamed: 0,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
0,74021317,Cây Cam Ngọt Của Tôi,José Mauro de Vasconcelos,108000,64800,53075.0,Tiểu Thuyết,11481,5.0,244.0,Nhà Xuất Bản Hội Nhà Văn,https://salt.tikicdn.com/ts/product/5e/18/24/2...


In [19]:
cols = comment_df.select_dtypes([np.number]).columns
min = comment_df[cols].min()
missing_percentage = comment_df[cols].isnull().sum()/num_rows*100
lower_quartile = comment_df[cols].quantile(0.25)
median = comment_df[cols].quantile(0.5)
upper_quartile = comment_df[cols].quantile(0.75)
max = comment_df[cols].max()
nume_col_info_df = pd.concat([missing_percentage,min,lower_quartile,median,upper_quartile,max],axis = 1).T
nume_col_info_df.index = [ "missing_percentage", "min", "lower_quartile", "median", "upper_quartile", "max"]
nume_col_info_df = nume_col_info_df.round(1)
nume_col_info_df

Unnamed: 0,product_id,comment_id,thank_count,customer_id,rating
missing_percentage,0.0,0.0,0.0,0.0,0.0
min,335337.0,116197.0,0.0,27.0,1.0
lower_quartile,42459036.0,11576181.0,0.0,5355417.0,5.0
median,77105728.0,15459335.0,0.0,11123876.0,5.0
upper_quartile,147920903.0,17518350.0,0.0,19113314.0,5.0
max,207852961.0,18392604.0,548.0,28578516.0,5.0


### With each categorical column, how are values distributed?

In [20]:
cate_cols = set(book_df.columns) - set(book_df.select_dtypes([np.number]).columns)
missing_percentages = np.sum(book_df[cate_cols].isna()) / len(book_df) * 100
num_diff_vals = np.array(book_df[cate_cols].nunique())
diff_vals = np.array(book_df[cate_cols].apply(lambda col: col.dropna().unique()))

cate_cols = pd.DataFrame(data=np.array([missing_percentages, num_diff_vals, diff_vals]),
                            index=['Missing percentage', 'Num diff val', 'Diff val'], columns=cate_cols)
cate_cols

Unnamed: 0,cover_link,category,authors,manufacturer,title
Missing percentage,0.0,0.0,7.878447,0.0,0.0
Num diff val,1777,355,1083,42,1769
Diff val,[https://salt.tikicdn.com/ts/product/5e/18/24/...,"[Tiểu Thuyết, Sách tư duy - Kỹ năng sống, Lĩnh...","[José Mauro de Vasconcelos, Nguyễn Đoàn Minh T...","[Nhà Xuất Bản Hội Nhà Văn, Nhà Xuất Bản Thế Gi...","[Cây Cam Ngọt Của Tôi, Hành Tinh Của Một Kẻ Ng..."


In [21]:
cate_cols = set(comment_df.columns) - set(comment_df.select_dtypes([np.number]).columns)
missing_percentages = np.sum(comment_df[cate_cols].isna()) / len(comment_df) * 100
num_diff_vals = np.array(comment_df[cate_cols].nunique())
diff_vals = np.array(comment_df[cate_cols].apply(lambda col: col.dropna().unique()))

cate_cols = pd.DataFrame(data=np.array([missing_percentages, num_diff_vals, diff_vals]),
                            index=['Missing percentage', 'Num diff val', 'Diff val'], columns=cate_cols)
cate_cols

Unnamed: 0,content,title
Missing percentage,0.0,0.0
Num diff val,75681,4164
Diff val,"[Có những người bước đến, họ lấp đầy hạnh phúc...","[Cực kì hài lòng, Bình thường, Một cuốn sách đ..."


In [22]:
book_df.manufacturer.value_counts()

nan                                              265
Nhà Xuất Bản Thế Giới                            249
NXB Trẻ                                          145
Nhà Xuất Bản Hà Nội                              128
Nhà Xuất Bản Dân Trí                             126
Nhà Xuất Bản Kim Đồng                            113
Nhà Xuất Bản Hội Nhà Văn                         111
Nhà Xuất Bản Thanh Niên                           98
Nhà Xuất Bản Tổng hợp TP.HCM                      92
Nhà Xuất Bản Lao Động                             90
Nhà Xuất Bản Văn Học                              77
Nhà Xuất Bản Hồng Đức                             57
Nhà Xuất Bản Công Thương                          46
Nhà Xuất Bản Phụ Nữ Việt Nam                      38
Nhà Xuất Bản Phụ Nữ                               30
Nhà Xuất Bản Đà Nẵng                              17
Nhà Xuất Bản Đại Học Quốc Gia Hà Nội              13
Nhà Xuất Bản Mỹ Thuật                              8
Nhà Xuất Bản Lao Động Xã Hội                  

In [23]:
book_df['manufacturer'] = book_df['manufacturer'].replace({'NXB':'Nhà Xuất Bản','hong duc':'Nhà Xuất Bản Hồng Đức'}, regex=True)

In [24]:
book_df[book_df['authors']=='.'][:5]

Unnamed: 0,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
145,73125816,Digital Marketing - Từ Chiến Lược Đến Thực Thi...,.,220000,154000,4487.0,Sách Marketing - Bán hàng,865,4.8,250.0,Nhà Xuất Bản Lao Động,https://salt.tikicdn.com/ts/product/d0/b7/ac/8...
270,54614797,"Có Một Ngày, Bố Mẹ Sẽ Già Đi",.,96000,58520,10530.0,Truyện ngắn - Tản văn - Tạp Văn,2252,4.8,296.0,Nhà Xuất Bản Thế Giới,https://salt.tikicdn.com/ts/product/89/f1/fc/1...
883,40774181,Combo Sách Tiếng hàn tổng hợp dành cho người V...,.,220000,147400,5295.0,Sách Học Tiếng Hàn,1305,5.0,436.0,,https://salt.tikicdn.com/ts/product/6d/97/55/e...
1194,145977554,Combo 2 Cuốn: Thần Số Học + Thần Số Học Ứng Dụng,.,348000,244000,403.0,Sách Chiêm Tinh - Horoscope,62,4.8,,Nhà Xuất Bản Thanh Niên,https://salt.tikicdn.com/ts/product/e6/21/58/b...
1239,45349383,Hashtag No.2 Fashion - Kinh Doanh Thời Trang T...,.,200000,140000,1768.0,Sách Marketing - Bán hàng,213,4.8,132.0,Nhà Xuất Bản Dân Trí,https://salt.tikicdn.com/ts/product/a0/fe/92/7...


In [25]:
book_df['category'].value_counts()

Sách tư duy - Kỹ năng sống                                                              295
Tiểu Thuyết                                                                             133
Truyện ngắn - Tản văn - Tạp Văn                                                         109
Sách nghệ thuật sống đẹp                                                                 58
Sách kỹ năng làm việc                                                                    56
                                                                                       ... 
666 Satan - Tập 2                                                                         1
Boxset Trọn Bộ 21 Tập: Assassination Classroom                                            1
Ngược Dòng Tiền Kiếp                                                                      1
Gửi Em, Người Bất Tử - Tập 11 (Tái Bản 2022)                                              1
Thầy Cô Giáo Hạnh Phúc Sẽ Thay Đổi Thế Giới - Tập 2 - Đi Như Một Dòng Sông (Tái 

In [26]:
categories = '''Sách văn học
Sách kinh tế
Sách thiếu nhi
Sách kỹ năng sống
Sách Bà mẹ - Em bé
Sách Giáo Khoa - Giáo Trình
Sách Học Ngoại Ngữ
Sách Tham Khảo
Từ Điển
Sách Kiến Thức Tổng Hợp
Sách Khoa Học - Kỹ Thuật
Sách Lịch sử
Điện Ảnh - Nhạc - Họa
Truyện Tranh, Manga, Comic
Sách Tôn Giáo - Tâm Linh
Sách Văn Hóa - Địa Lý - Du Lịch
Sách Chính Trị - Pháp Lý
Sách Nông - Lâm - Ngư Nghiệp
Sách Công Nghệ Thông Tin
Sách Y Học
Tạp Chí - Catalogue
Sách Tâm lý - Giới tính
Sách Thường Thức - Gia Đình
Thể Dục - Thể Thao'''

In [27]:
cate = {}

In [28]:
cate = {'Sách văn học': ['Du ký',
  'Light novel',
  'Phê Bình - Lý Luận Văn Học',
  'Phóng sự - Ký sự - Bút ký',
  'Tác phẩm kinh điển',
  'Thơ',
  'Tiểu sử - Hồi ký',
  'Tiểu Thuyết',
  'Tranh Truyện',
  'Truyện cổ tích - Ngụ ngôn',
  'Truyện cười',
  'Truyện dài',
  'Truyện đam mỹ',
  'Truyện Giả tưởng - Huyền Bí - Phiêu Lưu',
  'Truyện kiếm hiệp',
  'Truyện kinh dị',
  'Truyện ngắn - Tản văn - Tạp Văn',
  'Truyện ngôn tình',
  'Truyện trinh thám',
  'Ca dao - Tục ngữ',
  'Sách ảnh'],
 'Sách kinh tế': ['Bài học kinh doanh',
  'Sách doanh nhân',
  'Sách khởi nghiệp',
  'Sách kinh tế học',
  'Sách kỹ năng làm việc',
  'Sách Marketing - Bán hàng',
  'Sách quản trị, lãnh đạo',
  'Sách quản trị nhân lực',
  'Sách tài chính, kế toán',
  'Sách tài chính, tiền tệ'],
 'Sách thiếu nhi': ['Đạo đức - Kỹ năng sống',
  'Kiến thức - Bách khoa',
  'Tô màu - Luyện chữ',
  'Truyện cổ tích',
  'Truyện kể cho bé',
  'Truyện tranh Ehon',
  'Truyện tranh thiếu nhi',
  'Văn học thiếu nhi'],
 'Sách kỹ năng sống': ['Sách tư duy - Kỹ năng sống',
  'Sách nghệ thuật sống đẹp',
  'Sách hướng nghiệp - Kỹ năng mềm'],
 'Sách Bà mẹ - Em bé': ['Sách Thai Giáo',
  'Sách Kiến Thức - Kỹ Năng Cho Trẻ',
  'Sách Làm Cha Mẹ',
  'Sách Dinh Dưỡng - Sức Khỏe Cho Bé'],
 'Sách Giáo Khoa - Giáo Trình': ['Sách Giáo Khoa Cấp 1',
  'Sách Giáo Khoa Cấp 2',
  'Sách Giáo Khoa Cấp 3',
  'Giáo Trình Đại Học - Cao Đẳng'],
 'Sách Học Ngoại Ngữ': ['Sách Học Tiếng Anh',
  'Sách Học Tiếng Nhật',
  'Sách Học Tiếng Hàn',
  'Sách Học Tiếng Hoa',
  'Ngoại Ngữ Khác'],
 'Sách Tham Khảo': ['Sách tham khảo cấp I',
  'Sách tham khảo cấp II',
  'Sách tham khảo cấp III',
  'Sách Luyện Thi Đại Học - Cao Đẳng',
  'Thẻ luyện thi',
  'Sách chuyên đề'],
 'Từ Điển': ['Từ Điển Tiếng Anh',
  'Từ Điển Tiếng Trung',
  'Từ Điển Tiếng Hàn',
  'Từ Điển Tiếng Nhật',
  'Từ Điển Tiếng Pháp',
  'Từ Điển Tiếng Việt',
  'Từ Điển Ngôn Ngữ Khác'],
 'Sách Kiến Thức Tổng Hợp': ['Kiến Thức Bách Khoa',
  'Lĩnh vực khác',
  'Sách Chiêm Tinh - Horoscope',
  'Sách giáo dục',
  'Sách Phong Thủy - Kinh Dịch',
  'Triết Học'],
 'Sách Khoa Học - Kỹ Thuật': ['Sách Khoa Học - Kỹ Thuật'],
 'Sách Lịch sử': ['Lịch Sử Việt Nam', 'Lịch Sử Thế Giới'],
 'Điện Ảnh - Nhạc - Họa': ['Âm Nhạc - Điện Ảnh',
  'Mỹ Thuật - Kiến Trúc',
  'Sách Tô Màu Dành Cho Người Lớn'],
 'Truyện Tranh, Manga, Comic': ['Truyện Tranh, Manga, Comic'],
 'Sách Tôn Giáo - Tâm Linh': ['Sách Tôn Giáo - Tâm Linh'],
 'Sách Văn Hóa - Địa Lý - Du Lịch': ['Sách Danh Nhân',
  'Sách Địa Danh - Du Lịch',
  'Sách Phong Tục - Tập Quán'],
 'Sách Chính Trị - Pháp Lý': ['Luật - Văn Bản Luật', 'Lý Luận Chính Trị'],
 'Sách Nông - Lâm - Ngư Nghiệp': ['Sách Nông - Lâm - Ngư Nghiệp'],
 'Sách Công Nghệ Thông Tin': ['Tin Học Văn Phòng',
  'Lập Trình',
  'Thiết Kế - Đồ Họa'],
 'Thể Dục - Thể Thao': ['Thể Dục - Thể Thao'],
 'Sách Y Học': ['Sách Y Học'],
 'Tạp Chí - Catalogue': ['Tạp Chí - Catalogue'],
 'Sách Tâm lý - Giới tính': ['Sách Tâm Lý Tuổi Teen',
  'Sách Hôn Nhân - Giới Tính'],
 'Sách Thường Thức - Gia Đình': ['Chăm sóc sức khỏe',
  'May - Thêu - Thời Trang',
  'Sách Làm Đẹp',
  'Sách Nấu ăn']}

In [29]:
# for key in cate.keys():
#     if key not in cate[key]:
#         cate[key].append(key)
#     cate[key] = ';'.join(cate[key])
# pd.Series(cate).to_csv('Category')

In [30]:

category = pd.read_csv('category')
category.columns = ['Category','SubCategory']
category['SubCategory'] = category['SubCategory'].apply(lambda x: x.split(';'))

In [31]:
cate_list = category['SubCategory'].explode('SubCategory').to_list()
index = book_df[~book_df.category.isin(cate_list)].product_id.to_list()

In [32]:
repair_cate = pd.read_csv('RepairCategory')
repair_cate.index = repair_cate.product_id
repair_cate.head()

Unnamed: 0_level_0,Unnamed: 0,Unnamed: 0.1,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
69219919,0,23,69219919,Muôn Kiếp Nhân Sinh (Khổ Nhỏ),Nguyên Phong,98000,72000,12009.0,Sách Tôn Giáo - Tâm Linh,2603,4.8,482.0,Nhà Xuất Bản Tổng hợp TP.HCM,https://salt.tikicdn.com/media/catalog/product...
95470626,1,61,95470626,Combo 2 Cuốn: Muôn Kiếp Nhân Sinh + Muôn Kiếp ...,Nguyên Phong,436000,248500,5947.0,Sách Tôn Giáo - Tâm Linh,1207,4.8,960.0,Nhà Xuất Bản Tổng hợp TP.HCM,https://salt.tikicdn.com/media/catalog/product...
188695904,2,73,188695904,GIẬN (TBL22),Thích Nhất Hạnh,135000,116000,1802.0,Sách Tôn Giáo - Tâm Linh,145,5.0,248.0,Nhà Xuất Bản Thế Giới,https://salt.tikicdn.com/ts/product/56/4a/55/d...
203957925,3,94,203957925,Monster #8 - Tập 6,Naoya Matsumoto,58000,49200,1438.0,"Truyện Tranh, Manga, Comic",132,5.0,188.0,Nhà Xuất Bản Hồng Đức,https://salt.tikicdn.com/ts/product/78/98/79/d...
207475540,4,97,207475540,Blue Flag Tập 8 [Tặng Kèm Bookmark PVC],Kaito,45000,45000,143.0,"Truyện Tranh, Manga, Comic",15,4.7,244.0,Nhà Xuất Bản Kim Đồng,https://salt.tikicdn.com/ts/product/c5/0d/50/5...


In [58]:
book_df = book_df.set_index('product_id')
book_df.loc[index,'category']  = repair_cate.loc[index,'category'].to_list()
book_df.loc[index,'category'] 

KeyError: '[161409461] not in index'

In [34]:
 book_df[~book_df.category.isin(cate_list)]

Unnamed: 0_level_0,product_id,title,authors,original_price,current_price,quantity,category,n_review,avg_rating,pages,manufacturer,cover_link
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
161409461,161409461,Thùng 48 hộp sữa tươi tiệt trùng có đường TH T...,,406800,386000,1372.0,Sữa tiệt trùng (UHT),117,5.0,,,https://salt.tikicdn.com/ts/product/66/33/87/5...
204374127,204374127,Tạp chí Forbes Việt Nam - Số 111 (Tháng 11.202...,nhieu tac gia,95000,95000,38.0,Sách tiếng Việt,4,5.0,140.0,Forbes Việt Nam,https://salt.tikicdn.com/ts/product/03/f0/8d/4...


In [35]:
book_df = book_df.drop(161409461)

In [76]:
# join = comment_df.merge(book_df,left_on='product_id',right_on='product_id')
# book_df = book_df.reset_index(drop=True)
comment_df.product_id.value_counts()[comment_df.product_id.value_counts()>5]
# comment_df.rating.value_counts()
# comment_df

107802183    91
50773990     90
163165281    90
197587849    90
11189120     90
             ..
201307595     6
201580268     6
35283865      6
595703        6
204363219     6
Name: product_id, Length: 1828, dtype: int64

In [70]:
data = comment_df.merge(book_df,left_on='product_id',right_on='product_id',how='inner')
pivot_table = data.pivot_table(index = ["customer_id"],columns = ["title_y"],values = "rating")
pivot_table.head(10)


title_y,Cứ Làm Đi!,Để Trở Thành Người Bán Hàng Giỏi Nhất Thế Giới,"""999 Lá Thư Gửi Cho Chính Mình” - Phiên Bản Mini","""Cậu"" Ma Nhà Xí Hanako - Tập 0","""Đức Phật"" nơi công sở",#Hashtag 01: Drink - Kinh Doanh Đồ Uống Tại Thị Trường Việt Nam (Tái bản 2020),(Bìa cứng) HIMALAYA NHỮNG CUỘC PHIÊU LƯU - THIỀN - CUỘC SỐNG –Ruskin Bond & Namita Gokhale tuyển chọn – Hà Thị Thanh Huyền dịch – NXB Giáo Dục Việt Nam,10 vạn câu hỏi vì sao - trọn bộ 5 tập,100+ Bài Tập Kích Thích Não Bộ Hiệu Quả 40 Ngày Luyện Trí Nhớ,101 Lời Khuyên Tài Chính Cá Nhân Từ Thái Phạm,...,Đừng Lựa Chọn An Nhàn Khi Còn Trẻ (Tái Bản),Đừng bao giờ đi ăn một mình,Đừng Để Mất Bò - 7 Bước Quản Lý Cửa Hàng Hiệu Quả Và Chống Thất Thoát,Ước Mơ Heo (Câu Chuyện Một Chú Bé Ước Mơ Được Biến Thành Heo),Ảo Dạ (Tái Bản),Ổn Định Hay Tự Do,Ở Quán Cà Phê Của Tuổi Trẻ Lạc Lối (Tái Bản),Ở nơi quỷ sứ giặc non,Ủ Một Miền Thơm,“Đức Phật” nơi công sở (Truyện tranh)
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
27,,,,,,,,,,,...,,,,,,,,,,
120,,,,,,,,,,,...,,,,,,,,,,
247,,,,,,,,,,,...,,,,,,,,,,
285,,,,,,,,,,,...,,,,,,,,,,
393,,,,,,,,,,,...,,,,,,,,,,
406,,,,,,,,,,,...,,,,,,,,,,
479,,,,,,,,,,,...,,,,,,,,,,
544,,,,,,,,,,,...,,,,,,,,,,
622,,,,,,,,,,,...,,,,,,,,,,
661,,,,,,,,,,,...,,,,,,,,,,


In [74]:
movie_watched = pivot_table["Miếng Ngon Hà Nội (Việt Nam Danh Tác)"]
similarity_with_other_movies = pivot_table.corrwith(movie_watched)  # find correlation between "Bad Boys (1995)" and other movies
similarity_with_other_movies = similarity_with_other_movies.sort_values(ascending=False)
similarity_with_other_movies.head()

title_y
Chuyện Con Mèo Và Con Chuột Bạn Thân Của Nó - Tái Bản         1.0
Chuyện Con Ốc Sên Muốn Biết Tại Sao Nó Chậm Chạp (Tái Bản)    1.0
Con Đường Hồi Giáo (Tái Bản 2020)                             1.0
Miếng Ngon Hà Nội (Việt Nam Danh Tác)                         1.0
Những Ngày Thơ Ấu (Việt Nam Danh Tác)                         1.0
dtype: float64

In [None]:
def create_soup(x):
    return x['original_title']+ ' ' + x['authors'] + ' ' + x['average_rating']