In [1]:
import pandas as pd

In [2]:
pro = pd.read_csv('data/product.csv')
com = pd.read_csv('data/comments.csv')

# Check for duplicate rows

In [3]:
print(f'Product data without removing duplicates: {pro.shape}')
print(f'Product data removing duplicates: {pro.drop_duplicates().shape}')

print(f'Comments data without removing duplicates: {com.shape}')
print(f'Comments data removing duplicates: {com.drop_duplicates().shape}')

Product data without removing duplicates: (1051, 18)
Product data removing duplicates: (1036, 18)
Comments data without removing duplicates: (3236, 14)
Comments data removing duplicates: (3128, 14)


In [4]:
pro.drop_duplicates(inplace=True)
com.drop_duplicates(inplace=True)

# Check null data

In [5]:
pro.isna().sum()

product_id                 0
sku                        1
product_name               1
brand_name                 1
categories                 1
current_seller             1
warranty_time              1
quantity_sold              1
rating_average             1
review_count               1
price                      1
original_price             1
discount                   1
discount_rate              1
stock_item_qty             1
stock_item_max_sale_qty    1
short_description          1
link                       1
dtype: int64

In [6]:
pro.dropna(inplace=True)

In [7]:
com.isnull().sum()

product_id              0
customer_id             0
customer_region      3128
customer_evaluate       0
content               917
like_count              0
rating                  0
score                   0
created_at              0
rating_1_stars          0
rating_2_stars          0
rating_3_stars          0
rating_4_stars          0
rating_5_stars          0
dtype: int64

In [8]:
com['content'] = com['content'].fillna("No content")
com.drop(columns=['customer_region'], inplace=True)

# Product data

## Fix categories

In [9]:
pro['categories'].value_counts()

categories
Điện thoại Smartphone         608
Điện thoại phổ thông          136
Điện thoại bàn                105
Máy tính bảng                  83
Máy đọc sách                   50
Điện Thoại - Máy Tính Bảng     38
Root                           14
Bao Tập - Bao Sách              1
Name: count, dtype: int64

In [10]:
pro = pro.drop(index=pro[pro['categories']=='Bao Tập - Bao Sách'].index)
pro = pro.drop(index=pro[pro['categories']=='Điện Thoại - Máy Tính Bảng'].index)
pro['categories'].value_counts()

categories
Điện thoại Smartphone    608
Điện thoại phổ thông     136
Điện thoại bàn           105
Máy tính bảng             83
Máy đọc sách              50
Root                      14
Name: count, dtype: int64

## Fix warranty time info

In [11]:
pro['warranty_time'].value_counts()

warranty_time
12 Tháng                   574
1 Năm                      266
Xem chi tiết                50
18 Tháng                    47
Unknown                     20
13 Tháng                    13
6 Tháng                     12
12 tháng                     4
3 Tháng                      2
1 Tháng                      2
18 Ngày                      1
120 Ngày                     1
2 Tháng                      1
5 Tháng                      1
BH 12 tháng bằng thẻ BH      1
24 Tháng                     1
Name: count, dtype: int64

In [12]:
def warranty_fix(x):
    if not str(x).split(' ')[0].isnumeric():
        return 'Unavailable'
    if x.split(' ')[1].lower()=='năm':
        return f"{int(x.split(' ')[0])*12} Tháng"
    elif x.split(' ')[1].lower()=="ngày":
        return f"{int(x.split(' ')[0]) // 30} Tháng"
    elif x.split(' ')[1].lower()=="tháng":
        return f"{x.split(' ')[0]} Tháng"

In [13]:
pro['warranty_time'] = pro['warranty_time'].apply(warranty_fix)
pro['warranty_time'].value_counts()

warranty_time
12 Tháng       844
Unavailable     71
18 Tháng        47
13 Tháng        13
6 Tháng         12
3 Tháng          2
1 Tháng          2
0 Tháng          1
4 Tháng          1
2 Tháng          1
5 Tháng          1
24 Tháng         1
Name: count, dtype: int64

In [14]:
pro.to_csv('final_data/product.csv', index=False)
com.to_csv('final_data/comments.csv', index=False)