In [1]:
!which python

/home/tvdiep/anaconda3/envs/p4ds-env/bin/python


## Import các thư viện cần thiết

In [2]:
import numpy as np
import pandas as pd

## Thu thập dữ liệu

Dữ liệu chúng em sử dụng ở đây bao gồm 3268 sản phẩm của Nike và Adidas với 12 thông tin đi kèm như: ratings, discount, sales prices, listed price,...

## Khám phá dữ liệu

### Đọc dữ liệu vào Dataframe

In [3]:
sale_data = pd.read_csv("https://raw.githubusercontent.com/tvadiep/P4DS_FinalProject/main/Adidas_Nike.csv")

In [4]:
sale_data.head()

Unnamed: 0,Product Name,Product ID,Listing Price,Sale Price,Discount,Brand,Description,Rating,Reviews,Last Visited
0,Women's adidas Originals NMD_Racer Primeknit S...,AH2430,14999,7499,50,Adidas Adidas ORIGINALS,Channeling the streamlined look of an '80s rac...,4.8,41,2020-04-13T15:06:14
1,Women's adidas Originals Sleek Shoes,G27341,7599,3799,50,Adidas ORIGINALS,"A modern take on adidas sport heritage, tailor...",3.3,24,2020-04-13T15:06:15
2,Women's adidas Swim Puka Slippers,CM0081,999,599,40,Adidas CORE / NEO,These adidas Puka slippers for women's come wi...,2.6,37,2020-04-13T15:06:15
3,Women's adidas Sport Inspired Questar Ride Shoes,B44832,6999,3499,50,Adidas CORE / NEO,"Inspired by modern tech runners, these women's...",4.1,35,2020-04-13T15:06:15
4,Women's adidas Originals Taekwondo Shoes,D98205,7999,3999,50,Adidas ORIGINALS,This design is inspired by vintage Taekwondo s...,3.5,72,2020-04-13T15:06:15


### Dữ liệu có bao nhiêu dòng, bao nhiêu cột

In [5]:
data_rows = sale_data.shape[0]
data_cols = sale_data.shape[1]
print('Dữ liệu có dòng {} và {} cột'.format(data_rows, data_cols))

Dữ liệu có dòng 3268 và 10 cột


### Mỗi dòng có ý nghĩa gì?

Mỗi dòng ở đây là thông tin của một sản phẩm

### Kiểm tra xem các dòng có bị lặp không?

In [6]:
num_duplicated_rows = sale_data.duplicated().sum()
if num_duplicated_rows == 0:
    print('Không có dòng nào bị lặp')
else:
    print('Có {} dòng bị lặp'.format(num_duplicated_rows))

Không có dòng nào bị lặp


### Mỗi cột có ý nghĩa gì?

* Product Name: Tên sản phẩm.
* Product ID: Id sản phẩm.
* Listing Price: Giá niêm yết.
* Sale Price: Giá bán.
* Discount: Giảm giá.
* Brand: Nhãn hiệu.
* Description: Mô tả.
* Rating: Đánh giá.
* Reviews: Số lượt nhận xét
* Last Visited: Thời điểm ghi nhận dữ liệu.

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [7]:
sale_data.dtypes

Product Name      object
Product ID        object
Listing Price      int64
Sale Price         int64
Discount           int64
Brand             object
Description       object
Rating           float64
Reviews            int64
Last Visited      object
dtype: object

### Cột có dtype là object nghĩa là sao?

In [8]:
sale_data.select_dtypes('object')

Unnamed: 0,Product Name,Product ID,Brand,Description,Last Visited
0,Women's adidas Originals NMD_Racer Primeknit S...,AH2430,Adidas Adidas ORIGINALS,Channeling the streamlined look of an '80s rac...,2020-04-13T15:06:14
1,Women's adidas Originals Sleek Shoes,G27341,Adidas ORIGINALS,"A modern take on adidas sport heritage, tailor...",2020-04-13T15:06:15
2,Women's adidas Swim Puka Slippers,CM0081,Adidas CORE / NEO,These adidas Puka slippers for women's come wi...,2020-04-13T15:06:15
3,Women's adidas Sport Inspired Questar Ride Shoes,B44832,Adidas CORE / NEO,"Inspired by modern tech runners, these women's...",2020-04-13T15:06:15
4,Women's adidas Originals Taekwondo Shoes,D98205,Adidas ORIGINALS,This design is inspired by vintage Taekwondo s...,2020-04-13T15:06:15
...,...,...,...,...,...
3263,Air Jordan 8 Retro,CI1236-100,Nike,The Air Jordan 8 Retro recaptures the memorabl...,2020-04-13T15:41:01
3264,Nike Phantom Venom Club IC,AO0578-717,Nike,The Nike Phantom Venom Club IC is engineered f...,2020-04-13T15:41:03
3265,Nike Mercurial Superfly 7 Academy TF,AT7978-414,Nike,The soft upper of the Nike Mercurial Superfly ...,2020-04-13T15:41:07
3266,Nike Air Max 98,AH6799-300,Nike,The Nike Air Max 98 features the OG design lin...,2020-04-13T15:41:19


## Tiền xử lý

### Vấn đề cần tiền xử lý:

#### Ta thấy được rằng đối với cột object trên thì nên được chuyển về `str`, riêng cột `Last Visited` thì nên được chuyển về  `datetime`

In [9]:
def open_object_dtype(s):
    dtype_list = s.apply(type)
    dtypes = set(dtype_list)
    return dtypes

In [10]:
cate_col_df = sale_data.select_dtypes(include='object').columns
type_col = []
for col in cate_col_df:
    type_col.append(open_object_dtype(sale_data[col]))
pd.DataFrame({'Column':cate_col_df, 'Type':type_col})

Unnamed: 0,Column,Type
0,Product Name,{<class 'str'>}
1,Product ID,{<class 'str'>}
2,Brand,{<class 'str'>}
3,Description,"{<class 'str'>, <class 'float'>}"
4,Last Visited,{<class 'str'>}


#### Tiếp theo chúng ta chuyển luôn cột `Last Visited` về dạng `datetime`

In [14]:
sale_data['Last Visited'] = pd.to_datetime(sale_data['Last Visited'])

#### Look again

In [15]:
sale_data.dtypes

Product Name             object
Product ID               object
Listing Price             int64
Sale Price                int64
Discount                  int64
Brand                    object
Description              object
Rating                  float64
Reviews                   int64
Last Visited     datetime64[ns]
dtype: object

## Khám phá dữ liệu (tiếp tục)

* Khám phá các bước như thầy: Có bao nhiêu dòng, bao nhiêu cột, nó có ý nghĩa gì? Kiểu dữ liệu mỗi cột? Chuyển sang dạng dữ liệu phù hợp hơn nếu có thể
* Tiền xử lý kiểu thêm cột, chuyển kiểu dữ liệu này nọ
* Với mỗi Brand khác nhau, Listing Price và Sale Price min, max là bao nhiêu.
* Top 5 Review cao nhất của Brand và Nike có SalePrice <= 6000 (Trả về 4 cột ProductName Reviews, Ratings, SalePrice)
* Chia Listing Price ra 4 khoảng [0-4999], [5000-10000], [10000,20000], [20000,..] với mỗi khoảng cho biết top 3 có reviews cao nhât
(Trả về 4 cột ProductName Reviews, Rating, SalePrice)
Những sp có Brand là Nike, Discount >= 50, ListingPrice >= 10000

In [16]:
!git add .

In [24]:
!git commit -m 'Viet dau cua xu ly du lieu, co tham khao 1 phan cua Bao'

[main 062e02e] Viet dau cua xu ly du lieu, co tham khao 1 phan cua Bao
 2 files changed, 108 insertions(+), 58 deletions(-)


In [23]:
!git add .

In [28]:
!git config --global user.name "tvadiep"