## Import các thư viện cần thiết

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

---

## Thu thập dữ liệu

Trong bài này, ta sẽ dùng dữ liệu đã được thu thập sẵn là file "Adidas Vs Nike.csv" đính kèm; Adidas vs Nike là một cuộc cạnh tranh không ngừng trong ngành công nghiệp thể thao. Tập dữ liệu này bao gồm thông tin sản phẩm của hai công ty khổng lồ này với những thông tin quan trọng. Dữ liệu này được lấy từ trang Kaggle, và gốc của dữ liệu là [ở đây](https://data.world/data-hut/product-data-from-nike) (Nike) và
[ở đây](https://data.world/data-hut/product-data-from-adidas) (Adidas).


---

## Khám phá dữ liệu

### Đọc dữ liệu từ file csv vào dataframe

In [2]:
df = pd.read_csv("Adidas Vs Nike.csv")
df

Unnamed: 0,Product Name,Product ID,Listing Price,Sale Price,Discount,Brand,Description,Rating,Reviews,Last Visited
0,Women's adidas Originals NMD_Racer Primeknit S...,AH2430,14999,7499,50,Adidas Adidas ORIGINALS,Channeling the streamlined look of an '80s rac...,4.8,41,2020-04-13T15:06:14
1,Women's adidas Originals Sleek Shoes,G27341,7599,3799,50,Adidas ORIGINALS,"A modern take on adidas sport heritage, tailor...",3.3,24,2020-04-13T15:06:15
2,Women's adidas Swim Puka Slippers,CM0081,999,599,40,Adidas CORE / NEO,These adidas Puka slippers for women's come wi...,2.6,37,2020-04-13T15:06:15
3,Women's adidas Sport Inspired Questar Ride Shoes,B44832,6999,3499,50,Adidas CORE / NEO,"Inspired by modern tech runners, these women's...",4.1,35,2020-04-13T15:06:15
4,Women's adidas Originals Taekwondo Shoes,D98205,7999,3999,50,Adidas ORIGINALS,This design is inspired by vintage Taekwondo s...,3.5,72,2020-04-13T15:06:15
...,...,...,...,...,...,...,...,...,...,...
3263,Air Jordan 8 Retro,CI1236-100,15995,12797,0,Nike,The Air Jordan 8 Retro recaptures the memorabl...,5.0,1,2020-04-13T15:41:01
3264,Nike Phantom Venom Club IC,AO0578-717,4995,3497,0,Nike,The Nike Phantom Venom Club IC is engineered f...,0.0,0,2020-04-13T15:41:03
3265,Nike Mercurial Superfly 7 Academy TF,AT7978-414,8495,5947,0,Nike,The soft upper of the Nike Mercurial Superfly ...,5.0,1,2020-04-13T15:41:07
3266,Nike Air Max 98,AH6799-300,0,16995,0,Nike,The Nike Air Max 98 features the OG design lin...,4.0,4,2020-04-13T15:41:19


### Dữ liệu gồm có bao nhiêu dòng và bao nhiêu cột?

In [3]:
print('Số dòng: ',df.shape[0])
print('Số cột: ',df.shape[1])

Số dòng:  3268
Số cột:  10


### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Theo quan sát sơ bộ về dữ liệu thì mỗi dòng là thông tin của một sản phẩm. Có vẻ không có dòng nào bị "lạc loài".

### Dữ liệu có các dòng bị lặp không?

In [4]:
num_duplicated_rows = df.duplicated().sum()
if num_duplicated_rows == 0:
    print('Không có dòng nào bị lặp')
else:
    print('Có {} dòng bị lặp'.format(num_duplicated_rows))

Không có dòng nào bị lặp


### Mỗi cột có ý nghĩa gì?

- **Product Name**: Tên sản phẩm.
- **Product ID**: Id sản phẩm.
- **Listing Price**: Giá niêm yết.
- **Sale Price**: Giá bán.
- **Discount**: Giảm giá.
- **Brand**: Nhãn hiệu.
- **Description**: Mô tả.
- **Rating**: Đánh giá.
- **Reviews**: Số lượt nhận xét
- **Last Visited**: Thời điểm ghi nhận dữ liệu.

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không?

In [5]:
df.dtypes

Product Name      object
Product ID        object
Listing Price      int64
Sale Price         int64
Discount           int64
Brand             object
Description       object
Rating           float64
Reviews            int64
Last Visited      object
dtype: object

**Cột có dtype là object nghĩa là sao?**

In [6]:
def open_object_dtype(s):
    dtypes = set(s.apply(type))
    return dtypes

In [7]:
cate_col_df = df.select_dtypes(include='object').columns
type_col = []
for col in cate_col_df:
    type_col.append(open_object_dtype(df['Product Name']))
pd.DataFrame({'Column':cate_col_df, 'Type':type_col})

Unnamed: 0,Column,Type
0,Product Name,{<class 'str'>}
1,Product ID,{<class 'str'>}
2,Brand,{<class 'str'>}
3,Description,{<class 'str'>}
4,Last Visited,{<class 'str'>}


Các cột có vẻ như đã có kiểu dữ liệu hợp lý. Riêng cột Last Visited nên ở dạng datetime. Để có thể tiếp tục khám phá thêm về cột này, ta sẽ thực hiện bước tiền xử lý là chuyển sang dạng `datetime`.

## Tiền xử lý

### Chuyển dtype của cột "Last Visited" sang datetime

In [8]:
df['Last Visited'] = pd.to_datetime(df['Last Visited'])

## Khám phá dữ liệu (tiếp tục)

### Với mỗi cột có kiểu dữ liệu dạng numeric, các giá trị được phân bố như thế nào?

Hiện có 6 cột có vẻ là thuộc nhóm numeric: 'Listing Price','Sale Price','Discount','Rating','Reviews','Last Visited'
Với các cột này, ta sẽ tính:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu 
- Giá trị min
- Giá trị lower quartile (phân vị 25)
- Giá trị median (phân vị 50)
- Giá trị upper quartile (phân vị 75)
- Giá trị max

In [9]:
num_col_df = df.select_dtypes(exclude='object').columns
num_df = df[num_col_df]
#num_df = df[['Listing Price','Sale Price','Discount','Rating','Reviews']]
def missing_ratio(s):
    return (s.isna().mean() * 100)
def median(df):
    return df.quantile(0.5)
def lower_quartile(df):
    return df.quantile(0.25)
def upper_quartile(df):
    return df.quantile(0.75)
num_col_info_df = num_df.agg([missing_ratio, min, lower_quartile, median, upper_quartile, max])
num_col_info_df

Unnamed: 0,Listing Price,Sale Price,Discount,Rating,Reviews,Last Visited
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0
min,0.0,449.0,0.0,0.0,0.0,2020-04-13 15:06:14
lower_quartile,4299.0,2999.0,0.0,2.6,10.0,2020-04-13 15:06:47
median,5999.0,4799.0,40.0,3.5,37.0,2020-04-13 15:07:20
upper_quartile,8999.0,7995.0,50.0,4.4,68.0,2020-04-13 15:07:53
max,29999.0,36500.0,60.0,5.0,223.0,2020-04-13 15:42:57


### Với mỗi cột có kiểu dữ liệu dạng categorical, các giá trị được phân bố như thế nào?

Hiện có 4 cột có vẻ là thuộc nhóm categorical: 'Product Name','Product ID','Brand','Description'. Với các cột này ta sẽ tính:
- Tỉ lệ % giá trị thiếu (từ 0 đến 100)
- Số lượng giá trị khác nhau
- List các giá trị khác nhau

In [10]:
cate_col_df = df.select_dtypes(include='object').columns
cate_df = df[cate_col_df]
def missing_ratio(s):
    return (s.isna().mean() * 100)
def num_diff_vals(s):
    return s.nunique()
def diff_vals(s):
    return s.unique()

cate_col_profiles_df = cate_df.agg([missing_ratio, num_diff_vals, diff_vals])
#raise NotImplementedError()
cate_col_profiles_df

Unnamed: 0,Product Name,Product ID,Brand,Description
missing_ratio,0.0,0.0,0.0,0.091799
num_diff_vals,1531,3179,5,1762
diff_vals,[Women's adidas Originals NMD_Racer Primeknit ...,"[AH2430, G27341, CM0081, B44832, D98205, B7558...","[Adidas Adidas ORIGINALS, Adidas ORIGINALS, Ad...",[Channeling the streamlined look of an '80s ra...


## Đưa ra câu hỏi

* Với mỗi Brand khác nhau, cho biết Sale Price min, max, số lượng sản phẩm, Rating trung bình, Reviews trung bình.
* Top n Review cao nhất của Brand tùy chọn có SalePrice <= x (x tùy chọn)
* Những sản phẩm có Discount >= d (d tùy chọn), ListingPrice >= x (x tùy chọn) được sắp xếp giảm dần theo Rating và Reviews
* Chia Sale Price ra 4 khoảng, với mỗi khoảng cho biết top 3 có reviews cao nhât

### Câu 1: Với mỗi Brand khác nhau, cho biết Sale Price min, max, số lượng sản phẩm, Rating trung bình, Reviews trung bình.

Trả lời được câu hỏi này, ta sẽ có được cái nhìn tổng quan về các sản phẩm của từng brand. Biết được mức độ yêu thích của người dùng đối với từng brand dựa vào Rating mean, Reviews mean và biết được giới hạn giá bán của sản phẩm. Từ đó ta có thể chọn cho mình brand mà ta tin tưởng để lựa chọn sản phẩm.

In [11]:
df_views = df[df['Reviews']!=0]
desc_sale = df.groupby('Brand')['Sale Price'].agg(['min','max','count'])
mean_rat_rev = df_views.groupby('Brand')[['Rating','Reviews']].agg(['mean'])
pd.concat([desc_sale,mean_rat_rev],axis = 1)

Unnamed: 0_level_0,min,max,count,"(Rating, mean)","(Reviews, mean)"
Brand,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adidas Adidas ORIGINALS,7499,7499,1,4.8,41.0
Adidas CORE / NEO,449,7999,1111,3.41535,48.643052
Adidas ORIGINALS,2299,29999,907,3.31971,49.780624
Adidas SPORT PERFORMANCE,1249,27999,606,3.349581,49.589615
Nike,1595,36500,643,4.247585,11.154589


Nhận thấy brand **Adidas Adidas ORIGINALS** có count = 1 (Rất ít so với các brand khác). Ta để ý có 1 brand khác có tên khá tương tự là **Adidas ORIGINALS**. Có thể hai brand này là một nhưng do nhầm lẫn nên brand **Adidas Adidas ORIGINALS** dư 1 từ Adidas. Ta quyết định replace giá trị **Adidas Adidas ORIGINALS** thành **Adidas ORIGINALS** và thực hiện lại yêu cầu.

In [12]:
df['Brand'] = df['Brand'].replace('Adidas Adidas ORIGINALS','Adidas ORIGINALS')

In [13]:
df_views = df[df['Reviews']!=0]
desc_sale = df.groupby('Brand')['Sale Price'].agg(['min','max','count'])
mean_rat_rev = df_views.groupby('Brand')[['Rating','Reviews']].agg(['mean'])
pd.concat([desc_sale,mean_rat_rev],axis = 1)

Unnamed: 0_level_0,min,max,count,"(Rating, mean)","(Reviews, mean)"
Brand,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adidas CORE / NEO,449,7999,1111,3.41535,48.643052
Adidas ORIGINALS,2299,29999,908,3.321357,49.770857
Adidas SPORT PERFORMANCE,1249,27999,606,3.349581,49.589615
Nike,1595,36500,643,4.247585,11.154589


Như vậy, ta thấy Nike có vẻ như được đánh giá cao hơn Adidas (Rating cao hơn). Tuy nhiên Adidas lại được nhiều người quan tâm hơn (Reviews cao hơn).

### Câu 2: Top n Review cao nhất của Brand tùy chọn  có SalePrice <= x (x tùy chọn)

Trả lời được câu hỏi này, ta sẽ tìm được sản phẩm thuộc Brand mà ta yêu thích và giá bán phù hợp với túi tiền.

In [14]:
def find_product(brand, n=5 , max_sale_price = 6000):
    df_brand = df[df['Brand']==brand]
    return df_brand[df_brand['Sale Price']<= max_sale_price].nlargest(n,'Reviews')

In [15]:
find_product('Adidas CORE / NEO')

Unnamed: 0,Product Name,Product ID,Listing Price,Sale Price,Discount,Brand,Description,Rating,Reviews,Last Visited
89,Men's adidas Running Galaxy 4 Shoes,F36159,5299,2649,50,Adidas CORE / NEO,Add miles to your running regimen in these men...,2.4,99,2020-04-13 15:06:21
267,Men's adidas Toe Side II Slippers,CM0070,1299,779,40,Adidas CORE / NEO,The adidas casual slippers for men with a stri...,5.0,99,2020-04-13 15:06:28
319,Men's adidas Sport Inspired Archivo Shoes,EF0435,5599,2799,50,Adidas CORE / NEO,Modern comfort and authentic adidas heritage m...,2.4,99,2020-04-13 15:06:30
425,Men's adidas Sport Inspired Run 60s Shoes,EE9731,5599,2799,50,Adidas CORE / NEO,Celebrate an era of breaking barriers in sport...,2.9,99,2020-04-13 15:06:34
667,Men's adidas RUNNING Stardrift Low Shoes,CI1741,4999,2000,60,Adidas CORE / NEO,Experience explosive energy and modern style w...,2.9,99,2020-04-13 15:06:42


Giả sử như ta muốn lựa chọn một sản phẩm của Adidas CORE / NEO nhưng vì ngân sách có hạn nên ta chỉ muốn lựa sản phẩm tốt mà có giá bán thấp hơn 6000. Thực hiên thao tác trên. Ta phát hiện sản phẩm Men's adidas Toe Side II Slippers	có đến 99 lượt Reviews mà rating đạt 5.0. Ta sẽ cân nhắc chọn sản phẩm này.

### Câu 3: Những sản phẩm có Discount >= d (d tùy chọn), ListingPrice >= x (x tùy chọn) được sắp xếp giảm dần theo Rating và Reviews

Ta muốn sở hữu được một sản phẩm có giá niêm yết cao để khoe với bạn bè. Nhưng ta chỉ muốn mua sản phẩm đang được giảm giá mạnh. Nếu trả lời được câu hỏi trên ta sẽ tìm được sản phẩm như ta mong muốn. 

In [16]:
def find_product_sale(d=40 , min_listing_price = 15000):
    sale_df = df[(df['Discount']>=d)&(df['Listing Price']>=min_listing_price)]
    return sale_df.sort_values(['Rating','Reviews'], ascending= False).reset_index().iloc[:,[1,3,4,5,6,8,9]]

In [17]:
pd.set_option('display.max_colwidth', None) # Hiển thị full chuỗi dài (cột Product Name)
find_product_sale(min_listing_price = 19000)

Unnamed: 0,Product Name,Listing Price,Sale Price,Discount,Brand,Rating,Reviews
0,Men's adidas Originals by Alexander Wang Futureshell Shoes,21999,13199,40,Adidas ORIGINALS,4.9,81
1,Men's adidas Football Predator 19+ Firm Ground Cleats,22999,13799,40,Adidas SPORT PERFORMANCE,4.6,44
2,Men's adidas Originals by Alexander Wang Futureshell Shoes,21999,13199,40,Adidas ORIGINALS,4.5,9
3,Men's adidas Originals FuturePacer Shoes,19999,9999,50,Adidas ORIGINALS,4.0,67
4,Men's adidas Originals By Alexander Wang B-Ball Shoes,21999,10999,50,Adidas ORIGINALS,4.0,19
5,Men's adidas Originals Crazy BYW LVL X Pharrell Williams Shoes,21999,10999,50,Adidas ORIGINALS,4.0,10
6,Men's adidas Originals Pharrell Williams X BYW CNY Shoes,21999,10999,50,Adidas ORIGINALS,3.9,30
7,Men's adidas Football X 18+ Firm Ground Cleats,22999,11499,50,Adidas SPORT PERFORMANCE,3.8,37
8,Men's adidas Football Predator 19+ Firm Ground Cleats,22999,13799,40,Adidas SPORT PERFORMANCE,3.5,68
9,Men's adidas Originals FuturePacer Shoes,19999,9999,50,Adidas ORIGINALS,3.5,1


Giả sử như ta muốn sở hữu một sản phẩm có giá niêm yết cao hơn 19000 để khoe với bạn bè nhưng lại muốn mua với discount >=40 để cho nhẹ túi tiền. Thực hiên thao tác trên. Ta phát hiện sản phẩm Men's adidas Originals by Alexander Wang Futureshell Shoes có đến 81 lượt Reviews mà rating đạt 4.9. Ta sẽ cân nhắc chọn sản phẩm này.

### Câu 4: Chia Sale Price ra 4 khoảng, với mỗi khoảng cho biết top 3 có reviews cao nhât

Trả lời được câu hỏi này, ta có thể lựa chọn cho mình một sản phẩm tốt tùy theo điều kiện của mỗi người.

In [18]:
df['Brand'].unique()

array(['Adidas ORIGINALS', 'Adidas CORE / NEO',
       'Adidas SPORT PERFORMANCE', 'Nike'], dtype=object)

Ở đây chỉ có hai hãng là Adidas và Nike tuy nhiên cột Brand có nhiều giá trị khác nhau. Lý do là hãng Adidas lại chia nhỏ ra nhiều giá trị khác nhau. Để thống nhất lại chỉ còn đúng 2 hãng, ta làm như sau:
* Bước 1: Tạo thêm cột 'Brand 2' vào df với tất cả giá trị đều là Adidas
* Bước 2: Thay đổi các giá trị Adidas lại thành Nike cho đúng với những vị trí thật sự là Nike

In [19]:
df['Brand 2']='Adidas'
df.loc[df.Brand == 'Nike', 'Brand 2'] = 'Nike'

Chia đều Sale Price thành 4 khoảng tương ứng với các phân vị [0,25,50,75,100]
* Bước 1: Sử dụng lại `num_col_info_df` đã được tính khi trước. Lấy ra cột Sale Price và bỏ đi dòng đầu tiên là missing_ratio. Ta sẽ được các giá trị min, lower_quartile, median, upper_quartile và max
* Bước 2: Tạo cột 'Type' với các giá trị '1','2','3','4' tương ứng với 4 khoảng nêu trên

In [20]:
# Bước 1
sale_price = num_col_info_df['Sale Price'].iloc[1:]
sale_price

min                 449.0
lower_quartile     2999.0
median             4799.0
upper_quartile     7995.0
max               36500.0
Name: Sale Price, dtype: float64

In [21]:
# Bước 2
df.loc[(df['Sale Price']>=sale_price[0])&(df['Sale Price']<sale_price[1]) , 'Type'] = '1'
df.loc[(df['Sale Price']>=sale_price[1])&(df['Sale Price']<sale_price[2]) , 'Type'] = '2'
df.loc[(df['Sale Price']>=sale_price[2])&(df['Sale Price']<sale_price[3]) , 'Type'] = '3'
df.loc[(df['Sale Price']>=sale_price[3]), 'Type'] = '4'

Để trả lời được câu hỏi trên, ta thực hiện các bước sau:
* Bước 1: Với mỗi 'Type' khác nhau, tìm ra top 3 Reviews cao nhất và lấy ra index của những dòng này
* Bước 2: Lựa chọn những cột cần hiển thị và hiển thị DataFrame được yêu cầu khi đã reset index

In [22]:
#Bước 1
X = df.groupby('Type')['Reviews'].nlargest(3)
X.index

MultiIndex([('1',   89),
            ('1',  267),
            ('1',  319),
            ('2',  723),
            ('2', 1073),
            ('2', 1134),
            ('3',  492),
            ('3', 1149),
            ('3', 1274),
            ('4', 2750),
            ('4', 2805),
            ('4', 1997)],
           names=['Type', None])

In [23]:
temp, idx = zip(*X.index)

In [24]:
#Bước 2
col_names = ['Product Name','Listing Price','Sale Price','Discount','Brand 2','Rating','Reviews','Type']
df.loc[list(idx)].reset_index()[col_names]

Unnamed: 0,Product Name,Listing Price,Sale Price,Discount,Brand 2,Rating,Reviews,Type
0,Men's adidas Running Galaxy 4 Shoes,5299,2649,50,Adidas,2.4,99,1
1,Men's adidas Toe Side II Slippers,1299,779,40,Adidas,5.0,99,1
2,Men's adidas Sport Inspired Archivo Shoes,5599,2799,50,Adidas,2.4,99,1
3,Women's adidas Sport Inspired Farm Rio Advantage Shoes,5999,3599,40,Adidas,4.6,99,2
4,Men's adidas Sport Inspired Questar BYD Shoes,6999,4199,40,Adidas,4.1,99,2
5,WOMEN'S ADIDAS RUNNING QUESA SHOES,6999,3499,50,Adidas,2.2,99,2
6,Women's adidias Originals Supercourt Shoes,7599,7599,0,Adidas,2.2,99,3
7,Men's adidas Originals A.R. Trainer Shoes,7999,4799,40,Adidas,4.0,99,3
8,Men's Running Nova Flow Shoes,5999,5999,0,Adidas,3.1,99,3
9,Air Jordan 10 Retro,0,15995,0,Nike,4.7,223,4


Ta thấy top Reviews các sản phẩm loại 1, 2, 3 đều thuộc về hãng Adidas, riêng top Reviews các sản phẩm loại 4 (Giá đắc) thì Nike lại chiếm top 1,2 với lượng Reviews và Rating rất ấn tượng. Điều này cho thấy Nike tập trung chất lượng cho những sản phẩm giá trị cao khiến cho người mua ưa chuộng Nike hơn Adidas khi mua sản phẩm đắc tiền. Nhờ vào bảng trên, ta có thể lựa chọn cho mình một sản phẩm tốt tùy theo điều kiện của mỗi người.