<a href="https://colab.research.google.com/drive/13lH39gjf7stuRWV_GFCjoGlZsrvssh5U?usp=sharing" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab"/></a>

### Imports 

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import time
import matplotlib.ticker as ticker
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

pd.set_option("display.max_rows", 21, "display.max_columns", 21)

### I. Prepair data

In [None]:
data_frame = pd.read_excel('Sample - Superstore.xls')

In [None]:
data_frame.shape

In [None]:
data_frame.head()

In [None]:
data_frame.describe()

In [None]:
data_frame.info()

*Các kiểu giá trị ở các cột đều phù hợp*

In [None]:
data_frame.isna().sum()

*Không có giá trị null nào trong dataframe*

In [None]:
data_frame.duplicated().sum()

*Không có giá trị trùng lặp nào trong dataframe*

### II. How have profit and sales changed over the years?

In [None]:
data_frame['Year']=data_frame['Order Date'].dt.year
data_frame['Year']

In [None]:
data_frame['Year'].value_counts()

In [None]:
profit_sales_data = data_frame.groupby(by="Year")[["Sales", "Profit"]].mean().reset_index()
profit_sales_data

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=profit_sales_data["Year"], y=profit_sales_data["Sales"], name='Sales',
                         line=dict(color='firebrick', width=4)))
fig.add_trace(go.Scatter(x=profit_sales_data["Year"], y=profit_sales_data["Profit"], name='Profit',
                         line = dict(color='firebrick', width=4, dash='dot')))
fig.add_bar(x=profit_sales_data["Year"], y=profit_sales_data["Sales"], name='Sales', marker_color='indianred')
fig.add_trace(go.Bar(x=profit_sales_data["Year"], y=profit_sales_data["Profit"], name='Profit', marker_color='lightsalmon'))
fig.update_layout(title='Profit and Sales changed over the years',
                   xaxis_title='Years',
                   yaxis_title='')
fig.update_xaxes(tickangle=45,
                 tickmode = 'array',
                 tickvals = profit_sales_data['Year'],
                 ticktext= [d for d in profit_sales_data['Year']])
fig.show()

Theo đồ thị trên, ta thấy được rằng chỉ số Sales và Profit đều thay đổi theo từng năm.

Sales:
+ Sales đạt cao nhất ở năm 2014, với giá trị **242.97**, nhưng lại đạt giá trị profit thấp nhất **24.86**, chứng tỏ trong năm này cửa hàng bán được nhiều hàng hóa nhưng với lợi nhuận thấp. 
+ Sales đạt giá trị thấp nhất ở năm 2017, với giá trị trung bình là **221.38**
+ Nhìn chung, giá trị Sales thay đổi lên xuống theo từng năm nhưng đang có xu hướng giảm xuống.

Profit:
+ Từ năm 2014 đến năm 2016, chỉ số lợi nhuận của cửa hàng đều có xu hướng tăng lên. Từ giá trị **24.86** ở năm 2014 đến năm 2016, lợi nhuận đã tăng lên **32.62**. Đây cũng là hai giá trị lợi nhuận thấp nhất và cao nhất mà cửa hàng đã thu được. 
+ Từ năm 2016 đến năm 2017, chỉ số lợi nhuận đã giảm xuống còn **28.21**


### III. How do profit Rate (Profit/Sales) over years?

In [None]:
profit_sales_data["Profit Rate"] = profit_sales_data["Profit"]/profit_sales_data["Sales"]
profit_sales_data

In [None]:
fig_3 = make_subplots(specs=[[{"secondary_y": True}]])
fig_3.add_bar(x=profit_sales_data["Year"], y=profit_sales_data["Sales"], name='Sales',
              marker_color='MediumPurple', secondary_y=False)
fig_3.add_bar(x=profit_sales_data["Year"], y=profit_sales_data["Profit"], name='Profit',
              marker_color="lightskyblue", secondary_y=False)
fig_3.add_trace(go.Scatter(x=profit_sales_data["Year"], y=profit_sales_data["Profit Rate"]*100,
                           name="Profit Rate"), secondary_y=True)
fig_3.update_yaxes(title_text="", secondary_y=False)
fig_3.update_yaxes(title_text="(%)", secondary_y=True)
fig_3.update_xaxes(tickangle=45,
                   tickmode = 'array',
                   tickvals = profit_sales_data['Year'],
                   ticktext= [d for d in profit_sales_data['Year']])
fig_3.update_layout(title='Profit Rate (Profit/Sales) over years',
                   xaxis_title='Years')
fig_3.show()

Như đã đề cập ở phần "Profit and Sales changed over the years" ở biểu đồ "Profit Rate (Profit/Sales) over years" này, chúng ta thấy rõ hơn về tỉ lệ lợi nhuận trên doanh thu của cửa hàng.

- Ở năm 2014, cửa hàng thu về lượng doanh thu lớn nhưng lại có tỷ lệ thu lợi nhuận rất thấp, chỉ đạt **10.23%**, đây cung là mức tỷ lệ lợi nhuận thấp nhất qua các năm của cửa hàng.
- Từ năm 2015 đến năm 2017, cửa hàng đã đẩy được mức tỷ lệ lên cao hơn nhiều, rơi vào khoảng **12% - 13%**. Trong đó, đạt giá trị cao nhất ở năm 2016 là **13.43%** 

### IV. How do profit and sales change over months in 2017?

In [None]:
data_frame['Month']=data_frame['Order Date'].dt.month
data_frame['Month']

In [None]:
data_frame_2017 = data_frame[data_frame.Year==2017]
profit_sales_2017_over_months = data_frame_2017.groupby(by="Month")[["Sales", "Profit"]].mean().reset_index()
profit_sales_2017_over_months

In [None]:
fig_4 = go.Figure()
fig_4.add_trace(go.Scatter(x=profit_sales_2017_over_months["Month"], 
                           y=profit_sales_2017_over_months["Sales"], name='Sales',
                           line=dict(color='firebrick', width=4)))
fig_4.add_trace(go.Scatter(x=profit_sales_2017_over_months["Month"],
                           y=profit_sales_2017_over_months["Profit"], name='Profit',
                           line = dict(color='firebrick', width=4, dash='dot')))
fig_4.add_bar(x=profit_sales_2017_over_months["Month"],
              y=profit_sales_2017_over_months["Sales"],
              name='Sales', marker_color='indianred')
fig_4.add_bar(x=profit_sales_2017_over_months["Month"], 
              y=profit_sales_2017_over_months["Profit"], 
              name='Profit', marker_color='lightsalmon')
fig_4.update_layout(title='Profit and Sales changed over the months',
                   xaxis_title='Month',
                   yaxis_title='')
fig_4.update_xaxes(tickangle=45,
                   tickmode='array',
                   tickvals=profit_sales_2017_over_months['Month'],
                   ticktext=[d for d in profit_sales_2017_over_months['Month']])
fig_4.show()

Trong năm 2017, giá trị Sales và Profit theo từng tháng cũng thay đổi liên tục.

Sales:
- Giá trị doanh thu có sự thay đổi lên xuống khá lớn. Chúng ta có thể thấy rõ cửa hàng sẽ có doanh thu cao ở các *tháng 8, tháng 10,tháng 11, tháng 1 và tháng 3*. Các tháng có doanh thu thấp là *tháng 4, tháng 5, tháng 9 và tháng 12*. Trong đó, tháng có doanh thu cao nhất là *tháng 8*, đạt giá trị ***289.54*** và tháng có doanh thu thấp nhất là vào *tháng 4*, chỉ đạt doanh thu ***179.90***. 

Profit:
- Giá trị lợi nhuận trong năm 2017 cũng có nhiều sự thay đổi, và có xu hướng giảm gần về vào các tháng cuối năm. Vào *tháng 3*, cửa hàng có được giá trị lợi nhuận đạt cao nhất trong năm là ***61.98*** và vào *tháng 4*, cửa hàng đạt gía trị lợi nhuận thấp nhất là ***4.60***.

Nhận xét:
- Ta thấy vào khoảng đầu năm (từ *tháng 1* đến *tháng 4*), giá trị lợi nhuận và doanh thu có độ tương quan lớn, khi mà lợi nhuận tỷ lệ thuận với doanh thu. Tuy nhiên, đến các tháng giữa và cuối năm (từ *tháng 5* đến *tháng 12*) giá trị lợi nhuận không còn phụ thuộc quá nhiều vào doanh thu nữa.

### V. Which states have the highest return rates?

In [None]:
data_frame[data_frame["Product ID"]=="FUR-TA-10000577"]

In [None]:
data_frame["Cost"] = data_frame.Sales - data_frame.Profit
data_frame["Rate of Return"] = (data_frame.Sales - data_frame.Cost)/data_frame.Cost
data_frame_RoR_State = data_frame.groupby(by="State").mean().reset_index()
data_frame_RoR_State = data_frame_RoR_State.sort_values(by=['Rate of Return'])

In [None]:
fig_5 = make_subplots(specs=[[{"secondary_y": True}]])
fig_5.add_bar(x=data_frame_RoR_State["State"],
              y=data_frame_RoR_State["Rate of Return"],
              name='Rate of Return', marker_color='indianred')
fig_5.update_layout(autosize=True,
                    width=1000,
                    height=500)
fig_5.update_layout(title='Rate of return over States',
                    xaxis_title='State',
                    yaxis_title='Rate of Return')
fig_5.update_xaxes(tickangle=90,
                   tickmode='array',
                   tickvals=data_frame_RoR_State['State'],
                   ticktext=[d for d in data_frame_RoR_State['State']])
fig_5.show()

In [None]:
data_frame_RoR_State.tail()

Trên biểu đồ trên, ta thấy hầu hết các bang đều cho chỉ số *Rate of Return* lớn hơn ***0.4***. 
- Có 11 bang chỉ số hoàn vốn ở ngưỡng thấp (nhỏ hơn ***0.11***), và đặc biệt có hai bang chỉ số âm hay lỗ vốn là bang **Illinois** có chỉ số ***-0.06*** và bang **Texas** có chỉ số ***-0.01***.
- Bang có chỉ số cao nhất là **District of Columbia** với chỉ số ***0.75***, tiếp theo đó là **Iowa** với ***0.71***. Đây là hai bang đem lại mức hoàn vốn nhiều nhất.

### VI. Which categories have the highest return rates?

In [None]:
data_frame_RoR_cate = data_frame.groupby(by="Category")[["Category", "Sales", "Quantity", 
                                                         "Discount", "Profit", "Cost", 
                                                         "Rate of Return"]].mean().reset_index()
data_frame_RoR_cate

In [None]:
fig_6 = make_subplots(specs=[[{"secondary_y": True}]])
fig_6.add_bar(x=data_frame_RoR_cate["Category"],
              y=data_frame_RoR_cate["Rate of Return"],
              name='Category', marker_color='indianred')
fig_6.update_layout(autosize=True,
                    width=900,
                    height=500)
fig_6.update_layout(title='Rate of return over Category',
                    xaxis_title='Category',
                    yaxis_title='Rate of Return')
fig_6.update_xaxes(tickangle=0,
                   tickmode='array',
                   tickvals=data_frame_RoR_cate['Category'],
                   ticktext=[d for d in data_frame_RoR_cate['Category']])
fig_6.show()

Biểu đồ phía trên là biểu đồ về gía trị trung bình của tỉ lệ hoàn vốn nhóm theo nhóm hàng. Trong cửa hàng đang xét, chúng ta có ba nhóm chính là *Furniture*, *Office Suppiles* và *Technology*. Nhóm hàng *Office Supplies* có tỉ lệ hoàn vốn cao nhất đạt ***0.40***, nhóm hàng *Furniture* có tỉ lệ hoàn vốn thấp nhất ***0.14*** và nhóm hàng *Techology* nằm ở mức trung bình ***0.25***.

Nhìn chung, các mặt hàng đều đem lại tỉ lệ hoàn vốn dương, như vậy, trung bình của các mặt hàng đều đem lại lợi nhuận cho cửa hàng.

Sau đây, hãy đi chi tiết hơn về các loại mặt hàng trong nhóm để có cái nhìn rõ hơn về các mặt hàng.

In [None]:
data_frame_RoR_cate = data_frame.groupby(by=["Category", 
                                             "Sub-Category"])[["Sub-Category", 
                                                               "Category", 
                                                               "Sales", 
                                                               "Quantity", 
                                                               "Discount", 
                                                               "Profit", 
                                                               "Cost", 
                                                               "Rate of Return"]].mean().reset_index()
data_frame_RoR_cate

In [None]:
fig_6_2 = px.bar(data_frame_RoR_cate, y="Rate of Return", x="Sub-Category",# orientation="h",# hover_name="Category",
                 color_discrete_sequence=["#7A92FF", "#FF7AEF", "#B77AFF", "#A9FF7A", "#FFB27A", "#FF7A7A",
                 "#7AFEFF", "#D57AFF", "#FFDF7A", "#D3F077", "#2A30FF", "#F020E3"].reverse(), 
                 color="Category",
                 title="Detail Rate of return over Category")
fig_6_2.show()

Ta thấy, cửa hàng có nhiều mặt hàng thuộc nhóm *Office Supplies* hơn hẳn hai nhóm còn lại, và tỷ lệ hoàn vốn của các mặt hàng trong nhóm này đều khá cao, cao nhất là ở 3 mặt hàng là **Envelopes**, **Labels**, **Paper**. 

Hai nhóm hàng còn lại có ít loại hàng hơn và cũng có tỷ lệ hoàn vốn thấp hơn. Riêng mặt hàng *Furniture* còn có hai mặt hàng có tỷ lệ hoàn vốn âm là **Bookcases** có giá trị ***-0.02*** và **Tables** có giá trị ***-0.08***.

### VII. Which month of the year has the most orders?

In [None]:
data_frame_ID_order = data_frame[["Month", "Year"]].value_counts().to_frame().sort_values(by=["Year", "Month"])
data_frame_ID_order.columns = ["Number of Orders"]
data_frame_ID_order = data_frame_ID_order.reset_index()

In [None]:
fig_7 = px.bar(data_frame_ID_order, x="Month", y="Number of Orders",
               color="Month",
               color_discrete_sequence=["#7A92FF", "#FF7AEF", "#B77AFF", "#A9FF7A", "#FFB27A", "#FF7A7A",
               "#7AFEFF", "#D57AFF", "#FFDF7A", "#D3F077", "#2A30FF", "#F020E3"].reverse(), 
               animation_frame="Year")
fig_7.update_xaxes(tickangle=0,
                   tickmode='array',
                   tickvals=data_frame_ID_order['Month'],
                   ticktext=[d for d in data_frame_ID_order['Month']])
fig_7.show()

Biểu đồ trên cho ta thấy được số lượng Order mà cửa hàng có trong từng tháng qua các năm. Từ năm 2014 đến 2017, cửa hàng có nhiều Order nhất vào chủ yếu 3 tháng cuối năm là ***tháng 9***, ***tháng 11*** và ***tháng 12***. Tuy nhiên, khi ta nhìn lại biểu đồ doanh thu và lợi nhuận qua các tháng thì 3 tháng vừa nêu không nằm trong số tháng mà cửa hàng đạt doanh thu cao, cũng như không phải các tháng đạt lợi nhuận cao. 

### VIII. Top 10 best-selling products?

In [None]:
data_frame_best_sell = data_frame[["Product ID", "Category", "Sub-Category", 
                                   "Product Name", "Quantity"]].groupby(by=["Product ID", 
                                                                            "Category", "Sub-Category", 
                                                                            "Product Name"]).sum().reset_index()
data_frame_best_sell = data_frame_best_sell.sort_values(by = 'Quantity').tail(10)
data_frame_best_sell

In [None]:
fig_8 = px.bar(data_frame_best_sell, y="Product ID", x="Quantity", orientation="h",# hover_name="Category",
               color_discrete_sequence=["#7A92FF", "#FF7AEF", "#B77AFF", "#A9FF7A", "#FFB27A", "#FF7A7A",
               "#7AFEFF", "#D57AFF", "#FFDF7A", "#D3F077"].reverse(), 
               color="Product Name",
               title="Top 10 best-selling products")
fig_8.show()

### IX. Which sub-category are usually sold together?

In [None]:
data_sub_cate_sold2 = data_frame[["Order ID", "Category", "Sub-Category", 
                                  "Product ID", "Product Name", "Quantity"]]
data_sub_cate_sold2["Sub-Category"].unique().tolist()

In [None]:
# print(len(data_sub_cate_sold2["Sub-Category"].unique().tolist()))
data_combo_2 = []
for i in data_sub_cate_sold2["Sub-Category"].unique():
    data_combo_2.append({i : dict.fromkeys(data_sub_cate_sold2["Sub-Category"].unique().tolist())})

sub_cate_pair_2 = []
list_copy = data_sub_cate_sold2["Sub-Category"].unique().tolist().copy()
for i in data_sub_cate_sold2["Sub-Category"].unique().tolist():
    list_copy.remove(i)
    for j in list_copy:
        sub_cate_pair_2.append([i,j])

In [None]:
sub_cate_triple_3 = []
list_copy = data_sub_cate_sold2["Sub-Category"].unique().tolist().copy()
for i in data_sub_cate_sold2["Sub-Category"].unique().tolist():
    list_copy.remove(i)
    list_copy_ = list_copy.copy()
    for j in list_copy:
        list_copy_.remove(j)
        for k in list_copy_:
            sub_cate_triple_3.append([i, j, k])

In [None]:
sub_cate_pair_2_ = [tuple(i) for i in sub_cate_pair_2]
pair_2 = dict.fromkeys(sub_cate_pair_2_, 0)

In [None]:
def sublist(lst1, lst2):
    for i in lst2:
        if i in lst1:
            continue
        else:
            return False
    return True

sublist(['Bookcases', 'Appliances', 'Chairs', 'Appliances'], ['Bookcases', 'Chairs', 'Appliances'])

In [None]:
for i in data_sub_cate_sold2["Order ID"].unique():
    data_sub = data_sub_cate_sold2["Sub-Category"][data_sub_cate_sold2["Order ID"]==i].unique().tolist()
    if len(data_sub) >= 2:
        for pair in sub_cate_pair_2:
            print("pair -> ", pair)
            print("datasub->", data_sub)
            if sublist(data_sub, pair):
                print(pair," :",pair_2[tuple(pair)], "+ 1-->")
                pair_2[tuple(pair)] += 1
            else: print("False")


In [None]:
pair_2_frame = pd.DataFrame.from_dict(pair_2, orient='index')
pair_2_frame.columns = ["Number of pair 2"]
pair_2_frame

In [None]:
sub_cate_triple_3_ = [tuple(i) for i in sub_cate_triple_3]
triple_3 = dict.fromkeys(sub_cate_triple_3_, 0)
for i in data_sub_cate_sold2["Order ID"].unique():
    data_sub = data_sub_cate_sold2["Sub-Category"][data_sub_cate_sold2["Order ID"]==i].unique().tolist()
    if len(data_sub) >= 3:
        for triple in sub_cate_triple_3:
            print("pair -> ", triple)
            print("datasub->", data_sub)
            if sublist(data_sub, triple):
                print(pair," :",triple_3[tuple(triple)], "+ 1-->")
                triple_3[tuple(triple)] += 1
            else: print("False")

In [None]:
triple_3_frame = pd.DataFrame.from_dict(triple_3, orient='index')
triple_3_frame.columns = ["Number of triple 3"]
triple_3_frame

In [None]:
pair_2_frame_top10 = pair_2_frame.sort_values(by = 'Number of pair 2', ascending = False).head(10).reset_index()
pair_2_frame_top10.columns = ["Pair", "Number of pair"]
pair_2_frame_top10 = pair_2_frame_top10.astype({"Pair": "str", "Number of pair" : "int64"})
pair_2_frame_top10

In [None]:
triple_3_frame_top10 = triple_3_frame.sort_values(by = 'Number of triple 3', ascending = False).head(10).reset_index()
triple_3_frame_top10.columns = ["Triple", "Number of Triple"]
triple_3_frame_top10 = triple_3_frame_top10.astype({"Triple": "str", "Number of Triple" : "int64"})
triple_3_frame_top10

In [None]:
fig_9 = px.bar(pair_2_frame_top10, y="Pair", x="Number of pair", orientation="h",# hover_name="Category",
               color_discrete_sequence=["#7A92FF", "#FF7AEF", "#B77AFF", "#A9FF7A", "#FFB27A", "#FF7A7A",
               "#7AFEFF", "#D57AFF", "#FFDF7A", "#D3F077"].reverse(), 
               color="Pair",
               title="Top 10 Pair Sub-Category Usually Sold Together")
fig_9.show()

Ta thấy các loại mặt hàng thường đi theo cặp với nhau theo bảng trên. Loại thường chung nhất là cặp ***Blinder, Paper*** có **275** lần được mua chung, điều này cũng dễ hiểu vì loại hàng mà cửa hàng bán ra nhiều nhất là *Office Suppiles* và khi mua thì các loại hàng này cũng hay được mua chung.

In [None]:
fig_9_2 = px.bar(triple_3_frame_top10, y="Triple", x="Number of Triple", orientation="h",# hover_name="Category",
                 color_discrete_sequence=["#7A92FF", "#FF7AEF", "#B77AFF", "#A9FF7A", "#FFB27A", "#FF7A7A",
                 "#7AFEFF", "#D57AFF", "#FFDF7A", "#D3F077"].reverse(), 
                 color="Triple",
                 title="Top 10 Triple Sub-Category Usually Sold Together")
fig_9_2.show()

Ở biểu đồ này, ta thấy nếu nhóm theo cặp ba loại thì bộ ***Phones, Blinder và Paper*** được mua chung nhiều nhất với 54 lần.