# Đề tài: Phân tích về chuỗi cung ứng

- Bộ dữ liệu DataCo Smart Supply Chain for Big Data Analysis trên Kaggle là một tập hợp các dữ liệu về chuỗi cung ứng thông minh, bao gồm thông tin về đơn hàng, sản phẩm, khách hàng và các hoạt động vận chuyển liên quan. Bộ dữ liệu này cung cấp cho chúng ta một cái nhìn tổng quát về hoạt động của các doanh nghiệp trong lĩnh vực này và có thể được sử dụng để phân tích và tối ưu hóa các quy trình kinh doanh liên quan đến chuỗi cung ứng. Trong bài báo cáo của mình, chúng ta có thể sử dụng bộ dữ liệu này để tìm hiểu về xu hướng và mối quan hệ giữa các yếu tố khác nhau trong chuỗi cung ứng, từ đó đưa ra các khuyến nghị và giải pháp để cải thiện hiệu quả và giảm chi phí cho các hoạt động kinh doanh.

In [1]:
import numpy as np
import pandas as pd
import csv

### Xem thuộc tính dữ liệu

In [2]:
dataf = pd.read_csv('DataChainCoSupply.csv', sep=";",encoding_errors="ignore")
dataf.head()

Unnamed: 0,Type,Days for shipping (real),Days for shipment (scheduled),Benefit per order,Sales per customer,Delivery Status,Late_delivery_risk,Category Id,Category Name,Customer City,...,Order Zipcode,Product Card Id,Product Category Id,Product Description,Product Image,Product Name,Product Price,Product Status,shipping date (DateOrders),Shipping Mode
0,DEBIT,3,4,91.25,314.64,Advance shipping,0,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,02/03/2018 22:56,Standard Class
1,TRANSFER,5,4,-249.09,311.36,Late delivery,1,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/18/2018 12:27,Standard Class
2,CASH,4,4,-247.78,309.72,Shipping on time,0,73,Sporting Goods,San Jose,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/17/2018 12:06,Standard Class
3,DEBIT,3,4,22.86,304.81,Advance shipping,0,73,Sporting Goods,Los Angeles,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/16/2018 11:45,Standard Class
4,PAYMENT,2,4,134.21,298.25,Advance shipping,0,73,Sporting Goods,Caguas,...,,1360,73,,http://images.acmesports.sports/Smart+watch,Smart watch,327.75,0,1/15/2018 11:24,Standard Class


In [3]:
dataf.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 180519 entries, 0 to 180518
Data columns (total 53 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   Type                           180519 non-null  object 
 1   Days for shipping (real)       180519 non-null  int64  
 2   Days for shipment (scheduled)  180519 non-null  int64  
 3   Benefit per order              180519 non-null  float64
 4   Sales per customer             180519 non-null  float64
 5   Delivery Status                180519 non-null  object 
 6   Late_delivery_risk             180519 non-null  int64  
 7   Category Id                    180519 non-null  int64  
 8   Category Name                  180519 non-null  object 
 9   Customer City                  180519 non-null  object 
 10  Customer Country               180519 non-null  object 
 11  Customer Email                 180519 non-null  object 
 12  Customer Fname                

### Nhận xét:
- Nhận thấy trong tập dữ liệu của nhóm có rất nhiều thuộc tính, các giá trị trùng lặp, và bị thiếu. Do đó nhóm đã đi đến quyết định tạo ra các Sub Excel để phục vụ cho việc thao tác dễ dàng hơn. Ở mỗi sub, nhóm đã phân tích và thực hiện các phương pháp để tạo ra tập dữ liệu phù hợp

### Tạo Sub_ship 

In [4]:
Ship = dataf[['Days for shipping (real)', 'Days for shipment (scheduled)', 'Delivery Status', 'Shipping Mode', 'shipping date (DateOrders)']]
unique_Ship = Ship[['Days for shipping (real)', 'Days for shipment (scheduled)', 'Delivery Status', 'Shipping Mode', 'shipping date (DateOrders)']].drop_duplicates()
unique_Ship.shape

(65752, 5)

In [5]:
values = np.random.permutation(np.arange(100000, 1000000))
random_values = np.random.choice(values, size=65752, replace=False)
unique_Ship['Ship Id'] = random_values
dataf = pd.merge(dataf, unique_Ship, on=['Days for shipping (real)', 'Days for shipment (scheduled)', 'Delivery Status', 'Shipping Mode', 'shipping date (DateOrders)'], how='left')
unique_Ship.to_csv('Sub_Ship.csv', index=False)

### Tạo Sub_Location

In [6]:
location = dataf[['Customer State', 'Customer Street','Customer City','Customer Country']]
unique_location = location[['Customer State', 'Customer Street','Customer City','Customer Country']].drop_duplicates()
unique_location.shape

(12010, 4)

In [7]:
values = np.random.permutation(np.arange(100000, 1000000))
random_values = np.random.choice(values, size=12010, replace=False)
unique_location['Location Id'] = random_values
dataf = pd.merge(dataf, unique_location, on=['Customer State', 'Customer Street','Customer City','Customer Country'], how='left')
unique_location.to_csv('Sub_Location.csv', index=False)

### Tạo Sub_Category

In [8]:
Category = dataf[['Category Id', 'Category Name']]
Category.head()


Unnamed: 0,Category Id,Category Name
0,73,Sporting Goods
1,73,Sporting Goods
2,73,Sporting Goods
3,73,Sporting Goods
4,73,Sporting Goods


In [9]:
unique_Category = Category[['Category Id', 'Category Name']].drop_duplicates()
unique_Category.head(10)
unique_Category.to_csv('Sub_Category.csv', index=False)


### Tạo Sub_Department

In [10]:
Department = dataf[['Department Id','Department Name']]
Department.head()

Unnamed: 0,Department Id,Department Name
0,2,Fitness
1,2,Fitness
2,2,Fitness
3,2,Fitness
4,2,Fitness


In [11]:
unique_Department = Department[['Department Id', 'Department Name']].drop_duplicates()
unique_Department.head
unique_Department.to_csv('Sub_Department.csv', index=False)


### Tạo Sub_Customer 

In [12]:
Customer = dataf[['Customer Id', 'Customer Fname', 'Customer Lname', 'Location Id']]
Customer.head()

unique_Customer = Customer[['Customer Id', 'Customer Fname', 'Customer Lname', 'Location Id']].drop_duplicates()
unique_Customer.head
unique_Customer.nunique()
unique_Customer.to_csv('Sub_Customer.csv', index=False)


### Tạo Sub_Product

In [13]:
Product = dataf[['Product Card Id', 'Product Name', 'Product Price', 'Product Image', 'Product Category Id','Department Id']]

unique_Product = Product[['Product Card Id', 'Product Name', 'Product Price', 'Product Image', 'Product Category Id','Department Id']].drop_duplicates()
unique_Product.head
unique_Product.nunique()
unique_Product.to_csv('Sub_Product.csv', index=False)

### Tạo Sub_Purchase

In [14]:
purchase = dataf[['Type']]
unique_purchase = purchase[['Type']].drop_duplicates()
unique_purchase.shape

(4, 1)

In [15]:
purchase_values = [1,2,3,4]
unique_purchase['Type Id'] = purchase_values

In [16]:
dataf = pd.merge(dataf, unique_purchase, on=['Type'], how='left')
unique_purchase.to_csv('Sub_Purchase.csv', index=False)

### Tạo Sub_Status

In [24]:
Status = dataf[['Order Status']]
unique_Status = Status[['Order Status']].drop_duplicates()
unique_Status.shape
#Danh stt cho Status
unique_Status['Status Id'] = np.arange(1, 10)
dataf = pd.merge(dataf, unique_Status, on=['Order Status'], how='left')
unique_Status.to_csv('Sub_Status.csv', index=False)

### Tạo Sub_Order

In [25]:
Order = dataf[['Order Id', 'Order Customer Id', 'order date (DateOrders)', 'Order Item Cardprod Id', 'Order Item Product Price', 'Order Item Id', 'Order Item Quantity', 'Order Item Discount Rate', 'Type Id', 'Ship Id', 'Status Id']]
Order.to_csv('Sub_Order.csv', index=False)