# **BigMart Sales**

1. **Mô tả**:

- Bigmart Sales là một bộ dữ liệu bao gồm các ghi chép giao dịch của một cửa hàng bán lẻ. Đây là một bài toán hồi quy, nơi chúng ta cần dự đoán doanh số bán hàng của một cửa hàng dựa trên các biến số khác nhau. Bộ dữ liệu có tổng cộng 8523 dòng và 12 biến.

2. **Ứng dụng**:

- Ngành bán lẻ sử dụng phân tích dữ liệu để tối ưu hóa các quy trình kinh doanh như:

    + Sắp xếp sản phẩm
    + Quản lý hàng tồn kho
    + Đề xuất các chương trình khuyến mãi tùy chỉnh
    + Đóng gói sản phẩm

3. **Vấn đề cần giải quyết**:

- Phân tích dữ liệu chuẩn bị cho việc dự đoán doanh số bán hàng của một cửa hàng.

## **THỰC HÀNH VÀ ỨNG DỤNG**

- Import Library

In [64]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

### **A. Áp Dụng Kiến Thức Pandas**
- Thực hành Đọc dữ liệu với file `.csv` 
- CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng. 

#### Loading and Inspecting Data

In [65]:
mart = pd.read_csv('./dataset/bigmart_data.csv')
mart.head(10)

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052
5,FDP36,10.395,Regular,0.0,Baking Goods,51.4008,OUT018,2009,Medium,Tier 3,Supermarket Type2,556.6088
6,FDO10,13.65,Regular,0.012741,Snack Foods,57.6588,OUT013,1987,High,Tier 3,Supermarket Type1,343.5528
7,FDP10,,Low Fat,0.12747,Snack Foods,107.7622,OUT027,1985,Medium,Tier 3,Supermarket Type3,4022.7636
8,FDH17,16.2,Regular,0.016687,Frozen Foods,96.9726,OUT045,2002,,Tier 2,Supermarket Type1,1076.5986
9,FDU28,19.2,Regular,0.09445,Frozen Foods,187.8214,OUT017,2007,,Tier 2,Supermarket Type1,4710.535


##### Giải thích:

- ``pd.read_csv('./dataset/bigmart_data.csv')``: Sử dụng hàm read_csv của thư viện pandas để đọc dữ liệu từ file CSV có tên 'bigmart_data.csv' và lưu vào biến mart.
- ``mart.head(10)``: Hiển thị 10 dòng đầu tiên của DataFrame mart để xem qua cấu trúc và một phần dữ liệu của file CSV đã được đọc.

In [66]:
mart.shape

(8523, 12)

##### Giải thích:

- ``mart.shape``: Trả về một tuple thể hiện kích thước của DataFrame mart, với số hàng và số cột tương ứng.

In [67]:
mart.columns

Index(['Item_Identifier', 'Item_Weight', 'Item_Fat_Content', 'Item_Visibility',
       'Item_Type', 'Item_MRP', 'Outlet_Identifier',
       'Outlet_Establishment_Year', 'Outlet_Size', 'Outlet_Location_Type',
       'Outlet_Type', 'Item_Outlet_Sales'],
      dtype='object')

##### Giải thích:

- ``mart.columns``: Trả về danh sách các tên cột của DataFrame mart

In [68]:
mart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


##### Giải thích:

- ``mart.info()``: Hiển thị thông tin tóm tắt về DataFrame mart, bao gồm:
    - Tổng số lượng hàng (entries).
    - Tên các cột.
    - Số lượng giá trị không rỗng (non-null) trong mỗi cột.
    - Kiểu dữ liệu của mỗi cột (e.g., int64, float64, object).
    - Dung lượng bộ nhớ mà DataFrame chiếm dụng.

### **B. Áp Dụng Kiến Thức Numpy**

#### 1. Basic Numpy Operations

In [69]:
item_weight = mart['Item_Weight'].to_numpy()

mean_weight = np.nanmean(item_weight)
median_weight = np.nanmedian(item_weight) 
std_weight = np.nanstd(item_weight) 

print("Mean Weight:", mean_weight)
print("Median Weight:", median_weight)
print("Standard Deviation of Weight:", std_weight)

Mean Weight: 12.857645184135976
Median Weight: 12.6
Standard Deviation of Weight: 4.643127630847946


##### Giải thích:

- `to_numpy()`: Chuyển đổi cột 'Item_Weight' thành mảng numpy.
- `np.nanmean()`: Tính giá trị trung bình của mảng, bỏ qua các giá trị NaN.
- `np.nanmedian()`: Tính giá trị trung vị của mảng, bỏ qua các giá trị NaN.
- `np.nanstd()`: Tính độ lệch chuẩn của mảng, bỏ qua các giá trị NaN.

#### 2. Handling Missing Values

In [70]:
# Kiểm tra các giá trị thiếu trong 'Item_Weight'
missing_values = np.isnan(item_weight).sum()  # Đếm số lượng giá trị NaN trong mảng
print("Number of missing values in 'Item_Weight':", missing_values)

# Điền các giá trị thiếu bằng giá trị trung bình (không thay đổi dữ liệu hiện có)
item_weight_filled = np.where(np.isnan(item_weight), mean_weight, item_weight)
print("Missing values filled with mean.")

Number of missing values in 'Item_Weight': 1463
Missing values filled with mean.


##### Giải thích:

- ``np.isnan()``: Kiểm tra các giá trị NaN trong mảng.
- ``np.where()``: Thay thế các giá trị NaN trong mảng bằng giá trị trung bình đã tính được.

#### 3. Data Transformation

In [71]:
# Biến đổi log của 'Item_MRP'
item_mrp = mart['Item_MRP'].to_numpy()
log_item_mrp = np.log(item_mrp)

# Hiển thị dữ liệu đã biến đổi
print("Original MRP:", item_mrp[:5])
print("Log Transformed MRP:", log_item_mrp[:5])

Original MRP: [249.8092  48.2692 141.618  182.095   53.8614]
Log Transformed MRP: [5.52069743 3.87679368 4.95313329 5.20452853 3.98641408]


##### Giải thích:

- ``np.log()``: Áp dụng phép biến đổi log tự nhiên cho các giá trị trong mảng.

#### 4. Data Aggregation

In [72]:
# Tổng hợp 'Item_Outlet_Sales' theo 'Item_Type'
item_type_sales = mart.groupby('Item_Type')['Item_Outlet_Sales'].sum().to_numpy()

# Hiển thị dữ liệu tổng hợp
print("Sales by Item Type:", item_type_sales)

Sales by Item Type: [1265525.3422  553237.1888  232298.9516 1444151.4926 1522594.0512
 1825734.7886 2820059.8168  457793.4272 1045200.1378 2055493.7132
  917565.612   325517.6096  148868.2194 2732786.087   892897.722
  351401.2504]


##### Giải thích:

- ``groupby()``: Nhóm dữ liệu theo 'Item_Type'.
- ``sum()``: Tính tổng doanh số bán hàng cho từng loại sản phẩm.
- ``to_numpy()``: Chuyển đổi kết quả thành mảng numpy.

#### 5. Data Normalization

In [73]:
# Chuẩn hóa Min-Max của 'Item_Visibility'
item_visibility = mart['Item_Visibility'].to_numpy()
min_visibility = np.min(item_visibility)
max_visibility = np.max(item_visibility)

normalized_visibility = (item_visibility - min_visibility) / (max_visibility - min_visibility)
print("Normalized Visibility:", normalized_visibility[:5])

Normalized Visibility: [0.04886645 0.05870508 0.05103696 0.         0.        ]


##### Giải thích:

- ``np.min()``: Tìm giá trị nhỏ nhất trong mảng.
- ``np.max()``: Tìm giá trị lớn nhất trong mảng.
- Biểu thức (``item_visibility`` - ``min_visibility``) / (``max_visibility`` - ``min_visibility``): Áp dụng chuẩn hóa Min-Max cho các giá trị trong mảng.

### **C. Thực Hiện Làm Sạch Dữ Liệu - Data Cleaning**

In [74]:
# Kiểm tra các giá trị bị thiếu
mart.isnull().sum()

Item_Identifier                 0
Item_Weight                  1463
Item_Fat_Content                0
Item_Visibility                 0
Item_Type                       0
Item_MRP                        0
Outlet_Identifier               0
Outlet_Establishment_Year       0
Outlet_Size                  2410
Outlet_Location_Type            0
Outlet_Type                     0
Item_Outlet_Sales               0
dtype: int64

##### Giải thích:

- ``mart.isnull().sum()``: Kiểm tra và đếm số lượng giá trị bị thiếu (NaN) trong mỗi cột của DataFrame mart.

In [75]:
# Tính phần trăm các giá trị bị thiếu so với tổng số dữ liệu
mart.isnull().sum() / len(mart) * 100

Item_Identifier               0.000000
Item_Weight                  17.165317
Item_Fat_Content              0.000000
Item_Visibility               0.000000
Item_Type                     0.000000
Item_MRP                      0.000000
Outlet_Identifier             0.000000
Outlet_Establishment_Year     0.000000
Outlet_Size                  28.276428
Outlet_Location_Type          0.000000
Outlet_Type                   0.000000
Item_Outlet_Sales             0.000000
dtype: float64

##### Giải thích:

- ``mart.isnull().sum() / len(mart) * 100``: Tính phần trăm các giá trị bị thiếu so với tổng số dòng dữ liệu trong DataFrame mart.
- Từ output trả về, ta có: ~17% giá trị Item_Weight + ~28% giá trị thiếu Outlet_Size.

In [76]:
# Thống kê các giá trị thiếu của cột 'Item_Weight'
mart.Item_Weight.describe()

count    7060.000000
mean       12.857645
std         4.643456
min         4.555000
25%         8.773750
50%        12.600000
75%        16.850000
max        21.350000
Name: Item_Weight, dtype: float64

##### Giải thích:

- ``mart.Item_Weight.describe()``: Hiển thị các thống kê mô tả cơ bản (như số lượng, giá trị trung bình, độ lệch chuẩn, giá trị min, max, các phần tư) cho cột 'Item_Weight'.

In [77]:
# Điền các giá trị thiếu trong cột 'Item_Weight' bằng giá trị trung bình của cột này
mart['Item_Weight'] = mart['Item_Weight'].fillna(mart['Item_Weight'].mean())

##### Giải thích:

- ``mart['Item_Weight'] = mart['Item_Weight'].fillna(mart['Item_Weight'].mean())``: Điền các giá trị thiếu trong cột 'Item_Weight' bằng giá trị trung bình của cột và cập nhật trực tiếp vào DataFrame mart.

In [78]:
# Thống kê các giá trị của cột 'Outlet_Size'
mart.Outlet_Size.value_counts()

Outlet_Size
Medium    2793
Small     2388
High       932
Name: count, dtype: int64

##### Giải thích:

- ``mart.Outlet_Size.value_counts()``: Đếm số lượng các giá trị duy nhất trong cột 'Outlet_Size'.

In [79]:
# Điền các giá trị thiếu trong cột 'Outlet_Size' bằng giá trị 'Medium'
mart['Outlet_Size'] = mart['Outlet_Size'].fillna('Medium')

##### Giải thích:

- ``mart['Outlet_Size'] = mart['Outlet_Size'].fillna('Medium')``: Điền các giá trị thiếu trong cột 'Outlet_Size' bằng giá trị 'Medium' và cập nhật trực tiếp vào DataFrame mart.

In [80]:
# Xác minh các giá trị bị thiếu đã được xử lý
mart.isnull().sum()

Item_Identifier              0
Item_Weight                  0
Item_Fat_Content             0
Item_Visibility              0
Item_Type                    0
Item_MRP                     0
Outlet_Identifier            0
Outlet_Establishment_Year    0
Outlet_Size                  0
Outlet_Location_Type         0
Outlet_Type                  0
Item_Outlet_Sales            0
dtype: int64

##### Giải thích:

- ``mart.isnull().sum()``: Kiểm tra và đếm lại số lượng giá trị bị thiếu trong mỗi cột của DataFrame mart sau khi đã xử lý các giá trị bị thiếu.