# **BigMart Sales**

1. **Mô tả**:

- Bigmart Sales là một bộ dữ liệu bao gồm các ghi chép giao dịch của một cửa hàng bán lẻ. Đây là một bài toán hồi quy, nơi chúng ta cần dự đoán doanh số bán hàng của một cửa hàng dựa trên các biến số khác nhau. Bộ dữ liệu có tổng cộng 8523 dòng và 12 biến.

2. **Ứng dụng**:

- Ngành bán lẻ sử dụng phân tích dữ liệu để tối ưu hóa các quy trình kinh doanh như:

+ Sắp xếp sản phẩm
+ Quản lý hàng tồn kho
+ Đề xuất các chương trình khuyến mãi tùy chỉnh
+ Đóng gói sản phẩm

3. **Vấn đề cần giải quyết**:

- Phân tích dữ liệu chuẩn bị cho việc dự đoán doanh số bán hàng của một cửa hàng.

## **THỰC HÀNH VÀ ỨNG DỤNG**

- Import Library

In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

### **A. Áp Dụng Kiến Thức Pandas**
- Thực hành Đọc dữ liệu với file `.csv` 
- CSV là viết tắt của Comma Separated Value - là những giá trị được phân tách bằng dấu phẩy và là tệp văn bản thuần túy chứa dữ liệu. Nó được biết đến như một trong những định dạng lưu trữ dữ liệu đơn giản nhất và được Data Scientist và Data Engineer thường xuyên sử dụng. 

#### Loading and Inspecting Data

In [None]:
mart = pd.read_csv('./dataset/bigmart_data.csv')
mart.head(10)

##### Giải thích:

- ``pd.read_csv('./dataset/bigmart_data.csv')``: Sử dụng hàm read_csv của thư viện pandas để đọc dữ liệu từ file CSV có tên 'bigmart_data.csv' và lưu vào biến mart.
- ``mart.head(10)``: Hiển thị 10 dòng đầu tiên của DataFrame mart để xem qua cấu trúc và một phần dữ liệu của file CSV đã được đọc.

In [None]:
mart.shape

##### Giải thích:

- ``mart.shape``: Trả về một tuple thể hiện kích thước của DataFrame mart, với số hàng và số cột tương ứng.

In [None]:
mart.columns

##### Giải thích:

- ``mart.columns``: Trả về danh sách các tên cột của DataFrame mart

In [None]:
mart.info()

##### Giải thích:

- ``mart.info()``: Hiển thị thông tin tóm tắt về DataFrame mart, bao gồm:
    - Tổng số lượng hàng (entries).
    - Tên các cột.
    - Số lượng giá trị không rỗng (non-null) trong mỗi cột.
    - Kiểu dữ liệu của mỗi cột (e.g., int64, float64, object).
    - Dung lượng bộ nhớ mà DataFrame chiếm dụng.

### **B. Áp Dụng Kiến Thức Numpy**

#### 1. Basic Numpy Operations

In [None]:
item_weight = mart['Item_Weight'].to_numpy()

mean_weight = np.nanmean(item_weight)
median_weight = np.nanmedian(item_weight) 
std_weight = np.nanstd(item_weight) 

print("Mean Weight:", mean_weight)
print("Median Weight:", median_weight)
print("Standard Deviation of Weight:", std_weight)

##### Giải thích:

- `to_numpy()`: Chuyển đổi cột 'Item_Weight' thành mảng numpy.
- `np.nanmean()`: Tính giá trị trung bình của mảng, bỏ qua các giá trị NaN.
- `np.nanmedian()`: Tính giá trị trung vị của mảng, bỏ qua các giá trị NaN.
- `np.nanstd()`: Tính độ lệch chuẩn của mảng, bỏ qua các giá trị NaN.

#### 2. Handling Missing Values

In [None]:
# Kiểm tra các giá trị thiếu trong 'Item_Weight'
missing_values = np.isnan(item_weight).sum()  # Đếm số lượng giá trị NaN trong mảng
print("Number of missing values in 'Item_Weight':", missing_values)

# Điền các giá trị thiếu bằng giá trị trung bình (không thay đổi dữ liệu hiện có)
item_weight_filled = np.where(np.isnan(item_weight), mean_weight, item_weight)
print("Missing values filled with mean.")

##### Giải thích:

- ``np.isnan()``: Kiểm tra các giá trị NaN trong mảng.
- ``np.where()``: Thay thế các giá trị NaN trong mảng bằng giá trị trung bình đã tính được.

#### 3. Data Transformation

In [None]:
# Biến đổi log của 'Item_MRP'
item_mrp = mart['Item_MRP'].to_numpy()
log_item_mrp = np.log(item_mrp)

# Hiển thị dữ liệu đã biến đổi
print("Original MRP:", item_mrp[:5])
print("Log Transformed MRP:", log_item_mrp[:5])

##### Giải thích:

- ``np.log()``: Áp dụng phép biến đổi log tự nhiên cho các giá trị trong mảng.

#### 4. Data Aggregation

In [None]:
# Tổng hợp 'Item_Outlet_Sales' theo 'Item_Type'
item_type_sales = mart.groupby('Item_Type')['Item_Outlet_Sales'].sum().to_numpy()

# Hiển thị dữ liệu tổng hợp
print("Sales by Item Type:", item_type_sales)

##### Giải thích:

- ``groupby()``: Nhóm dữ liệu theo 'Item_Type'.
- ``sum()``: Tính tổng doanh số bán hàng cho từng loại sản phẩm.
- ``to_numpy()``: Chuyển đổi kết quả thành mảng numpy.

#### 5. Data Normalization

In [None]:
# Chuẩn hóa Min-Max của 'Item_Visibility'
item_visibility = mart['Item_Visibility'].to_numpy()
min_visibility = np.min(item_visibility)
max_visibility = np.max(item_visibility)

normalized_visibility = (item_visibility - min_visibility) / (max_visibility - min_visibility)
print("Normalized Visibility:", normalized_visibility[:5])

##### Giải thích:

- ``np.min()``: Tìm giá trị nhỏ nhất trong mảng.
- ``np.max()``: Tìm giá trị lớn nhất trong mảng.
- Biểu thức (``item_visibility`` - ``min_visibility``) / (``max_visibility`` - ``min_visibility``): Áp dụng chuẩn hóa Min-Max cho các giá trị trong mảng.