# Mô tả bộ dữ liệu

### Đặt vấn đề
Ngành hàng tiêu dùng nhanh (FMCG – Fast Moving Consumer Goods) đặc trưng bởi nhu cầu mua bán thường xuyên, khối lượng lớn, biên lợi nhuận thấp nhưng xoay vòng nhanh. Việc phân tích dữ liệu bán hàng giúp doanh nghiệp:

- Hiểu xu hướng tiêu thụ theo thời gian (ngày, tháng, năm, mùa vụ).
- Đánh giá hiệu quả khuyến mãi: liệu promotion có thực sự thúc đẩy tiêu thụ không?
- Tối ưu tồn kho & giao hàng: cân bằng giữa stock, delivered quantity và nhu cầu bán thực tế.
- So sánh hiệu suất theo kênh bán hàng (Retail, Discount, Online) và theo vùng miền.
- Hỗ trợ dự báo nhu cầu (forecasting) để giảm thiểu tình trạng hết hàng hoặc dư thừa hàng tồn.

Nhóm chúng em chọn bộ dữ liệu này mục tiêu phân tích: Khai thác dữ liệu FMCG từ 2022–2024 để rút ra insight về hành vi tiêu dùng, mùa vụ, ảnh hưởng của khuyến mãi, và khả năng quản lý chuỗi cung ứng.

- Nguồn dữ liệu: https://www.kaggle.com/datasets/beatafaron/fmcg-daily-sales-data-to-2022-2024 (updated lần mới nhất là 2 tháng trước)
- Tác giả: Beata Faron

### Giới thiệu bộ dữ liệu


In [3]:
# Import thư viện
import pandas as pd
# Đọc dữ liệu
df = pd.read_csv('FMCG_2022_2024.csv')
df

Unnamed: 0,date,sku,brand,segment,category,channel,region,pack_type,price_unit,promotion_flag,delivery_days,stock_available,delivered_qty,units_sold
0,2022-01-21,MI-006,MiBrand1,Milk-Seg3,Milk,Retail,PL-Central,Multipack,2.38,0,1,141,128,9
1,2022-01-21,MI-006,MiBrand1,Milk-Seg3,Milk,Retail,PL-North,Single,1.55,1,3,0,129,0
2,2022-01-21,MI-006,MiBrand1,Milk-Seg3,Milk,Retail,PL-South,Carton,4.00,0,5,118,161,8
3,2022-01-21,MI-006,MiBrand1,Milk-Seg3,Milk,Discount,PL-Central,Single,5.16,0,2,81,114,7
4,2022-01-21,MI-006,MiBrand1,Milk-Seg3,Milk,Discount,PL-North,Single,7.66,0,4,148,204,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
190752,2024-12-31,SN-030,SnBrand2,SnackBar-Seg1,SnackBar,Discount,PL-North,Single,2.55,0,2,190,163,25
190753,2024-12-31,SN-030,SnBrand2,SnackBar-Seg1,SnackBar,Discount,PL-South,Single,6.01,0,5,141,131,19
190754,2024-12-31,SN-030,SnBrand2,SnackBar-Seg1,SnackBar,E-commerce,PL-Central,Single,3.45,0,5,0,132,0
190755,2024-12-31,SN-030,SnBrand2,SnackBar-Seg1,SnackBar,E-commerce,PL-North,Multipack,1.93,1,2,211,201,40


In [5]:
# Hiển thị kiêuu dữ liệu
df.dtypes

date                object
sku                 object
brand               object
segment             object
category            object
channel             object
region              object
pack_type           object
price_unit         float64
promotion_flag       int64
delivery_days        int64
stock_available      int64
delivered_qty        int64
units_sold           int64
dtype: object

### Mô tả bộ dữ liệu
Bộ dữ liệu bao gồm các cột sau:
| No. | Tên thuộc tính       | Kiểu dữ liệu | Phạm vi / Giá trị   |
| --- | -------------------- | ------------ | ----------------------------------------|
| 1   | **date**             | object | 2022-01-01 → 2024-12-31 (ngày bán hàng, theo ngày)                                 |
| 2   | **sku**              | object | Mã SKU sản phẩm, ví dụ: *MI-006, BEV-012*                                          |
| 3   | **brand**            | object | Thương hiệu sản phẩm, ví dụ: *MiBrand1, BevBrand2*                                 |
| 4   | **segment**          | object | Phân khúc sản phẩm, ví dụ: *Milk-Seg3, Snack-Seg1*                                 |
| 5   | **category**         | object | Nhóm ngành hàng FMCG: *Milk, Beverages, Snacks, Household…*                        |
| 6   | **channel**          | object | Kênh bán hàng: *Retail, Discount, E-commerce*                                      |
| 7   | **region**           | object | Khu vực: *PL-Central, PL-North, PL-South*                                          |
| 8   | **pack_type**        | object  | Kiểu đóng gói: *Single, Multipack, Carton*                                         |
| 9   | **price_unit**       | float64 | Giá bán đơn vị, ví dụ: 1.5 → 15.0 (tăng dần qua năm, phản ánh xu hướng thị trường) |
| 10  | **promotion_flag**   | int64   | 0 = không khuyến mãi, 1 = có khuyến mãi                                            |
| 11  | **delivery_days**    | int64  | Số ngày giao hàng (lead time), ví dụ: 1 → 7                                        |
| 12  | **stock_available**  | int64  | Số lượng tồn kho sẵn có tại ngày đó (0 → vài trăm đơn vị)                          |
| 13  | **delivered_qty**    | int64  | Số lượng hàng được giao trong ngày (0 → vài trăm đơn vị)                           |
| 14  | **units_sold**       | int64   | Số lượng bán ra thực tế trong ngày (0 → vài chục đơn vị mỗi SKU/ngày)              |


Bộ dữ liệu bao gồm 190.757 bản ghi với 14 trường thông tin, ghi nhận các giao dịch bán hàng hằng ngày trong giai đoạn 2022–2024

***Các trường chính:***
- Thông tin sản phẩm: sku, brand, segment, category, pack_type
- Thị trường: channel (kênh bán), region (Khu vực)
- Giao dịch vận hành:
    - price_unit (giá bán lẻ)
    - promotion_flg (có khuyến mãi hay không)
    - delivery_days (số ngày giao hàng)
    - stock_available (tồn kho)
    - delivered_qty (số lượng giao hàng)
    - unit_sold (số lượng bán ra)

Ta thấy: Dataset này vừa chứa thông tin thị trường – sản phẩm, vừa có thời gian – vận hành – kết quả bán hàng, nên có thể phân tích đa chiều.