# Làm sạch & Thống kê dữ liệu

Dataset về Dữ liệu xuất nhập khẩu Logistics `./data/logistics.csv`

* Bao gồm các trường:

| Cột                 | Ý nghĩa                      |
| ------------------- | ---------------------------- |
| ShipmentID          | Mã lô hàng                   |
| Country             | Quốc gia                     |
| Port                | Cảng                         |
| Product             | Loại hàng                    |
| Quantity(kg)        | Khối lượng                   |
| Value(USD)          | Giá trị                      |
| TransportMode       | Phương thức vận chuyển       |
| ETA                 | Ngày dự kiến đến (1–12/2025) |
| ClearanceTime(days) | Thời gian thông quan         |
| Status              | Tình trạng                   |

---

## 1. Import dữ liệu

In [None]:
import pandas as pd

# import dữ liệu
df = pd.read_csv('../data/logistics.csv')
df.head()

## 2. Data Cleaning - Làm sạch dữ liệu

* Xem tổng thể dữ liệu sau đó **làm sạch dữ liệu (data cleaning)** hợp lý.
* Xử lý **dữ liệu thiếu (missing data)** và **ngoại lệ (outlier)**.
* Sử dụng các hàm thống kê mô tả để hiểu đặc trưng cơ bản của dữ liệu.

> Lưu ý: Sử dụng cell `markdown` để trình bày tuần tự các bước xử lý, Code có ghi chú rõ ràng.

In [None]:
#code ở đây

## 3. Data Analytics - Phân tích dữ liệu

> Lưu ý: Phần `trực quan hoá` trong các yêu cầu dưới đây là để áp dụng cho bài tiếp theo.

**3.1 Số lượng lô hàng theo tháng**

- Đếm số shipment theo từng tháng (Jan → Dec).
- Trực quan hoá: Line chart hoặc bar chart.

In [None]:
#Code ở đây

**3.2. Tổng giá trị xuất nhập khẩu theo tháng**

- Tính tổng Value(USD) groupby theo tháng.
- Dùng để xem mùa cao điểm logistics.
- Trực quan hoá: Line chart.

In [None]:
#Code ở đây

**3.3. Trung bình thời gian thông quan theo tháng**

- Dùng ClearanceTime(days).
- Giúp theo dõi hiệu quả hoạt động hải quan.
- Trực quan hoá: Line chart hoặc bar chart.

In [None]:
#Code ở đây

**3.4. Top 5 quốc gia có giá trị hàng hóa cao nhất**

- Groupby Country → tổng Value(USD) → lấy top 5.
- Trực quan hoá: Horizontal bar chart

In [None]:
#Code ở đây

**3.5. Số lượng lô hàng theo quốc gia**

- Groupby Country → đếm ShipmentID.
- Trực quan hoá: Bar chart.

In [None]:
#Code ở đây

**3.6. Tỷ lệ các loại mặt hàng được vận chuyển**

- Dùng `count` theo Product.
- Trực quan hoá: Pie chart hoặc bar chart.

In [None]:
# Code ở đây

**3.7. Giá trị trung bình theo mặt hàng**

- Groupby Product → `mean` theo Value.
- Trực quan hoá: Bar chart.

**3.8. Số lượng lô hàng theo phương thức vận chuyển**

- `Sea` vs `Air` vs `Road`.
- Trực quan hoá: Bar chart.

**3.9. So sánh giá trị trung bình giữa các phương thức vận chuyển**

- Groupby TransportMode → `mean` Value.
- Trực quan hoá: Bar chart hoặc line chart.

**3.10 Phân tích hiệu suất giao hàng `(Status)` dựa vào Tỷ lệ trạng thái vận chuyển**:

- `Delivered` – `In Transit` – `Hold` – `Delayed`.
- Trực quan hoá: Pie chart màu trung tính.