## 1. Trực quan hóa dữ liệu có vai trò gì trong phân tích dữ liệu?
Trực quan hóa dữ liệu (Data Visualization) là **quá trình biểu diễn dữ liệu dưới dạng hình ảnh, biểu đồ hoặc đồ thị** giúp người phân tích dễ dàng:
- Nhận diện **mẫu hình, xu hướng, mối tương quan và ngoại lệ (outliers)** trong dữ liệu.  
- **Tóm tắt thông tin phức tạp** thành hình ảnh dễ hiểu hơn so với các bảng số liệu khô khan.  
- **Hỗ trợ ra quyết định** nhanh chóng và chính xác hơn dựa trên bằng chứng trực quan.  

###  Vai trò trong EDA (Exploratory Data Analysis)
Trong giai đoạn **khám phá dữ liệu (EDA)**, trực quan hóa là công cụ cốt lõi giúp:
- Kiểm tra **phân phối dữ liệu** (ví dụ: histogram, boxplot).  
- Phát hiện **mối quan hệ giữa các biến** (ví dụ: scatter plot).  
- Phát hiện **giá trị thiếu, ngoại lệ, hoặc dữ liệu sai lệch**.  
- Xác định **biến quan trọng** để lựa chọn mô hình phân tích hoặc dự đoán.  


## 2. Các loại biểu đồ phổ biến và trường hợp sử dụng

| Loại biểu đồ | Mô tả | Khi nào sử dụng |
|---------------|--------|----------------|
| **Histogram** | Biểu diễn tần suất xuất hiện của giá trị trong biến số liên tục | Phân tích **phân phối dữ liệu số** (tuổi, thu nhập, điểm số, …) |
| **Scatter Plot** | Biểu đồ điểm thể hiện mối quan hệ giữa hai biến | Phân tích **mối tương quan** giữa các biến số (ví dụ: doanh thu và chi phí) |
| **Boxplot** | Thể hiện phân bố dữ liệu, trung vị và ngoại lệ | So sánh **phân phối** giữa các nhóm hoặc phát hiện **outliers** |
| **Bar Chart** | Hiển thị giá trị của các danh mục bằng cột | So sánh **tần suất hoặc giá trị trung bình** giữa các nhóm phân loại |
| **Line Chart** | Nối các điểm dữ liệu theo thứ tự thời gian | Phân tích **xu hướng theo thời gian** (ví dụ: doanh thu theo tháng) |
| **Pie Chart** | Biểu diễn tỷ lệ phần trăm của các thành phần | Thể hiện **cơ cấu thành phần** của một biến danh mục (chỉ nên dùng ≤5 nhóm) |


## 3. Cách chọn loại biểu đồ phù hợp

| Loại dữ liệu | Mục tiêu phân tích | Loại biểu đồ phù hợp |
|---------------|--------------------|----------------------|
| **Dữ liệu số (numeric)** | Kiểm tra phân phối | Histogram, Boxplot |
| | So sánh 2 biến số | Scatter Plot |
| **Dữ liệu phân loại (categorical)** | So sánh tần suất giữa các nhóm | Bar Chart |
| | Thể hiện tỷ lệ | Pie Chart |
| **Dữ liệu thời gian (time series)** | Phân tích xu hướng theo thời gian | Line Chart, Area Chart |
| **Dữ liệu đa chiều** | Kết hợp nhiều biến | Pair Plot, Heatmap |

*Nguyên tắc:*  Chọn biểu đồ sao cho **truyền tải thông tin chính yếu nhất với ít yếu tố rườm rà nhất**.

## 4. So sánh các thư viện trực quan hóa trong Python

| Thư viện | Đặc điểm chính | Ưu điểm | Hạn chế |
|-----------|----------------|----------|----------|
| **Matplotlib** | Thư viện nền tảng, kiểm soát chi tiết từng thành phần của biểu đồ | Linh hoạt, mạnh mẽ, dễ tùy biến | Cú pháp dài, khó viết đẹp nhanh |
| **Seaborn** | Xây dựng trên Matplotlib, cú pháp thân thiện hơn | Dễ dùng, có nhiều mẫu biểu đồ thống kê đẹp | Khó tùy chỉnh sâu so với Matplotlib |
| **Plotly** | Thư viện tương tác (interactive) | Biểu đồ động, zoom, hover được | Cài đặt nặng, không phù hợp cho report tĩnh |


## 5. Nguyên tắc thiết kế biểu đồ hiệu quả

1. **Đơn giản và rõ ràng:** Chỉ hiển thị thông tin cần thiết, tránh hiệu ứng màu mè.  
2. **Sử dụng màu sắc có chủ đích:**  
   - Màu nổi bật cho dữ liệu quan trọng.  
   - Màu trung tính cho dữ liệu nền.  
3. **Gắn nhãn và tiêu đề rõ ràng:** Ghi rõ tên trục, đơn vị đo, chú thích (legend).  
4. **Giữ tỉ lệ trục phù hợp:** Tránh làm sai lệch nhận thức thị giác.  
5. **Nhất quán trong phong cách:** Dùng cùng một bảng màu, font chữ, định dạng giữa các biểu đồ.  
6. **Thêm chú thích (annotation) nếu cần:** Làm nổi bật insight hoặc điểm bất thường.

## 6. Nguyên tắc xây dựng và sử dụng biểu đồ trong Matplotlib

1. **Chọn loại biểu đồ phù hợp:**  
   Lựa chọn kiểu biểu đồ (histogram, bar chart, line chart, pie chart, scatter plot…) tùy theo đặc điểm dữ liệu và mục tiêu trực quan hóa.  
   - **Histogram:** biểu diễn phân bố tần suất của dữ liệu liên tục.  
   - **Bar chart:** so sánh giá trị giữa các nhóm hoặc danh mục.  

2. **Chuẩn bị dữ liệu sạch và chính xác:**  
   - Dữ liệu cần được xử lý trước (loại bỏ giá trị thiếu, trùng lặp hoặc ngoại lai) để biểu đồ phản ánh đúng thực tế.  

3. **Đặt tiêu đề và nhãn trục đầy đủ:**  
   - Biểu đồ cần có tiêu đề (title), tên trục X và Y rõ ràng (xlabel, ylabel) để người xem dễ hiểu nội dung thể hiện.  

4. **Tùy chỉnh giao diện hợp lý:**  
   - Có thể thay đổi màu sắc, kích thước (figsize), đường viền hoặc kiểu hiển thị (style) để tăng tính trực quan nhưng vẫn đảm bảo tính khoa học.  

5. **Thêm chú thích và giá trị quan trọng:**  
   - Sử dụng *legend*, *annotation* hoặc đường tham chiếu (*axhline*, *axvline*) để làm nổi bật xu hướng, điểm bất thường hoặc ngưỡng quan trọng.  

6. **Kiểm tra tỉ lệ và phạm vi trục:**  
   - Đảm bảo trục tọa độ được thiết lập đúng (không cắt bỏ dữ liệu hoặc kéo giãn tỷ lệ), giúp người xem không bị hiểu sai ý nghĩa dữ liệu.  

7. **Giữ bố cục gọn gàng và dễ đọc:**  
   - Tránh quá nhiều chữ, màu hoặc hiệu ứng; ưu tiên thiết kế tối giản để người xem tập trung vào thông tin chính của biểu đồ.  


## 7. Xuất biểu đồ từ Python ra các định dạng phổ biến (PNG, PDF, HTML)

1.  **Lưu biểu đồ dưới dạng hình ảnh (PNG, JPG, PDF):**  
   Sử dụng lệnh `plt.savefig()` trong thư viện **Matplotlib** để lưu biểu đồ sau khi vẽ.  
   - Cú pháp:  
     ```python
     plt.savefig("ten_bieu_do.png")   # Lưu thành file ảnh PNG
     plt.savefig("ten_bieu_do.pdf")   # Lưu thành file PDF
     ```
   - Có thể tùy chỉnh chất lượng ảnh:  
     ```python
     plt.savefig("bieu_do.png", dpi=300, bbox_inches='tight')
     ```
     Trong đó:
     - `dpi=300`: tăng độ phân giải ảnh.
     - `bbox_inches='tight'`: cắt gọn phần viền thừa của biểu đồ.

2. **Xuất biểu đồ sang HTML (tương tác được):**  
   - Với **Plotly** hoặc **Bokeh**, có thể lưu biểu đồ ở định dạng HTML tương tác:  
     ```python
     fig.write_html("bieu_do.html")
     ```
     Khi mở file `.html`, người xem có thể phóng to, rê chuột xem giá trị, hoặc thay đổi góc nhìn.

3. **Kết hợp biểu đồ vào báo cáo:**  
   - Có thể chèn trực tiếp file PNG hoặc PDF vào **Word**, **PowerPoint**, hoặc **LaTeX**.  
   - Khi tạo báo cáo tự động (bằng Python), dùng thư viện như **Matplotlib**, **ReportLab** hoặc **Plotly** để xuất đồng thời cả biểu đồ và nội dung văn bản.

4. **Lưu ý khi xuất biểu đồ:**  
   - Nên đặt tên file có ý nghĩa (ví dụ: `hist_income.png`, `sales_trend.pdf`).  
   - Đảm bảo định dạng ảnh phù hợp với yêu cầu của báo cáo (PNG cho hình ảnh, PDF cho in ấn, HTML cho trình chiếu trực tuyến).  


# KẾT THÚC