# Trực quan hoá dữ liệu với Matplotlib 

Sử dụng trong Colab, Jupyter notebook

In [None]:
import matplotlib.pyplot as plt

### 3.8 Matplotlib Scatter

**Scatter Plot** (biểu đồ phân tán) dùng để hiển thị **mối quan hệ giữa hai biến số**.
Mỗi điểm trên biểu đồ đại diện cho **một quan sát** (một dòng dữ liệu).


**Scatter được dùng để:**

- Kiểm tra **tương quan** giữa hai biến
- Phát hiện **outlier**
- Kiểm tra xu hướng (trend line)
- So sánh nhóm (dùng nhiều màu)
- Hiển thị phân phối 2 chiều

**3.8.1. Cách dùng scatter() cơ bản**

Cú pháp:

```python
plt.scatter(x, y)
```

* `x`: dữ liệu trục X
* `y`: dữ liệu trục Y

**Ví dụ:**

In [None]:
import numpy as np

x = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])
y = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])

plt.scatter(x, y)
plt.show()
# Chạy để xem kết quả

Giải thích:

* Trục X: tuổi của xe (ví dụ)
* Trục Y: tốc độ khi xe đi qua
* Mỗi điểm là một xe.
* Nhìn vào biểu đồ, ta có thể **quan sát xem liệu tuổi xe và tốc độ có liên quan không**. ([w3schools.com][1])


**3.8.2. So sánh nhiều bộ dữ liệu**

Bạn có thể vẽ **nhiều biểu đồ phân tán trên cùng một figure** — để so sánh dữ liệu từ nhiều ngày, nhiều nhóm…


In [None]:
# Ngày 1  
x1 = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])  
y1 = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])  
plt.scatter(x1, y1)  

# Ngày 2  
x2 = np.array([2,2,8,1,15,8,12,9,7,3,11,4,7,14,12])  
y2 = np.array([100,105,84,105,90,99,90,95,94,100,79,112,91,80,85])  
plt.scatter(x2, y2)  

plt.show()
#Chạy để xem kết quả

Kết quả: hai bộ dữ liệu sẽ được vẽ khác màu (mặc định) để bạn nhìn thấy cả hai trong cùng biểu đồ. 

Qua đó bạn có thể đưa ra nhận xét: “Dường như xe mới hơn chạy nhanh hơn” (nếu dữ liệu ủng hộ) — nhưng cần lưu ý: có thể chỉ là trùng hợp.


**3.8.3. Thiết lập màu cho toàn bộ điểm**

Bạn có thể đặt tham số `color` (hoặc `c`) để thiết lập màu cho tất cả các điểm:
Ví dụ:

In [None]:
plt.scatter(x, y, color='hotpink')  

Hoặc dùng mã hex:

In [None]:
plt.scatter(x, y, color='#88c999')  

**3.8.4. Thiết lập màu riêng cho mỗi điểm**

Nếu bạn muốn mỗi điểm có một màu riêng — dùng tham số `c` với mảng màu:
Ví dụ:

In [None]:
colors = np.array(["red","green","blue","yellow","pink","black","orange","purple","beige","brown","gray","cyan","magenta"])  
plt.scatter(x, y, c=colors) 

**3.8.5 Bản đồ màu (Colormap)**

Bạn có thể dùng **colormap** để ánh xạ một biến số thành màu — rất hữu ích khi có biến thứ 3: 

* Tạo mảng giá trị (ví dụ từ 0 đến 100) cho mỗi điểm.
* Dùng `c=` để truyền mảng đó.
* Dùng `cmap=` để chọn tên colormap (ví dụ `'viridis'`).
* Nếu muốn hiển thị thang màu bên cạnh: dùng `plt.colorbar()`.


In [None]:
#Ví dụ
x = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6])  
y = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86])  
colors = np.array([0,10,20,30,40,45,50,55,60,70,80,90,100])  

plt.scatter(x, y, c=colors, cmap='viridis')  
plt.colorbar()  
plt.show()
# Chạy để xem kết quả

Ở đây:

* Mỗi điểm có “giá trị màu” riêng (0-100).
* `cmap='viridis'` ánh xạ giá trị → màu từ tím đến vàng.
* `plt.colorbar()` hiển thị thanh màu để người xem biết ý nghĩa.


**3.8.6. Kích thước điểm (Size)**

Bạn có thể thay đổi kích thước của mỗi điểm bằng tham số `s` (size) — mảng hoặc số: 
Ví dụ:

In [None]:
sizes = np.array([20,50,100,200,500,1000,60,90,10,300,600,800,75])  
plt.scatter(x, y, s=sizes)  
plt.show()

Nhận xét:

* Điểm kích thước lớn hơn dễ nhìn hơn, nổi bật hơn.
* Khi dùng mảng `s`, độ dài của mảng này phải bằng độ dài của `x` và `y`.


**3.8.7  Độ trong suốt (Alpha)**

Tham số `alpha` điều chỉnh **độ trong suốt** của điểm — giá trị từ 0 (trong suốt) đến 1 (mờ đậm đầy đủ): 
Ví dụ:

In [None]:
plt.scatter(x, y, s=sizes, alpha=0.5)  
plt.show()

Kết hợp `s` và `alpha` thường dùng khi có **rất nhiều điểm**, để tránh “rối” và cho phép nhìn xuyên qua lớp điểm dày.


**Lưu ý & khuyến nghị**

* Khi dùng `c` như mảng giá trị → **không sử dụng** `color=` với mảng.
* Mảng `x`, `y`, `s`, `c` nếu dùng mảng thì **độ dài phải bằng nhau**.
* Dùng `alpha < 1` khi có nhiều điểm để tránh chồng lấp quá nhiều khiến biểu đồ mất thông tin.
* Dùng colormap và `colorbar()` khi bạn muốn biểu diễn thêm biến thứ 3 bằng màu.
* Sau khi vẽ, có thể thêm **title, xlabel, ylabel, grid** để biểu đồ dễ hiểu hơn.


### 3.9 Matplotlib Bars

Biểu đồ cột (Bar chart) được dùng để **so sánh các giá trị giữa các nhóm hoặc danh mục**.
Trong Matplotlib, biểu đồ cột được tạo bằng **hàm `plt.bar()`**.


**3.9.1 Biểu đồ cột cơ bản**

Cú pháp:
```python
plt.bar(x, y)
```
* `x`: danh sách các vị trí hoặc tên danh mục (categories)
* `y`: giá trị ứng với từng danh mục

In [None]:
# Ví dụ

x = np.array(["A", "B", "C", "D"])
y = np.array([3, 8, 1, 10])

plt.bar(x, y)
plt.show()

Kết quả: 4 cột ứng với A, B, C, D.

**3.9.2 Đổi màu cột (colors)**

Bạn có thể chọn **màu cho toàn bộ cột**:

In [None]:
plt.bar(x, y, color="red")
#Hoặc dùng mã hex:
# plt.bar(x, y, color="#4CAF50")
plt.show()

**3.9.3 Màu riêng cho từng cột**

Truyền danh sách màu tương ứng từng cột:

In [None]:
colors = ["red", "green", "blue", "orange"]
plt.bar(x, y, color=colors)
plt.show()

**3.9.4  Chiều rộng cột (width)**

Mặc định width = 0.8, bạn có thể thay đổi:

In [None]:
plt.bar(x, y, width=0.4)
plt.show()

* width nhỏ → cột mỏng
* width lớn → cột dày hơn

**3.9.5 Biểu đồ cột ngang (Horizontal Bar Chart)**

Dùng `barh()`:

In [None]:
plt.barh(x, y)
plt.show()

Đổi màu + chiều cao của thanh ngang:

In [None]:
plt.barh(x, y, color="skyblue")
plt.show()

**3.9.6 Đổi chiều đảo trục (thuận tiện so sánh)**

In [None]:
plt.barh(x, y)
plt.gca().invert_yaxis()   # đảo thứ tự danh mục
plt.show()

**3.9.7 Thay đổi màu viền (edgecolor) và độ dày viền (linewidth)**

In [None]:
plt.bar(x, y, edgecolor="black", linewidth=2)
plt.show()

**3.9.8 Kết hợp Title + Labels**

In [None]:
plt.bar(x, y, color="purple")
plt.title("Doanh số theo danh mục")
plt.xlabel("Danh mục")
plt.ylabel("Doanh số")
plt.grid(axis='y', linestyle=":", alpha=0.6)
plt.show()

Lưu ý:

* Grid thường dùng cho **trục Y** ở bar chart → dễ đọc hơn.


**3.9.9 Biểu đồ cột kép (So sánh 2 nhóm)**

In [None]:
# Ví dụ: doanh số năm 2023 vs 2024
x = np.array([0, 1, 2, 3])
sales_2023 = np.array([10, 15, 7, 12])
sales_2024 = np.array([12, 18, 10, 14])

bar_width = 0.4

plt.bar(x, sales_2023, width=bar_width, label="2023")
plt.bar(x + bar_width, sales_2024, width=bar_width, label="2024")

plt.xticks(x + bar_width / 2, ["A", "B", "C", "D"])
plt.legend()
plt.show()

**3.9.10 Biểu đồ cột nhiều nhóm (3–4 nhóm trở lên)**

Ý tưởng: thêm khoảng offset theo từng nhóm:


In [None]:
g1 = np.array([5, 9, 7, 10])  # nhóm 1
g2 = np.array([6, 11, 8, 12]) # nhóm 2
g3 = np.array([4, 13, 6, 15]) # nhóm 3

plt.bar(x, g1, width=0.25)
plt.bar(x+0.25, g2, width=0.25)
plt.bar(x+0.50, g3, width=0.25)
plt.show()

**3.9.11 Thêm chú thích giá trị trên đầu cột**

In [None]:
bars = plt.bar(x, y)

for bar in bars:
    plt.text(
        bar.get_x() + bar.get_width()/2,
        bar.get_height(),
        str(bar.get_height()),
        ha="center",
        va="bottom"
    )

**Tóm tắt các tham số quan trọng của `bar()`**

| Tham số     | Ý nghĩa                                  |
| ----------- | ---------------------------------------- |
| `x`         | vị trí cột / danh mục                    |
| `y`         | giá trị                                  |
| `color`     | màu cho tất cả cột hoặc danh sách màu    |
| `width`     | độ rộng cột                              |
| `edgecolor` | màu viền                                 |
| `linewidth` | độ dày viền                              |
| `align`     | canh chỉnh vị trí (`center` hoặc `edge`) |


---

...Xem tiếp file sau