# CHƯƠNG 9 Vẽ đồ thị và trực quan hóa

### Kể từ lần xuất bản đầu tiên của cuốn sách này vào năm 2012, nhiều thư viện trực quan hóa dữ liệu mới đã được tạo ra, một số trong đó (như Bokeh và Altair) tận dụng công nghệ web hiện đại để tạo ra các hình ảnh trực quan tương tác, tích hợp tốt với sổ ghi chép Jupyter. Thay vì sử dụng nhiều công cụ trực quan hóa trong cuốn sách này, tôi quyết định sử dụng matplotlib để giảng dạy các kiến ​​thức cơ bản, đặc biệt là vì pandas tích hợp tốt với matplotlib. Bạn có thể áp dụng các nguyên tắc từ chương này để học cách sử dụng các thư viện trực quan hóa khác.

## 9.1 Sơ lược về API matplotlib

In [None]:
import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
pd.options.display.max_columns = 20
np.random.seed(12345)
import matplotlib.pyplot as plt
import matplotlib
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

### Với matplotlib, chúng tôi sử dụng quy ước nhập sau:

In [None]:
import matplotlib.pyplot as plt

### Sau khi chạy %matplotlib notebook trong Jupyter (hoặc đơn giản là %matplotlib trong IPy-thon), chúng ta có thể thử tạo một biểu đồ đơn giản.

In [None]:
data = np.arange(10)
data
plt.plot(data)

### Sách không đủ chỗ để trình bày toàn diện về chiều rộng và chiều sâu của chức năng trong matplotlib. Nó chỉ đủ để hướng dẫn bạn cách sử dụng và vận hành. Thư viện và tài liệu matplotlib là nguồn tốt nhất để học các tính năng nâng cao.

## Hình ảnh và cốt truyện phụ

In [None]:
fig = plt.figure()

### Một điểm khác biệt khi sử dụng sổ ghi chép Jupyter là các biểu đồ sẽ được thiết lập lại sau khi mỗi ô được đánh giá, vì vậy bạn phải đặt tất cả các lệnh vẽ biểu đồ vào một ô sổ ghi chép duy nhất.

In [None]:
ax1 = fig.add_subplot(2, 2, 1)

In [None]:
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

In [None]:
ax3.plot(np.random.standard_normal(50).cumsum(), color="black",
         linestyle="dashed")

### Bạn có thể thấy đầu ra như <matplotlib.lines.Line2D at ...> khi chạy lệnh này. 
### matplotlib trả về các đối tượng tham chiếu đến thành phần con của biểu đồ vừa được thêm vào.
### Trong nhiều trường hợp, bạn có thể bỏ qua đầu ra này một cách an toàn hoặc đặt dấu chấm phẩy ở cuối dòng để ẩn đầu ra.

In [None]:
ax1.hist(np.random.standard_normal(100), bins=20, color="black", alpha=0.3);
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.standard_normal(30));

In [None]:
plt.close("all")

In [None]:
fig, axes = plt.subplots(2, 3)
axes

### Điều chỉnh khoảng cách xung quanh các biểu đồ con
### Theo mặc định, matplotlib để lại một khoảng đệm nhất định xung quanh bên ngoài các biểu đồ con và khoảng cách giữa các biểu đồ con. Khoảng cách này được chỉ định tương ứng với chiều cao và chiều rộng của biểu đồ, do đó, nếu bạn thay đổi kích thước biểu đồ theo chương trình hoặc thủ công bằng cửa sổ GUI, biểu đồ sẽ tự động điều chỉnh. Bạn có thể thay đổi khoảng cách bằng phương thức subplots_adjust trên các đối tượng Figure:
### subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None, hspace=None)

In [None]:
fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)
for i in range(2):
    for j in range(2):
        axes[i, j].hist(np.random.standard_normal(500), bins=50,
                        color="black", alpha=0.5)
fig.subplots_adjust(wspace=0, hspace=0)

In [None]:
fig = plt.figure()

### Màu sắc, Bút đánh dấu và Kiểu đường nét

In [None]:
ax = fig.add_subplot()
ax.plot(np.random.standard_normal(30).cumsum(), color="black",
        linestyle="dashed", marker="o");

In [None]:
plt.close("all")

In [None]:
fig = plt.figure()
ax = fig.add_subplot()
data = np.random.standard_normal(30).cumsum()
ax.plot(data, color="black", linestyle="dashed", label="Default");
ax.plot(data, color="black", linestyle="dashed",
        drawstyle="steps-post", label="steps-post");
ax.legend()

### Bạn phải gọi ax.legend để tạo chú thích, bất kể bạn có truyền các tùy chọn nhãn khi vẽ biểu đồ dữ liệu hay không.

### Dấu tích, Nhãn và Chú thích

In [None]:
fig, ax = plt.subplots()
ax.plot(np.random.standard_normal(1000).cumsum());

In [None]:
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(["one", "two", "three", "four", "five"],
                            rotation=30, fontsize=8)

In [None]:
ax.set_xlabel("Stages")
ax.set_title("My first matplotlib plot")

In [None]:
fig, ax = plt.subplots()
ax.plot(np.random.randn(1000).cumsum(), color="black", label="one");
ax.plot(np.random.randn(1000).cumsum(), color="black", linestyle="dashed",
        label="two");
ax.plot(np.random.randn(1000).cumsum(), color="black", linestyle="dotted",
        label="three");

In [None]:
ax.legend()

### Chú thích và Vẽ trên Biểu đồ Phụ
### Ngoài các kiểu biểu đồ tiêu chuẩn, bạn có thể muốn vẽ chú thích biểu đồ của riêng mình, có thể bao gồm văn bản, mũi tên hoặc các hình dạng khác. Bạn có thể thêm chú thích và văn bản bằng các hàm văn bản, mũi tên và chú thích. Hàm text vẽ văn bản tại tọa độ (x, y) cho trước trên biểu đồ với kiểu dáng tùy chỉnh tùy chọn:
#### ax.text(x, y, "Hello world!", family="monospace", fontsize=10)

In [None]:
from datetime import datetime

fig, ax = plt.subplots()

data = pd.read_csv("examples/spx.csv", index_col=0, parse_dates=True)
spx = data["SPX"]

spx.plot(ax=ax, color="black")

crisis_data = [
    (datetime(2007, 10, 11), "Peak of bull market"),
    (datetime(2008, 3, 12), "Bear Stearns Fails"),
    (datetime(2008, 9, 15), "Lehman Bankruptcy")
]

for date, label in crisis_data:
    ax.annotate(label, xy=(date, spx.asof(date) + 75),
                xytext=(date, spx.asof(date) + 225),
                arrowprops=dict(facecolor="black", headwidth=4, width=2,
                                headlength=4),
                horizontalalignment="left", verticalalignment="top")

# Zoom in on 2007-2010
ax.set_xlim(["1/1/2007", "1/1/2011"])
ax.set_ylim([600, 1800])

ax.set_title("Important dates in the 2008–2009 financial crisis")

In [None]:
ax.set_title("Important dates in the 2008–2009 financial crisis")

### Lưu Biểu đồ vào Tệp
### Bạn có thể lưu hình đang hoạt động vào tệp bằng phương thức savefig của đối tượng figure. Ví dụ: để lưu phiên bản SVG của một hình, bạn chỉ cần nhập:
#### fig.savefig("figpath.svg")

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color="black", alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color="blue", alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color="green", alpha=0.5)
ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

In [None]:
plt.close("all")

## 9.2 Vẽ đồ thị với pandas và seaborn
### matplotlib có thể là một công cụ khá đơn giản. Bạn có thể tạo một đồ thị từ các thành phần cơ bản của nó: hiển thị dữ liệu (ví dụ: loại đồ thị: đường, thanh, hộp, phân tán, đường đồng mức, v.v.), chú thích, tiêu đề, nhãn tick và các chú thích khác.
### Trong pandas, chúng ta có thể có nhiều cột dữ liệu, cùng với nhãn hàng và nhãn cột. Bản thân pandas có các phương thức tích hợp giúp đơn giản hóa việc tạo hình ảnh trực quan từ các đối tượng Data-Frame và Series. Một thư viện khác là seaborn, một thư viện đồ họa thống kê cấp cao được xây dựng trên matplotlib. seaborn giúp đơn giản hóa việc tạo ra nhiều loại hình ảnh trực quan phổ biến.

### Biểu đồ đường
### Series và DataFrame có thuộc tính plot để tạo một số kiểu biểu đồ cơ bản.

In [None]:
s = pd.Series(np.random.standard_normal(10).cumsum(), index=np.arange(0, 100, 10))
s.plot()

In [None]:
df = pd.DataFrame(np.random.standard_normal((10, 4)).cumsum(0),
                  columns=["A", "B", "C", "D"],
                  index=np.arange(0, 100, 10))
plt.style.use('grayscale')
df.plot()

### Ở đây, tôi sử dụng plt.style.use('grayscale') để chuyển sang bảng màu phù hợp hơn cho ấn phẩm đen trắng, vì một số độc giả sẽ không thể xem được toàn bộ biểu đồ màu.
### Các đối số từ khóa bổ sung cho plot được truyền đến hàm vẽ đồ thị matplotlib tương ứng, do đó bạn có thể tùy chỉnh thêm các đồ thị này bằng cách tìm hiểu thêm về API matplotlib.

### Biểu đồ thanh
### Lệnh plot.bar() và plot.barh() tạo biểu đồ thanh dọc và thanh ngang tương ứng. Trong trường hợp này, chỉ số Series hoặc DataFrame sẽ được sử dụng làm dấu x (thanh) hoặc y (barh)

In [None]:
fig, axes = plt.subplots(2, 1)
data = pd.Series(np.random.uniform(size=16), index=list("abcdefghijklmnop"))
data.plot.bar(ax=axes[0], color="black", alpha=0.7)
data.plot.barh(ax=axes[1], color="black", alpha=0.7)

In [None]:
np.random.seed(12348)

In [None]:
df = pd.DataFrame(np.random.uniform(size=(6, 4)),
                  index=["one", "two", "three", "four", "five", "six"],
                  columns=pd.Index(["A", "B", "C", "D"], name="Genus"))
df
df.plot.bar()

In [None]:
plt.figure()

In [None]:
df.plot.barh(stacked=True, alpha=0.5)

In [None]:
plt.close("all")

In [None]:
tips = pd.read_csv("examples/tips.csv")
tips.head()
party_counts = pd.crosstab(tips["day"], tips["size"])
party_counts = party_counts.reindex(index=["Thur", "Fri", "Sat", "Sun"])
party_counts

In [None]:
party_counts = party_counts.loc[:, 2:5]

In [None]:
# Normalize to sum to 1
party_pcts = party_counts.div(party_counts.sum(axis="columns"),
                              axis="index")
party_pcts
party_pcts.plot.bar(stacked=True)

In [None]:
plt.close("all")

In [None]:
import seaborn as sns

tips["tip_pct"] = tips["tip"] / (tips["total_bill"] - tips["tip"])
tips.head()
sns.barplot(x="tip_pct", y="day", data=tips, orient="h")

In [None]:
plt.close("all")

In [None]:
sns.barplot(x="tip_pct", y="day", hue="time", data=tips, orient="h")

In [None]:
plt.close("all")

In [None]:
sns.set_style("whitegrid")

In [None]:
plt.figure()

In [None]:
tips["tip_pct"].plot.hist(bins=50)

In [None]:
plt.figure()

In [None]:
tips["tip_pct"].plot.density()

In [None]:
plt.figure()

### Biểu đồ Histogram và Biểu đồ Mật độ
### Biểu đồ Histogram là một dạng biểu đồ thanh thể hiện tần suất giá trị rời rạc. Các điểm dữ liệu được chia thành các ngăn rời rạc, cách đều nhau, và số điểm dữ liệu trong mỗi ngăn được biểu diễn. Sử dụng dữ liệu tip trước đó, chúng ta có thể tạo biểu đồ histogram về tỷ lệ tip của tổng hóa đơn bằng phương pháp plot.hist trên Series

In [None]:
comp1 = np.random.standard_normal(200)
comp2 = 10 + 2 * np.random.standard_normal(200)
values = pd.Series(np.concatenate([comp1, comp2]))

sns.histplot(values, bins=100, color="black")

### Biểu đồ điểm hoặc biểu đồ phân tán
### Biểu đồ điểm hoặc biểu đồ phân tán có thể là một cách hữu ích để xem xét mối quan hệ giữa hai chuỗi dữ liệu một chiều. Ví dụ: ở đây, chúng tôi tải tập dữ liệu macrodata từ dự án statsmodels, chọn một vài biến, sau đó tính toán chênh lệch logarit:

In [None]:
macro = pd.read_csv("examples/macrodata.csv")
data = macro[["cpi", "m1", "tbilrate", "unemp"]]
trans_data = np.log(data).diff().dropna()
trans_data.tail()

In [None]:
plt.figure()

In [None]:
ax = sns.regplot(x="m1", y="unemp", data=trans_data)
ax.set_title("Changes in log(m1) versus log(unemp)")

In [None]:
sns.pairplot(trans_data, diag_kind="kde", plot_kws={"alpha": 0.2})

### Lưới Mặt và Dữ liệu Phân loại
### Còn đối với các tập dữ liệu có thêm các chiều nhóm thì sao? Một cách để trực quan hóa dữ liệu với nhiều biến phân loại là sử dụng lưới mặt, đây là bố cục hai chiều của các biểu đồ, trong đó dữ liệu được chia thành các biểu đồ trên mỗi trục dựa trên các giá trị riêng biệt của một biến nhất định. seaborn có một hàm tích hợp hữu ích là cat plot, giúp đơn giản hóa việc tạo nhiều loại biểu đồ mặt được chia theo các biến phân loại.

In [None]:
sns.catplot(x="day", y="tip_pct", hue="time", col="smoker",
            kind="bar", data=tips[tips.tip_pct < 1])

In [None]:
sns.catplot(x="day", y="tip_pct", row="time",
            col="smoker",
            kind="bar", data=tips[tips.tip_pct < 1])

In [None]:
sns.catplot(x="tip_pct", y="day", kind="box",
            data=tips[tips.tip_pct < 0.5])

In [None]:
pd.options.display.max_rows = PREVIOUS_MAX_ROWS

## 9.3 Các Công cụ Trực quan hóa Python Khác
### Như thường thấy với mã nguồn mở, có rất nhiều tùy chọn để tạo đồ họa trong Python (quá nhiều để liệt kê). Kể từ năm 2010, nhiều nỗ lực phát triển đã tập trung vào việc tạo đồ họa tương tác để xuất bản trên web. Với các công cụ như Altair, Bokeh và Plotly, giờ đây bạn có thể chỉ định đồ họa động, tương tác trong Python dành cho trình duyệt web. 
### Để tạo đồ họa tĩnh cho in ấn hoặc web, tôi khuyên bạn nên sử dụng matplotlib và các thư viện được xây dựng trên matplotlib, chẳng hạn như pandas và seaborn, tùy theo nhu cầu của bạn. Đối với các yêu cầu trực quan hóa dữ liệu khác, việc tìm hiểu cách sử dụng một trong những công cụ có sẵn khác có thể hữu ích. Tôi khuyến khích bạn khám phá hệ sinh thái này khi nó tiếp tục phát triển và đổi mới trong tương lai. 
### Một cuốn sách tuyệt vời về trực quan hóa dữ liệu là cuốn Fundamentals of Data Visualization của Claus O. Wilke (O’Reilly), có sẵn dưới dạng bản in hoặc trên trang web của Claus tại https://clauswilke.com/dataviz.

## 9.4 Kết luận
### Mục tiêu của chương này là giúp bạn làm quen với một số công cụ trực quan hóa dữ liệu cơ bản sử dụng pandas, matplotlib và seaborn. Nếu việc truyền đạt kết quả phân tích dữ liệu bằng hình ảnh là quan trọng trong công việc của bạn, tôi khuyến khích bạn tìm kiếm các nguồn tài nguyên để tìm hiểu thêm về trực quan hóa dữ liệu hiệu quả. Đây là một lĩnh vực nghiên cứu đang được quan tâm, và bạn có thể thực hành với nhiều tài liệu học tập tuyệt vời có sẵn trực tuyến và bản in.
### Trong chương tiếp theo, chúng ta sẽ tập trung vào tổng hợp dữ liệu và các thao tác nhóm với pandas.