# Trực quan hóa dữ liệu với Matplotlib

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd

import datetime as dt
import math

## Mục tiêu của trực quan hóa dữ liệu

**Mục tiêu 1: Để giúp bạn hiểu rõ hơn về dữ liệu/kết quả của mình.**- Phần quan trọng trong khám phá dữ liệu (exploratory data)
- Tóm tắc các xu hướng một cách trực quan trước khi phân tích sâu hơn

**Mục tiêu 2: Truyền đạt kết quả/kết luận cho người khác.**
- Tính chỉnh sửa và chọn lọc cao
- Cần tinh chỉnh để đạt được mục tiêu truyền đạt.

**Lưu ý**:
- Visualizations aren't a matter of making "pretty" pictures.- We need to do a lot of thinking about what stylistic choices communicate ideas most effective

Trực quan hóa gồm hai giai đoạn:
- Chọn đúng plot
- Tình chỉnh plot phù hợp

## Histogram

Dùng để trực quan hóa phân bố các giá trị của biến dạng "numerical"
- **Numerical**
- Categorical

Histogram gồm:
- Phân chia các điểm dữ liệu có giá trị tương tự vào một "bin" chung.- Scale các bin sao cho diện tích của mỗi bin bằng tỷ lệ phần trăm của các điểm dữ liệu trong đó


### Đọc dữ liệu điểm quiz từ file và tiền xử lý

In [None]:
# Đọc dữ liệu về kết quả làm quiz của lớp
# (Code lấy từ file 05-Demo.ipynb)
file = open('Data/PythonQuiz2023.csv', 'r',encoding='utf-8-sig')

cols = {}
first_line_vals = file.readline().rstrip().split(',')
for first_line_val in first_line_vals:
    cols[first_line_val] = []
for line in file:
    line_vals = line.rstrip().split(',')
    if (line_vals[0] == 'Never submitted'):
        continue
    for i in range(len(line_vals)):
        cols[first_line_vals[i]].append(line_vals[i])

file.close()

for col_name, col_vals in cols.items():
    print(f'{col_name}: [{col_vals[0]}, ...]')

In [None]:
# Chuyển kiểu dữ liệu của các cột từ str sang kiểu dữ liệu phù hợp
# (Code lấy từ file 04-Demo.ipynb)
new_cols = {}
for col_name, col_vals in cols.items():
    if '/' in col_name:
        new_col_vals = []
        for col_val in col_vals:
            try:
                col_val = float(col_val)
            except:
                col_val = 0
            new_col_vals.append(float(col_val))
        new_cols[col_name] = new_col_vals
    elif col_name in ['Started on', 'Completed']:
        new_col_vals = []
        for col_val in col_vals:
            new_col_val = dt.datetime.strptime(col_val,
                                               '%d/%m/%Y %H:%M')
            new_col_vals.append(new_col_val)
        new_cols[col_name] = new_col_vals
    elif col_name == 'Time taken':
        new_col_vals = []
        for col_val in col_vals:
            hour = 0; minute = 0; second = 0
            temp_list = col_val.split(' ')
            for temp_i in range(len(temp_list)):
                if 'hour' in temp_list[temp_i]:
                    hour = int(temp_list[temp_i - 1])
                elif 'min' in temp_list[temp_i]:
                    minute = int(temp_list[temp_i - 1])
                elif 'sec' in temp_list[temp_i]:
                    second = int(temp_list[temp_i - 1])
            new_col_val = hour * 60 + minute + second / 60
            new_col_vals.append(new_col_val)
        new_cols[col_name] = new_col_vals
    else:
        new_cols[col_name] = col_vals

In [None]:
cols = new_cols
for col_name, col_vals in cols.items():
    print(f'{col_name} {type(col_vals[0])}')

### Vẽ histogram của cột điểm "Grade/10.00" với 4 bin có độ rộng bằng nhau

Kết quả đã tính ở file "04-Demo.ipynb": \
`{(0, 2): 0, (2, 4): 0, (4, 6): 10, (6, 8): 18, (8, 10): 26}`\
    *Bộ dữ liệu hơn khác với bài 04-Demo.ipynb để minh họa thêm ý trong bài này*\
    *Trong Dataset dùng trong bài 04-Demo.ipynb, (0, 2): 1*

In [None]:
# Chia ra 4 bin có độ rộng bằng nhau
# bằng cách truyền một con số vào tham số bin của plt.hist


### Vẽ histogram của cột điểm "Grade/10.00" với 2 bin có độ rộng không bằng nhau là [0, 7.5) và [7.5, 10]

Khi nhìn hình, bạn cảm nhận số lượng sinh viên ở bin thứ 1 như thế nào với bin thứ 2? \
Có vẻ nhiều hơn!

Nhưng cảm nhận này không đúng: bin thứ 1 có 19 sinh viên, còn bin thứ 2 có 35 sinh viên.

Tại sao ta lại có cảm nhận không đúng này? \
Vì mắt của ta tập trung vào diện tích của cột hơn là chiều cao của cột.

Hình vẽ ở trên thật ra không phải là histogram!

In [None]:
# Đây mới là histogram!
# Diện tích của cột ứng với số lượng sinh viên đã được chuẩn hóa 
# về tỉ lệ tương đối (tổng diện tích của các cột sẽ bằng 1) 


### Tiếp tục với histogram gồm 2 bin [0, 7.5) và [7.5, 10]: phân bố của các giá trị trong bin [7.5, 10]?

Histogram giả định các giá trị được phân bố đều trong mỗi bin. Điều này được thể hiện bởi đường nằm ngang ở trên đầu cột của mỗi bin.

In [None]:
# Thử chi tiết hóa ra bin [12, 16]


Tùy ngữ cảnh cụ thể mà bạn có thể muốn chi tiết hóa ra, có thể không muốn chi tiết hóa ra, nhưng khi nhìn hình của histogram thì bạn nên hiểu về giả định phân bố đều trong mỗi bin của histogram.

### Vẽ histogram của cột điểm "Grade/10.00" với 4 bin [0, 2), [2, 4), [4, 6),  [6, 8), [8, 10] + 3 đường đứng ứng với lower quartile, median, upper quartile

In [None]:
def compute_percentile(data, p):
    sorted_grades = sorted(data)
    i = int(p/100 * (len(sorted_grades)-1))
    return sorted_grades[i]
lower_quartile = compute_percentile(cols['Grade/10.00'], 25)
median = compute_percentile(cols['Grade/10.00'], 50)
upper_quartile = compute_percentile(cols['Grade/10.00'], 75)
lower_quartile, median, upper_quartile

Tại sao diện tích của cột từ upper quartile đến max lại không tương đương với từ median đến upper quartile?

Do giả định phân bố đều của histogram trong bin [5, 10] là không chính xác. Thật ra là có nhiều giá trị tập trung vào vùng từ upper quartile đến max hơn là từ median đến upper quartile.

In [None]:
# So sánh histogram của các distribution


In [None]:
## Two-Dimensional Histograms and Binnings


In [None]:
# Dùng plt.hist2d để vẽ 2D histogram


## Bar plot

Dùng để trực quan hóa phân bố các giá trị của biến dạng "categorical"
- Numerical
- **Categorical**

### Đọc dữ liệu đăng ký chuyên ngành K2021 (CQ) từ file và lấy ra cột các chuyên ngành

### Vẽ bar plot của cột các chuyên ngành

Bước 1: đếm số lần xuất hiện của mỗi chuyên ngành

Bước 2: vẽ bar plot từ kết quả của bước 1

In [None]:
# Trong bar plot, ta thường sẽ chuẩn hóa các giá trị đếm 
# về tỉ lệ tương đối


`pandas` native plotting:

Bar plot vs histogram?

Bar plot | Histogram
:--- | :---
Trục hoành (hay trục tung đối với bar plot nằm ngang) là biến "categorical" | Trục hoành là biến "numerical"
Với biến "categorical" không có tính thứ tự (ví dụ, chuyên ngành) thì các bar không có thứ tự với nhau và ta có thể sắp xếp lại thứ tự của các bar cho dễ nhìn bằng cách sort các bar theo chiều cao; với biến "categorical" có tính thứ tự (ví dụ, mức độ hài lòng với các giá trị: rất hài lòng, hài lòng, không hài lòng, ...) thì các bar có thứ tự với nhau | Các bar có thứ tự với nhau
Các bar có độ rộng bằng nhau, giữa các bar có thể có các khoảng không và các khoảng không này bằng nhau | Các bar có thể có độ rộng không bằng nhau, các bar nằm nối tiếp nhau tạo thành một đoạn liên tục trên trục hoành
Tỉ lệ các phần tử tương ứng với chiều cao của bar | Tỉ lệ các phần tử tương ứng với diện tích của bar

## Ôn lại các câu lệnh đã học

Câu lệnh | Ý nghĩa
:--- | :---
`plt.hist` | Vẽ histogram của biến dạng "numeric"
`plt.bar`, `plt.barh` | Vẽ bar chart của biến dạng "categorical" (cần phải tính số lần hoặc tỉ lệ của các giá trị trước khi vẽ)
`plt.title` | Thêm tựa đề cho hình vẽ
`plt.xlabel` & `plt.ylabel` | Thêm nhãn cho trục x & y
`plt.xlim` & `plt.ylim` | Giới hạn miền giá trị cho trục x & y
`plt.xticks` & `plt.yticks` | Chỉ định các tick cho trục x & y
`plt.axvline` & `plt.axhline` | Vẽ đường thẳng nằm đứng & nằm ngang
`plt.legend` | Thêm chú thích cho ký hiệu, màu, ... trên hình vẽ
`plt.savefig` | Lưu hình vẽ xuống file

## Một số cách plot phổ biến khác

In [None]:
# Scatter Plots dùng để trực quan hóa mối quan hệ giữa hai biến liên tục


**Dùng scatter plot**

In [None]:
# Format của từng point (size, face color, edge color) có thể được xử lý riêng lẻ


- `plot` sẽ nhanh hơn scatter (trên dữ liệu lớn)
- `scatter` sẽ hiển thị được các điểm khác nhau.

## Nói thêm về matplotlib  

### Ba cách dùng matplotlib

<font color=blue>Cách 1: Dùng các câu lệnh của `plt`</font> (trước giờ là làm theo cách này)

In [None]:
values = ['a', 'b', 'c']
counts = [1, 2, 3]



<font color=blue>Cách 2: Dùng trực tiếp các phương thức của đối tượng figure ở bên dưới</font>

<font color=blue>Cách 3: Trộn lẫn giữa cách 1 và cách 2</font>

### Thay đổi style cho các hình vẽ 

Xem thêm về các style ở [document](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html).

# Vẽ nhiều subplot

In [None]:
plt.style.use('seaborn-v0_8-white')

**Tự tạo ra các trục tọa độ (axis)**

**Dùng subplot (lưu ý không `s`)**

In [None]:
# Thay đổi khoảng cách giữa các subplot


### ``plt.subplots``: Vẽ toàn bộ gird
**Lưu ý có `s`**

In [None]:
# Create some normally distributed data
mean = [0, 0]
cov = [[1, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 3000).T

# Set up the axes with gridspec
fig = plt.figure(figsize=(6, 6))
grid = plt.GridSpec(4, 4, hspace=0.2, wspace=0.2)
main_ax = fig.add_subplot(grid[:-1, 1:])
y_hist = fig.add_subplot(grid[:-1, 0], xticklabels=[], sharey=main_ax)
x_hist = fig.add_subplot(grid[-1, 1:], yticklabels=[], sharex=main_ax)

# scatter points on the main axes
main_ax.plot(x, y, 'go', markersize=3, alpha=0.2)

# histogram on the attached axes
x_hist.hist(x, 40, histtype='stepfilled',
            orientation='vertical', color='blue')
x_hist.invert_yaxis()

y_hist.hist(y, 40, histtype='stepfilled',
            orientation='horizontal', color='red')
y_hist.invert_xaxis()