<img src="https://raw.githubusercontent.com/linhpt7/COURSE/main/datachilly_logo.png" style="height:100px; margin:0 auto 20px;">

# MỤC LỤC
- [1. Giới thiệu trực quan hoá dữ liệu](#1.-Giới-thiệu-trực-quan-hoá-dữ-liệu)
  * [1.1. Tại sao cần trực quan hoá dữ liệu](#1.1.-Tại-sao-cần-trực-quan-hoá-dữ-liệu)
  * [1.2. Các thành phần của biểu đồ](#1.2.-Các-thành-phần-của-biểu-đồ)
    * [Giao diện](#Giao-diện)
    * [Figure và axes](#Figure-và-axes)
  * [1.3. Bảng màu Matplotlib và Seaborn](#1.3.-Bảng-màu-Matplotlib-và-Seaborn)
  * [1.4. Ba kiểu dữ liệu phổ biến trong Visualization](#1.4.-Ba-kiểu-dữ-liệu-phổ-biến-trong-Visualization)
- [2. Biểu đồ cơ bản](#2.-Biểu-đồ-cơ-bản)
  * [2.1. Pie chart](#2.1.-Pie-chart)
  * [2.2. Line chart](#2.2.-Line-chart)
  * [2.3. Bar chart](#2.3.-Bar-chart)
  * [2.4. Heatmap](#2.4.-Heatmap)
- [3. Biểu đồ chuyên sâu](#3.-Biểu-đồ-chuyên-sâu)
  * [3.1. Histogram](#3.1.-Histogram)
    * [Histogram cơ bản](#Histogram-cơ-bản)
    * [Histogram với 2 chiều thông tin](#Histogram-với-2-chiều-thông-tin)
  * [3.2. Box plot](#3.2.-Box-plot)
    * [Boxplot đơn với 1 thuộc tính](#Boxplot-đơn-với-1-thuộc-tính)
    * [Boxplot với 3 hoặc 4 chiều thông tin](#Boxplot-với-3-hoặc-4-chiều-thông-tin)
  * [3.3. Scatter plot](#3.3.-Scatter-plot)
    * [Scatter plot cơ bản](#Scatter-plot-cơ-bản)
    * [Scatter plot với 2 thuộc tính định lượng](#Scatter-plot-với-2-thuộc-tính-định-lượng)
    * [Scatter plot với 3 và 4 thuộc tính](#Scatter-plot-với-3-và-4-thuộc-tính)
    * [Swarm plot - biến thể của Scatter plot](#Swarm-plot---biến-thể-của-Scatter-plot)
- [4. Plotly - thư viện vẽ biểu đồ tương tác](#4.-Plotly---thư-viện-vẽ-biểu-đồ-tương-tác)
  * [4.1. Interactive Scatter Plot with slider](#4.1.-Interactive-Scatter-Plot-with-slider)
  * [4.2. Interactive 3D Scatter Plot](#4.2.-Interactive-3D-Scatter-Plot)
  * [4.3. Xuất ra HTML](#4.3.-Xuất-ra-HTML)
- [Giải đáp tình huống](#Giải-đáp-tình-huống)


# 1. Giới thiệu trực quan hoá dữ liệu
![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

## 1.1. Tại sao cần trực quan hoá dữ liệu

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

Bộ tứ Anscombe gồm 4 cặp số liệu (x, y) có các đại lượng thống kê mô tả bằng nhau.\
Chúng thậm chí có cùng phương trình hồi quy tuyến tính: $y = 0.5x + 3$.

*Tham khảo: [Wikipedia](https://en.wikipedia.org/wiki/Anscombe%27s_quartet)*

In [None]:
anscombe = pd.read_excel('data/anscombe.xlsx')
anscombe

**Tình huống 1:** Tính và nhận xét:
- Mean và Standard Deviation của x1, x2, x3, x4
- Mean và Standard Deviation của y1, y2, y3, y4
- Correlation của 4 cặp x-y

In [None]:
anscombe = sns.load_dataset('anscombe')

_ = sns.lmplot(
    data=anscombe,
    x='x', y='y',
    col='dataset', hue='dataset',
    ci=False,
    col_wrap=2, height=4,
    scatter_kws={'s': 50, 'alpha': 1})

Có thể nhận thấy 4 bộ số khác nhau nhưng có cùng trung bình, phương sai và cả phương trình hồi quy tuyến tính, tuy nhiên khi vẽ lên thì tương quan của chúng hoàn toàn khác nhau. Đó chính là lí do cần trực quan hóa dữ liệu

## 1.2. Các thành phần của biểu đồ

#### Giao diện

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
# tạo dữ liệu
x1 = np.arange(-100, 100)
y1 = x1**2
x2 = np.arange(-100, 100)
y2 = 10*x2 + 5000

# vẽ biểu đồ
plt.plot(x1, y1, label='Parabol')
plt.plot(x2, y2, label='Line')

# tên trục x, y
plt.xlabel('x label')
plt.ylabel('y label')

# tên biểu đồ
plt.title('My graph')

# legend
plt.legend()

plt.show()

#### Figure và axes

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
fig, ax = plt.subplots()

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))

In [None]:
x1 = np.arange(-100, 100)
y1 = x1**2
x2 = np.arange(-100, 100)
y2 = 10*x2 + 5000

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,5))

sns.lineplot(x1, y1, ax=ax[0], color='steelblue', linewidth=3)
sns.lineplot(x2, y2, ax=ax[1], color='indianred', linewidth=3)

plt.show()

## 1.3. Bảng màu Matplotlib và Seaborn
<img src="images\matplotlib_color_names.png">\
*Nguồn: [Matplotlib](https://matplotlib.org/3.2.1/gallery/color/named_colors.html)*

## 1.4. Ba kiểu dữ liệu phổ biến trong Visualization
Data type    |Equivalent measurements|
:-----------:|:---------------------:|
**Category** |Nominal & Ordinal      |
**Date/Time**|Interval               |
**Value**    |Ratio                  |

# 2. Biểu đồ cơ bản
Các loại biểu đồ đơn giản, trực quan, dễ sử dụng, thường dùng để tạo dashboard, báo cáo và trình bày cho các đơn vị kinh doanh, không có nghiệp vụ Phân tích dữ liệu.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

## 2.1. Pie chart
Pie chart (biểu đồ tròn) được sử dụng để biểu diễn tỷ trọng trong tổng thể. Pie chart thể hiện 2 chiều thông tin:
- **Kích thước:** thuộc tính Value
- **Màu sắc:** thuộc tính Category

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
df = pd.DataFrame({
    'mass': [100, 200, 400],
    'planet': ['Mercury', 'Venus', 'Earth']
})

plt.figure(figsize=(5,5))
plt.style.use('seaborn-whitegrid')
plt.pie(df.mass, labels=df.planet, autopct='%1.2f%%')
plt.show()

## 2.2. Line chart
Line chart (biểu đồ đường) thường dùng để biểu diễn xu thế của dữ liệu theo thời gian. Line chart thể hiện được 3 chiều thông tin:
- **Trục x:** thuộc tính Datetime hoặc Value
- **Trục y:** thuộc tính Value
- **Màu sắc:** thuộc tính Category

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
temp = pd.read_excel(r'data\temperatures.xlsx')
temp.head()

In [None]:
plt.figure(figsize=(15,5))
_ = sns.lineplot(data=temp, x='date', y='temperature', hue='city')

**Tình huống 2:** Vẽ biểu đồ biểu diễn dân số của 3 nước: United States, China, India qua các năm với dữ liệu trong file `world_population.xlsx`

## 2.3. Bar chart
Bar chart (biểu đồ cột) là loại biểu đồ phổ biến dùng để so sánh giá trị của từng phân khúc. Bar chart thể hiện được 3 chiều thông tin:
- **Trục x:** thuộc tính Category
- **Trục y:** thuộc tính Value
- **Màu sắc:** thuộc tính Category

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
car = pd.read_excel(r'data\cars.xlsx')
car.head()

In [None]:
_ = sns.barplot(data=car, x='manufacturer', y='price', color='steelblue', ci=False)

Sử dụng thêm chiều thông tin về màu sắc (optional) sẽ thu được biến thể Group bar chart.

In [None]:
plt.figure(figsize=(9,6))
_ = sns.barplot(data=car, x='manufacturer', y='price', hue='airbags', ci=False)

**Tình huống 3:** Sử dụng dữ liệu trong file `supermarket_sales.csv` thực hiện các yêu cầu sau:
1. Tính ra doanh thu của 3 nhãn hàng (brand) với công thức: $sales = unit price * quantity + tax$
2. Dùng biểu đồ cột để so sánh tổng doanh thu giữa các nhãn hàng.
3. So sánh tổng doanh thu giữa khách hàng nam và nữ của các nhãn hàng.

## 2.4. Heatmap
Heatmap (biểu đồ nhiệt) dùng để biểu diễn cường độ/mức độ tương quan của các biến định lượng.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
car = pd.read_excel(r'data\cars.xlsx')
car.head()

In [None]:
car.corr()

In [None]:
plt.figure(figsize=(10,10))
_ = sns.heatmap(car.corr(), cmap=sns.color_palette('RdBu', 9), square=True)

In [None]:
subset = [
    'fuel_tank_capacity', 'passengers', 'length', 'wheelbase', 'width',
    'turn_circle', 'rear_seat_room', 'luggage_room', 'weight'
]

plt.figure(figsize=(5,5))
_ = sns.heatmap(car[subset].corr(), cmap=sns.color_palette('BuGn'), square=True)

**Tình huống 4:** Tính hệ số tương quan giữa các biến định lượng trong file `supermarket_sales.csv`. Sau đó vẽ biểu đồ biểu thị mức độ tương quan giữa các biến đó.

# 3. Biểu đồ chuyên sâu
Các loại biểu đồ đòi hỏi có chuyên môn Phân tích dữ liệu để đọc được, được sử dụng để phân tích, nhìn ra các mối quan hệ ẩn bên trong dữ liệu.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

## 3.1. Histogram
Histogram là biểu đồ thống kê biểu diễn phân bố tần suất của 1 thuộc tính định lượng. Histogram thường dễ bị nhầm lẫn với Bar plot, nhưng thực tế chúng khác nhau hoàn toàn, bởi trục x của Histogram biểu diễn một thuộc tính định lượng. Tác dụng của histogram:
- Quan sát phân bố của tập dữ liệu lớn
- Xem tính đối xứng và độ rộng dữ liệu
- Đường KDE (Kernel Density Estimator) cho biết hình dạng phân phối của dữ liệu

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

#### Histogram cơ bản

In [None]:
np.random.seed(0)
x = np.random.normal(size=1000)

plt.figure(figsize = (10,5))
_ = sns.distplot(x, color='darkred')

In [None]:
np.random.seed(0)
x = np.random.normal(size=1000)

plt.figure(figsize = (10,5))
_ = sns.distplot(x, color='darkred', bins=10)

#### Histogram với 2 chiều thông tin

In [None]:
tips = sns.load_dataset('tips')
tips

In [None]:
_ = sns.jointplot(data=tips, x='total_bill', y='tip', kind='reg', color='steelblue')

In [None]:
_ = sns.jointplot(data=tips, x='total_bill', y='tip', kind='hex', color='steelblue')

In [None]:
_ = sns.jointplot(data=tips, x='total_bill', y='tip', kind='kde', color='steelblue')

**Tình huống 5:** Với dữ liệu trong file `cars.xlsx`, vẽ histogram thể hiện sự phân bổ các giá trị mã lực (horsepower) của tất cả ô tô.

## 3.2. Box plot
Box plot (biểu đồ hộp) là cách biểu diễn dữ liệu với 3 điểm tứ phân vị (chia tập dữ liệu thành 4 phần bằng nhau). Boxplot cho biết:
- Nhận biết vị trí của dữ liệu dựa vào trung vị và sự dàn trải của dữ liệu
- Nhận biết độ lệch phân phối của dữ liệu
- Nhận biết các giá trị ngoại biên trong tập dữ liệu

Box plot thể hiển được 3 chiều thông tin:
- **Trục x:** thuộc tính Category
- **Trục y:** thuộc tính Value
- **Màu sắc:** thuộc tính Category

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
tips = sns.load_dataset('tips')
tips.head()

#### Boxplot đơn với 1 thuộc tính

In [None]:
_ = sns.boxplot(tips.total_bill)

#### Boxplot với 3 hoặc 4 chiều thông tin

In [None]:
plt.figure(figsize=(9,6))
_ = sns.boxplot( data=tips, x='day', y='total_bill', hue='smoker')

In [None]:
_ = sns.catplot(data=tips, x='day', y='total_bill', hue='smoker', col='sex', kind='box', height=4)

**Tình huống 6:** Vẽ biểu đồ biểu diễn phân phối lợi nhuận của 3 nhãn hàng với dữ liệu trong file `supermarket_sales.csv`

## 3.3. Scatter plot
Scatter plot (biểu đồ phân tán) biểu diễn các mật độ phân bố các điểm dữ liệu trên biểu đồ; và rất mạnh trong việc biểu thị mối tương quan giữa 2 biến định lượng. Scatter plot thể hiện được từ 3-5 chiều thông tin của dữ liệu:
- **Trục x:** thuộc tính Value hoặc Category
- **Trục y:** thuộc tính Value hoặc Category
- **Màu sắc:** thuộc tính Category
- **Kích thước:** thuộc tính Value hoặc Category (có thứ tự)
- **Slicer** thuộc tính Datetime

#### Scatter plot cơ bản

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid'); sns.set_palette('deep')

In [None]:
car = pd.read_excel(r'data\cars.xlsx')
car.head()

#### Scatter plot với 2 thuộc tính định lượng

In [None]:
_ = sns.scatterplot(data=car, x='price', y='horsepower', s=200, alpha=0.8)

#### Scatter plot với 3 và 4 thuộc tính

In [None]:
plt.figure(figsize=(10,5))
_ = sns.scatterplot(data=car, x='price', y='horsepower', hue='type', s=200)

In [None]:
plt.figure(figsize=(10,5))
scatter2 = sns.scatterplot(data=car, x='price', y='horsepower', hue='type', size='engine_size', sizes=(100,600))

In [None]:
plt.figure(figsize=(10,5))
scatter2 = sns.scatterplot(data=car, x='price', y='horsepower', hue='engine_size', size='engine_size', sizes=(100,600))

**Tình huống 7:** Sử dụng dữ liệu trong file `gapminder.xlsx`
1. Vẽ biểu đồ biểu thị mối quan hệ giữa tuổi thọ bình quân và GDP/người trong năm 2007
2. Vẽ biểu đồ biểu thị mối quan hệ giữa tuổi thọ bình quân và GDP/người trong năm 2007 của từng châu lục cùng với quy mô dân số của mỗi châu lục

#### Swarm plot - biến thể của Scatter plot

In [None]:
iris = sns.load_dataset('iris')
iris = pd.melt(iris, 'species', var_name='measurement')
iris

In [None]:
plt.figure(figsize=(10,7))
_ = sns.swarmplot(data=iris, x='measurement', y='value', hue='species')

# 4. Plotly - thư viện vẽ biểu đồ tương tác

Một số biểu đồ tương tác để bạn học tham khảo

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

## 4.1. Interactive Scatter Plot with slider

In [None]:
fig1 = px.scatter(
     px.data.gapminder(), 
     x='gdpPercap', y='lifeExp',
     size='pop', color='continent',
     animation_frame='year',
     animation_group='country',
     hover_name='country', log_x=True,
     size_max=100, range_x=[100,100000], range_y=[25,90],
     template='none'
)

fig1.show()

## 4.2. Interactive 3D Scatter Plot

In [None]:
df = px.data.iris()
fig2 = px.scatter_3d(
    df,
    x='sepal_length',
    y='sepal_width',
    z='petal_width',
    color='species')
fig2.update_layout(margin=dict(l=0, r=0, b=0, t=0))
fig2.show()

## 4.3. Xuất ra HTML

In [None]:
import plotly
plotly.offline.plot(fig1, filename='Fig 1 - Interactive Scatter Plot with slider.html')

In [None]:
import plotly
plotly.offline.plot(fig2, filename='Fig 2 - Interactive 3D Scatter Plot.html')

In [None]:
from IPython.display import Image
Image('https://raw.githubusercontent.com/linhpt7/COURSE/main/datachilly_logo.png', height=100)

In [None]:
plt.figure(figsize = (14,7))
_ = sns.scatterplot(data=world1, x='lifeExp', y='gdpPercap', hue='continent', size='pop', sizes=(50,1000))

# Giải đáp tình huống
![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

**Tình huống 1:** Tính và nhận xét:
- Mean và Variance của x1, x2, x3, x4
- Mean và Variance của y1, y2, y3, y4
- Correlation của 4 cặp x-y

In [None]:
anscombe = pd.read_excel('data/anscombe.xlsx')

In [None]:
anscombe.describe().loc[['mean', 'std']]

In [None]:
for i in range(1,5):
    x = anscombe[f'x{i}']
    y = anscombe[f'y{i}']
    corr = x.corr(y)
    print(f'Correlation between x{i} and y{i} = {corr}')

**Tình huống 2:** Vẽ biểu đồ biểu diễn dân số của 3 nước: United States, China, India  qua các năm với dữ liệu trong file `world_population.xlsx`.

In [None]:
pop = pd.read_excel(r'data/world_population.xlsx')
pop.head()

In [None]:
pop1 = pop[
    (pop['country'] == 'United States') |
    (pop['country'] == 'China') |
    (pop['country'] == 'India')
]

pop1.head()

In [None]:
sns.lineplot(
    x='year', 
    y='population', 
    hue='country',
    data=pop1
)
plt.show()

**Tình huống 3:** Sử dụng dữ liệu trong file `supermarket_sales.csv` thực hiện các yêu cầu sau:
1. Tính ra doanh thu của 3 nhãn hàng (brand) với công thức: $sales = unit price * quantity + tax$
2. Dùng biểu đồ cột để so sánh tổng doanh thu giữa các nhãn hàng.
3. So sánh tổng doanh thu giữa khách hàng nam và nữ của các nhãn hàng.

In [None]:
sales = pd.read_csv(r'data/supermarket_sales.csv')
sales.head()

In [None]:
sales['sales'] = sales['unit_price'] * sales['quantity'] + sales['tax']
sales.head()

In [None]:
_ = sns.barplot(data=sales, x='brand', y='sales', color='teal', ci=False, estimator=np.sum)

In [None]:
_ = sns.barplot(data=sales, x='brand', y='sales', hue='gender', ci=False, estimator=np.sum)

**Tình huống 4:** Tính hệ số tương quan giữa các biến định lượng trong file `supermarket_sales.csv`. Sau đó vẽ biểu đồ biểu thị mức độ tương quan giữa các biến đó.

In [None]:
sales = pd.read_csv(r'data/supermarket_sales.csv')
sales.head()

In [None]:
corr = sales.corr()
corr

In [None]:
_ = sns.heatmap(corr, 
    vmin=-1, vmax=1, center=0,
    cmap=sns.color_palette('RdBu', 7),
    square=True
)

**Tình huống 5:** Với dữ liệu trong file `cars.xlsx`, vẽ histogram thể hiện sự phân bổ các giá trị mã lực (horsepower) của tất cả ô tô.

In [None]:
car = pd.read_excel(r'data\cars.xlsx')
car.head()

In [None]:
plt.figure(figsize = (10,5))
_ = sns.distplot(car['horsepower'], bins=8, color='indianred', kde_kws={'linewidth':3})

**Tình huống 6:** Vẽ biểu đồ biểu diễn phân phối lợi nhuận của 3 nhãn hàng với dữ liệu trong file `supermarket_sales.csv`

In [None]:
sales = pd.read_csv(r'data\supermarket_sales.csv')
sales.head()

In [None]:
_ = sns.boxplot(data=sales, x='brand', y='profit')

**Tình huống 7:** Sử dụng dữ liệu trong file `gapminder.xlsx`
1. Vẽ biểu đồ biểu thị mối quan hệ giữa tuổi thọ bình quân và GDP/người trong năm 2007
2. Vẽ biểu đồ biểu thị mối quan hệ giữa tuổi thọ bình quân và GDP/người trong năm 2007 của từng châu lục cùng với quy mô dân số của mỗi châu lục

In [None]:
world = pd.read_excel(r'data/gapminder.xlsx')
world.head()

In [None]:
world1 = world[world['year'] == 2007]
world1.head()

In [None]:
_ = sns.scatterplot(data=world1, x='lifeExp', y='gdpPercap')

Tài liệu dành cho các bạn đã mua khoá học của DataChilly. Vui lòng không sao chép, chia sẻ dưới mọi hình thức.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)