<img src="https://raw.githubusercontent.com/linhpt7/COURSE/main/datachilly_logo.png" style="height:100px; margin:0 auto 20px;">

# MỤC LỤC
- [1. Các đại lượng cơ bản](#1.-Các-đại-lượng-cơ-bản)
- [2. Phương sai (Variance)](#2.-Phương-sai-(Variance))
  * [Ý nghĩa của phương sai](#Ý-nghĩa-của-phương-sai)
- [2. Tứ phân vị](#2.-Tứ-phân-vị)
  * [Trung vị](#Trung-vị)
- [3. Hệ số tương quan](#3.-Hệ-số-tương-quan)
- [Giải đáp tình huống](#Giải-đáp-tình-huống)


# 1. Các đại lượng cơ bản
Trong Thống kê, một array còn đượt gọi là một biến ngẫu nhiên. Các đại lượng thống kê cơ bản của một biến ngẫu nhiên gồm: tổng, trung bình, giá trị lớn nhất/nhỏ nhất.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
sample = np.random.randint(100, 1000, size=100)
sample

In [None]:
sample.min()

In [None]:
sample.max()

Giá trị trung bình của một biến $\mathbf{x}=(x_1,x_2,\dots, x_n)$ được tính như sau:

$$\mu = \frac{1}{n} \sum_{i=1}^{n}{x_i}$$

In [None]:
sample.sum()

In [None]:
sample.mean()

# 2. Phương sai (Variance)
Phương sai (variance) của biến ngẫu nhiên  $\mathbf{x}$ được xác định bằng công thức:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$
Với:
- $\sigma$ là độ lệch chuẩn của $\mathbf{x}$
- $\sigma^2$ là phương sai của $\mathbf{x}$
- $\mu$ là trung bình của $\mathbf{x}$
- $n$ là số quan sát của $\mathbf{x}$
- $x_i$ là quan sát thứ $i$

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
sample = np.random.randint(100, 1000, size=100)
sample

In [None]:
# standard deviation
sample.std()

In [None]:
# variance
sample.var()

#### Ý nghĩa của phương sai
Độ lệch chuẩn và phương sai thể hiện sự phân tán của dữ liệu so với trung bình. Sau đây chúng ta sẽ vẽ biểu đồ Histogram (sẽ được giới thiệu kỹ hơn trong bài "Data Visualization") để quan sát sự phân bố của dữ liệu, từ đó phân tích ý nghĩa của phương sai như sau: Biểu đồ thứ 2 có phương sai nhỏ hơn, vì vậy dữ liệu có xu hướng tập trung nhiều ở giữa, gần với giá trị trung bình. Trong khi ở biểu đồ 1, dữ liệu bớt tập trung ở giữa mà dàn trải bớt về 2 bên.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use(['seaborn', 'seaborn-whitegrid'])
%config InlineBackend.figure_format = 'retina'

fig, ax = plt.subplots(nrows=2, sharex=True, figsize=(6,9))

std_1 = 50
sample_1 = np.random.normal(loc=0, scale=std_1, size=10000)
sns.histplot(sample_1, bins=100, ax=ax[0], stat='count', edgecolor='w', color='indianred')
ax[0].set_title(f'Standard deviation = {std_1}')

std_2 = 20
sample_2 = np.random.normal(loc=0, scale=std_2, size=10000)
sns.histplot(sample_2, bins=100, ax=ax[1], stat='count', edgecolor='w')
ax[1].set_title(f'Standard deviation = {std_2}')

plt.show()

**Tình huống 1:** Viết lại công thức tính phương sai thông qua các đại lượng cơ bản như tổng hoặc trung bình.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$

# 2. Tứ phân vị
Tứ phân vị (quartiles) là bộ 3 giá trị $Q_1$, $Q_2$, $Q_3$ chia dữ liệu làm 3 phần có kích thước bằng nhau, mỗi phần chứa 25% số lượng giá trị. Cụ thể:
- 25% số điểm dữ liệu nhỏ hơn $Q_1$
- 25% số điểm dữ liệu lớn hơn $Q_1$ và nhỏ hơn $Q_2$
- 25% số điểm dữ liệu lớn hơn $Q_2$ và nhỏ hơn $Q_3$
- 25% số điểm dữ liệu lớn hơn $Q_3$

Tứ phân vị là một kỹ thuật quan trọng giúp Data Analyst nắm được đặc tính dữ liệu và có được những góc nhìn toàn diện về dữ liệu. Ví dụ: liệu thu nhập của 1000 người có các điểm tứ phân vị là 7 triệu, 12 triệu và 30 triệu. Ta có thể đọc được một số thông tin quan trọng từ dữ liệu như sau:
- Số lượng người thu nhập chưa đến 30 triệu lên đến 75%
- Có khoảng 250 người thu nhập thấp, dưới 7 triệu
- Có đến 500 người thu nhập trên 12 triệu

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

In [None]:
import numpy as np

In [None]:
np.random.seed(0)
sample = np.random.randint(100, 1000, size=100)
sample

Khi tính toán quartile trong Numpy, chúng ta dùng phương thức `quantile` và truyền vào một list 3 giá trị (0.25, 0.5, 0.75) ứng với vị trí của 3 giá trị phân vị. Giá trị trả về dưới dạng tuple 3 phần tử, chúng ta thực hiện unpack các giá trị này (kỹ thuật unpacking tuple đã được giới thiệu ở bài "Data Structures").

In [None]:
np.quantile(sample, [0.25, 0.5, 0.75])

In [None]:
# unpacking quartiles
q1, q2, q3 = np.quantile(sample, [0.25, 0.5, 0.75])

Một phương pháp rất phổ biến để trực quan hoá tứ phân vị là biểu đồ hộp (box plot). Các thành phần của boxplot gồm:

<img src="images/boxplot.png" style="height:300px; margin:0;">

Nguồn: https://biostats.w.uib.no/9-how-to-draw-a-boxplot-2/

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use(['seaborn', 'seaborn-whitegrid'])
%config InlineBackend.figure_format = 'retina'

np.random.seed(0)
sample = np.random.randint(100, 1000, size=100)
q1, q2, q3 = np.quantile(sample, [0.25, 0.5, 0.75])

sns.boxplot(x=sample)
plt.show()

**Tình huống 2:** Dùng Numpy, hãy kiểm tra số điểm dữ liệu trong 4 khoảng tứ phân vị xem chúng có kích thước bằng nhau hay không.

#### Trung vị
Giá trị $Q_2$ trong các điểm tứ phân vị còn được gọi là trung vị. Chú ý phân biệt trung vị khác với trung bình. Trung vị sẽ ít bị ảnh hưởng bởi các giá trị ngoại biên hơn so với trung bình.

Trong ví dụ minh hoạ dưới đây, có thể thấy 100 là giá trị ngoại biên, lớn bất thường so với phần còn. Sự xuất hiện của giá trị này khiến trung bình tăng lên rất nhiều và không còn phản ánh được đúng tính chất dữ liệu, trong khi trung vị hầu như không bị ảnh hưởng.

In [6]:
import numpy as np
x = np.arange(10)
print(x)
print('Mean', np.mean(x))
print('Median', np.median(x))

[0 1 2 3 4 5 6 7 8 9]
Mean 4.5
Median 4.5


In [9]:
import numpy as np
x = np.arange(10)
x[7] = 100
print(x)
print('Mean', np.mean(x))
print('Median', np.median(x))

[  0   1   2   3   4   5   6 100   8   9]
Mean 13.8
Median 4.5


# 3. Hệ số tương quan
Ở các phần trước, các bạn đã được giới thiệu về các đại lượng thống kê của 1 biến đơn lẻ. Trong trường hợp muốn phân tích mối quan hệ giữa 2 biến, chúng ta sẽ sử dụng hệ số tương quan. Đây là một đại lượng thống kê (ký hiệu là $r$) có giá trị từ -1 đến 1.

<img src="images/correlation_coefficient.jpeg" style="height:300px; margin:0;">

Nguồn: https://journals.lww.com/anesthesia-analgesia/Fulltext/2018/05000/Correlation_Coefficients__Appropriate_Use_and.50.aspx

- Giá trị r âm thể hiện 2 biến tương quan ngược chiều nhau, nếu x tăng thì y giảm.
- Giá trị r dương thể hiện 2 biến tương quan cùng chiều nhau, nếu x tăng thì y cũng tăng.
- Nếu r dao động quanh 0 ($-0.1<r<0.1$) thì 2 biến x, y được gọi là tương quan thấp hoặc không tương quan. Hệ số tương quan càng gần -1 hoặc 1 ($|r|>0.9$) thì mức độ tương quan của 2 biến càng mạnh.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

In [None]:
import numpy as np

In [12]:
np.random.seed(0)
X = np.random.randint(10, 100, size=10)
Y = np.random.randint(10, 100, size=10)

In [14]:
np.corrcoef([X, Y])[0,1]

-0.19361671769162936

In [None]:
from IPython.display import Image
Image('https://raw.githubusercontent.com/linhpt7/COURSE/main/datachilly_logo.png', height=100)

***
# Giải đáp tình huống
![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)

**Tình huống 1:** Viết lại công thức tính phương sai thông qua các đại lượng cơ bản như tổng hoặc trung bình.
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^n{(x_i - \mu)}^2$$

In [None]:
np.random.seed(0)
x = np.random.randint(1000, size=100)

variance = ((x - x.mean())**2).mean()
variance

**Tình huống 2:** Dùng Numpy chứng minh 4 khoảng tứ phân vị chứa số lượng phần tử bằng nhau.

In [None]:
import numpy as np
np.random.seed(0)
x = np.random.randint(1000, size=100)
Q1, Q2, Q3 = np.quantile(a, (0.25, 0.5, 0.75))

In [None]:
# khoảng thứ nhất: từ min đến Q1
x[x < Q1].shape

In [None]:
# khoảng thứ hai: từ Q1 đến Q2
x[(Q1 < x) & (x < Q2)].shape

In [None]:
# khoảng thứ ba: từ Q2 đến Q3
x[(Q2 < x) & (x < Q3)].shape

In [None]:
# khoảng thứ tư: từ Q3 đến max
x[x > Q3].shape

Tài liệu dành cho các bạn đã mua khoá học của DataChilly. Vui lòng không sao chép, chia sẻ dưới mọi hình thức.

![image](https://img.shields.io/badge/Data-Chilly-teal?logo=python)