# Phân tích tương quan Pearson 

Phân tích tương quan Pearson là một trong các phương pháp được lựa chọn khi chúng ta thực hiện feature selection trong các bài toán học máy. Phương pháp này ứng trong trường hợp dữ liệu đầu vào có tính chất tuyến tính.

##  Lý thuyết về tương quan Pearson

Tương quan tuyến tính giữa hai biến là mối tương quan mà khi biểu diễn giá trị quan sát của hai biến trên mặt phẳng Oxy, các điểm dữ liệu có xu hướng tạo thành một đường thẳng. Theo Gayen (1951) , trong thống kê, các nhà nghiên cứu sử dụng hệ số tương quan Pearson (ký hiệu r) để lượng hóa mức độ chặt chẽ của mối liên hệ tuyến tính giữa hai biến định lượng. Nếu một trong hai hoặc cả hai biến không phải là biến định lượng (biến định tính, biến nhị phân,…) chúng ta sẽ không thực hiện phân tích tương quan Pearson cho các biến này. 

Hệ số tương quan Pearson r có giá trị dao động từ -1 đến 1:

- Nếu r càng tiến về 1, -1: tương quan tuyến tính càng mạnh, càng chặt chẽ. Tiến về 1 là tương quan dương, tiến về -1 là tương quan âm.
- Nếu r càng tiến về 0: tương quan tuyến tính càng yếu.
- Nếu r = 1: tương quan tuyến tính tuyệt đối, khi biểu diễn trên đồ thị phân tán Scatter như hình vẽ ở trên, các điểm biểu diễn sẽ nhập lại thành 1 đường thẳng.
- Nếu r = 0: không có mối tương quan tuyến tính. Lúc này sẽ có 2 tình huống xảy ra. Một, không có một mối liên hệ nào giữa 2 biến. Hai, giữa chúng có mối liên hệ phi tuyến.

Để tính toán hệ số tương quan Pearson, ta  có thể làm theo công thức toán học của Pearson. Công thức này được tính như sau:

$$r =\frac{Cov(X,Y)}{σ_X​ σ_Y​}$$

trong đó:
- $𝜎_𝑋$​  và $𝜎_𝑌$ là độ lệch chuẩn của $𝑋$ và $𝑌$.
- $Cov(X,Y)$ là hiệp phương sai của $𝑋$ và $𝑌$. Bạn đọc có thể tự tìm hiểu khái niệm này trên mạng.

Công thức để tính $Cov(X,Y)$ là: $$Cov(X,Y)= \frac{∑_{i=1}{n}​ (x_i​ − \bar{x} )(y_i​ − \hat{y})​}{n} $$
​
trong đó 𝑥ˉ  và 𝑦ˉ  lần lượt là giá trị trung bình của 𝑋 và 𝑌, và 𝑛 là số lượng quan sát.

Ta thấy rằng công thức trên khá lằng nhằng vì cứ trên mỗi một tập dữ liệu là ta phải tính lại giá trị 𝑥ˉ  và 𝑦ˉ cũng như $𝜎_𝑋$​  và $𝜎_𝑌$. Điều này có thể gây khó dễ trong lập trình. Do đó, ta có thể bung hết cả tử và mẫu ra và đưa về công thức sau:

$$r = \frac{n(\sum xy) - (\sum x)(\sum y)}{\sqrt{[n\sum x^2 - (\sum x)^2][n\sum y^2 - (\sum y)^2]}}
$$

Trong đó:
- $n$ là số lượng quan sát.
- $\sum xy$ là tổng của tích các cặp giá trị.
- $\sum x$ và $\sum y$ là tổng các giá trị của $X$ và $Y$.
- $\sum x^2$ và $\sum y^2$ là tổng của bình phương các giá trị của $X$ và $Y$.

Lưu ý rằng, dữ liệu $X$ và $Y$ phải thỏa 2 điều kiện sau:
- Dữ liệu liên tục: $X$ và $Y$ phải là các số thực hoặc số nguyên liên tục, không phải là chuỗi, nhãn, hay dữ liệu danh mục

- Phân phối chuẩn: Cả hai biến cần có phân phối chuẩn hoặc gần chuẩn. Nếu phân phối dữ liệu bị lệch, hệ số Pearson có thể không phản ánh chính $x$ác mối liên hệ giữa hai biến.
- Mối quan hệ tuyến tính: Mối quan hệ giữa hai biến cần phải tuyến tính. Nếu mối quan hệ phi tuyến tính, hệ số Pearson cũng sẽ không chính xác.

Ngoài ra, cần lưu ý rằng:
- Hệ số tương quan chỉ đo lường mối liên hệ giữa hai biến, chứ không chứng minh mối quan hệ nhân quả.
- Việc giải thích hệ số tương quan cần được thực hiện cẩn thận, đồng thời xem xét các yếu tố khác như kích thước mẫu, giá trị ngoại lệ, v.v.

### Triển khai


1. Thủ công

In [16]:
import random
import numpy as np

x = np.linspace(1,10,50)
y = np.linspace(3,7,50)

n = len(x)

In [1]:
import pandas as pd
import numpy as np

In [22]:
sum_xy = np.sum(x*y)
sum_x = np.sum(x)
sum_y = np.sum(y)
sum_x2= np.sum(x**2)
sum_y2= np.sum(y**2)

numerator = n*sum_xy - sum_x*sum_y
denominator = np.sqrt((n*sum_x2 -sum_x**2)*(n*sum_y2 -sum_y**2))
cor = numerator / denominator
print(round(cor))

1


2. Dùng cách khác

In [26]:
# Tạo dữ liệu mẫu
# data = {'X': [10, 20, 30, 40, 50],
#         'Y': [15, 25, 35, 45, 55]}
# df = pd.DataFrame(data)
import numpy as np
import pandas as pd
data ={
       'A': np.linspace(1,10,20),
       'B' : np.linspace(5, 9, 20)
}

df = pd.DataFrame(data)

In [28]:
# Tính toán hệ số tương quan Pearson
matrix = df.corr()
print('ma trận tương quan: \n', matrix)


ma trận tương quan: 
      A    B
A  1.0  1.0
B  1.0  1.0


In [32]:
# Tính hệ số tương quan Pearson
corr_coef = np.corrcoef(df['A'], df['B'])
print('Hệ số tương quan: ', corr_coef[0,1])


Hệ số tương quan:  1.0


## Ứng dụng của hệ số spearson trong feature selection

Hệ số Pearson có thể được sử dụng trong Feature Selection (lựa chọn đặc trưng) theo một số cách:

1. Đánh giá mức độ liên quan giữa các đặc trưng:

Hệ số Pearson có thể được sử dụng để đánh giá mức độ liên quan giữa một đặc trưng và biến mục tiêu. Các đặc trưng có hệ số Pearson cao với biến mục tiêu được coi là có liên quan cao và có thể được giữ lại trong mô hình dự đoán.
Ngược lại, các đặc trưng có hệ số Pearson thấp với biến mục tiêu được coi là có liên quan thấp và có thể được loại bỏ.

2. Loại bỏ đa cộng tuyến tính:

Đa cộng tuyến tính xảy ra khi hai hoặc nhiều đặc trưng có mối tương quan cao với nhau. Điều này có thể dẫn đến các vấn đề trong việc ước tính mô hình, chẳng hạn như độ chính xác thấp hoặc sai số lớn.
Hệ số Pearson có thể được sử dụng để xác định các cặp đặc trưng có mối tương quan cao với nhau. Một trong hai đặc trưng này có thể được loại bỏ để giảm thiểu đa cộng tuyến tính.

3. Giảm kích thước của tập dữ liệu:

Việc lựa chọn đặc trưng có thể giúp giảm kích thước của tập dữ liệu, làm cho việc tính toán và huấn luyện mô hình trở nên hiệu quả hơn.
Hệ số Pearson có thể được sử dụng để loại bỏ các đặc trưng có liên quan thấp với biến mục tiêu hoặc có mối tương quan cao với nhau, giúp giảm kích thước tập dữ liệu mà không làm giảm hiệu suất của mô hình.

Tuy nhiên, cần lưu ý rằng:

- Hệ số Pearson chỉ đo lường mối liên hệ tuyến tính giữa hai biến. Một số mối quan hệ phi tuyến tính có thể không được phát hiện bằng hệ số Pearson.
- Hệ số Pearson có thể bị ảnh hưởng bởi phân phối dữ liệu. Nếu phân phối dữ liệu bị lệch, hệ số Pearson có thể không phản ánh chính xác mối liên hệ giữa hai biến.
- Việc lựa chọn đặc trưng cần được thực hiện cẩn thận, đồng thời xem xét các yếu tố khác như độ chính xác của mô hình, khả năng giải thích, v.v.

Nguồn: [phamlocblog.com](https://www.phamlocblog.com/2015/11/phan-tich-tuong-quan-pearson-trong-spss.html)