$$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$

Trong đó:
- $x_i$ và $y_i$ là các giá trị của biến $x$ và $y$
- $\bar{x}$ và $\bar{y}$ là giá trị trung bình của $x$ và $y$
- $n$ là số lượng cặp giá trị $(x_i, y_i)$

In [1]:
import numpy as np

def pearson_correlation(x, y):
    # Tính giá trị trung bình
    mean_x = np.mean(x)
    mean_y = np.mean(y)
    
    # Tính tử số (numerator)
    numerator = np.sum((x - mean_x) * (y - mean_y))
    
    # Tính mẫu số (denominator)
    sum_x_squared = np.sum((x - mean_x) ** 2)
    sum_y_squared = np.sum((y - mean_y) ** 2)
    denominator = np.sqrt(sum_x_squared * sum_y_squared)
    
    # Tính hệ số tương quan
    r = numerator / denominator
    
    return r

### Bài 1

In [2]:
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

result = pearson_correlation(x, y)
result

1.0

### Bài 2

In [3]:
x = np.array([1, 2, 3, 4, 5])
y = np.array([10, 8, 6, 4, 2])

result = pearson_correlation(x, y)
result

-1.0

### Bài 3

In [4]:
x = np.linspace(0, 10, 100) 
y = np.sin(x) 

result = pearson_correlation(x, y)
result

-0.07589466694797184

### Bài 4

In [7]:
feature = np.array([1.1, 1.9, 3.2, 4.5, 5.1])
label = np.array([1.0, 2.0, 3.0, 4.1, 5.3])

result = pearson_correlation(feature, label)
result

0.9900317180760643

### Bài 5

In [8]:
height = np.array([150, 160, 170, 180, 190])
weight = np.array([50, 60, 70, 80, 90])
    
result = pearson_correlation(height, weight)
result

1.0

### Bài 6

In [9]:
embedA = np.array([0.3, 0.5, 0.7, 0.8])
embedB = np.array([0.4, 0.6, 0.8, 0.9])

result = pearson_correlation(embedA, embedB)
result

1.0

### Bài 7

In [5]:
np.random.seed(42)  
x= np.random.random(100)  
y = np.random.random(100)

result = pearson_correlation(x, y)
result

-0.034032500978822516

### Bài 8

In [12]:
x = np.arange(100)

np.random.seed(42)
noise = np.random.normal(0, 10, 100)  # Gaussian noise với mean=0, std=10

# Tạo 2 biến y
y_clean = x  # y = x (không có nhiễu)
y_noisy = x + noise  # y = x + nhiễu

# Tính hệ số tương quan
corr_clean = pearson_correlation(x, y_clean)
corr_clean

1.0

In [13]:
corr_noisy = pearson_correlation(x, y_noisy)
corr_noisy

0.9555806401406204

### Bài 9

In [14]:
temperature = np.array([22, 24, 23, 25, 26])
sales = np.array([100, 110, 105, 115, 120])

result = pearson_correlation(temperature, sales)
result  

1.0

### Bài 10

In [15]:
doc1 = "deep learning for natural language processing"
doc2 = "transformer models improve language understanding"
doc3 = "convolutional neural networks for image classification"
query = "language models for text understanding"

# Danh sách tất cả văn bản kể cả query
all_docs = [doc1, doc2, doc3, query]
doc_names = ["doc1", "doc2", "doc3", "query"]

In [21]:
import math
from collections import Counter

# Tiền xử lý văn bản
def preprocess_text(text):
    # Chuyển về chữ thường
    text = text.lower()
    # Tách từ
    words = text.split()
    return words

# Hàm tính TF (Term Frequency)
def calculate_tf(document):
    words = preprocess_text(document)
    word_counts = Counter(words)
    total_words = len(words)
    tf_dict = {word: count/total_words for word, count in word_counts.items()}
    return tf_dict

# Hàm tính IDF (Inverse Document Frequency)
def calculate_idf(documents):
    idf_dict = {}
    N = len(documents)
    word_in_docs = {}
    
    # Đếm số lượng văn bản chứa mỗi từ
    for doc in documents:
        words = set(preprocess_text(doc))  
        for word in words:
            word_in_docs[word] = word_in_docs.get(word, 0) + 1
    
    # Tính IDF cho mỗi từ
    for word, doc_freq in word_in_docs.items():
        idf_dict[word] = math.log(N / (1 + doc_freq))
    
    return idf_dict

# Tính TF-IDF cho mỗi văn bản
def calculate_tfidf(documents):
    idf = calculate_idf(documents)
    tfidf_vectors = []
    
    # Tạo danh sách tất cả các từ duy nhất
    all_words = set()
    for doc in documents:
        all_words.update(preprocess_text(doc))
    all_words = sorted(list(all_words))
    
    # Tính TF-IDF cho mỗi văn bản
    for doc in documents:
        tf = calculate_tf(doc)
        tfidf = [tf.get(word, 0) * idf.get(word, 0) for word in all_words]
        tfidf_vectors.append(tfidf)
    
    return tfidf_vectors, all_words

In [22]:
tfidf_vectors, vocabulary = calculate_tfidf(all_docs)
query_vector = tfidf_vectors[3] 
correlations = []

In [24]:
for i in range(3):  # chỉ xét 3 văn bản đầu tiên (không tính query)
    correlation = pearson_correlation(tfidf_vectors[i], query_vector)
    correlations.append((doc_names[i], correlation))

correlations.sort(key=lambda x: x[1], reverse=True)

correlations

[('doc2', 0.014382960777356483),
 ('doc2', 0.014382960777356483),
 ('doc1', -0.247921511957806),
 ('doc1', -0.247921511957806),
 ('doc3', -0.28950995294112053),
 ('doc3', -0.28950995294112053)]