In [7]:
import csv

def read_csv(file_path):
    """
    Đọc dữ liệu từ tệp CSV và chuyển thành các danh sách số liệu.
    Giả sử tệp có hai cột dữ liệu, không tính dòng tiêu đề.
    """
    x = []
    y = []
    with open(file_path, mode='r', encoding='utf-8') as file:
        reader = csv.reader(file)
        next(reader)  # Bỏ qua dòng tiêu đề, nếu có
        for row in reader:
            if len(row) >= 2:  # Đảm bảo có ít nhất 2 cột
                x.append(float(row[0].strip()))
                y.append(float(row[1].strip()))
    return x, y

In [8]:
def mean(values):
    """Tính giá trị trung bình."""
    return sum(values) / len(values)

def pearson_correlation(x, y):
    """
    Tính hệ số tương quan Pearson giữa hai danh sách số liệu x và y.
    Điều kiện: x và y phải có cùng độ dài.
    """
    if len(x) != len(y):
        raise ValueError("Hai danh sách x và y phải có cùng độ dài.")
    
    n = len(x)
    mean_x = mean(x)
    mean_y = mean(y)
    
    # Tính các thành phần của công thức
    numerator = sum((x[i] - mean_x) * (y[i] - mean_y) for i in range(n))
    denominator_x = sum((x[i] - mean_x) ** 2 for i in range(n))
    denominator_y = sum((y[i] - mean_y) ** 2 for i in range(n))
    denominator = (denominator_x * denominator_y) ** 0.5
    
    if denominator == 0:
        return 0  # Trường hợp đặc biệt: nếu biến x hoặc y không thay đổi.
    
    return numerator / denominator

def interpret_correlation(r):
    """
    Đưa ra kết luận dựa trên hệ số tương quan Pearson.
    """
    if r == 1:
        return "Hai biến có mối quan hệ tuyến tính hoàn hảo và cùng chiều."
    elif r == -1:
        return "Hai biến có mối quan hệ tuyến tính hoàn hảo nhưng ngược chiều."
    elif 0.7 <= r < 1:
        return "Hai biến có mối quan hệ tuyến tính chặt chẽ và cùng chiều."
    elif -1 < r <= -0.7:
        return "Hai biến có mối quan hệ tuyến tính chặt chẽ nhưng ngược chiều."
    elif 0.3 <= r < 0.7:
        return "Hai biến có mối quan hệ tuyến tính trung bình và cùng chiều."
    elif -0.7 < r <= -0.3:
        return "Hai biến có mối quan hệ tuyến tính trung bình nhưng ngược chiều."
    elif -0.3 < r < 0.3:
        return "Hai biến có rất ít hoặc không có mối quan hệ tuyến tính."
    else:
        return "Mối quan hệ giữa hai biến không rõ ràng."

In [9]:
# Đường dẫn đến tệp CSV
file_path = 'D:\hk5\khai thác dữ liệu\DOAN\Datamining\dt.csv'

  file_path = 'D:\hk5\khai thác dữ liệu\DOAN\Datamining\dt.csv'


In [10]:
# Đọc dữ liệu từ CSV
x, y = read_csv(file_path)

In [11]:
# Tính hệ số tương quan
r = pearson_correlation(x, y)
print(f"Hệ số tương quan Pearson: {r:.2f}")

Hệ số tương quan Pearson: -0.92


In [12]:
# In hệ số tương quan và kết luận
print(f"Hệ số tương quan Pearson: {r:.2f}")
print("Kết luận:", interpret_correlation(r))

Hệ số tương quan Pearson: -0.92
Kết luận: Hai biến có mối quan hệ tuyến tính chặt chẽ nhưng ngược chiều.
