<a href="https://colab.research.google.com/github/FullPowerMore02/data-mining/blob/main/Numpy_Practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

ให้ทุกคนฝึกฝนด้วยตนเองก่อนคลาสในวันศุกร์
* อ่านไฟล์ใน Google Drive ของตนเองบน Google Colab
* อ่านไฟล์ในเครื่องตนเองด้วย Jupyter Notebook ในเครื่องของตน
* อ่านไฟล์ใน Google Drive ของตนเองผ่าน Jupyter Notebook ในเครื่องของตน ซึ่งสามารถสร้าง sharable link แล้วนำมาเป็น path ของไฟล์ที่ต้องการอ่านได้ (หรือปกติก็สามารถดาวน์โหลดไฟล์ลงเครื่องตนเองแล้วอ่านตามปกติ)

In [1]:
import numpy as np

In [2]:
x = np.arange(5)
x

array([0, 1, 2, 3, 4])

In [3]:
# numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0)[source]
y = np.linspace(start = 2, stop = 10, num = 5)
y

array([ 2.,  4.,  6.,  8., 10.])

Chebyshev distance เป็นการวัดความต่างระหว่างข้อมูลแบบ $L_\infty$ norm ซึ่งเป็นกรณีพิเศษของ Minkowski distance: $\left(\sum_{i=1}^{k} \lvert x_i - y_i \rvert^r\right)^{1/r}$ ที่ $r=\infty$ โดยสามารถคำนวณค่าได้ดังนี้
$$d(x,y) = \max_{i} \left( \lvert x_{i} - y_{i} \rvert \right)$$

สร้างฟังก์ชันสำหรับคำนวณ Chebyshev distance ระหว่างเวคเตอร์ 2 เวคเตอร์ ที่แต่ละเวคเตอร์มีขนาด k มิติ (numpy array of length k)

In [4]:
def chebyshev_distance(x, y):
    assert len(x) == len(y), "Vectors must have the same length"

    distance = 0
    for i in range(len(x)):
        diff = abs(x[i] - y[i])
        if diff > distance:
            distance = diff

    return distance

# ตัวอย่างการใช้งาน
x = [1, 2, 3]
y = [4, 5, 6]
distance = chebyshev_distance(x, y)
print(distance)  # 3


3


Canberra distance เป็นการวัดความต่างระหว่างข้อมูลแบบ Manhattan distance ที่ถ่วงน้ำหนัก (weighted Manhattan distance) โดยคำนวณดังนี้
$$d(x,y) = \sum_{i=1}^{k} \frac{\lvert x_{i} - y_{i} \rvert}{\lvert x_{i} \rvert + \lvert y_{i} \rvert}$$

สร้างฟังก์ชันสำหรับคำนวณ Canberra distance ระหว่างเวคเตอร์ 2 เวคเตอร์ ที่แต่ละเวคเตอร์มีขนาด k มิติ

In [5]:
def canberra_distance(x, y):
    assert len(x) == len(y), "Vectors must have the same length"
    assert len(x) > 0, "Vectors must not be empty"

    distance = 0
    for i in range(len(x)):
        numerator = abs(x[i] - y[i])
        denominator = abs(x[i]) + abs(y[i])
        distance += numerator / denominator

    return distance

# ตัวอย่างการใช้งาน
x = [1, 2, 3]
y = [4, 5, 6]
distance = canberra_distance(x, y)
print(distance)  # 1.1666666666666667


1.3619047619047617


สร้างฟังก์ชันสำหรับคำนวณค่าเฉลี่ยของค่าในเวคเตอร์หนึ่ง โดยไม่ใช้ฟังก์ชันสำเร็จรูป `mean()` ใช้เพียง numpy array และการบวกลบคูณหาร

In [10]:
def calculate_mean(vector):
    assert len(vector) > 0, "Vector must not be empty"

    total = np.sum(vector)
    mean = total / len(vector)

    return mean

x = np.array([1, 2, 3, 4, 5])
result = calculate_mean(x)
print(result)  # 3.0


3.0


สร้างฟังก์ชันสำหรับคำนวณค่าเบี่ยงเบนมาตรฐานของค่าในเวคเตอร์หนึ่ง โดยไม่ใช้ฟังก์ชัน `std()` หรือ `stddev()` ใช้เพียง numpy array และการบวกลบคูณหาร

In [12]:
def calculate_standard_deviation(vector):
    assert len(vector) > 0, "Vector must not be empty"

    mean = np.mean(vector)
    deviation = vector - mean
    squared_deviation = deviation ** 2
    variance = np.sum(squared_deviation) / len(vector)
    standard_deviation = np.sqrt(variance)

    return standard_deviation

x = np.array([1, 2, 3, 4, 5])
result = calculate_standard_deviation(x)
print(result)  # 1.4142135623730951


1.4142135623730951
