In [1]:
import numpy as np
from sklearn.neighbors import NearestNeighbors

def calculate_sw_nlda(X, y, k, t):
    """
    X: 데이터 포인트의 배열 (n_samples, n_features)
    y: 각 데이터 포인트의 레이블 배열 (n_samples,)
    k: 역 k-최근접 이웃의 개수
    t: 역 k-최근접 이웃의 최소 개수 조건
    """
    n_features = X.shape[1]
    S_w = np.zeros((n_features, n_features))
    
    # 각 클래스에 대해 반복
    for label in np.unique(y):
        # 현재 클래스에 속하는 데이터 포인트 찾기
        class_indices = np.where(y == label)[0]
        X_class = X[class_indices]
        
        # 역 k-최근접 이웃을 찾기 위해 NearestNeighbors 사용
        nbrs = NearestNeighbors(n_neighbors=k, algorithm='auto').fit(X_class)
        distances, indices = nbrs.kneighbors(X_class)
        
        # 각 데이터 포인트에 대해 반복
        for idx, neighbors in enumerate(indices):
            if len(neighbors) >= t:
                # 역 k-최근접 이웃의 평균 계산
                m_tilde = np.mean(X_class[neighbors], axis=0)
                
                # S_w 계산
                for neighbor_idx in neighbors:
                    x_j = X_class[neighbor_idx]
                    diff = (x_j - m_tilde).reshape(-1, 1)
                    S_w += diff @ diff.T  # 외적으로 크기 조정
                    
    return S_w

# 예시 데이터
X = np.array([[1, 2], [2, 3], [3, 2], [6, 5], [7, 8], [8, 7]])
y = np.array([0, 0, 0, 1, 1, 1])

# 함수 호출
S_w = calculate_sw_nlda(X, y, k=2, t=1)
print(S_w)


[[4.5 1.5]
 [1.5 4.5]]


In [4]:
import numpy as np

def get_combined_X(X_y, RkNN):
    combined = {}
    for i in X_y.keys():
        rknn_lists = [RkNN[x] for x in X_y[i]]
        rknn_lists = [np.array(lst) for lst in rknn_lists]
        combined[i] = np.concatenate(rknn_lists, axis = 0)
        
    return combined

def get_m_tilde(RkNN_X_y):
    m_tilde = {}
    for i in RkNN_X_y.keys():
        m_tilde[i] = np.mean([X[j] for j in RkNN_X_y[i]], axis=0)
    return m_tilde
    
    
if __name__ == "__main__":
    x_1 = np.array([1, 2])
    x_2 = np.array([3, 4])
    x_3 = np.array([10, 12])
    
    RkNN = {
        0: [1],  # x_1의 역 k-최근접 이웃은 x_2입니다.
        1: [0, 2],  # x_2의 역 k-최근접 이웃은 x_1과 x_3입니다.
        2: [0]   # x_3의 역 k-최근접 이웃은 x_1입니다.
    }
    
    # 각 데이터 포인트입니다.
    X = [x_1, x_2, x_3]
    
    X_y = {
        0 : [0, 1], # x1, x2
        1 : [2],
        2 : [0, 1] # x3
    }
    
    RkNN_X_y = get_combined_X(X_y, RkNN)

    print(RkNN_X_y)
        
    m_tilde = get_m_tilde(RkNN_X_y)

    print(m_tilde)
    
    S_w_nLDA = 0
    
    t = 0
    n = 3
    
    for i in RkNN_X_y.keys():
        if len(RkNN_X_y[i]) >= t:
            print()
            for j in RkNN_X_y[i]:
                
                x_j = X[j]
                print(x_j)
                diff = x_j - m_tilde[i]
                diff2 = np.dot(diff.T, diff)
                S_w_nLDA += diff2
    
    print(S_w_nLDA)


{0: array([1, 0, 2]), 1: array([0])}
{0: array([4.66666667, 6.        ]), 1: array([1., 2.])}

[3 4]
[1 2]
[10 12]

[1 2]
100.66666666666667
