In [7]:
"""
Created on Thur Jul  7 16:20:39 2022

@author: Junhyun
"""

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
import joblib

def bootstrap_limit(stat, alpha=0.05, bootstrap=100):
    '''
        @Description
            Bootstrap sampling을 활용한 Control Limit 산출 기법

        @Parameter
            stat : 통계량 (정상상태의 데이터 입력)
            alpha : Control Limit을 정하기 위한 유의수준 (0~1)
            bootstrap : 샘플링 횟수
        @Return
            limit : 임계값 (CL : Control Limit)
    '''
    alpha = alpha*100
    alpha = 100 - alpha
    samsize = max(100, len(stat))
    
    stat = stat.reshape(len(stat)) # 2차원 array를 1차원 array로 변환
    
    # bootstrap 수 만큼 다음 작업을 반복 : samsize(최소 10000번)만큼 정상상태 데이터를 유의수준 만큼 복원 추출 후 평균 값 사용 
    limit = np.mean(list(map(lambda x:np.percentile(np.random.choice(stat,samsize,replace=True),alpha), range(0,bootstrap))))
    
    return limit

class CBM():
    """
    CBM : Clustering Base Mahalanobis distance
    """
    
    def __init__(self):
        
        self.tr_k_mu = None
        self.tr_k_cov = None
        self.cl = None
        self.n_clusters = None
        
    def fit(self, trdat, n_clusters=3, max_iter=100, alpha=0.05):
        """

        Parameters
        ----------
        trdat : array
            Train data
        n_clusters : int
            cluster의 수
        max_iter : int
            kmeans clustering 학습 횟수        
        alpha : int, 0~1
            Bootstrap Limit value. The default is 0.05.

        Returns
        -------
        trScore : array
            Train Score, 이상치 점수를 의미함. 클수록 정상패턴에서 벗어남을 의미
        CL : float
            trScore Control Limit

        """
        if isinstance(trdat,(np.ndarray)):
            trdat = pd.DataFrame(trdat)
            
        self.tr_k_mu = np.zeros((trdat.shape[1], n_clusters))
        self.tr_k_cov = np.zeros((n_clusters, trdat.shape[1], trdat.shape[1]))
        self.n_clusters = n_clusters

        km = KMeans(n_clusters=n_clusters,max_iter=max_iter,random_state=0).fit(trdat)
        km_score = km.predict(trdat)
        cluster_df = pd.concat([trdat,pd.DataFrame(km_score, columns=['cluster'])], axis=1)
        
        for i in range(n_clusters):
            self.tr_k_mu[:,i] = trdat[cluster_df['cluster'] == i].mean()
            self.tr_k_cov[i] = trdat[cluster_df['cluster'] == i].cov()

        trCbmMat = np.zeros((len(trdat), n_clusters))
        
        # train fit
        for i in range(len(trdat)):
            for j in range(n_clusters):
                # cluster 별 마할라노비스 계산
                trCbmMat[i,j] = (trdat.values[i,:] - self.tr_k_mu[:,j]) @ np.linalg.pinv(self.tr_k_cov[j]) @ (trdat.values[i,:] - self.tr_k_mu[:,j]).transpose()
        
        # CBM 이상감지 통계량
        self.trScore = trCbmMat.min(axis=1)
        self.cl = bootstrap_limit(self.trScore, alpha=alpha, bootstrap=100)
        
        return {"trScore" : self.trScore, "CL" : self.cl}
    
    def predict(self, tsdat):
        """

        Parameters
        ----------
        tsdat : array
            Test data. 예측 대상이 되는 데이터

        Returns
        -------
        tsScore : array
            Test data의 이상치 값

        """
        if isinstance(tsdat,(np.ndarray)):
            tsdat = pd.DataFrame(tsdat)

        tsCbmMat = np.zeros((len(tsdat), self.n_clusters))     
        
        # test fit
        for i in range(len(tsdat)):
            for j in range(self.n_clusters):
                # cluster 별 마할라노비스 계산
                tsCbmMat[i,j] = (tsdat.values[i,:] - self.tr_k_mu[:,j]) @ np.linalg.pinv(self.tr_k_cov[j]) @ (tsdat.values[i,:] - self.tr_k_mu[:,j]).transpose()
    
        # CBM 이상감지 통계량
        tsScore = tsCbmMat.min(axis=1)
    
        return {"tsScore" : tsScore}   

In [8]:
def cbm(trdat, tsdat, n_clusters=3, alpha=0.05):
    """

    Parameters
    ----------
    trdat : array
        Train data. 학습 대상이 되는 데이터
    tsdat : array
        Test data. 예측 대상이 되는 데이터
    n_clusters : int
        클러스터의 개수
    alpha : float, 0~1
            Bootstrap Limit value. The default is 0.05.

    Returns
    -------
    trScore : array
        Train data의 이상치 값
    tsScore : array
        Test data의 이상치 값
    CL : float 
        Control Limit

    """
    model = CBM()
    fit = model.fit(trdat, n_clusters=n_clusters, max_iter=100, alpha=alpha)
    pred = model.predict(tsdat)
    
     # CBM model pickle 파일로 저장
    saved_model = joblib.dump(model, 'cbm.pkl')
    
    return {'trScore':fit['trScore'], 'tsScore':pred['tsScore'], 'CL': fit['CL']}    

In [9]:
df = pd.read_csv('E:\\연구실\\연구과제\\엑센솔루션\\test_data.csv', encoding='euc-kr')

trdat = df.values[0:600,:]
tsdat = df.values[600:1000, :]

cbm = cbm(trdat, tsdat, n_clusters=3, alpha=0.05)



In [None]:
# load pickle file
loadCBM = joblib.load('cbm.pkl') 
loadCBM.predict(tsdat)