<a href="https://colab.research.google.com/github/hsswkwk/turbo-chainsaw/blob/feature-add-anomaly-detection/notebooks/anomaly_detection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 異常検知（Aanomaly detection）
標準的な状態や想定から逸脱しているデータや事象を特定する技術


## 正規分布に従うデータの異常検知
### 例
製品の温度をセンサーで監視している場合の異常検知
<br>
<br>
### 手法

#### 3$\sigma$法
データが正規分布に従うと仮定し、平均値から標準偏差の3倍以上離れた値を異常値とみなす方法
<br>
#### マハラノビス・タグチ法
データの各次元間の相関を考慮した距離尺度を用いて、平均値から離れた値を異常値とみなす方法
<br>
#### ホテリングの$T^2$法
マハラノビス距離を拡張した手法で、データの平均値からのずれを検定統計量として用いて異常値を検出する方法
<br>
#### 密度比推定
正常データと異常データの確率密度比を推定することで異常を検知する手法
<br>

In [5]:
import numpy as np
from scipy.spatial.distance import mahalanobis
from scipy.stats import f
from sklearn.neighbors import KernelDensity


### 3σ法
# threshold: データの平均値から標準偏差の何倍離れたら異常値とみなすか
def three_sigma_method(data, threshold=3):
  mean = np.mean(data)
  std = np.std(data)
  lower_bound = mean - threshold * std
  upper_bound = mean + threshold * std
  if data.ndim == 1:
    anomaly_indices = np.where((data < lower_bound) | (data > upper_bound))[0]
  elif data.ndim >= 2:
    anomaly_indices = np.where(np.any((data < lower_bound) | (data > upper_bound), axis=1))[0]
  return data[anomaly_indices]

### マハラノビス距離
# マハラノビス距離: データの相関を考慮した距離尺度
# threshold_percentile: マハラノビス距離の分布におけるパーセンタイル値を超える
#                       距離を持つデータを異常値とみなす
def mahalanobis_distance_method(data, threshold_percentile=99):
  mean = np.mean(data, axis=0)
  if data.ndim == 1:
    std = np.std(data)

    # 標準偏差が0の場合、ゼロ除算を避けるために微小な値を加算
    if std == 0:
      std = 1e-6

    distances = np.abs((data - mean) / std)

    # 異常値とみなす閾値を設定
    threshold = np.percentile(distances, threshold_percentile)

    # 閾値を超えるデータを異常値として検出
    anomalies = data[distances > threshold]
  elif data.ndim >= 2:
    cov = np.cov(data, rowvar=False)
    inv_cov = np.linalg.inv(cov)

    distances = [mahalanobis(x, mean, inv_cov) for x in data]

    # 異常値とみなす閾値を設定
    threshold = np.percentile(distances, threshold_percentile)

    # 閾値を超えるデータを異常値として検出
    anomaly_indices = np.where(np.array(distances) > threshold)[0]
    anomalies = data[anomaly_indices]
  return anomalies

### ホテリングのT^2法
def hotelling_t2_method(data):
  mean = np.mean(data, axis=0)
  if data.ndim == 1:
    var = np.var(data)
    t2_values = [(x - mean)**2 / var for x in data]
    # f.ppf: F分布のパーセント点関数
    threshold = f.ppf(0.95, 1, len(data) - 1)  # 異常値とみなす閾値を設定
    anomalies = [data[i] for i, t2 in enumerate(t2_values) if t2 > threshold]
  elif data.ndim >= 2:
    mean = np.mean(data, axis=0)
    cov = np.cov(data, rowvar=False)
    inv_cov = np.linalg.inv(cov)
    t2_values = [mahalanobis(x, mean, inv_cov)**2 for x in data]
    threshold = f.ppf(0.95, data.shape[1], data.shape[0] - data.shape[1] - 1)  # 異常値とみなす閾値を設定
    anomaly_indices = np.where(np.array(t2_values) > threshold)[0]
    anomalies = data[anomaly_indices]
  return anomalies

### KLIEPによる密度比推定
# bandwidth: カーネル密度推定で使用されるカーネルの幅を制御するパラメータ
#            大きいほど推定される確率密度関数は滑らかになる
def kliep(normal_data, anomaly_data, bandwidth=0.1):
  if normal_data.ndim == 1:
    normal_data = normal_data.reshape(-1, 1)
  if anomaly_data.ndim == 1:
    anomaly_data = anomaly_data.reshape(-1, 1)
  # カーネル密度推定でデータから確率密度関数を推定する
  kde_normal = KernelDensity(bandwidth=bandwidth).fit(normal_data)
  kde_anomaly = KernelDensity(bandwidth=bandwidth).fit(anomaly_data)
  density_ratio = np.exp(kde_normal.score_samples(anomaly_data) - kde_anomaly.score_samples(anomaly_data))

  # 1e-6 を加算してゼロ除算を防ぐ
  density_ratio = np.maximum(density_ratio, 1e-6)

  # 異常度の算出
  anomaly_score = -np.log(density_ratio)

  # 閾値の設定 (例: 異常度の95%点)
  threshold = np.percentile(anomaly_score, 95)

  # 異常検知
  anomalies = anomaly_data[anomaly_score > threshold]
  return anomalies


print("1次元データの場合")
# 正常データ生成
normal_data = np.random.normal(loc=25, scale=2, size=100)

# 異常データ生成
anomaly_data = np.random.normal(loc=25, scale=2, size=100)
# 異常値の追加
anomaly_indices = [10, 20, 30]  # 異常値のインデックス
anomaly_values = [35, 15, 32]  # 異常値
anomaly_data[anomaly_indices] = anomaly_values

# 異常検知の実行
anomalies_three_sigma_method = three_sigma_method(anomaly_data)
anomalies_mahalanobis_distance_method = mahalanobis_distance_method(anomaly_data)
anomalies_hotelling_t2_method = hotelling_t2_method(anomaly_data)
anomalies_kliep = kliep(normal_data, anomaly_data)

# 結果の出力
print("================== 3σ法 =================")
print("異常値:", anomalies_three_sigma_method)
print("\n")

print("===== マハラノビス距離による異常検知 =====")
print("異常値:", anomalies_mahalanobis_distance_method)
print("\n")

print("===== ホテリングのT^2法による異常検知 ====")
print("異常値:", anomalies_hotelling_t2_method)
print("\n")

print("======== 密度比推定による異常検知 ========")
print("異常値:", anomalies_kliep)
print("\n")



print("2次元データの場合")

# 正常データ生成
normal_data2d = np.random.multivariate_normal(mean=[0, 0], cov=[[1, 0.5], [0.5, 1]], size=100)

# 異常データ生成
anomaly_data2d = np.random.multivariate_normal(mean=[0, 0], cov=[[1, 0.5], [0.5, 1]], size=100)
# 異常値の追加
anomaly_indices = [10, 20, 30]  # 異常値のインデックス
anomaly_values = [[3, 3], [-3, -3], [3, -3]]  # 異常値
anomaly_data2d[anomaly_indices] = anomaly_values

# 異常検知の実行
anomalies_three_sigma_method_2d = three_sigma_method(anomaly_data2d, threshold=2)
anomalies_mahalanobis_distance_method_2d = mahalanobis_distance_method(anomaly_data2d)
anomalies_hotelling_t2_method_2d = hotelling_t2_method(anomaly_data2d)
anomalies_kliep_2d = kliep(normal_data2d, anomaly_data2d, bandwidth=0.5)

# 結果の出力
print("================== 3σ法 =================")
print("異常値:", anomalies_three_sigma_method_2d)
print("\n")

print("===== マハラノビス距離による異常検知 =====")
print("異常値:", anomalies_mahalanobis_distance_method_2d)
print("\n")

print("===== ホテリングのT^2法による異常検知 ====")
print("異常値:", anomalies_hotelling_t2_method_2d)
print("\n")

print("======== 密度比推定による異常検知 ========")
print("異常値:", anomalies_kliep_2d)
print("\n")




1次元データの場合
異常値: [35. 15.]


===== マハラノビス距離による異常検知 =====
異常値: [15.]


===== ホテリングのT^2法による異常検知 ====
異常値: [np.float64(35.0), np.float64(15.0), np.float64(32.0)]


異常値: [[35.        ]
 [15.        ]
 [32.        ]
 [20.99479616]
 [20.89919911]]


2次元データの場合
異常値: [[ 2.13848135  2.45500825]
 [ 3.          3.        ]
 [-3.         -3.        ]
 [ 3.         -3.        ]
 [ 2.71516196  1.84843097]
 [ 0.98278229  3.05596083]
 [ 2.37145929  1.40984141]]


===== マハラノビス距離による異常検知 =====
異常値: [[ 3. -3.]]


===== ホテリングのT^2法による異常検知 ====
異常値: [[ 2.13848135  2.45500825]
 [ 3.          3.        ]
 [-3.         -3.        ]
 [-2.21439899 -0.31184462]
 [ 0.06048322 -1.88858858]
 [ 3.         -3.        ]
 [ 2.71516196  1.84843097]
 [-2.04126395  0.25096997]
 [-2.16449548 -1.45698025]
 [ 0.12847085  2.13699689]
 [ 1.30552164 -1.098316  ]
 [ 0.06310474 -1.86091794]
 [ 0.98278229  3.05596083]
 [ 2.37145929  1.40984141]]


異常値: [[ 3.          3.        ]
 [-3.         -3.        ]
 [ 0.06048322 -1.88858858]
 [ 

## 非正規データの異常検知
### 例
ウェブサイトへのアクセス数の異常検知


## 不要次元のある次元データの異常検知
### 例
顧客の購買データを用いた異常検知


## 入出力関係のあるデータの異常検知
### 例
製造工程における品質管理


## 時系列データの異常検知
### 例
サーバーのCPU使用率の異常検知


## 変数間に関係があるデータの異常検知
### 例
クレジットカードの不正利用検知
