시계열 데이터에서의 이상 탐지는 매우 중요한 과제 중 하나로, 정상적인 패턴에서 벗어난 데이터 포인트를 식별하는 과정입니다. 이상 현상은 크게 세 가지 유형으로 나눌 수 있는데, 여기서는 'Point Anomaly'에 초점을 맞추겠습니다. 'Point Anomaly'는 데이터의 단일 포인트가 다른 정상적인 데이터 포인트와 크게 다를 때 발생합니다.

아래는 시계열 데이터에 Point Anomaly를 도입하는 함수를 정의하는 방법입니다. 이 함수는 다음 단계를 포함합니다:

1. **기본 시계열 데이터 생성**: 정상 범위 내에서 무작위 데이터를 생성합니다. 예를 들어, 사인 함수(sine wave)를 사용할 수 있습니다.
2. **이상 데이터 포인트 도입**: 정의된 정상 데이터 패턴에 이상 값을 도입하여 이상 상황을 시뮬레이션합니다. 이상 값은 일반적으로 데이터의 정상 범위를 벗어나는 값을 가집니다.

### 기본 함수 정의

이 함수는 다음 파라미터를 받습니다:

- `num_points`: 생성할 데이터 포인트의 총 수
- `anomaly_rate`: 전체 데이터 포인트 중 이상 데이터 포인트의 비율
- `normal_range`: 정상 데이터 포인트의 범위 (예: `(0, 1)`)
- `anomaly_range`: 이상 데이터 포인트의 범위 (예: `(5, 10)`)

함수는 정상 데이터 포인트와 이상 데이터 포인트가 혼합된 시계열 데이터를 생성합니다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def generate_time_series_with_anomalies(num_points=1000, anomaly_rate=0.01, normal_range=(0, 1), anomaly_range=(5, 10)):
    # 기본 시계열 데이터 생성
    time_series = np.sin(np.linspace(0, 20, num_points)) + np.random.uniform(low=normal_range[0], high=normal_range[1], size=num_points)

    # 이상 데이터 포인트 수 계산
    num_anomalies = int(num_points * anomaly_rate)

    # 이상 데이터 포인트의 인덱스 선택
    anomaly_indices = np.random.choice(num_points, num_anomalies, replace=False)

    # 선택된 인덱스에 이상 데이터 포인트 도입
    for idx in anomaly_indices:
        time_series[idx] += np.random.uniform(low=anomaly_range[0], high=anomaly_range[1])

    return time_series, anomaly_indices

# 함수 사용 예
num_points = 1000
anomaly_rate = 0.01
normal_range = (0, 1)
anomaly_range = (5, 10)

time_series, anomaly_indices = generate_time_series_with_anomalies(num_points, anomaly_rate, normal_range, anomaly_range)

# 결과 시각화
plt.figure(figsize=(15, 5))
plt.plot(time_series, label='Time Series')
plt.scatter(anomaly_indices, time_series[anomaly_indices], color='red', label='Anomalies')
plt.legend()
plt.show()


### 추가 기능
연속적으로 나타나는 Point Anomaly를 생성하는 것은, 특정 구간에 이상치를 집중시키는 방법으로 접근할 수 있습니다. 이 경우, 이상치가 단일 포인트로 제한되지 않고 연속적인 시퀀스로 나타나도록 데이터를 조작합니다. 이 방식은 특정 시간 동안 데이터가 예상 범위를 벗어나는 상황을 모의할 수 있습니다.

아래의 함수는 이러한 유형의 데이터를 생성하기 위해 수정될 수 있습니다. 주요 변경 사항은 연속적인 이상치를 생성하기 위한 로직을 추가하는 것입니다. 이를 위해, 연속적인 이상치가 시작되는 인덱스를 무작위로 선택하고, 그로부터 정해진 길이만큼 이상치를 생성하는 방식을 사용할 것입니다.

In [None]:
def generate_series_with_continuous_anomalies(num_points=1000, anomaly_length=50, normal_range=(0, 1), anomaly_range=(5, 10)):
    # 기본 시계열 데이터 생성
    time_series = np.sin(np.linspace(0, 20, num_points)) + np.random.uniform(low=normal_range[0], high=normal_range[1], size=num_points)

    # 연속적인 이상 데이터 포인트가 시작되는 인덱스 선택
    start_index = np.random.randint(0, num_points - anomaly_length)

    # 연속적인 이상 데이터 포인트 생성
    for i in range(start_index, start_index + anomaly_length):
        time_series[i] += np.random.uniform(low=anomaly_range[0], high=anomaly_range[1])

    # 연속적인 이상 데이터 포인트의 인덱스 반환
    anomaly_indices = list(range(start_index, start_index + anomaly_length))

    return time_series, anomaly_indices

# 함수 사용 예
num_points = 1000
anomaly_length = 50  # 연속적인 이상치의 길이
normal_range = (0, 1)
anomaly_range = (5, 10)

time_series, anomaly_indices = generate_series_with_continuous_anomalies(num_points, anomaly_length, normal_range, anomaly_range)

# 결과 시각화
plt.figure(figsize=(15, 5))
plt.plot(time_series, label='Time Series')
plt.scatter(anomaly_indices, time_series[anomaly_indices], color='red', label='Continuous Anomalies')
plt.legend()
plt.show()