In [1]:
import numpy as np

# 1. for regression

In [2]:
univariate_sequence = [10, 20, 30, 40, 50, 60, 70, 80, 90]

In [3]:
def split_sequences(data, n_steps):
    """
    비연속 데이터셋을 일정한 길이의 연속적인 시퀀스로 변환하는 함수.
    
    Args:
    data: 원본 데이터 (리스트 또는 배열)
    n_steps: 시퀀스의 길이 (정수)
    
    Returns:
    X: 입력 시퀀스
    y: 해당 시퀀스에 대한 다음 값 (타겟 값)
    """
    X, y = [], []
    
    for i in range(len(data)):
        # 데이터의 끝에서 시퀀스 길이 만큼 남은 경우 종료
        end_idx = i + n_steps
        if end_idx > len(data) - 1: break
        
        # 입력 시퀀스와 출력 값(목표값)을 분리
        seq_x, seq_y = data[i:end_idx], data[end_idx]
        X.append(seq_x)
        y.append(seq_y)
    
    return np.array(X), np.array(y)

In [4]:
X, y = split_sequences(univariate_sequence, 3)

print(f"Before : {univariate_sequence} \n")
print(f"After: \nX, y")
for i in range(len(X)):
    print(X[i], y[i])

Before : [10, 20, 30, 40, 50, 60, 70, 80, 90] 

After: 
X, y
[10 20 30] 40
[20 30 40] 50
[30 40 50] 60
[40 50 60] 70
[50 60 70] 80
[60 70 80] 90


# 2. for classification

## 2.0. sequence의 마지막 label을 전체 sequence의 label로 결정

In [5]:
def split_sequences_classification_last(data, labels, n_steps):
    """
    비연속 데이터셋을 일정한 길이의 연속적인 시퀀스로 변환하는 함수
    window에서 마지막 레이블을 사용
    
    Args:
    data: 원본 데이터 (리스트 또는 배열)
    labels: 각 데이터에 해당하는 클래스 라벨 (리스트 또는 배열)
    n_steps: 시퀀스의 길이 (정수)
    
    Returns:
    X: 입력 시퀀스
    y: 해당 시퀀스에 대한 레이블 (마지막 레이블)
    """
    X, y = [], []
    
    for i in range(len(data) - n_steps + 1):
        # 시퀀스 추출
        seq_x = data[i:i + n_steps]
        seq_labels = labels[i:i + n_steps]
        
        # 시퀀스의 마지막 레이블을 사용
        seq_y = seq_labels[-1]
        
        X.append(seq_x)
        y.append(seq_y)
    
    return np.array(X), np.array(y)

In [6]:
# 예시 데이터와 라벨 (classification)
data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
labels = [0, 0, 1, 1, 0, 0, 1, 1, 0]  # 각 데이터에 해당하는 클래스 라벨

# 시퀀스 길이를 3으로 설정
n_steps = 3

# 시퀀스 분할 (분류용)
X, y = split_sequences_classification_last(data, labels, n_steps)

# 결과 확인
print("입력 시퀀스 (X):")
print(X)

print("출력 라벨 (y):")
print(y)

입력 시퀀스 (X):
[[10 20 30]
 [20 30 40]
 [30 40 50]
 [40 50 60]
 [50 60 70]
 [60 70 80]
 [70 80 90]]
출력 라벨 (y):
[1 1 0 0 1 1 0]


## 2.1. sequence의 다음에 오는 sample의 label을 sequence의 label로 결정

In [7]:
def split_sequences_classification_next(data, labels, n_steps):
    """
    비연속 데이터셋을 일정한 길이의 연속적인 시퀀스로 변환하는 함수 (Classification)
    data[i:i + n_steps] sequence의 label로 data[i + n_steps]를 사용
    
    Args:
    data: 원본 데이터 (리스트 또는 배열)
    labels: 각 데이터에 해당하는 클래스 라벨 (리스트 또는 배열)
    n_steps: 시퀀스의 길이 (정수)
    
    Returns:
    X, y: X는 입력 시퀀스, y는 해당 시퀀스에 대한 라벨 (분류 클래스)
    """
    X, y = [], []
    
    for i in range(len(data) - n_steps):
        # 시퀀스 추출
        seq_x = data[i:i + n_steps]
        # 해당 시퀀스의 마지막 값에 해당하는 라벨을 타겟으로 사용
        seq_y = labels[i + n_steps]
        
        X.append(seq_x)
        y.append(seq_y)
    
    return np.array(X), np.array(y)

In [8]:
# 예시 데이터와 라벨 (classification)
data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
labels = [0, 0, 1, 1, 0, 0, 1, 1, 0]  # 각 데이터에 해당하는 클래스 라벨

# 시퀀스 길이를 3으로 설정
n_steps = 3

# 시퀀스 분할 (분류용)
X, y = split_sequences_classification_next(data, labels, n_steps)

# 결과 확인
print("입력 시퀀스 (X):")
print(X)

print("출력 라벨 (y):")
print(y)

입력 시퀀스 (X):
[[10 20 30]
 [20 30 40]
 [30 40 50]
 [40 50 60]
 [50 60 70]
 [60 70 80]]
출력 라벨 (y):
[1 0 0 1 1 0]


## 2.2. sequence를 구성하는 sample들의 label 중 다수를 차지하는 label을 전체 sequence의 label로 결정

> `collections.Counter([iterable-or-mapping])`: [link](https://docs.python.org/3/library/collections.html#collections.Counter)  
> A Counter is a dict subclass for counting hashable objects. It is a collection where elements are stored as dictionary keys and their counts are stored as dictionary values. Counts are allowed to be any integer value including zero or negative counts. The Counter class is similar to bags or multisets in other languages.

* string, list, tuple 등 iterator 객체를 parameter로 받아서 각 요소들이 몇 번씩 등장했는지 세어서, 각 요소를 key로 하고 그 빈도수를 value으로 하는 dictonary 형태로 반환한다.
* 정렬 우선순위:
  1) 빈도 수
  2) `Counter()`에 parameter로 들어 갔을 때의 기존 순서

```python
>>> Counter([1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3])
Counter({2: 7, 1: 4, 3: 2})

>>> Counter(["hi", "hello"])
Counter({'hi': 1, 'hello': 1})

>>> Counter("Hi, Hello")
Counter({'H': 2, 'l': 2, 'i': 1, ',': 1, ' ': 1, 'e': 1, 'o': 1})
# ㄴ H와 l 둘 다 2번 등장하는데, 기존 입력값인 "Hi, Hello"에서 H가 먼저 등장했기 때문에,
# ㄴ H가 l보다 앞에 정렬된다.
```

> `collections.Counter.most_common([n])`: [link](https://docs.python.org/3/library/collections.html#collections.Counter.most_common)  
Return a list of the n most common elements and their counts from the most common to the least. If n is omitted or None, most_common() returns all elements in the counter. Elements with equal counts are ordered in the order first encountered:

* `most_common()`  
  list 전체 element에 대한 빈도를 정렬하여 list로 리턴한다.
* `most_common(n)`  
  list 전체 element 중 빈도 수 상위 n개에 대한 빈도를 정렬하여 list로 리턴한다.

```python
>>> Counter('abracadabra').most_common(3) 
[('a', 5), ('b', 2), ('r', 2)]

>>> Counter('abracadabra').most_common(1)
[('a', 5)]

>>> Counter('abracadabra').most_common(1)[0]
('a', 5)

>>> Counter('abracadabra').most_common(1)[0][0]
'a'
```

In [9]:
from collections import Counter

def split_sequences_classification_majority(data, labels, n_steps):
    """
    비연속 데이터셋을 일정한 길이의 연속적인 시퀀스로 변환하는 함수
    window에서 다수를 차지하는 label로 결정
    
    Args:
    data: 원본 데이터 (리스트 또는 배열)
    labels: 각 데이터에 해당하는 클래스 라벨 (리스트 또는 배열)
    n_steps: 시퀀스의 길이 (정수)
    
    Returns:
    X: 입력 시퀀스
    y: 해당 시퀀스에 대한 다수 라벨
    """
    X, y = [], []
    
    for i in range(len(data) - n_steps + 1):
        # 시퀀스 추출
        seq_x = data[i:i + n_steps]
        seq_labels = labels[i:i + n_steps]
        
        # 시퀀스의 라벨 중 가장 빈번한 라벨을 선택 (다수결)
        most_common_label = Counter(seq_labels).most_common(1)[0][0]
        
        X.append(seq_x)
        y.append(most_common_label)
    
    return np.array(X), np.array(y)

In [10]:
# 예시 데이터와 라벨 (classification)
data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
labels = [0, 0, 1, 1, 0, 0, 1, 1, 0]  # 각 데이터에 해당하는 클래스 라벨

# 시퀀스 길이를 3으로 설정
n_steps = 3

# 시퀀스 분할 (다수결 방식)
X, y = split_sequences_classification_majority(data, labels, n_steps)

# 결과 확인
print("입력 시퀀스 (X):")
print(X)

print("출력 라벨 (y):")
print(y)

입력 시퀀스 (X):
[[10 20 30]
 [20 30 40]
 [30 40 50]
 [40 50 60]
 [50 60 70]
 [60 70 80]
 [70 80 90]]
출력 라벨 (y):
[0 1 1 0 0 1 1]


## 2.3. sequence를 구성하는 sample들의 label 중 1이 한 번이라도 등장하면 전체 sequence의 label을 1로 결정

In [11]:
def split_sequences_classification_once(data, labels, n_steps):
    """
    비연속 데이터셋을 일정한 길이의 연속적인 시퀀스로 변환하는 함수
    window에서 1이 한 번이라도 등장하면 레이블을 1로 설정
    
    Args:
    data: 원본 데이터 (리스트 또는 배열)
    labels: 각 데이터에 해당하는 클래스 라벨 (리스트 또는 배열)
    n_steps: 시퀀스의 길이 (정수)
    
    Returns:
    X: 입력 시퀀스
    y: 해당 시퀀스에 대한 레이블 (1이 한 번이라도 등장하면 1, 그렇지 않으면 0)
    """
    X, y = [], []
    
    for i in range(len(data) - n_steps + 1):
        # 시퀀스 추출
        seq_x = data[i:i + n_steps]
        seq_labels = labels[i:i + n_steps]
        
        # 시퀀스의 레이블 중 1이 한 번이라도 등장하면 레이블을 1로 설정
        seq_y = 1 if 1 in seq_labels else 0
        
        X.append(seq_x)
        y.append(seq_y)
    
    return np.array(X), np.array(y)

In [12]:
# 예시 데이터와 라벨 (classification)
data = [10, 20, 30, 40, 50, 60, 70, 80, 90]
labels = [0, 0, 1, 1, 0, 0, 1, 1, 0]  # 각 데이터에 해당하는 클래스 라벨

# 시퀀스 길이를 3으로 설정
n_steps = 3

# 시퀀스 분할 (다수결 방식)
X, y = split_sequences_classification_once(data, labels, n_steps)

# 결과 확인
print("입력 시퀀스 (X):")
print(X)

print("출력 라벨 (y):")
print(y)

입력 시퀀스 (X):
[[10 20 30]
 [20 30 40]
 [30 40 50]
 [40 50 60]
 [50 60 70]
 [60 70 80]
 [70 80 90]]
출력 라벨 (y):
[1 1 1 1 1 1 1]
