---
# Encoder for HTM - Numeric

---
- Encoder 는  Raw data 를 Encoding 한다.<br>
- HTM system 에서 데이터는 Encoding 후 Spatial Pooler 의 입력으로 들어간다.<br>
- Encoding 된 데이터는 결과는 0, 1 로 고정된 크기이다.<br>
- 감각기 정보뿐 아니라 모든 종류의 데이터를 encoding 할 수 있다.<br>
---

## Encoder 의 조건
1. Semantically similar data should result in SDRs with overlapping active bits.
2. The same input should always produce the same SDR as output.
3. The output should have the same dimensionality (total number of bits) for all inputs.
4. The output should have similar sparsity for all inputs and have enough one-bits to handle noise and subsampling.

---

In [1]:
import numpy as np
import math
import random

---
## Scalar Encoder

---
- 달팽이관이 소리 data 를 받고 뇌로 전달하는 과정을 모사함.<br>
- 달팽이관은 생물학적인 SDR 형성 Encoder 임.<br>

---

In [162]:
'''
가장 기본적인 Encoder.
제한된 작은 숫자를 인코딩
이하의 모든 Encoder 는 모두 ndarray 를 계속 생성하고 있다.
재활용하는 방법으로 바꿔야함 - class 로 빼내어 객체 변수화 하기
'''
def ScalarEndocer(value):
    min_val = 0                     # 최소값
    max_val = 20                    # 최대값
    range_val = max_val - min_val   # 범위
    num_bucket = 20                 # 칸 크기
    w = 5                           # 표상에 나타날 비트 수
    total_bits = num_bucket + w - 1 # 총 데이터 크기
    
    '''
    입력 데이터 제한
    '''
    if(value > max_val):
        value = max_val
    elif(value < min_val):
        value = min_val
    
    i = math.floor(num_bucket * (value - min_val) / range_val)
    
    encoded_data = np.zeros(total_bits)
    encoded_data[i : i+w] = 1

    return encoded_data

In [162]:
'''
가장 기본적인 Encoder.
제한된 작은 숫자를 인코딩
이하의 모든 Encoder 는 모두 ndarray 를 계속 생성하고 있다.
재활용하는 방법으로 바꿔야함 - class 로 빼내어 객체 변수화 하기
'''
def ScalarEndocer_flexible(value):
    min_val = 0                     # 최소값
    max_val = 20                    # 최대값
    range_val = max_val - min_val   # 범위
    num_bucket = 20                 # 칸 크기
    w = 5                           # 표상에 나타날 비트 수
    total_bits = num_bucket + w - 1 # 총 데이터 크기
    
    '''
    입력 데이터 제한
    '''
    if(value > max_val):
        value = max_val
    elif(value < min_val):
        value = min_val
    
    i = math.floor(num_bucket * (value - min_val) / range_val)
    
    encoded_data = np.zeros(total_bits)
    encoded_data[i : i+w] = 1

    return encoded_data

In [165]:
rand = np.arange(20)
random.shuffle(rand)

for i in rand:
    print(i, ScalarEndocer(i))

7 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
1 [0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
6 [0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
8 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
2 [0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
14 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]
9 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
18 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0.]
15 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0.]
12 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0.]
3 [0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
5 [0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
10 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
11 [0. 

In [73]:
'''
큰 수들이 넓은 간격으로 분포하는 데이터를 인코딩.
log encoder
'''
def ScalarEndocer_log(value):
    min_val = 0                     # 최소값
    max_val = 10000                  # 최대값
    range_val = max_val - min_val   # 범위
    num_bucket = 100                 # 칸 크기
    w = 5                           # 표상에 나타날 비트 수
    total_bits = num_bucket + w - 1 # 총 데이터 크기
    
    '''
    입력 데이터 제한
    '''
    if(value > max_val):
        value = max_val
    elif(value < min_val):
        value = min_val
    
    i = math.floor(num_bucket * np.log10(value - min_val) / np.log10(range_val))
    
    encoded_data = np.zeros(total_bits)
    encoded_data[i : i+w] = 1
    
    return encoded_data

In [180]:
ScalarEndocer_log(3000)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0.])

In [276]:
'''
연속된 데이터에서 변화값을 기반으로 인코딩.
'''
def ScalarEndocer_delta(value_prev, value_cur):
    delta = value_cur - value_prev
    min_val = -10                     # 최소값
    max_val = 10                    # 최대값
    range_val = max_val - min_val   # 범위
    num_bucket = 20                 # 칸 크기
    w = 3                           # 표상에 나타날 비트 수
    total_bits = num_bucket + w - 1 # 총 데이터 크기
    
    '''
    입력 데이터 제한
    '''
    if(delta > max_val):
        delta = max_val
    elif(delta < min_val):
        delta = min_val
        
    i = math.floor(num_bucket * (delta - min_val) / range_val)
    
    encoded_data = np.zeros(total_bits)
    encoded_data[i : i+w] = 1
        
    return encoded_data

In [279]:
data = np.arange(15)
random.shuffle(data)

for i in data:
    print(data[i] - data[i-1], ScalarEndocer_delta(data[i - 1], data[i]))

-7 [0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-6 [0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-3 [0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-2 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-7 [0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-10 [1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-2 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-2 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
-2 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
8 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0.]
7 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0.]
8 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0.]
8 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0.]
-2 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
12 [0. 0.

---
## Category Encoder

---
- 이산적으로 분류가 가능한 데이터 셋을 encoding 한다.
- 완전히 무관한 카테고리 혹은 어느정도 관련이 있는 카테고리 모두 가능하다.
- 완전 무관한 카테고리가 유리하다.
- 
---

In [39]:
def WeekEncoder(day):
    '''
    주중과 주말을 category 화 하여 encoding.
    - SUN - MON - TUE - WED - THU - FRI - SAT -
    겹치지않게 만든다.
    '''
    data_size = 10
    
    if(day == 'SUN' or day == 'SAT'):
        start_bit = 0
    elif(day == 'MON' or day == 'TUE' or day == 'WED' or 
         day == 'THU' or day == 'FRI'):
        start_bit = int(data_size / 2)
    else:
        print("N/A")
        return 0
        
    encoded_data = np.zeros(data_size)
    encoded_data[start_bit : start_bit + int(data_size/2)] = 1
    
    return encoded_data

In [40]:
days = ['SUN', 'MON', 'TUE', 'WED', 'THU', 'FRI', 'SAT']

for i in days:
    print(i, '->', WeekEncoder(i))

SUN -> [1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]
MON -> [0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
TUE -> [0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
WED -> [0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
THU -> [0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
FRI -> [0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
SAT -> [1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]


In [56]:
class CategoryEncoder:
    '''
    간단한 카테고리 encoder
    겹치지않게 만든다.
    '''
    def __init__(self, category, active_bits=3):
        self.category = category
        self.category_count = len(category)
        self.active_bits = active_bits
        self.total_bit = self.category_count * self.active_bits
        self.encoded_data = np.zeros(self.total_bit)
    
    def encode(self, item):
        if(item not in self.category):
            print('N/A')
            return None
        
        start_bit = self.category.index(item) + (self.active_bits - 1)*self.category.index(item)
        self.encoded_data[start_bit : start_bit+self.active_bits] = 1
        
        return self.encoded_data

In [43]:
category = ['dog', 'cat', 'tiger', 'horse']
a = CategoryEncoder(category, active_bits=2)
a.encode('horse')

array([0., 0., 0., 0., 0., 0., 1., 1.])

---
## Cycle Encoder

---

- 연속적으로 변하거나 순환하는 데이터 집합일 때 사용.
- 부동소수점 등 연속적인 데이터를 다룰 때 사용.
---

In [71]:
class CycleEncoder:
    '''
    겹치게 만든다.
    case by case 로 hardcoding 이 필요함.
    '''
    def __init__(self, category, active_bits=3, resolution=5):
        self.category = category
        self.category_count = len(category)
        self.active_bits = active_bits
        self.resolution = resolution
        self.total_bit = self.category_count * self.resolution
        self.encoded_data = np.zeros(self.total_bit)
    
    def encode(self, time):
        #start_bit = 
        
        return self.encoded_data

In [72]:
c = [1,2,3,4]
ce = CycleEncoder(c)
ce.total_bit

20