# 2. 유전자 표현 방법
## 이진 인코딩
이진 인코딩(binary encoding)은 가장 널리 사용되는 해 표현 방법으로, 모든 해를 0과 1, 혹은 False와 True로 구성된 이진 벡터로 표현합니다.

- 이진 벡터는 교배 연산과 돌연변이 연산을 적용하기에 좋은 구조임
- 그러나 표현할 수 있는 범위가 한정적이라는 단점이 있음
- 이진 인코딩은 특징 선택을 비롯한 조합 최적화(combinational optimization) 문제의 해를 표현하는 데 주로 활용함

## 이진 인코딩 구현
이진 인코딩(binary encoding)은 가장 널리 사용되는 해 표현 방법으로, 모든 해를 0과 1, 혹은 False와 True로 구성된 이진 벡터로 표현합니다.

In [1]:
import numpy as np
def binary_init(n, m, bool_type=False):
    X = np.random.choice([0,1],(n,m))
    if bool_type:
        X = X.astype(bool)
    return X

- 라인 2: 해 개수(n), 해의 길이(m), 불을 반활할지(bool_type)를 입력받아 이진 인코딩 구조의 초기 해를 생성하는 binary_init 함수를 작성합니다.
- 라인 3: np.random.choice를 이용해 0과 1 가운데 하나를 임의로 골라 (n,m) 크기의 배열을 만듭니다.
- 라인 4-5: bool_type이 True라면 astype 메서드를 사용해 X의 데이터 타입을 bool로 변환합니다.

In [2]:
n = 5
m = 3
display(binary_init(n,m,bool_type=False))
display(binary_init(n,m,bool_type=True))

array([[1, 0, 1],
       [0, 1, 0],
       [1, 0, 0],
       [1, 1, 0],
       [1, 0, 0]])

array([[ True, False,  True],
       [ True, False,  True],
       [False,  True,  True],
       [ True, False,  True],
       [ True, False,  True]])

## 순열 인코딩
순열 인코딩(permutation encoding)은 외판원 순회 문제와 같이 순서를 결정하는 문제에 주로 사용하는 해 표현 방법으로 각 해가 순서를 나타냅니다.
- 순서를 나타내므로 요소 간 중복이 없음
- 교차 연산과 변이 연산 등을 했을 때 실행 가능하지 않은 해가 만들어질 위험이 있음

In [3]:
def permutation_init(n,m):
    X = [np.random.permutation(m) for _ in range(n)]
    X = np.array(X)
    return X

- 라인 2: np.random.permutaion을 사용해 [0,1,2 ... ,m-1]을 임의로 정렬한 배열 n개를 만들어 X에 리스트로 저장 합니다. 즉, X[i]는 임의로 정렬된 i번째 순열 입니다.
- 라인 3: 리스트를 ndarray로 변환합니다.

In [4]:
n = 2
m = 5
permutation_init(n,m)

array([[3, 2, 0, 4, 1],
       [0, 3, 1, 4, 2]])

## 값 인코딩
값 인코딩(value encoding)은 해를 실수 벡터 형태로 표현하는 방법으로, 해의 범위나 해가 따르는 확률 분포 등을 활용하여 해를 생성합니다.
- 유전 알고리즘으로 신경망을 비롯한 머신러닝 모델의 가중치를 추정하는 데 사용하는 해 표현 방식이기도 함
- 이 표현 방법은 거의 모든 종류의 해를 표현할 수 있음
- 교차 및 돌연변이 연산을 정의하기 어려움

# 3. 적합도와 선택 연산
## 적합도
적합도란 각 해가 얼마나 문제의 답으로 적합한지를 평가하기 위한 함수로, 목적 함수를 사용하는 것이 일반적입니다.

## np.apply_along_axis 함수
apply_along_axis는 이름 그대로 ndarray의 축에 따라 일괄적으로 함수를 적용하며, 판다스의 apply와 유사합니다.

주요인자
- func1d
    - ndarray의 각 요소에 일괄적으로 적용할 함수로, 이 함수의 입력은 1차원 배열입니다.
- axis
    - 함수를 적용할 축을 의미합니다.
- arr
    - 함수를 적용할 배열입니다.

일반적으로 1차원 ndarray로해를 정의하고 2차원 ndarray로해집합을 정의하므로, np.apply_along_axis를 이용해 각 해의 적합도를 평가합니다.

적합도 함수 예시

In [5]:
def fitness(x):
    return sum(x*np.array([10,1,2,5]))+3

크기가 4인 이진 벡터 X와 (10,1,2,5)의 내적에 3을 더한 값이 적합도 입니다.

In [6]:
X = binary_init(5,4,bool_type=False)
S = np.apply_along_axis(fitness, 1, X)
display(S)

array([16, 15, 18, 20,  4])

- 라인 2: 각 행에 함수를 적용하기 위해 axis를 1로 설정했습니다. axis는 계산 방향으로 설정하는 인자로, axis=0은 행 방향(위에서 아래 방향↓)으로 계산하고, axis=1은 열 방향(왼쪽에서 오른쪽 →)으로 계산합니다.

## axis 인자에 대한 이해
axis 인자는 apply_along_axis 함수뿐만 아니라 넘파이와 판다스의 다양한 함수에서 사용되므로 반드시 그 내용을 이해하고 넘어가야 합니다.

- axis = 1은 열 방향(왼쪽에서 오른쪽)으로 계산함을 나타냄
- axis = 0은 행 방향(위에서 아래 방향)으로 계산한다는 것을 나타냄
- 연산 결과가 1차원이라면 axis 값과 배열 방향이 같음.
즉, axis = 0이면 행벡터 꼴의 결과가 나오며 axis = 1이면 열벡터 꼴의 결과가 나옵니다.