# 2023_09_21

### 주간 보고서 - 가상 데이터 생성방식

> paper:https://www.researchgate.net/publication/237175783_Rule_of_age_and_size_at_maturity_of_chum_salmon_Oncorhynchus_keta_Implications_of_recent_trends_among_Oncorhynchus_spp

> test notebook : http://202.31.200.194:8888/notebooks/NPLAB-NAS/Members/SEO/salom_ai/Dataset/salmon_time_series/vir_data/2023_09_19_vir_data_generate.ipynb


### Fork Length

논문에 나오는 fork length에 대한 curve

#### Von Bertalanffy 생장곡선

The Von Bertalanffy growth function is given by:

$$
L(t) = L_{\infty} - (L_{\infty} - L_0) e^{-kt}
$$

where,
- $L(t)$ : Length (fork length) at time  t
- $L_{\infty}$ : Maximum possible length (fork length)
- $L_0$ : Initial length (fork length) at  t = 0
- $k$ : Growth rate constant
- $t$ : Time (in years)
- $e$ : Base of the natural logarithm (approximately 2.718)

### Derivative of Von Bertalanffy Growth Function

The derivative of the growth function (i.e., the growth rate) is given by:


$\frac{dL}{dt} = k(L_{\infty} - L(t))$


This derivative can also be expressed as:


$\frac{dL}{dt} = k(L_{\infty} - (L_{\infty} - L_0) e^{-kt})$


In this equation,  \frac{dL}{dt}  represents the rate of change of length with respect to time  t .

![](./img/2023_09_19_growth_curve_FL.png)

### Body Depth

논문에서는 Body Depth에 대한 정보를 얻을 수 없어서  
기존의 fish market dataset에서 이용함  
dataset에서 연어와 가장 유사한 생선이  Pike라는 생선이고  
Pike의 $BD / FL = 0.169599$을 이용해서 Body Depth의 생장 곡선을 정의함  

* GPT

```
데이터를 보면, 여러 물고기 종류와 그들의 다양한 측정치 (무게, 길이 등)가 나열되어 있습니다. 연어와 가장 비슷한 물고기를 찾으려면, 일반적으로 연어의 특성과 비교해야 합니다.

연어는 일반적으로 큰 물고기로 알려져 있으며, 다음과 같은 특성을 가집니다:

무게(Weight): 연어는 일반적으로 무거운 편입니다. 길이 (SL, FL, TL): 연어는 긴 편입니다. 여기서 SL은 표준 길이, FL은 포크 길이, TL은 전체 길이를 나타냅니다. 몸의 높이 (BD, BT): 연어의 몸은 상대적으로 높지 않습니다. 이러한 특성을 고려할 때, 데이터에서 연어와 가장 비슷한 물고기를 찾으려면 무게와 길이 (특히 FL - 포크 길이)를 주로 고려해야 합니다.

데이터를 보면, "Pike"가 연어와 가장 비슷한 특성을 가진 것으로 보입니다. "Pike"는 무게가 무거운 편이며, FL (포크 길이)도 긴 편입니다. 또한, BD (몸의 높이)와 BT (몸의 두께)도 연어와 유사한 범위에 있습니다.

따라서, 이 데이터 세트에서 "Pike"가 연어와 가장 비슷한 물고기로 보입니다.`
```

![](./img/2023_09_19_growth_curve_BD.png)

### growth curve + add noise

기존의 생장곡선 여러개 만든 이후에 생장곡선의 평균을 기준으로 differnece 기반의 noise를 추가함  

```python
def von_bertalanffy(t, l_inf=85, l_0=4.0, k=0.1):
    return l_inf - (l_inf - l_0) * np.exp(-k * t)

def generate_random_curves(n, t, l_inf_range=(84, 86), l_0_range=(3.8, 4.2), k_range=(0.095, 0.105)):
    curves = []
    for _ in range(n):
        l_inf = np.random.uniform(*l_inf_range)
        l_0 = np.random.uniform(*l_0_range)
        k = np.random.uniform(*k_range)
        curve = von_bertalanffy(t, l_inf, l_0, k)
        curves.append(curve)
    return np.array(curves)

# Conversion factor from Fork Length to Body Depth
conversion_factor = 0.169599

# Example usage:
time_days = np.linspace(0, 410, 30) + 400
time_years = time_days / 365  
curves = generate_random_curves(10, time_years , l_inf_range=(70, 90) , l_0_range=(5, 7) , k_range=(0.5, 0.6))

curves_bd = curves * 1
mean_curve = np.mean(curves_bd, axis=0)

noise = np.zeros_like(mean_curve)

for i in range(len(mean_curve)):
    while True:
        if i == 0:
            noise[i] = mean_curve[i]
            break
        
        noise_sample = np.random.normal(loc=mean_curve[i], scale=1)
        relative_noise = (noise_sample - mean_curve[i]) / mean_curve[i]
        
        if -0.1 <= relative_noise <= 0.1:
            if noise_sample > noise[i-1]:
                noise[i] = noise_sample
                break
            else:
                noise[i] = noise[i-1] + np.random.uniform(0, 0.3) 
                break```

std를 조절해서 noise의 범위를 조정  

각 point 마다 임의의 std에 대해서 정규 분포를 생성  
-10% ~ 10% 사이의 값에 대해서 값을 샘플한 값을 사용  
만약에 값이 감소하는 경우에는 샘플링한 값 대신에 이전의 값에 조금의 noise를 더해서 값을 사용  

* 각 noise별로 fork length

![](./img/2023_09_19_std05.png)
![](./img/2023_09_19_std10.png)
![](./img/2023_09_19_std15.png)

BD에 대해서도 같은 방식으로 진행  


### weight data

```python
def von_bertalanffy(t, l_inf=85, l_0=4.0, k=0.01):
    return l_inf - (l_inf - l_0) * np.exp(-k * t)

def generate_random_curves(n, t, l_inf_range=(84, 86), l_0_range=(3.8, 4.2), k_range=(0.095, 0.105), noise_ratio=1000):
    curves_fl = []
    curves_bd = []

    for _ in range(n):
        l_inf = np.random.uniform(*l_inf_range)
        l_0 = np.random.uniform(*l_0_range)
        k = np.random.uniform(*k_range)
        
        curve_fl = von_bertalanffy(t, l_inf, l_0, k)
        bd_curve = np.copy(curve_fl)
        
        noise_fl = np.zeros_like(curve_fl)
        noise_bd = np.zeros_like(bd_curve)

        # Generate noise for curve_fl
        for i in range(len(curve_fl)):
            while True:
                noise_sample = np.random.normal(loc=curve_fl[i], scale=100)
                relative_noise = (noise_sample - curve_fl[i]) / curve_fl[i]
                
                if -0.1 <= relative_noise <= 0.1:
                    if i == 0 or noise_sample > noise_fl[i-1]:
                        noise_fl[i] = noise_sample
                        break
                    else:
                        noise_fl[i] = noise_fl[i-1] + np.random.uniform(0, 0.01)
                        break

        # Generate noise for bd_curve
        for i in range(len(bd_curve)):
            while True:
                noise_sample = np.random.normal(loc=bd_curve[i], scale=1000)
                relative_noise = (noise_sample - bd_curve[i]) / bd_curve[i]
                
                if -0.1 <= relative_noise <= 0.1:
                    if i == 0 or noise_sample > noise_bd[i-1]:
                        noise_bd[i] = noise_sample
                        break
                    else:
                        noise_bd[i] = noise_bd[i-1]  + np.random.uniform(0, 0.01)
                        break
        
        curves_fl.append(noise_fl)
        curves_bd.append(noise_bd)
    curves_fl = np.mean(curves_fl, axis=0)
    curves_bd = np.mean(curves_bd, axis=0)
    return curves_fl , curves_bd


def get_bt(FL, BD):
    while True:
        k_sample = np.random.normal(loc=0.1, scale=0.001)
        relative_k = (k_sample - 0.1) / 0.1
        if -0.1 <= relative_k <= 0.1:
            break
    
    return FL * BD * k_sample
```

```python
start = 300
time_days = np.linspace(start, start+480, 30)
time_years = time_days / 365
mean_curve_fl, mean_curve_bd = generate_random_curves(20, time_years, l_inf_range=(70, 90) , l_0_range=(5, 7) , k_range=(0.5, 0.6))
bt = get_bt(mean_curve_fl, mean_curve_bd)
k = 0.001

predicted_weight = mean_curve_fl * mean_curve_bd * np.pi * k * bt

curve_weight = predicted_weight
noise = np.zeros_like(curve_weight)

for i in range(len(curve_weight)):
    while True:
        if i == 0:
            noise[i] = curve_weight[i]
            break
            
        noise_sample = np.random.normal(loc=curve_weight[i], scale=0.5)
        relative_noise = (noise_sample - curve_weight[i]) / curve_fl[i]
        
        if -0.1 <= relative_noise <= 0.1:
            if i == 0 or noise_sample > noise[i-1]:
                noise[i] = noise_sample
                break
            else:
                noise[i] = noise[i-1] + np.random.uniform(0, 0.05)
                break
```
![](./img/2023_09_19_weight.png)

### vir_data training

현재 학습 및 추론 코드만 구성해놓은 상태임  
hparams tuning 진행 예정  

> http://202.31.200.194:8888/notebooks/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/vir_tft.ipynb

### vir_data  lr tuning

lr을 1e-1 , 1e-2 , 1e-3 , 1e-4 , 1e-5 , 1e-5 , 1e-6 , 1e-7로 진행  

> python code : http://202.31.200.194:8888/edit/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/hprams_lr_tuning.py

> tensorboard : http://202.31.200.70:8888/notebooks/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/tensorboard.ipynb

결과를 확인해보니 lr의 변화에 따라서는 예측값이 제대로 나오지 않음  
심지어 lr가 작으면 감소하는 패턴을 보임  
lr말고 다른 hparams의 튜닝이 필요해보임  

### vir_data atten head tuning

atten_head에 대해서 1부터 9까지 진행  

> python code : http://202.31.200.194:8888/edit/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/hprams_atten_tuning.py

> tensorboard : http://202.31.200.70:8888/notebooks/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/tensorboard.ipynb

atten가 3일때 좋은 결과를 보임  
증가하는 패턴이나 시계열의 시작 위치가 맞지 않기는 하나 다른 파라미터를 다시 튜닝  


### vir_data hidden_size

[4,8,12,16,20,24,28,32,36,40,56,62,70,76,84,90]이와 같은 hidden size로 진행  

hidden_size=32일때 가장 좋은 결과를 보임  
> http://202.31.200.194:8888/edit/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/hprams_lr_tuning.py

> tensorboard : http://202.31.200.70:8888/notebooks/NPLAB-NAS/Members/SEO/salom_ai/time_series/vir_data_training/tensorboard.ipynb



### vir_data data input

![](./img/2023_09_21_training.jpg)

데이터가 너무 부족한 상황임  
다음과 같은 두 가지 방법을 생각해볼 수 있음  

1. 데이터를 100개 생성후 이를 group으로 넣어서 학습  
2. 각 에폭마다 데이터를 생성해서 패턴을 학습 시킴  

둘다 테스트  