# 데이터 준비
1. 대상지 선정
    * 차량 간 상충이 적절히 존재해야 함
    * 너무 막히거나 너무 한산하면 의미가 없음
2. 차로 정리 : PPT 참조
3. 이상값 제거
    * Tistory의 통계값으로 속도, 가속도 Outlier 제거
    * 비정상적으로 크거나 작은 값
    * 붙어있는 차량(잘못 인식된 것) 제거
4. x방향, y방향 벡터 추출
    * 위치 벡터
    * 속도 벡터
    * 가속도 벡터
5. 모든 방향의 선행차량, 후행차량 및 그 벡터 정보 추출
    * 같은 차로 선행차량(`LV_0`), 후행차량(`FV_0`)
    * 좌측 차로 선행차량(`LV_L`), 후행차량(`FV_L`)
    * 우측 차로 선행차량(`LV_R`), 후행차량(`FV_R`)

* Modin : Pandas 보다 빠르다
    * https://zephyrus1111.tistory.com/170
* 오류 해결 :
    * Numpy 오류 해결 : anaconda prompt 에서 numpy 1.23.5를 다시 설치(conda install numpy=1.23.5)해주는 것으로 modin을 설치함
    * ignoring Invalid ERROR 해결 : https://stackoverflow.com/questions/70998452/warning-ignoring-invalid-distribution-c-python310-lib-site-packages

In [1]:
#!pip install modin[all]
#!pip install modin[ray]
#!pip install swifter
#!pip3 install swifter
#!pip install fastparquet

# Import

In [2]:
#import modin.pandas as pd
import pandas as pd
import numpy as np

import time
# import ray
#ray.init() # 병렬 처리를 위한 클러스터 구축. 한번만 수행해야 한다

from tqdm import tqdm
from modin.config import ProgressBar
ProgressBar.enable() # Modin에서 Progress bar를 사용하게 해주는 장치

import warnings
import os

from scipy import stats # Z-score를 이용한 이상값 제거

import math # arctangent; math.atan 사용 목적
import statistics

from plotly.subplots import make_subplots
import plotly.figure_factory as ff
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as po

import matplotlib.pyplot  as plt
import seaborn as sns

import pyarrow.parquet as pq
#df = pq.read_pandas('data.parquet').to_pandas()
#HMC.to_parquet(save_path, compression = 'gzip')

# Load Dataset

In [3]:
working_dir = 'D:/OneDrive/Projects/2023_SSM_Feasibility/Dataset'

In [4]:
file_list = ['trajectories-0750am-0805am.parquet']#, 'trajectories-0805am-0820am.parquet', 'trajectories-0820am-0835am.parquet']
folder_name = '02_processed'

for file, i in zip(file_list, [1]):
    file_path = os.path.join(working_dir, folder_name, file)
    globals()[f'total_df_{i}'] = pq.read_pandas(file_path).to_pandas()

In [5]:
total_df_1.head(3)

Unnamed: 0,Vehicle ID,Frame ID,Local Y(m),Local X (m),Vehicle Length,Vehicle Width,Vehicle Velocity(km/h),Vehicle Acceleration,Lane Identification,Preceeding,...,acc_x,acc_y,Lane Identification Past,Lane_record,Lane_record_split,Lane_00,Lane_99,Lane_change,Lane_leave,Lane_change_direction
0,2,13,17.376038,10.784129,4.4196,1.49352,43.8912,0.0,U02,0,...,,,U02,U02_U01,U02_U01,U02,U01,,,Left
1,2,14,17.382134,12.003329,4.4196,1.49352,43.8912,0.0,U02,0,...,,,U02,U02_U01,U02_U01,U02,U01,,,Left
2,2,15,17.388535,13.222529,4.4196,1.49352,43.8912,0.0,U02,0,...,1.356939e-14,0.002352,U02,U02_U01,U02_U01,U02,U01,,,Left


# 함수정의

In [6]:
def insert_cols(LV_type, reference_df, veh_ID, frm, lane, local_x, local_y):
    
    #if delta_local_x > 0: #왼 -> 오로 진행, 진행할수록 local x 증가 :: local x가 크면 앞에 있음
        ### 각 프레임 DF로부터 해당 차로에 존재하며, Local X보다 앞에 있는(=x값이 "큰") 행

    LV_df = reference_df[reference_df['frm'] == frm].copy()
    
    if len(LV_df) > 0:

        if LV_type == 'LVL':
            LV_df = LV_df[(LV_df['lane'] != lane) & (LV_df['local_x'] > local_x) & (LV_df['local_y'] > local_y) & (LV_df['veh_id'] != veh_ID)]

            ## 선행차량이 있을 경우, 값이 가장 작은 값을 취하기
            if len(LV_df) > 0:
                nearest_x_val = LV_df['local_x'].min()
                LV_df = LV_df[LV_df['local_x'] == nearest_x_val]
                LV_ID = LV_df['veh_id'].iloc[0]

            else:
                LV_ID = 0

        elif LV_type == 'LVR':
            LV_df = LV_df[(LV_df['lane'] != lane) & (LV_df['local_x'] > local_x) & (LV_df['local_y'] < local_y) & (LV_df['veh_id'] != veh_ID)]

            if len(LV_df) > 0:
                nearest_x_val = LV_df['local_x'].min()
                LV_df = LV_df[LV_df['local_x'] == nearest_x_val]
                LV_ID = LV_df['veh_id'].iloc[0]

            else:
                LV_ID = 0

        else:
            LV_ID = 0
            
    else:
        LV_ID = 0

    return LV_ID

In [7]:
def LC_CF(direction):
    """
    대상차량 진행방향(Straight, Left, Right)에 따라서 LC_CF 판정
    LC : 차로변경. Lanechange
    CF : 차량추종. Car-following
    """
    
    if direction == 'Straight':
        return 'CF'
    
    elif direction == 'Left' or direction == 'Right':
        return 'LC'
    else:
        return None

# LV뽑고 저장하기

In [8]:
for total_df, file in zip([total_df_1], file_list):

    total_df.rename(columns = {'Vehicle ID' : 'veh_id', 'Frame ID' : 'frm', 'Lane Identification' : 'lane', 'Local X (m)' : 'local_x', 'Local Y(m)' : 'local_y'}, inplace = True)

    # 용량줄이기
    int_cols = ['veh_id', 'frm', 'Preceeding', 'Following']
    float_cols = ['local_x', 'local_y', 'Vehicle Length', 'Vehicle Width', 'Vehicle Velocity(km/h)', 'Vehicle Acceleration',  'Local X (m)_before',
     'Local Y(m)_before', 'delta_local_x', 'delta_local_y', 'velocity_x', 'velocity_y', 'velocity_x_before', 'velocity_y_before',
     'delta_velocity_x', 'delta_velocity_y', 'acc_x', 'acc_y']

    total_df[int_cols] = total_df[int_cols].astype('int16')
    total_df[float_cols] = total_df[float_cols].astype('float16') # 용량줄이기

    # total_df : 원본데이터. 

    # df : Join하여 최종적으로 병합, LV ID를 모아서 MERGE할 결과물 데이터
    df = total_df.copy().reset_index().drop(['index'], axis = 1) ## 인덱스를 초기화해야 제대로 선행차량 정보가 꽂힌다

    # LV의 ID값을 뽑아내기 위해 참조하는 참조용 데이터
    reference_df = total_df[['veh_id', 'frm', 'lane', 'local_x', 'local_y']].copy()
    
    
    ################ LV0 ######################
    df['LV0_ID'] = df['Preceeding'].copy() # LV0의 ID는 선행차량(Preceeding)으로 자동적으로 되어 있다
    LV0_df = total_df.copy() # 선행차량의 정보가 담겨있는 것으로 간주한다

    for col in LV0_df.columns: # 각 컬럼의 이름을 바꿔주기
        LV0_df.rename(columns = {col : f'LV0_{col}'}, inplace = True)
        
    df = pd.merge(df, LV0_df, how = 'left', left_on = ['LV0_ID', 'frm'], right_on = ['LV0_veh_id', 'LV0_frm'])
    
    df.drop(['LV0_veh_id', 'LV0_frm', 'LV0_Preceeding', 'LV0_Following', 'LV0_Lane Identification Past', 'LV0_Lane_00', 'LV0_Lane_99', 'LV0_Lane_change', 'LV0_Lane_leave'], axis = 1, inplace = True)
    
    df.rename(columns = {'Local X (m)_before' : 'local_x_before', 
                     'Local Y(m)_before' : 'local_y_before',
                     'Vehicle Velocity(km/h)' : 'velocity',
                     'Vehicle Acceleration' : 'acc',
                     'Vehicle Length' : 'V_len',
                     'Vehicle Width' : 'V_wid',
                     'Lane Identification Past' : 'lane_past',
                     
                     'LV0_Vehicle Length' : 'LV0_len',
                     'LV0_Vehicle Width' : 'LV0_wid',
                     'LV0_Vehicle Velocity(km/h)' : 'LV0_velocity',
                     'LV0_Vehicle Acceleration' : 'LV0_acc',
                     'LV0_Local X (m)_before' : 'LV0_local_x_before',
                     'LV0_Local Y(m)_before' : 'LV0_local_y_before'
                    }, inplace = True)
    
    
    
    ################# LVL, LVR #######################
    
    tqdm.pandas()

    df['LVL_ID'] = df.progress_apply(lambda x: insert_cols('LVL', reference_df, x.veh_id, x.frm, x.lane, x.local_x, x.local_y), axis = 1)
    df['LVR_ID'] = df.progress_apply(lambda x: insert_cols('LVR', reference_df, x.veh_id, x.frm, x.lane, x.local_x, x.local_y), axis = 1)
    
    LVL_df = total_df.copy() # 선행차량의 정보가 담겨있는 것으로 간주한다
    LVR_df = total_df.copy() # 선행차량의 정보가 담겨있는 것으로 간주한다
    
    for col in LVL_df.columns: # 각 컬럼의 이름을 바꿔주기
        LVL_df.rename(columns = {col : f'LVL_{col}'}, inplace = True)
        
    for col in LVR_df.columns: # 각 컬럼의 이름을 바꿔주기
        LVR_df.rename(columns = {col : f'LVR_{col}'}, inplace = True)
        
    # LVL과 병합
    df = pd.merge(df, LVL_df, how = 'left', left_on = ['LVL_ID', 'frm'], right_on = ['LVL_veh_id', 'LVL_frm'])
    
    df.drop(['LVL_veh_id', 'LVL_frm', 'LVL_Preceeding', 'LVL_Following', 'LVL_Lane Identification Past', 'LVL_Lane_00', 'LVL_Lane_99', 'LVL_Lane_change', 'LVL_Lane_leave'], axis = 1, inplace = True)
    
    df.rename(columns = {'Local X (m)_before' : 'local_x_before', 
                     'Local Y(m)_before' : 'local_y_before',
                     'Vehicle Velocity(km/h)' : 'velocity',
                     'Vehicle Acceleration' : 'acc',
                     'Vehicle Length' : 'V_len',
                     'Vehicle Width' : 'V_wid',
                     'Lane Identification Past' : 'lane_past',
                     
                     'LVL_Vehicle Length' : 'LVL_len',
                     'LVL_Vehicle Width' : 'LVL_wid',
                     'LVL_Vehicle Velocity(km/h)' : 'LVL_velocity',
                     'LVL_Vehicle Acceleration' : 'LVL_acc',
                     'LVL_Local X (m)_before' : 'LVL_local_x_before',
                     'LVL_Local Y(m)_before' : 'LVL_local_y_before'
                    }, inplace = True)
    
    # LVR과 병합
    df = pd.merge(df, LVR_df, how = 'left', left_on = ['LVR_ID', 'frm'], right_on = ['LVR_veh_id', 'LVR_frm'])
    
    df.drop(['LVR_veh_id', 'LVR_frm', 'LVR_Preceeding', 'LVR_Following', 'LVR_Lane Identification Past', 'LVR_Lane_00', 'LVR_Lane_99', 'LVR_Lane_change', 'LVR_Lane_leave'], axis = 1, inplace = True)
    
    df.rename(columns = {'Local X (m)_before' : 'local_x_before', 
                     'Local Y(m)_before' : 'local_y_before',
                     'Vehicle Velocity(km/h)' : 'velocity',
                     'Vehicle Acceleration' : 'acc',
                     'Vehicle Length' : 'V_len',
                     'Vehicle Width' : 'V_wid',
                     'Lane Identification Past' : 'lane_past',
                     
                     'LVR_Vehicle Length' : 'LVR_len',
                     'LVR_Vehicle Width' : 'LVR_wid',
                     'LVR_Vehicle Velocity(km/h)' : 'LVR_velocity',
                     'LVR_Vehicle Acceleration' : 'LVR_acc',
                     'LVR_Local X (m)_before' : 'LVR_local_x_before',
                     'LVR_Local Y(m)_before' : 'LVR_local_y_before'
                    }, inplace = True)
    
    df['LV0_D'] = ((df['local_x'] - df['LV0_local_x'])**2 + (df['local_y'] - df['LV0_local_y'])**2) ** (1/2)
    df['LVL_D'] = ((df['local_x'] - df['LVL_local_x'])**2 + (df['local_y'] - df['LVL_local_y'])**2) ** (1/2)
    df['LVR_D'] = ((df['local_x'] - df['LVR_local_x'])**2 + (df['local_y'] - df['LVR_local_y'])**2) ** (1/2)

    df['LC_CF'] = df['Lane_change_direction'].apply(LC_CF)
    
    ### 저장하기 ###
    
    save_folder = '02_processed'

    save_path = os.path.join(working_dir, save_folder, ('LV_'+file))
    df.to_parquet(save_path, engine = 'fastparquet', compression = 'gzip') # Apach arrow는 float16 지원X, float32를 취급하므로 engine을 적용해야 함

100%|███████████████████████████████████████████████████████████████████████| 1048575/1048575 [37:01<00:00, 472.02it/s]
100%|███████████████████████████████████████████████████████████████████████| 1048575/1048575 [37:00<00:00, 472.33it/s]
