# 생체 신호 데이터 초기 전처리

전체 바이오 데이터 합치기

In [None]:
import pandas as pd
import numpy as np
import pickle
from tqdm import tqdm
import os

# 세션별 저장한 바이오(eda, temo)파일 경로 지정
eda_dir = './dataset/KEMDy20_v1_1/new/sensor/EDA'
temp_dir = './dataset/KEMDy20_v1_1/new/sensor/Temp'

# 지젇된 경로 파일 불러오기 및 정렬렬
eda_sess_FList = sorted(os.listdir(eda_dir))
temp_sess_FList = sorted(os.listdir(temp_dir))

# 빈 데이터 프레임 만들기
bio_all = pd.DataFrame(columns=['segment_id','eda','temp'])

# 세션별 저장된 바이오(eda,temp) 데이터 합치기
for eda, temp in zip(eda_sess_FList, temp_sess_FList):
  print(eda, temp)
  TEMP = pd.read_pickle('./dataset/KEMDy20_v1_1/new/sensor/Temp/'+ temp )
  EDA = pd.read_pickle('./dataset/KEMDy20_v1_1/new/sensor/EDA/'+ eda )
  TEMP.columns = ['segment_id','temp']
  EDA.columns = ['segment_id','eda']
  bio = EDA.merge(TEMP, on = 'segment_id')
  bio_all = pd.concat([bio_all, bio], ignore_index=True)
  bio_all

segment_id를 기준으로 annotation데이터와 합치기

In [None]:
# 전처리된 annotation 데이터 불러오기

train = pd.read_pickle('./dataset/KEMDy20_v1_1/new/annotation/train_origin.pkl')
test = pd.read_pickle('./dataset/KEMDy20_v1_1/new/annotation/test_origin.pkl')

In [None]:
# annotation 데이터와 segment_id 기준으로 merge

bio_train = train.merge(bio_all, how = 'inner', on = 'segment_id')
bio_test = test.merge(bio_all, how = 'inner', on = 'segment_id')

In [None]:
# 최종종 바이오 데이터 프레임 저장

bio_train.to_pickle('./dataset/KEMDy20_v1_1/new/sensor/bio_train/train_origin.pkl')
bio_test.to_pickle('./dataset/KEMDy20_v1_1/new/sensor/bio_train/test_origin.pkl')

#데이터 증강 및 패딩 과정

In [None]:
# 데이터 불러오기
train = pd.read_pickle('./dataset/KEMDy20_v1_1/new/sensor/bio_train/train_origin.pkl') 
test = pd.read_pickle('./dataset/KEMDy20_v1_1/new/sensor/bio_train/test_origin.pkl')

In [None]:
# 패딩 함수
def get_numpy_from_nonfixed_2d_array(aa, fixed_length=141):
    rows = []
    for a in aa:
        rows.append(np.pad(a, (0, fixed_length), 'constant', constant_values=0)[:fixed_length])
    return np.concatenate(rows, axis=0).reshape(-1, fixed_length)

In [None]:
# 데이터 패딩 진행
temp = get_numpy_from_nonfixed_2d_array(train['temp'])
eda = get_numpy_from_nonfixed_2d_array(train['eda'])
train_y = train.emotion_id.values

"기쁨" 맞춰 데이터 증강

In [None]:
# padding한 array에서 "중립" 클래스 데이터 제외
Temp=pd.DataFrame(temp)
Temp['emotion']=pd.DataFrame(train_y)

EDA = pd.DataFrame(eda)
EDA['emotion']=pd.DataFrame(train_y)

nedf = EDA.loc[(EDA.emotion==4),:].drop(['emotion'],axis=1).to_numpy()
ntdf = Temp.loc[(Temp.emotion==4),:].drop(['emotion'],axis=1).to_numpy()
n_y = Temp.loc[(Temp.emotion==4),'emotion'].to_numpy()

edf = EDA.loc[(EDA.emotion!=4),:].drop(['emotion'],axis=1).to_numpy()
tdf = Temp.loc[(Temp.emotion!=4),:].drop(['emotion'],axis=1).to_numpy()
y =EDA.loc[(EDA.emotion!=4),'emotion'].to_numpy()

In [None]:
# 데이터 증강
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state= 1024)
temp_x,t_y = smote.fit_resample(tdf,y)
eda_x,t_y = smote.fit_resample(edf,y)

In [None]:
# "중립" 클래스 데이터와 합치기기
htemp = np.concatenate((temp_x,ntdf), axis=0)
heda = np.concatenate((eda_x,nedf), axis=0)
h_y = np.concatenate((t_y,n_y), axis=0)

In [None]:
# 증강한 바이오 데이터 배열 저장
np.save('./dataset/KEMDy20_v1_1/new/sensor/bio_train/temp_x.npy',htemp)
np.save('./dataset/KEMDy20_v1_1/new/sensor/bio_train/eda_x.npy',heda)
np.save('./dataset/KEMDy20_v1_1/new/sensor/bio_train/t_y.npy',h_y)