## learning-AI : EMG EDA and CNN-LSTM을 통한 classification
### EMG Physical Action Data Set 논문 분석 및 탐색적 데이터 분석, CNN-LSTM을 통한 classification

<br>

- **임규연 (lky473736)**
- 2024.09.12. ~ 2024.09.15.에 문서 작성
- **dataset** : https://archive.ics.uci.edu/dataset/213/emg+physical+action+data+set
- **data abstract** : The Physical Action Data Set includes 10 normal and 10 aggressive physical actions that measure the human activity. The data have been collected by 4 subjects using the Delsys EMG wireless apparatus.

------



## <span id='dl'><mark>EDA and DL</mark></span>
    
EMG Physical Action Data Set을 EDA한다. 그 후 논문에서 주장하는 CNN-LSTM을 구현해본다.

- **Reference**
    - https://archive.ics.uci.edu/dataset/213/emg+physical+action+data+set
    - https://www.ucihealth.org/health-library/content?contentTypeID=92&contentID=P07656&language=en
    - https://www.kaggle.com/code/durgancegaur/emg-dataset
    - https://www.kaggle.com/code/rachit2702/notebook6db9079b5a
    - https://ieeexplore.ieee.org/document/10288050/references#references
    - https://medium.com/analytics-vidhya/analysis-of-emg-physical-data-aggressive-normal-activities-4d5a696730b4
    

In [174]:
import pandas as pd
import numpy as np
import scipy
import tensorflow as tf
from tensorflow import keras
import seaborn as sns
import matplotlib.pyplot as plt

----

### 논문 요약 및 모델링 예측, EDA 전략

- **\<Enhanced Complex Human Activity Recognition System: A Proficient Deep Learning Framework Exploiting Physiological Sensors and Feature Learning\>** 논문을 읽은 후, 데이터 파일이 의미하는 바를 이해한다.
- 저자가 한 modeling (CNN-LSTM)을 분석한 후 필연성을 확인해본다.

위 논문을 요약하자면 아래와 같다.

```txt

abstract

사람의 활동 인식(Human Activity Recognition)은 센서 속성과 지능형 학습 알고리즘을 사용하여 개인의 일상 생활 활동을 식별하는 과정입니다. 복잡한 인간 활동을 식별하는 것은 장기적인 의존성을 포착하고 원시 센서 데이터로부터 효율적인 특징을 추출하는 것이 어려워서 까다롭습니다. 이 논문은 생리학적 근전도(EMG) 센서와 향상된 특징 학습을 사용하여 복잡한 인간 활동을 인식하기 위한 효율적이고 경량화된 하이브리드 심층 학습 모델을 제안합니다. 제안된 CNN-LSTM(합성곱 신경망 - 장단기 메모리) 모델은 공간적 특징을 추출하기 위해 여러 개의 1차원 합성곱 층을 포함하고, 생성된 특징 맵을 순환층에 입력하여 장기적인 시간적 의존성을 식별합니다. 생리학적 센서 기반의 원시 EMG 데이터셋과 최소한의 전처리를 통합하여 제안된 모델을 학습 및 테스트한 결과, 최고 정확도 84.12%와 평균 정확도 83%를 달성했습니다. 제안된 모델은 벤치마크 모델들을 능가하는 최적의 성능 차이를 보였으며, 다른 심층 학습 모델보다 훨씬 적은 계산 시간 내에 패턴을 일반화했습니다.

```

나이 25세 ~ 30세의, 공격적인 상황을 경험한, 남성 3명과 여성 1명의 참가자들이 20개의 실험에서 10개의 general한 행동과 10개의 공격적 행동을 수행하고 각 행동에서 발생하는 근전기 수축량을 얻어왔다. 그러면 각 실험자마다 20개의 행동을 명령하고, 그로 인하여 발생한 근전기 수축량을 시계열 데이터로 gathering한 것이라고 파악된다. 전극의 수는 8개로, 각 전극이 근육 채널 ch1 ~ ch8에 대응하는 8개의 입력 sequence를 나타낸다. 

<br>

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.03.01.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.03.01.png)


이 논문에서 저자는 1D-CNN으로 중요한 Feature을 추출하고 시간 데이터를 캡처하기 위하여 순환 신경망인 LSTM을 배치하였다. 


![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.05.20.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.05.20.png)

CNN-GRU, ANN과 같이 더욱 시간이 많이 걸리는 모델 대신 저자가 모델링한 CNN-LSTM이 시간 절약이 가능하며, 가장 높은 Accuracy와 낮은 test loss를 보여주고 있음을 위 figure에서 알 수 있다. CNN-LSTM 이외의 모델에서 발생한 문제점을 저자는 아래와 같이 언급하였다.

- 머신러닝 모델(RF 및 XGB)의 기능 부족과 직관으로 인해 모델은 확률 함수를 사용하여 복잡한 DLA를 인식해야 했음
- ANN은 기능 엔지니어링을 위한 컨볼루션 및 메모리 기능이 부족하고, 훈련 세트를 검증하는 동안 대부분의 성능을 잃기 때문에 공간적(예: 방향, 회전 속도, 최대 가속도 등) 및 시간적(예: 시간 경과에 따른 평균 가속도, 시간 경과에 따른 최대 방향 등) 기능을 캡처하지 못함
- CNN-GRU를 사용하여 시간 및 주파수 영역 기능을 획득했지만, 모델 훈련 중에 과적합되어 데이터 패턴을 최적으로 일반화하지 못함

![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.32.23.png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202024-09-15%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%202.32.23.png)

또한, CNN에 왜 LSTM을 붙여서 모델링하여야 하는지를 본 데이터가 time-series 데이터셋이라는 점을 강조하면서 설명하였다. 위 figure에서 나와있듯이, LSTM 레이어를 제거하면 정확도가 58%, 45%, 42% 및 80%의 평균 정확도로 제안된 모델보다 낮은 성능을 보였으며, 성능도가 74%로 크게 감소하여 기억 기능을 사용하여 시간적 종속성을 캡처하는 데 중요한 역할을 한다는 점을 강조하고 있다.


그러면 결국엔 아래와 같이 모델링하지 않았을까 예측할 수 있다.

- **각 피실험자마다 20개의 행동(normal 10개, aggressive 10개)을 classification하기 위해 종단 layer의 노드 수를 20, activation은 softmax**
    - 이 부분을 이렇게 변형할 수도 있다.
        - 이진 분류로, 10개의 기본 행동 dataset과 10개의 공격적 행동 dataset을 새로운 dataframe으로 만들어 inputing -> 이 행동이 기본 행동인가, 공격적 행동인가?
        - 다중 분류로, 4명의 dataset을 dataframe으로 전부 만들어서, 각 record는 사용자 번호로 labeling -> 이 근전기 수축량을 가진 참가자는 몇번인가?
- **위 figure 1을 보았을 때 Conv1D layer을 2개를 겹친 것을 보니 stacked CNN을 사용한듯 보임**

각 데이터 파일들에 대하여 아래와 같이 EDA를 실행하려고 한다.

- **(1) 각 데이터 파일들에 대하여 형태 조정 및 데이터 전처리**
    - 현재 데이터셋은 .rar으로 압축되어 있고, 압축을 풀면 각 사용자마다 측정한 데이터 폴더 (sub1, sub2, sub3, sub3)이 존재한다.
    - 각 폴더를 열면 'Normal', 'Aggressive' 폴더가 들어있고, 각 폴더에는 해당되는 행동의 수치를 txt로 저장하고 있다.
    - 자세한 구조는 이따 os 라이브러리의 내장 method를 통하여 디렉토리에 직접 접근한 후 파일을 열어 확인해보자.
- **(2) 기초통계량 파악 및 시각화를 통한 분포 확인**
    - 아래와 같이 시각화하여 분포를 확인해본다.
        - (1) 각 행동에 대하여 각 feature의 분포를 plot으로 확인
        - (2) 각 행동마다 heatmap 그려 상관관계 확인 
- **(3) 필요 시 z-score normalization 진행**


------

### EDA 

아래와 같은 순서로 진행한다.

- **(1) 각 데이터 파일들에 대하여 형태 조정 및 데이터 전처리**
- **(2) 기초통계량 파악**
- **(3) 다양한 시각화를 통한 분포 확인 및 필요 시 z-score normalization**

#### (1) 각 데이터 파일들에 대하여 형태 조정 및 데이터 전처리

- 일단, 근전도 수치가 들어있는 dataset의 형태가 모두 txt이고 행동마다 모든 데이터가 독립적인 파일로 존재하기 때문에 하나로 병합하여 한 dataframe을 구축할 것이다.
- 파일을 열어 구조부터 확인하고, 구조 확인 후 병합하며, 병합이 완료되면 각 record마다 label을 붙인다.
    - 추후에 label encoding하지 않아도 되도록, 0-based로 target 나타낸다
- 병합할 때 각 열마다의 feature name은 각 데이터셋이 나타내는 행동으로 붙인다. 

In [175]:
# 현재 위치 디렉토리 이동 및 ls -lha로 현재 디렉토리 구조 확인

import os

os.system('cd ../../ && cd ./data/EMG/EMG && ls -lha && cd ./sub1 && ls -lha')

'''
    4명의 피실험자, 각 피실험자 폴더마다 Aggressive, Normal 폴더 있음
'''

total 16
drwxr-xr-x@ 7 alphastation  staff   224B  9 15 18:15 [34m.[m[m
drwxr-xr-x  6 alphastation  staff   192B  9 15 18:15 [34m..[m[m
-rw-rw-r--@ 1 alphastation  staff   4.1K  9 12 15:25 readme.txt
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34msub1[m[m
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34msub2[m[m
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34msub3[m[m
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34msub4[m[m
total 0
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34m.[m[m
drwxr-xr-x@ 7 alphastation  staff   224B  9 15 18:15 [34m..[m[m
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34mAggressive[m[m
drwxr-xr-x@ 4 alphastation  staff   128B  9 15 18:15 [34mNormal[m[m


'\n    4명의 피실험자, 각 피실험자 폴더마다 Aggressive, Normal 폴더 있음\n'

In [176]:
# Aggressive와 Normal 각각에 있는 txt 파일 이름 확인

os.system('cd ../../ && cd ./data/EMG/EMG/sub1/Aggressive/txt && ls -lha')
os.system('cd ../../ && cd ./data/EMG/EMG/sub1/Normal/txt && ls -lha')

total 7536
drwxr-xr-x@ 12 alphastation  staff   384B  9 15 18:15 [34m.[m[m
drwxr-xr-x@  4 alphastation  staff   128B  9 15 18:15 [34m..[m[m
-rw-rw-r--@  1 alphastation  staff   389K  9 12 15:25 Elbowing.txt
-rw-rw-r--@  1 alphastation  staff   381K  9 12 15:25 Frontkicking.txt
-rw-rw-r--@  1 alphastation  staff   393K  9 12 15:25 Hamering.txt
-rw-rw-r--@  1 alphastation  staff   342K  9 12 15:25 Headering.txt
-rw-rw-r--@  1 alphastation  staff   389K  9 12 15:25 Kneeing.txt
-rw-rw-r--@  1 alphastation  staff   379K  9 12 15:25 Pulling.txt
-rw-rw-r--@  1 alphastation  staff   371K  9 12 15:25 Punching.txt
-rw-rw-r--@  1 alphastation  staff   371K  9 12 15:25 Pushing.txt
-rw-rw-r--@  1 alphastation  staff   380K  9 12 15:25 Sidekicking.txt
-rw-rw-r--@  1 alphastation  staff   353K  9 12 15:25 Slapping.txt
total 6072
drwxr-xr-x@ 12 alphastation  staff   384B  9 15 18:15 [34m.[m[m
drwxr-xr-x@  4 alphastation  staff   128B  9 15 18:15 [34m..[m[m
-rw-rw-r--@  1 alphastation  staf

0

In [177]:
# 위 파일 중 Normal/Running.txt 20줄만 출력

with open('../../data/EMG/EMG/sub1/Normal/txt/Running.txt', 'r') as file :
    for i, line in enumerate(file) :
        if i == 20 : # 20줄만 출력하기
            break
            
        print (line.strip())  

131	-91	2018	-75	4000	-4000	-1999	267
93	-233	2917	-78	4000	-4000	-2549	251
100	-369	3007	-84	4000	-4000	-4000	195
-108	-399	1770	-86	3232	-4000	-4000	186
-342	-192	815	-63	2759	-4000	-4000	140
-420	-4	-17	-22	2581	-4000	-4000	76
-473	40	-523	63	2386	-4000	-4000	154
-323	78	-317	124	1994	-4000	-4000	239
-91	139	-761	105	1669	-4000	-3637	241
107	56	-107	79	1971	-3848	-1684	296
334	0	2093	-105	2101	-3643	238	131
487	21	2095	-216	2101	-3405	1353	-450
537	-37	-146	-251	1850	-3144	2036	-909
281	-47	-1554	-359	420	-2895	2760	-1296
245	-55	-2241	-279	-1121	-2612	3754	-1709
277	8	-2318	-133	-2436	-2382	4000	-1831
102	98	-2497	-40	-4000	-2095	4000	-1911
-84	180	-2342	94	-4000	-1755	4000	-1820
-255	225	-1274	154	-3387	-1375	4000	-1204
-286	172	457	121	-1703	-875	4000	-419


각 폴더의 이름은 **행동**을 의미하며, 이때 각 파일에는 위와 같이 근전도 수치가 들어있다. 8개의 열로, 각각 아래와 같은 의미를 내포한다.

- R-Bic: 오른쪽 이두근 (C1)  
- R-Tri: 오른쪽 삼두근 (C2)  
- L-Bic: 왼쪽 이두근 (C3)  
- L-Tri: 왼쪽 삼두근 (C4)  
- R-Thi: 오른쪽 허벅지 (C5)  
- R-Ham: 오른쪽 햄스트링 (C6)  
- L-Thi: 왼쪽 허벅지 (C7)  
- L-Ham: 왼쪽 햄스트링 (C8)

따라서 일단은 각 행동별로 모든 수치 데이터 파일을 csv로 바꾼 후, 사용자별로 csv 파일을 만든다. 또한 각 행동별로의 dataframe을 병합할 때엔 행 기준으로 한다. 최종적으로 각 행동마다의 csv를 행 기준 병합으로 합쳐 총 $10000 \times 20 = 200000$개의 record를 가진 concatenate version을 만든다. (pandas 안에서 local로 병합한다.)

In [178]:
# 모든 파일을 csv로 변경 -> dataframe 만들기

import glob

# data dir
directory = '../../data/EMG/EMG'

behaviors = [
    # Aggressive
    "Elbowing",
    "Frontkicking",
    "Hamering",
    "Headering",
    "Kneeing",
    "Pulling",
    "Punching",
    "Pushing",
    "Sidekicking",
    "Slapping",
    
    # Normal
    "Bowing",
    "Clapping",
    "Handshaking",
    "Hugging",
    "Jumping",
    "Running",
    "Seating",
    "Standing",
    "Walking",
    "Waving"
]

# dataframe 넣을 directory
# 이중 directory 구조, 각 행동마다에 dataframe 넣을 것
dir_df = {}
for i in range (1, 5) :
    dir_compo = {}
    for behavior in behaviors : # 행동
        dir_compo[behavior] = None
    dir_df[f'sub{i}'] = dir_compo
    
print (dir_df)

txt_files = glob.glob(os.path.join(directory, '**', '*.txt'), 
                      recursive=True) # 하위 디렉토리까지 txt 파일 찾기

# readme_file = os.path.join(directory, 'readme.txt')
# txt_files = [file for file in txt_files if file != readme_file]

# header (feature의 이름들)
muscles = [
    "R-Bic",
    "R-Tri",
    "R-Thi",
    "R-Ham",
    "L-Bic",
    "L-Tri",
    "L-Thi",
    "L-Ham"
]

# txt -> csv
for i, txt_file in enumerate(txt_files) :
    try :
        with open(txt_file, 'r') as file :
            lines = file.readlines() # 파일 읽기

        csv_file = txt_file.replace('.txt', '.csv')

        with open(csv_file, 'w', encoding='utf-8') as file :
            for line in lines : # 라인마다
                csv_line = line.strip().replace('\t', ',')
                file.write(csv_line + '\n')

        os.remove(txt_file) # 원본 삭제
        
        print(f'{txt_file} -> {csv_file} : SUCCESS')
    
        df_temp = pd.read_csv(csv_file, names=muscles)
        print (df_temp.shape)
        
        # 피실험자 번호 찾기 -> directory에 데이터프레임 넣기
        for j in range(1, 5) :
            if str(j) in csv_file :
                for behavior in behaviors :
                    if behavior in csv_file :
                        dir_df[f'sub{j}'][behavior] = df_temp
                        break
        
    except Exception as e :
        print(f"{e}")
        
    print ('\n---------------------\n')

{'sub1': {'Elbowing': None, 'Frontkicking': None, 'Hamering': None, 'Headering': None, 'Kneeing': None, 'Pulling': None, 'Punching': None, 'Pushing': None, 'Sidekicking': None, 'Slapping': None, 'Bowing': None, 'Clapping': None, 'Handshaking': None, 'Hugging': None, 'Jumping': None, 'Running': None, 'Seating': None, 'Standing': None, 'Walking': None, 'Waving': None}, 'sub2': {'Elbowing': None, 'Frontkicking': None, 'Hamering': None, 'Headering': None, 'Kneeing': None, 'Pulling': None, 'Punching': None, 'Pushing': None, 'Sidekicking': None, 'Slapping': None, 'Bowing': None, 'Clapping': None, 'Handshaking': None, 'Hugging': None, 'Jumping': None, 'Running': None, 'Seating': None, 'Standing': None, 'Walking': None, 'Waving': None}, 'sub3': {'Elbowing': None, 'Frontkicking': None, 'Hamering': None, 'Headering': None, 'Kneeing': None, 'Pulling': None, 'Punching': None, 'Pushing': None, 'Sidekicking': None, 'Slapping': None, 'Bowing': None, 'Clapping': None, 'Handshaking': None, 'Hugging': N

(9909, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Bowing.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Bowing.csv : SUCCESS
(10474, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Clapping.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Clapping.csv : SUCCESS
(10425, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Jumping.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Jumping.csv : SUCCESS
(9974, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Handshaking.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Handshaking.csv : SUCCESS
(9796, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Running.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Running.csv : SUCCESS
(9655, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Seating.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Seating.csv : SUCCESS
(9844, 8)

---------------------

../../data/EMG/EMG/sub3/Normal/txt/Walking.txt -> ../../data/EMG/EMG/sub3/Normal/txt/Walking.csv : SUCCESS
(10

In [179]:
# 모든 파일을 열어서 결측치 처리하기

