# **라벨링이 있는 UCI-HAR 데이터셋을 활용하여 행동 라벨을 추가하는 방법**
***
> **UCI-HAR 데이터셋을 사용하여 LSTM 모델을 학습하고, 이를 라벨이 없는 데이터에 적용하여 활동 라벨을 예측**   
> 전체 프로세스:
> 1. UCI-HAR 데이터 로드 및 전처리 (PyTorch Tensor로 변환)
> 2. LSTM 모델 정의
> 3. 모델 학습
> 4. 라벨 없는 데이터에 대해 예측

In [1]:
import torch
import torch.nn as nn
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split

## **1. UCI-HAR 데이터 로드 및 전처리**
***
> UCI-HAR 데이터셋을 로드   
> 자이로스코프 데이터를 가져옴   
> 데이터를 정규화하고 시계열 형태로 변환하여 LSTM 모델 학습을 준비

In [2]:
## **1. UCI-HAR 데이터 로드 및 전처리**
# GPU 또는 CPU 설정 통일
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# UCI-HAR 데이터셋 경로
uci_har_path = './원본 데이터/UCI HAR Dataset/'

# 자이로스코프 데이터 로드 함수
def load_ucihar_data():
    # 파일 경로 설정
    gyro_x_train_path = uci_har_path + 'train/Inertial Signals/body_gyro_x_train.txt'
    gyro_y_train_path = uci_har_path + 'train/Inertial Signals/body_gyro_y_train.txt'
    gyro_z_train_path = uci_har_path + 'train/Inertial Signals/body_gyro_z_train.txt'
    labels_train_path = uci_har_path + 'train/y_train.txt'
    
    # 자이로스코프 데이터 로드
    gyro_x_train = pd.read_csv(gyro_x_train_path, sep='\s+', header=None).values
    gyro_y_train = pd.read_csv(gyro_y_train_path, sep='\s+', header=None).values
    gyro_z_train = pd.read_csv(gyro_z_train_path, sep='\s+', header=None).values
    
    # 라벨 데이터 로드
    labels_train = pd.read_csv(labels_train_path, sep='\s+', header=None).values - 1  # 0부터 시작하도록 -1 처리
    
    # 자이로 데이터를 결합하여 (samples, timesteps, features) 형태로 만듦
    X_train = np.stack([gyro_x_train, gyro_y_train, gyro_z_train], axis=-1)
    
    return X_train, labels_train

# 데이터 로드 및 전처리
X_train, y_train = load_ucihar_data()

# 데이터 정규화 (PyTorch 텐서로 변환 전에 적용)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train.reshape(-1, X_train.shape[-1])).reshape(X_train.shape)

# PyTorch 텐서로 변환
X_train_tensor = torch.tensor(X_train, dtype=torch.float32)
y_train_tensor = torch.tensor(y_train, dtype=torch.long)

# 데이터 증강: 가우시안 잡음 추가 함수
def add_gaussian_noise(data, noise_factor=0.05):
    noise = np.random.randn(*data.shape)
    augmented_data = data + noise_factor * noise
    augmented_data = np.clip(augmented_data, -1.0, 1.0)  # 데이터 범위를 유지
    return augmented_data

# 증강된 데이터 생성
X_train_augmented = add_gaussian_noise(X_train)

# 증강된 데이터를 추가로 텐서 변환
X_train_tensor_augmented = torch.tensor(X_train_augmented, dtype=torch.float32)

# 증강된 데이터와 원본 데이터 결합
X_train_tensor_full = torch.cat([X_train_tensor, X_train_tensor_augmented], dim=0)
y_train_tensor_full = torch.cat([y_train_tensor, y_train_tensor], dim=0)

# 데이터셋을 학습 및 검증 데이터로 나누기 (train/val split)
X_train_tensor, X_val_tensor, y_train_tensor, y_val_tensor = train_test_split(X_train_tensor_full, 
                                                                              y_train_tensor_full, 
                                                                              test_size=0.2, 
                                                                              random_state=42)

# PyTorch 데이터셋 클래스 정의
class UCIHARData(Dataset):
    def __init__(self, X, y):
        self.X = X
        self.y = y

    def __len__(self):
        return len(self.y)

    def __getitem__(self, idx):
        return self.X[idx], self.y[idx]

# 데이터 로더 생성
train_dataset = UCIHARData(X_train_tensor, y_train_tensor)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)

val_dataset = UCIHARData(X_val_tensor, y_val_tensor)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)

## **2. LSTM 모델 정의**

In [3]:
class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes, dropout_prob):
        super(LSTMModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # LSTM 정의
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True, dropout=dropout_prob)
        
        # Batch Normalization 추가
        self.batch_norm = nn.BatchNorm1d(hidden_size)

        # 드롭아웃 추가
        self.dropout = nn.Dropout(dropout_prob)

        # Fully connected layer 정의
        self.fc = nn.Linear(hidden_size, num_classes)

    def forward(self, x):
        # LSTM의 출력을 받아 마지막 타임스텝에서 예측값 도출
        out, _ = self.lstm(x)
        out = self.batch_norm(out[:, -1, :])  # Batch Normalization 적용
        out = self.dropout(out)  # 드롭아웃 적용
        out = self.fc(out)  # 마지막 타임스텝의 출력을 사용하여 분류
        return out



# 모델 인스턴스 생성
input_size = X_train.shape[2]  # 자이로스코프의 X, Y, Z 축 (feature 수)
hidden_size = 128
num_layers = 3
num_classes = 6  # 6개의 활동 클래스 (walking, sitting 등)
dropout_prob = 0.6

model = LSTMModel(input_size=input_size, 
                  hidden_size=hidden_size, 
                  num_layers=num_layers, 
                  num_classes=num_classes, 
                  dropout_prob=dropout_prob)

model = model.to(device)

# 손실 함수 및 옵티마이저 정의
criterion = nn.CrossEntropyLoss()  # 다중 클래스 분류 문제에 적합한 손실 함수
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # Adam 옵티마이저

## **3. 모델 학습**

In [4]:
# 체크포인트 저장 함수
def save_checkpoint(epoch, model, optimizer, filename="checkpoint.pth.tar"):
    state = {'epoch': epoch,
             'state_dict': model.state_dict(),
             'optimizer': optimizer.state_dict()}
    torch.save(state, filename)

# 최고 검증 정확도를 저장하기 위한 변수
best_val_accuracy = 0.0

# 스케줄러 정의 (ReduceLROnPlateau)
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, 
                                                       mode='min', 
                                                       factor=0.5, 
                                                       patience=2, 
                                                       verbose=True)

def train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=10, patience=3):
    global best_val_accuracy
    model.train()
    early_stop_counter = 0
    
    for epoch in range(num_epochs):
        running_loss = 0.0
        correct = 0
        total = 0

        # 훈련 루프
        for i, (inputs, labels) in enumerate(train_loader):
            inputs = inputs.to(device)
            labels = labels.to(device).squeeze()
            
            optimizer.zero_grad()
            
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            
            running_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total += labels.size(0)
            correct += (predicted.cpu() == labels.cpu()).sum().item()

        accuracy = 100 * correct / total
        print(f"Epoch [{epoch+1}/{num_epochs}], Training Loss: {running_loss/len(train_loader):.4f}, Training Accuracy: {accuracy:.2f}%")
  
        # 검증 데이터셋에서 정확도 및 손실 계산
        model.eval()
        val_loss = 0.0
        val_correct = 0
        val_total = 0
        
        with torch.no_grad():
            for inputs, labels in val_loader:
                inputs = inputs.to(device)
                labels = labels.to(device).squeeze()

                outputs = model(inputs)
                loss = criterion(outputs, labels) # 검증 손실 계산
                val_loss += loss.item() # 검증 손실 누적

                _, predicted = torch.max(outputs, 1)
                val_total += labels.size(0)
                val_correct += (predicted.cpu() == labels.cpu()).sum().item()

        val_accuracy = (val_correct / val_total) * 100
        val_loss = val_loss / len(val_loader)  # 평균 검증 손실 계산

        print(f"Validation Accuracy: {val_accuracy:.2f}%")

        # **스케줄러 호출**
        scheduler.step(val_loss)  # 검증 손실에 따라 학습률 조정

        # **최고 검증 정확도 갱신 및 모델 저장**
        if val_accuracy > best_val_accuracy:
            best_val_accuracy = val_accuracy
            save_checkpoint(epoch, model, optimizer, filename="best_model.pth.tar")
            print(f"Best model saved with accuracy: {best_val_accuracy:.2f}%")
            early_stop_counter = 0
        else:
            early_stop_counter += 1

        # 조기 종료: patience 만큼 성능 개선이 없으면 학습 중단
        if early_stop_counter >= patience:
            print(f"Early stopping at epoch {epoch+1}")
            break
        
        model.train()
        torch.cuda.empty_cache()

# 모델 학습
train_model(model, train_loader, val_loader, criterion, optimizer, num_epochs=20, patience=5)



Epoch [1/20], Training Loss: 1.3608, Training Accuracy: 33.13%
Validation Accuracy: 39.51%
Best model saved with accuracy: 39.51%
Epoch [2/20], Training Loss: 1.2408, Training Accuracy: 40.12%
Validation Accuracy: 30.23%
Epoch [3/20], Training Loss: 1.4483, Training Accuracy: 31.22%
Validation Accuracy: 38.97%
Epoch [4/20], Training Loss: 1.0188, Training Accuracy: 46.41%
Validation Accuracy: 52.26%
Best model saved with accuracy: 52.26%
Epoch [5/20], Training Loss: 0.8505, Training Accuracy: 55.85%
Validation Accuracy: 55.93%
Best model saved with accuracy: 55.93%
Epoch [6/20], Training Loss: 0.7937, Training Accuracy: 57.60%
Validation Accuracy: 60.32%
Best model saved with accuracy: 60.32%
Epoch [7/20], Training Loss: 0.7296, Training Accuracy: 59.92%
Validation Accuracy: 61.85%
Best model saved with accuracy: 61.85%
Epoch [8/20], Training Loss: 0.7047, Training Accuracy: 60.62%
Validation Accuracy: 62.73%
Best model saved with accuracy: 62.73%
Epoch [9/20], Training Loss: 0.6799, T

## **4. 라벨 없는 데이터에 대해 예측**
***
> 학습된 모델을 사용하여 라벨이 없는 자이로스코프 데이터에 대해 행동을 예측

In [5]:
# 라벨 없는 데이터 로드 및 전처리 (UCI-HAR와 동일한 형식으로 처리)
gyro_data = pd.read_csv('./원본 데이터/자이로 데이터.csv')
gyro_data_values = gyro_data[['X', 'Y', 'Z']].values
gyro_data_normalized = scaler.transform(gyro_data_values)

# 슬라이딩 윈도우 함수 정의
def create_sliding_windows(data, seq_len):
    sequences = []
    for i in range(len(data) - seq_len + 1):
        sequences.append(data[i:i + seq_len])
    return np.array(sequences)

# 라벨 없는 데이터에 대해 시퀀스 길이 맞추기
seq_len = X_train.shape[1]  # 학습에 사용된 시퀀스 길이
gyro_data_sliding_windows = create_sliding_windows(gyro_data_normalized, seq_len)

# PyTorch 텐서로 변환
X_unlabeled = torch.tensor(gyro_data_sliding_windows, dtype=torch.float32)


# 모델 예측
model.eval()
with torch.no_grad():
    X_unlabeled = X_unlabeled.to(device)
    outputs = model(X_unlabeled)
    predicted_labels = torch.argmax(outputs, dim=1)

# 예측된 라벨을 활동 이름으로 매핑
activity_labels = {0: "walking", 1: "walking_upstairs", 2: "walking_downstairs", 3: "sitting", 4: "standing", 5: "laying"}
predicted_activities = [activity_labels[label.item()] for label in predicted_labels]

# 결과 출력
for i, activity in enumerate(predicted_activities[:10]):  # 예시로 10개의 결과만 출력
    print(f"Sample {i}: {activity}")

RuntimeError: [enforce fail at alloc_cpu.cpp:114] data. DefaultCPUAllocator: not enough memory: you tried to allocate 9094440960 bytes.