# > 레이블이 있는 MHEALTH 데이터셋을 사용하여 행동 분류 모델을 PyTorch로 구현하고, 이 모델을 활용하여 레이블이 없는 RiskPrediction 데이터셋의 자이로스코프 데이터를 기반으로 행동 레이블을 예측   
또한, 전체 코드를 함수화하여 재사용 가능하도록 구성하고, 데이터 분석 단계를 데이터셋 파악부터 차례대로 진행

# 목차

1. [환경 설정 및 라이브러리 설치](#1.-환경-설정-및-라이브러리-설치)
2. [구성 파일 설정](#2.-구성-파일-설정)
3. [데이터 로딩 및 전처리](#3.-데이터-로딩-및-전처리)
4. [데이터 증강](#4.-데이터-증강)
5. [레이블 인코딩](#5.-레이블-인코딩)
6. [데이터셋 클래스 정의](#6.-데이터셋-클래스-정의)
7. [모델 정의](#7.-모델-정의)
    - 7.1 [Transformer 기반 모델](##7.1-Transformer-기반-모델)
    - 7.2 [CNN 기반 특징 추출기 모델](##7.2-CNN-기반-특징-추출기-모델)
8. [조기 종료 콜백 정의](#8.-조기-종료-콜백-정의)
9. [학습 및 평가 함수](#9.-학습-및-평가-함수)
10. [모델 해석 함수](#10.-모델-해석-함수)
    - 10.1 [SHAP 해석 함수](##10.1-SHAP-해석-함수)
    - 10.2 [LIME 해석 함수](##10.2-LIME-해석-함수)
11. [하이퍼파라미터 튜닝](#11.-하이퍼파라미터-튜닝)
12. [앙상블 모델 (스태킹, 배깅, 부스팅)](#12.-앙상블-모델-(스태킹,-배깅,-부스팅))
13. [자동화 및 파이프라인 관리](#13.-자동화-및-파이프라인-관리)
    - 13.1 [MLflow를 사용한 실험 추적](##13.1-MLflow를-사용한-실험-추적)
    - 13.2 [DVC를 사용한 데이터 및 모델 버전 관리](##13.2-DVC를-사용한-데이터-및-모델-버전-관리)
14. [배치 처리 및 실시간 예측](#14.-배치-처리-및-실시간-예측)
15. [보안 및 프라이버시 고려](#15.-보안-및-프라이버시-고려)
16. [결론 및 추가 팁](#16.-결론-및-추가-팁)

---

## 1. 환경 설정 및 라이브러리 설치

[목차](#목차)

In [1]:
# 필요한 라이브러리 설치 (한 번만 실행)
# !pip install numpy pandas torch scikit-learn matplotlib seaborn shap lime tqdm joblib optuna PyYAML mlflow dvc imbalanced-learn xgboost lightgbm transformers

In [5]:
# 라이브러리 임포트
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader

from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import StratifiedKFold, train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.ensemble import RandomForestClassifier, BaggingClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.utils.class_weight import compute_class_weight
from sklearn.base import BaseEstimator, ClassifierMixin, clone
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA
from sklearn.svm import SVC

import warnings
import shap
from lime import lime_tabular
from tqdm.auto import tqdm
import logging
import joblib
import yaml
import optuna
import mlflow
import dvc.api

from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler

import xgboost as xgb
import lightgbm as lgb
from transformers import BertModel, BertTokenizer  # Transformer 모델

# 경고 무시
warnings.filterwarnings('ignore')

# 로깅 설정
logging.basicConfig(
    filename='training.log',  # 로그 파일명
    filemode='a',             # 추가 모드
    format='%(asctime)s - %(levelname)s - %(message)s',  # 로그 포맷
    level=logging.INFO        # 로그 레벨
)
logger = logging.getLogger(__name__)

def log_and_print(message: str) -> None:
    """
    메시지를 콘솔에 출력하고 로그 파일에 기록

    Parameters:
    - message (str): 출력 및 기록할 메시지
    """
    print(message)
    logger.info(message)

# 디바이스 설정 (GPU 사용 가능 시 GPU 사용)
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
log_and_print(f'Using device: {DEVICE}')

ModuleNotFoundError: No module named 'transformers'

In [None]:
!conda install conda-forge::transformers -y

---

## 2. 로깅 설정

[목차](#목차)

---

## 3. 데이터 탐색적 분석 (EDA)

[목차](#목차)

---

## 4. 데이터 전처리 및 특성 공학

[목차](#목차)

---

## 5. 레이블 인코딩 및 디코딩

[목차](#목차)

---

## 6. 데이터셋 클래스 정의

[목차](#목차)

---

## 7. 데이터 증강 함수 정의

[목차](#목차)

---

## 8. 모델 정의
[목차](#목차)

### 8.1 Transformer 기반 시계열 모델

### 8.2 1D CNN 기반 특징 추출기

---

## 9. 조기 종료 콜백 정의

[목차](#목차)

---

## 10. 모델 학습 및 평가 함수
[목차](#목차)

### 10.1 Transformer 모델 학습 함수

### 10.2 1D CNN 모델 학습 함수

### 10.3 특징 추출 함수

### 10.4 모델 해석 함수 (SHAP 및 LIME)

---

## 11. 앙상블 모델 정의 및 학습

[목차](#목차)

---

## 12. RiskPrediction 데이터셋 예측 및 결과 활용

[목차](#목차)

---

## 13. 전체 프로세스 실행 코드

[목차](#목차)