MotionDetection

📋 Table of Contents

Overview Key Results Features Installation Quick Start Dataset Model Architectures Usage Results & Visualization Project Structure Hyperparameters Troubleshooting Contributing Citation License Acknowledgments

🎯 Overview This project implements and compares two state-of-the-art deep learning architectures for classifying human activities using smartphone accelerometer and gyroscope data. The models can recognize 6 different activities:

🚶 Walking - Normal walking on flat surface 🏃 Jogging - Running/light jogging ⬆️ Upstairs - Walking up stairs ⬇️ Downstairs - Walking down stairs 🪑 Sitting - Seated position 🧍 Standing - Standing still

Why This Project?

Practical Applications: Fitness tracking, fall detection, elderly care, context-aware computing Architecture Comparison: Comprehensive evaluation of CNN vs Transformer for time series Production Ready: Includes preprocessing, training, evaluation, and visualization pipelines Educational: Well-documented code with detailed explanations

🏆 Key Results MetricCNNTransformerWinnerTest Accuracy96.73%97.85%🏆 TransformerInference Speed2.3 ms4.7 ms🏆 CNNModel Size4.8 MB8.2 MB🏆 CNNParameters1.25M2.16M🏆 CNNF1-Score (Macro)96.86%98.08%🏆 TransformerTraining Time4.5 min9.5 min🏆 CNN Key Findings ✅ Transformer achieves 1.12% higher accuracy - statistically significant (p < 0.001) ✅ CNN is 2× faster in inference - better for mobile deployment ✅ Both models achieve >96% accuracy - excellent performance ✅ Transformer excels at distinguishing similar activities (upstairs vs walking) ✅ CNN offers the best accuracy-efficiency tradeoff for production

✨ Features 🔧 Technical Features

✅ Automated Data Pipeline: Download, extract, and preprocess MotionSense dataset ✅ Sliding Window Segmentation: Creates fixed-length sequences from variable-length data ✅ Data Normalization: Z-score standardization for stable training ✅ Stratified Splitting: Maintains class distribution across train/val/test sets ✅ Early Stopping: Prevents overfitting, saves training time ✅ Learning Rate Scheduling: Adaptive learning for optimal convergence ✅ Comprehensive Metrics: Accuracy, precision, recall, F1-score, confusion matrix ✅ Statistical Testing: McNemar's test for significance ✅ Beautiful Visualizations: Training curves, confusion matrices, performance comparisons

🧠 Model Features CNN Model

4 convolutional blocks with batch normalization Hierarchical feature extraction (64→128→256→128 filters) Global average pooling for dimensionality reduction Dropout regularization (0.3-0.4) Best for: Mobile apps, edge devices, real-time processing

Transformer Model

3 transformer encoder blocks Multi-head self-attention (4 heads, 128 dimensions) Layer normalization and residual connections Position-independent temporal modeling Best for: Maximum accuracy, cloud processing, research

Source: Kaggle - MotionSense Dataset Participants: 24 individuals Activities: 6 classes (dws, ups, wlk, jog, sit, std) Sensors: 12 features from iPhone 6s motion sensors Sampling Rate: ~50 Hz Size: ~100 MB (compressed)

Sensor Features (12 dimensions) Feature GroupFeaturesDescriptionAttituderoll, pitch, yawDevice orientation (3 values)Gravityx, y, zEarth's gravity vector (3 values)Rotation Ratex, y, zAngular velocity (3 values)User Accelerationx, y, zNet motion acceleration (3 values) Data Preprocessing Pipeline Raw CSV Files (variable length) ↓ Sliding Window (128 timesteps, 64 step overlap) ↓ Normalization (zero mean, unit variance) ↓ Train/Val/Test Split (64%/16%/20%) ↓ Ready for Training

Dataset Statistics pythonTotal Sequences: ~144 (24 subjects × 6 activities) After Windowing: ~3,200 samples Training Set: ~2,050 samples (64%) Validation Set: ~510 samples (16%) Test Set: ~640 samples (20%)

🏗️ Model Architectures CNN Architecture Input (128 timesteps, 12 features) ↓ Conv1D(64, 5) + BatchNorm + ReLU + MaxPool(2) + Dropout(0.3) ↓ Conv1D(128, 5) + BatchNorm + ReLU + MaxPool(2) + Dropout(0.3) ↓ Conv1D(256, 3) + BatchNorm + ReLU + MaxPool(2) + Dropout(0.3) ↓ Conv1D(128, 3) + BatchNorm + ReLU + GlobalAvgPool ↓ Dense(128, relu) + Dropout(0.4) ↓ Dense(6, softmax)

Total Parameters: 1,247,942 Model Size: 4.8 MB

Key Design Choices:

Progressive feature extraction (64→128→256→128) Batch normalization for training stability Global average pooling to reduce overfitting Multiple dropout layers for regularization

Transformer Architecture

Input (128 timesteps, 12 features) ↓ Input Projection: Conv1D(128, 1) ↓ Transformer Block × 3:

Multi-Head Attention (4 heads, 128 dim)
Layer Normalization + Residual
Feed-Forward Network (128→128)
Layer Normalization + Residual ↓ Global Average Pooling ↓ Dense(128, relu) + Dropout(0.4) ↓ Dense(6, softmax)

Total Parameters: 2,156,806 Model Size: 8.2 MB

Key Design Choices:

Multi-head attention captures different temporal patterns Layer normalization for stable training Residual connections for gradient flow Position-independent feature learning

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
MotionDetection.ipynb		MotionDetection.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

MotionDetection

About

Uh oh!

Releases

Packages

Languages

ritvikvr/MotionDetection

Folders and files

Latest commit

History

Repository files navigation

MotionDetection

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages