# Analiza działania SVM dla danych:
- Human Activity Recognition Using Smartphones
    - [paper](https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones)
    - [UCI HAR DATASET](https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.zip)

## DANE [Human Activity Recognition Using Smartphones Dataset](https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones)
### Cel Zbioru Danych
Celem zbioru danych jest umożliwienie klasyfikacji aktywności fizycznych na podstawie sygnałów z akcelerometru i żyroskopu wbudowanych w smartfony.
### Process zbierania danych
**Urządzenie**: Samsung Galaxy S II
**Częstotliwość próbkowania**: `50 Hz`
**Aktywności**:
1. **WALKING** (chodzenie)
2. **WALKING_UPSTAIRS** (wchodzenie po schodach)
3. **WALKING_DOWNSTAIRS** (schodzenie po schodach)
4. **SITTING** (siedzenie)
5. **STANDING** (stanie)
6. **LAYING** (leżenie)
Dane zostały podzielone na zbiór treningowy (70% uczestników) i testowy (30% uczestników).

### Preprocessing Danych
#### Filtracja:
- Sygnały zostały przefiltrowane za pomocą `medianowego filtra` oraz `filtra Butterwortha 3 rzędu` w celu usunięcia szumów. 
- Przy separacji przyspieszenia ciała i grawitacji zastosowano `filtr Butterwortha` z `częstotliwością odcięcia 0.3 Hz`.
#### Transformacje:
- Wyznaczono sygnały `Jerk` (pochodne `przyspieszenia` i `prędkości kątowej`).
- Obliczono wartości wektorowe (np. `tBodyAccMag`, `tBodyGyroMag`) za pomocą `normy Euklidesowej`.
- Zastosowano `transformację Fouriera` (FFT) w celu uzyskania sygnałów w dziedzinie częstotliwości.
#### Normalizacja:
- Wszystkie cechy zostały `znormalizowane` do zakresu `[-1, 1]`.

### Struktura Danych
Każdy rekord w zbiorze danych zawiera:
- **Przyspieszenie trójosiowe**: z akcelerometru (całkowite i przyspieszenie ciała).
- **Prędkość kątowa trójosiowa**: z żyroskopu.
- **Wektor cech**: `561` cech opisujących sygnały w dziedzinie czasu i częstotliwości.
- **Etykieta aktywności**: jedna z sześciu aktywności.
- **Identyfikator uczestnika**: numer osoby wykonującej aktywność.

### Przykładowe Cechy
Cechy zostały wyekstrahowane z sygnałów czasowych i częstotliwościowych. Przykładowe cechy (wszystkich cech jest 561):

- **Statystyczne**: mean(), std(), mad(), max(), min()
- **Energetyczne**: energy(), sma(), bandsEnergy()
- **Częstotliwościowe**: meanFreq(), maxInds()
- **Inne**: entropy(), correlation(), angle()

### Skład Datasetu
- **Zbiór testowy**: `2947` rekordów i **Zbiór treningowy**: `7352` rekordów.
    - Cechy przechowywane są w plikach `X_train.txt` i `X_test.txt`
    - Etykiety aktywności przechowywane są w plikach `y_train.txt` i `y_test.txt`
    - surowe dane przechowywane są w folderze `Inertial Signals`
- **Liczba klas**: `6`
    - opisy klas znajduja się w pliku `activity_labels.txt`
- **Liczba uczestników**: `30`
    - Informacje o uczestnikach znajdują się w plikach `subject_train.txt` i `subject_test.txt`
- **Liczba cech**: `561`
    - opis cech znajduje się w pliku `features.txt`


In [None]:
import os
import pandas as pd

In [None]:
# LOAD DATA
X_train = pd.read_csv(os.path.join('UCI HAR Dataset', 'train', 'x_train.txt'), sep="\s+", header=None)
Y_train = pd.read_csv(os.path.join('UCI HAR Dataset', 'train', 'y_train.txt'), sep="\s+", header=None)
X_test = pd.read_csv(os.path.join('UCI HAR Dataset', 'test', 'x_test.txt'), sep="\s+", header=None)
Y_test = pd.read_csv(os.path.join('UCI HAR Dataset', 'test', 'y_test.txt'), sep="\s+", header=None)

In [12]:
X_train

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,551,552,553,554,555,556,557,558,559,560
0,0.288585,-0.020294,-0.132905,-0.995279,-0.983111,-0.913526,-0.995112,-0.983185,-0.923527,-0.934724,...,-0.074323,-0.298676,-0.710304,-0.112754,0.030400,-0.464761,-0.018446,-0.841247,0.179941,-0.058627
1,0.278419,-0.016411,-0.123520,-0.998245,-0.975300,-0.960322,-0.998807,-0.974914,-0.957686,-0.943068,...,0.158075,-0.595051,-0.861499,0.053477,-0.007435,-0.732626,0.703511,-0.844788,0.180289,-0.054317
2,0.279653,-0.019467,-0.113462,-0.995380,-0.967187,-0.978944,-0.996520,-0.963668,-0.977469,-0.938692,...,0.414503,-0.390748,-0.760104,-0.118559,0.177899,0.100699,0.808529,-0.848933,0.180637,-0.049118
3,0.279174,-0.026201,-0.123283,-0.996091,-0.983403,-0.990675,-0.997099,-0.982750,-0.989302,-0.938692,...,0.404573,-0.117290,-0.482845,-0.036788,-0.012892,0.640011,-0.485366,-0.848649,0.181935,-0.047663
4,0.276629,-0.016570,-0.115362,-0.998139,-0.980817,-0.990482,-0.998321,-0.979672,-0.990441,-0.942469,...,0.087753,-0.351471,-0.699205,0.123320,0.122542,0.693578,-0.615971,-0.847865,0.185151,-0.043892
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7347,0.299665,-0.057193,-0.181233,-0.195387,0.039905,0.077078,-0.282301,0.043616,0.060410,0.210795,...,-0.070157,-0.588433,-0.880324,-0.190437,0.829718,0.206972,-0.425619,-0.791883,0.238604,0.049819
7348,0.273853,-0.007749,-0.147468,-0.235309,0.004816,0.059280,-0.322552,-0.029456,0.080585,0.117440,...,0.165259,-0.390738,-0.680744,0.064907,0.875679,-0.879033,0.400219,-0.771840,0.252676,0.050053
7349,0.273387,-0.017011,-0.045022,-0.218218,-0.103822,0.274533,-0.304515,-0.098913,0.332584,0.043999,...,0.195034,0.025145,-0.304029,0.052806,-0.266724,0.864404,0.701169,-0.779133,0.249145,0.040811
7350,0.289654,-0.018843,-0.158281,-0.219139,-0.111412,0.268893,-0.310487,-0.068200,0.319473,0.101702,...,0.013865,0.063907,-0.344314,-0.101360,0.700740,0.936674,-0.589479,-0.785181,0.246432,0.025339


In [17]:
Y_train

Unnamed: 0,0
0,5
1,5
2,5
3,5
4,5
...,...
7347,2
7348,2
7349,2
7350,2


## Implementacja SVM

In [26]:
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [20]:
# utworzenie i trenowanie modelu
model = SVC(kernel='rbf', C=1.0, gamma='scale')
model.fit(X_train, Y_train.values.ravel())

In [24]:
# predykcja na zbiorze testowym
Y_pred = model.predict(X_test)

In [30]:
# Obliczenie dokładności
accuracy = accuracy_score(Y_test, Y_pred)
print(f'Accuracy: {accuracy:.2f}')

# Wyświetlenie macierzy konfuzji
conf_matrix = confusion_matrix(Y_test, Y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# Wyświetlenie szczegółowego raportu klasyfikacji
class_report = classification_report(Y_test, Y_pred)
print("Classification Report:")
print(class_report)

Accuracy: 0.95
Confusion Matrix:
[[488   5   3   0   0   0]
 [ 20 451   0   0   0   0]
 [ 10  26 384   0   0   0]
 [  0   2   0 438  51   0]
 [  0   0   0  29 503   0]
 [  0   0   0   0   0 537]]
Classification Report:
              precision    recall  f1-score   support

           1       0.94      0.98      0.96       496
           2       0.93      0.96      0.94       471
           3       0.99      0.91      0.95       420
           4       0.94      0.89      0.91       491
           5       0.91      0.95      0.93       532
           6       1.00      1.00      1.00       537

    accuracy                           0.95      2947
   macro avg       0.95      0.95      0.95      2947
weighted avg       0.95      0.95      0.95      2947



## Wnioski
### Częstotliwość próbkowania (sampling rate) – 50 Hz

- Innymi słowy, co 20 ms (1/50 s) pobierana jest nowa próbka danych z akcelerometru i żyroskopu.
- Wystarczająca do analizy ruchu człowieka, ponieważ większość energii ruchu ciała jest poniżej 15 Hz.

### Częstotliwość odcięcia (cutoff frequency) – 20 Hz i 0.3 Hz

- Filtr dolnoprzepustowy (low-pass filter) Butterwortha 3. rzędu z 20 Hz odcięcia usuwa składowe o częstotliwościach wyższych niż 20 Hz, eliminując szum i szybkie drgania, które nie są istotne dla ruchu ciała.
- Drugi filtr (0.3 Hz cutoff) oddziela składową grawitacyjną od ruchu ciała. Grawitacja zmienia się bardzo powoli, więc wszystko poniżej 0.3 Hz uznawane jest za jej składową, a reszta to ruch ciała.


Większość effortu tutaj raczej pójdzie na przygotowanie metod do czyszczenia danych i samo przeliczanie metryk. 
- nie będziemy raczej zbierać danych z częstotliwosćią 50Hz
- nie wiem czy serwer da radę przeliczać na żywo aż 560 metryk dla każdego rekordu danych
- totalnie nie mam pojęcia jak oni te metryki wyliczali, czy z oknem przesuwnym? nie podali albo uciekło mi to w ich [pracy](https://www.esann.org/sites/default/files/proceedings/legacy/es2013-84.pdf)

