# Projet :  Détection d'activité humaine - DTW et classification avec réduction de dimension

Dans ce projet, nous essaierons de prédire l'activité humaine (1-Marche, 2-Monter, 3-Descendre, 4-Assis, 5-Debout ou 6-Couché) en utilisant les capteurs du smartphone. C'est-à-dire qu'en utilisant les méthodes suivantes, le smartphone peut détecter ce que nous faisons en ce moment.


En utilisant l'accéléromètre et le gyroscope intégrés dans le smartphone,  l'accélération linéaire 3-axes et la vitesse angulaire 3-axes à un taux constant de 50Hz ont été relevées. Les expériences ont été enregistrées sur vidéo pour étiqueter les données manuellement. L'ensemble de données obtenu a été divisé de façon aléatoire en deux ensembles, où 70 % des volontaires ont été sélectionnés pour générer les données d'entraînement et 30 % les données d'essai.

<img src="files/HARDataset.JPG" width="800" height="600"  >

Il est fourni pour chaque enregistrement de l'ensemble de données : 
- L'accélération triaxiale de l'accéléromètre (accélération totale) et l'accélération estimée du corps. 
- Vitesse angulaire triaxiale du gyroscope. 
- Son étiquette d'activité. 
- Un identifiant du sujet qui a réalisé l'expérience.


Ces séances se décomposent en 3 parties : 
- Partie I : DTW et application du TD
- Partie II : Système de reconnaissance d'activité physique avec la DTW
- Partie III : Comparaison de la programmation dynamique avec une méthode de classification après prétraitement des données par ACP


**Dataset et description :**
https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones



In [3]:
import matplotlib.pyplot as plt
import numpy as np
import sklearn
import pandas as pd
import math
import seaborn as sns

In [4]:

COLUMN_NAMES = [
    'user',
    'activity',
    'timestamp',
    'x-axis',
    'y-axis',
    'z-axis'
]

LABELS = [
    'Downstairs',
    'Jogging',
    'Sitting',
    'Standing',
    'Upstairs',
    'Walking'
]

DATA_PATH = 'data/WISDM_ar_v1.1_raw.txt'

RANDOM_SEED = 13

# Data preprocessing
TIME_STEP = 100

# Model
N_CLASSES = 6
N_FEATURES = 3  # x-acceleration, y-acceleration, z-acceleration


## 1. Chargement des données d'apprentissage et de test

In [5]:
# LOAD DATA
data = pd.read_csv(DATA_PATH, header=None, names=COLUMN_NAMES)
data['z-axis'].replace({';': ''}, regex=True, inplace=True)
data = data.dropna()

# SHOW GRAPH FOR JOGGING
data[data['activity'] == 'Jogging'][['x-axis']][:50].plot(subplots=True, figsize=(16, 12), title='Jogging')
    plt.xlabel('Timestep')
    plt.ylabel('X acceleration (dg)')

    # SHOW ACTIVITY GRAPH
    activity_type = data['activity'].value_counts().plot(kind='bar', title='Activity type')
    #plt.show()

    # DATA PREPROCESSING
    data_convoluted = []
    labels = []

    # Slide a "SEGMENT_TIME_SIZE" wide window with a step size of "TIME_STEP"
    for i in range(0, len(data) - SEGMENT_TIME_SIZE, TIME_STEP):
        x = data['x-axis'].values[i: i + SEGMENT_TIME_SIZE]
        y = data['y-axis'].values[i: i + SEGMENT_TIME_SIZE]
        z = data['z-axis'].values[i: i + SEGMENT_TIME_SIZE]
        data_convoluted.append([x, y, z])

        # Label for a data window is the label that appears most commonly
        label = stats.mode(data['activity'][i: i + SEGMENT_TIME_SIZE])[0][0]
        labels.append(label)

    # Convert to numpy
    data_convoluted = np.asarray(data_convoluted, dtype=np.float32).transpose(0, 2, 1)

    # One-hot encoding
    labels = np.asarray(pd.get_dummies(labels), dtype=np.float32)
    print("Convoluted data shape: ", data_convoluted.shape)
    print("Labels shape:", labels.shape)



IndentationError: unexpected indent (<ipython-input-5-fff44b7bccbb>, line 2)

# Partie I : Implémentation de l'algorithme de programmation dynamique 

1. Ecrivez une fonction en python DTW qui implémente le calcul et l'affichage de la matrice des coûts définie en TD. 

2. Afin d'adapter facilement le calcul des coûts suivant la nature des données (et donc des distances utilisées), écrivez une fonction pour chaque distance (euclidienne, lettres, sons) qui apparaîtra en paramètre de la fonction DTW.

In [5]:
from math import *
import numpy as np
import sys

def DTW(A, B, window = sys.maxsize, d = lambda x,y: np.linalg.norm(x-y)):
    # create the cost matrix
    A= np.array(A)
    B= np.array(B)
    M= len(A)
    N= len(B)
    cost = np.ones((M, N))

    # initialize the first row and column
    cost[0, 0] = d(A[0], B[0])
    for i in range(1, M):
        cost[i, 0] = cost[i-1, 0] + d(A[i], B[0])

    for j in range(1, N):
        cost[0, j] = cost[0, j-1] + d(A[0], B[j])
    # fill in the rest of the matrix
    for i in range(1, M):
        for j in range(max(1, i - window), min(N, i + window)):
            choices = cost[i - 1, j - 1], cost[i, j-1], cost[i-1, j]
            cost[i, j] = min(choices) + d(A[i], B[j])

    # find the optimal path
    n, m = N - 1, M - 1
    path = []

    while (m, n) != (0, 0):
        path.append((m, n))
        m, n = min((m - 1, n), (m, n - 1), (m - 1, n - 1), key = lambda x: cost[x[0], x[1]])
    
    path.append((0,0))
    return cost[-1, -1]/(N+M), path


    



### Application aux exercices 

 Testez vos programmes sur les exercices vus en TD. 



In [None]:
print('Matrice de confusion')
cm=confusion_matrix(y_test,predicted_nn_HAR)
sns.heatmap(data=cm,fmt='.0f',xticklabels=np.unique(labels),yticklabels=np.unique(labels),annot=True)

# score de performance
print('Accuracy sur base de test :',accuracy_score(y_test,predicted_nn_HAR))

# Partie II : Comparaison de la programmation dynamique avec une méthode de classification après prétraitement des données

Dans cette partie, nous allons comparer les résultats de la DTW avec ceux d'une méthode de classification de données : les k-plus proches voisins.

Nous utiliserons les fonctions permettant de calculer l'ACP et les kppv via la librairie python *scikit-learn*.





In [6]:
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from mpl_toolkits.mplot3d import Axes3D

### Prétraitement par ACP

Pour tester une méthode de classification, il faut d'abord réduire la dimension des MFCC
1. Pour chaque enregistrement audio, calculez le vecteur de $R^{13}$ égal à la moyenne sur toutes les fenêtres de
MFCC. Ainsi chaque enregistrement sera représenté par un seul vecteur de 13 coefficients MFCC.

2. A partir de tous les enregistrements de la base d'apprentissage et en utilisant la fonction *PCA* de la librairie *scikit-learn*, calculez les 3 axes principaux de l'ACP en
extrayant les 3 vecteurs propres, notés $X_1$, $X_2$, $X_3$, associés aux 3 plus grandes valeurs propres de la matrice de
variance-covariance $\Sigma_{App}$.Ces vecteurs propres consitueront la nouvelle base de données.

3. Projetez les données de la base d'apprentissage et de test dans cette nouvelle base en multipliant chaque
vecteur par la base $P = [X_1X_2X_3]$.



In [7]:
datasetApp=np.zeros((13,len(BaseApp)))
datasetTest=np.zeros((13,len(BaseTest)))
n_components=2

for i in range(len(BaseApp)):
    datasetApp[:,i]=np.mean(listBaseApp[i],axis=1)

for i in range(len(BaseTest)):
    datasetTest[:,i]=np.mean(listBaseTest[i],axis=1)

# En implémentant l'ACP 
cov_mat=np.cov(datasetApp)
print(cov_mat.shape)

eig_vals, eig_vecs = np.linalg.eig(cov_mat)

principalAxes=np.zeros((13,n_components))
for i in range(n_components):
    principalAxes[:,i]=eig_vecs[:,i]

principalComponentsApp = datasetApp.dot(principalAxes)
principalComponentsTest = datasetTest.dot(principalAxes)

# affichage des points
plt.scatter(principalComponentsApp[:, 0], principalComponentsApp[:, 1],marker='^')
plt.scatter(principalComponentsTest[:, 0], principalComponentsTest[:, 1],marker='o')
plt.title("Base d'Apprentissage/Test")
plt.xlabel("PC1")
plt.ylabel("PC2");
plt.show()


# Pourcentage d'information conservée
Contraste=sum(eig_vals[range(n_components)])/sum(eig_vals)
print("Contraste :", Contraste)

# En utilisant sklearn    
pca = PCA(n_components)
principalComponentsApp = pca.fit_transform(np.transpose(datasetApp))
principalComponentsTest= pca.transform(np.transpose(datasetTest))

# affichage des points
#plt.scatter(principalComponentsApp[:, 0], principalComponentsApp[:, 1],marker='^')
#plt.scatter(principalComponentsTest[:, 0], principalComponentsTest[:, 1],marker='o')
#plt.title("Base d'Apprentissage/Test")
#plt.xlabel("PC1")
#plt.ylabel("PC2");
#plt.show()



# Conservation de l'information : Variance 
print(sum(pca.explained_variance_ratio_))



NameError: name 'BaseApp' is not defined

### Classification par k plus proches voisins

En intelligence artificielle, la méthode des k plus proches voisins (k-ppv) est une méthode d'apprentissage
supervisé. Dans ce cadre, on dispose d'une base de données d'apprentissage constituée de couples  "donnée-label". Pour estimer la sortie associée à une nouvelle entrée x, la méthode des k plus proches voisins consiste à prendre
en compte (de façon identique) les k échantillons d'apprentissage dont l'entrée est la plus proche de la nouvelle
entrée x, selon une distance à définir. L'algorithme 1 associé et un exemple (figure 1) sont données par la suite.

<img src="files/AlgoKppv.png" width="900" height="800"  >

<img src="files/kppv.png" width="300" height="300"  >

**Exemple de classification par k-ppv.** L'échantillon de test (cercle vert) doit être classé soit dans la première
classe des carrés bleus, soit dans la deuxième classe des triangles rouges. 
Si k = 3 (cercle plein), il est assigné à la deuxième classe parce qu'il y a 2 triangles et seulement 1 carré à l'intérieur du cercle intérieur. 
Si k = 5 (cercle en pointillés), il est assigné à la première classe (3 carrés contre 2 triangles à l'intérieur du cercle extérieur)


1. En utilisant la fonction *KNeighborsClassifier* de la librairie *sklearn.neighbors*, réalisez une classification par k-ppv sur la base d'apprentissage et la base de test que vous avez prédéfinies (prendre $k=1$).

2. Evaluez la méthode des k-ppv par le calcul de la matrice de confusion et du taux de reconnaissance.

3. Modifiez la valeur de $k$ pour les k-ppv. Améliorez-vous les scores de reconnaissance ?

4. Comparez vos résultats avec ceux de la DTW.




In [9]:
error=[]
verdictApp=np.arange(13)

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(principalComponentsApp, verdictApp)
pred_i = knn.predict(principalComponentsTest)

print(pred_i)



NameError: name 'principalComponentsApp' is not defined

# Partie III : comparaison avec d'autres données 

Il est désormais fourni pour chaque enregistrement de l'ensemble de données en plus de l'accélération triaxiale de l'accéléromètre et de la vitesse angulaire triaxiale du gyroscope: 
- Un vecteur de 561 caractéristiques avec des variables dans le domaine du temps et de la fréquence. 
- Son étiquette d'activité. 
- Un identifiant du sujet qui a réalisé l'expérience.

