In [5]:
import numpy as np
import pandas as pd
import math

### discrétisation en intervalles de largeur égale

In [None]:
def discretize_equal_width(data, column):
    # Nombre de valeurs dans la colonne
    n = len(data[column])

    # Calcul de K ( number of intervals to use) avec la formule de Huntsberger
    K = int(1 + (10 / 3) * math.log10(n))


    # Definir la largeur des intervalles
    min_val, max_val = data[column].min(), data[column].max()
    interval_width = (max_val - min_val) / K
    
    # Création des intervalles ( on utilise un tableau np)
    intervals = np.arange(min_val, max_val, interval_width)
    # Discrétisation des valeurs
    data[f'{column}_discretized'] = pd.cut(data[column], bins=np.append(intervals, max_val), labels=False)
    return data


- pd.cut() est une fonction de Pandas qui divise les valeurs d'une colonne en différentes catégories (ou "bins") selon les intervalles spécifiés dans l'argument bins.

### Remplacer les valeurs discrétisées par la moyenne de chaque intervalle

In [None]:
def replace_with_interval_mean(data, column):

    # Vérification de la colonne discrétisée
    discretized_column = f'{column}_discretized'
    if discretized_column not in data.columns:
        raise ValueError(f"La colonne discrétisée {discretized_column} n'existe pas.")
    
    # Calcul des moyennes par intervalle
    means = data.groupby(discretized_column)[column].mean()
    
    # Remplacement par les moyennes
    data[f'{column}_discretized_mean'] = data[discretized_column].map(means)
    return data


### Fonction pour la normalisation Min-Max

In [4]:
def min_max_normalize(data, column, new_min=0, new_max=1):
    old_min, old_max = data[column].min(), data[column].max()
    data[f'{column}_normalized'] = (data[column] - old_min) / (old_max - old_min) * (new_max - new_min) + new_min
    return data


## Application sur Le dataSet

In [7]:
# Chargement du dataset
data = pd.read_csv("DatasetExos.csv", delimiter=";")

In [9]:
# Convertir les colonnes d'accélération et de gyroscope en numérique
numeric_columns = ['Acc_x', 'Acc_y', 'Acc_z', 'Gyro_x', 'Gyro_y', 'Gyro_z']

for column in numeric_columns:
    data[column] = pd.to_numeric(data[column], errors='coerce')

# Vérifiez les valeurs NaN après la conversion
print(data.isnull().sum())

# Supprimer les lignes avec des valeurs NaN dans les colonnes pertinentes
data.dropna(subset=numeric_columns, inplace=True)

ep (ms)       11
Acc_x         22
Acc_y       1347
Acc_z         11
Gyro_x      1609
Gyro_y      1956
Gyro_z      1749
ID             2
Label          0
Category       4
Set            6
dtype: int64


In [11]:
# Discrétisation en intervalles de largeur égale
data = discretize_equal_width(data, 'Acc_x')

# Remplacement par la moyenne des intervalles
data = replace_with_interval_mean(data, 'Acc_x')

# Normalisation Min-Max
data = min_max_normalize(data, 'Acc_x')

# Affichage du dataset mis à jour
print(data.head())
print(data.tail())


                   ep (ms)   Acc_x     Acc_y   Acc_z    Gyro_x   Gyro_y  \
1  2019-01-11 15:08:05.400 -0.0015  0.970500 -0.0795  -16.8260  -0.8904   
3  2019-01-11 15:08:05.800 -0.0240  0.957000 -0.0735    8.0610 -45.2440   
4  2019-01-11 15:08:06.000 -0.0280  0.957667 -0.1150    2.4390 -15.4860   
5  2019-01-11 15:08:06.200 -0.0260  0.965000 -0.1180    0.4634  52.1940   
7  2019-01-11 15:08:06.600 -0.1700  0.899500 -0.2500  175.2460  15.9760   

    Gyro_z ID  Label Category   Set  Acc_x_discretized  \
1   21.708  B  bench    heavy  30.0                0.0   
3   -2.073  B  bench    heavy  30.0                0.0   
4  -36.098  B  bench    heavy  30.0                0.0   
5  -64.636  B  bench    heavy  30.0                0.0   
7 -175.854  B  bench    heavy  30.0                0.0   

   Acc_x_discretized_mean  Acc_x_normalized  
1               -0.121508          0.071136  
3               -0.121508          0.069069  
4               -0.121508          0.068701  
5               

In [12]:
# Discrétisation en intervalles de largeur égale
data = discretize_equal_width(data, 'Acc_z')

# Remplacement par la moyenne des intervalles
data = replace_with_interval_mean(data, 'Acc_z')

# Normalisation Min-Max
data = min_max_normalize(data, 'Acc_z')

# Affichage du dataset mis à jour
print(data.head())
print(data.tail())


                   ep (ms)   Acc_x     Acc_y   Acc_z    Gyro_x   Gyro_y  \
1  2019-01-11 15:08:05.400 -0.0015  0.970500 -0.0795  -16.8260  -0.8904   
3  2019-01-11 15:08:05.800 -0.0240  0.957000 -0.0735    8.0610 -45.2440   
4  2019-01-11 15:08:06.000 -0.0280  0.957667 -0.1150    2.4390 -15.4860   
5  2019-01-11 15:08:06.200 -0.0260  0.965000 -0.1180    0.4634  52.1940   
7  2019-01-11 15:08:06.600 -0.1700  0.899500 -0.2500  175.2460  15.9760   

    Gyro_z ID  Label Category   Set  Acc_x_discretized  \
1   21.708  B  bench    heavy  30.0                0.0   
3   -2.073  B  bench    heavy  30.0                0.0   
4  -36.098  B  bench    heavy  30.0                0.0   
5  -64.636  B  bench    heavy  30.0                0.0   
7 -175.854  B  bench    heavy  30.0                0.0   

   Acc_x_discretized_mean  Acc_x_normalized  Acc_z_discretized  \
1               -0.121508          0.071136                3.0   
3               -0.121508          0.069069                3.0   
4 

In [13]:
# Discrétisation en intervalles de largeur égale
data = discretize_equal_width(data, 'Gyro_z')

# Remplacement par la moyenne des intervalles
data = replace_with_interval_mean(data, 'Gyro_z')

# Normalisation Min-Max
data = min_max_normalize(data, 'Gyro_z')

# Affichage du dataset mis à jour
print(data.head())
print(data.tail())


                   ep (ms)   Acc_x     Acc_y   Acc_z    Gyro_x   Gyro_y  \
1  2019-01-11 15:08:05.400 -0.0015  0.970500 -0.0795  -16.8260  -0.8904   
3  2019-01-11 15:08:05.800 -0.0240  0.957000 -0.0735    8.0610 -45.2440   
4  2019-01-11 15:08:06.000 -0.0280  0.957667 -0.1150    2.4390 -15.4860   
5  2019-01-11 15:08:06.200 -0.0260  0.965000 -0.1180    0.4634  52.1940   
7  2019-01-11 15:08:06.600 -0.1700  0.899500 -0.2500  175.2460  15.9760   

    Gyro_z ID  Label Category   Set  Acc_x_discretized  \
1   21.708  B  bench    heavy  30.0                0.0   
3   -2.073  B  bench    heavy  30.0                0.0   
4  -36.098  B  bench    heavy  30.0                0.0   
5  -64.636  B  bench    heavy  30.0                0.0   
7 -175.854  B  bench    heavy  30.0                0.0   

   Acc_x_discretized_mean  Acc_x_normalized  Acc_z_discretized  \
1               -0.121508          0.071136                3.0   
3               -0.121508          0.069069                3.0   
4 