### function to load the dataset

In [1]:
import pandas as pd
import numpy as np


#import csv


def load_dataset(file_path):
    try:
        # Charger le dataset en spécifiant le séparateur correct
        dataset = pd.read_csv(file_path, sep=';')
        return dataset
    except FileNotFoundError:
        print("Le fichier est introuvable.")
    except pd.errors.ParserError as e:
        print(f"Erreur de parsing : {e}")




### Informations about dataset

In [2]:
def display_dataset_info(dataset):
    
    # Afficher la taille du dataset
    print("Shape of the dataset:", dataset.shape)
    
    # Afficher les premières lignes du dataset
    print("\nFirst few rows of the dataset:")
    print(dataset.head())
    
    # Afficher des informations générales (types de données, valeurs manquantes)
    print("\nDataset information:")
    dataset.info()
    
    # Afficher les statistiques descriptives
    print("\nDescriptive statistics:")
    print(dataset.describe())

    print(dataset.columns)



### Calcul des tendances centrales 

In [3]:
def calculate_central_tendencies(dataset, column):
    """
    Calcule les tendances centrales (moyenne, médiane, mode) d'une colonne spécifique.
    """
    # Convertir la colonne en numérique, en ignorant les erreurs (valeurs non numériques)
    dataset[column] = pd.to_numeric(dataset[column], errors='coerce')
    
    # Calculer les tendances centrales
    mean_value = dataset[column].mean()
    median_value = dataset[column].median()
    mode_value = dataset[column].mode()[0] if not dataset[column].mode().empty else None  # Mode peut retourner plusieurs valeurs
    
    return {
        "moyenne": mean_value,
        "médiane": median_value,
        "mode": mode_value
    }


### le resume des cinques nombres (min, q1, mediane, q3, max)

In [4]:
def calculate_quartiles(dataset, column):
    """
    Calcule les quartiles (Q0, Q1, Q2, Q3, Q4) d'une colonne spécifique.
    """
    quartiles = dataset[column].quantile([0, 0.25, 0.5, 0.75, 1])
    return {
        'Q0': quartiles[0.00],  # Minimum
        'Q1': quartiles[0.25],  # Premier quartile
        'Q2': quartiles[0.50],  # Médiane
        'Q3': quartiles[0.75],  # Troisième quartile
        'Q4': quartiles[1.00]   # Maximum
    }


-  il faut calculer les quartiles sans la fonction predefinie ( en utilisant la formule de calcul)
   - n/4 >  Q1
   - n*3/4 >  Q3

#### dropna() pour supprimer les valeurs qui sont nan

In [5]:
def calculate_manualQuartiles(dataset, column):

    # il faut tout d'abord trier le dataset
    sorted_data = np.sort(pd.to_numeric(dataset[column].dropna().values))
    
    # le nombre d'instances dans le dataset
    n = len(sorted_data)

    # calculer les indices des quartiles 

    min_indice = 0  
    Q1_indice = int((0.25*(n+1))-1)
    Q2_indice = int((0.5*(n+1)-1))
    Q3_indice = int((0.75*(n+1)-1))
    max_indice = n - 1 

    if n%4 != 0 :
        Q1 = (sorted_data[Q1_indice]+sorted_data[Q1_indice+1])/2
    else :
        Q1 = sorted_data[Q1_indice]
    
    Q2 = (sorted_data[Q2_indice]+ sorted_data[Q2_indice +1])/2 if n%2 != 0 else sorted_data[Q2_indice]
    Q3 = (sorted_data[Q3_indice]+ sorted_data[Q3_indice +1])/2 if 3*n%4 != 0 else sorted_data[Q3_indice]

    return {
        'min' : sorted_data[min_indice],
        'quartile 1' : Q1,
        'mediane': Q2,
        'quartile3' : Q3,
        'max' : sorted_data[max_indice]
    }
    

### Le nombre et pourcentage de valeurs manquantes

In [6]:
def display_missing_values(dataset, column):
   
    total_values = dataset[column].shape[0]
    missing_values = dataset[column].isnull().sum()
    percentage_missing = (missing_values / total_values) * 100
    
    print(f"Nombre de valeurs manquantes dans '{column}': {missing_values}")
    print(f"Pourcentage de valeurs manquantes dans '{column}': {percentage_missing:.2f}%")


### Le nombre de valeurs uniques d'une colonne donnee

In [7]:
def display_unique_values(dataset, column):
    
    unique_values = dataset[column].nunique()
    
    print(f"Nombre de valeurs uniques dans '{column}': {unique_values}")


In [8]:
# Charger le dataset
file_path = r'C:\\M2\\DM\\tp\\DatasetExos.csv'
dataset = load_dataset(file_path)

# Si le dataset est chargé avec succès, afficher les informations de base
if dataset is not None:
    display_dataset_info(dataset)

Shape of the dataset: (9009, 11)

First few rows of the dataset:
                   ep (ms)                   Acc_x               Acc_y  \
0  2019-01-11 15:08:05.200                  0.0135               0.977   
1  2019-01-11 15:08:05.400  -0.0014999999999999996  0.9704999999999999   
2  2019-01-11 15:08:05.600   0.0013333333333333333  0.9716666666666667   
3  2019-01-11 15:08:05.800                  -0.024               0.957   
4  2019-01-11 15:08:06.000   -0.027999999999999997  0.9576666666666666   

                  Acc_z          Gyro_x               Gyro_y  \
0                -0.071  -2.094.366.723          257.720.316   
1  -0.07949999999999999         -16.826              -0.8904   
2  -0.06433333333333334     526.942.212  -0.2559999999999999   
3               -0.0735           8.061              -45.244   
4                -0.115           2.439              -15.486   

               Gyro_z ID  Label Category   Set  
0  0.9388000000000002  B  bench    heavy  30.0  
1      

In [9]:
# Calcul des tendances centrales pour la colonne 'Acc_x'
tendances_centrales = calculate_central_tendencies(dataset, 'Acc_x')
print(tendances_centrales)

# Calcul des quartiles pour la colonne Acc_x
quartiles = calculate_quartiles(dataset, 'Acc_x')
print(quartiles)

quartiles = calculate_manualQuartiles(dataset, 'Acc_x')
print(quartiles)

{'moyenne': 0.04590467712621936, 'médiane': 0.016, 'mode': 0.078}
{'Q0': -0.8380000000000001, 'Q1': -0.11149999999999996, 'Q2': 0.016, 'Q3': 0.1176666666666666, 'Q4': 10.255}
{'min': -0.8380000000000001, 'quartile 1': -0.11149999999999996, 'mediane': 0.016, 'quartile3': 0.11783333333333329, 'max': 10.255}


In [10]:
# Affichage des valeurs manquantes pour la colonne 'Acc_x'
display_missing_values(dataset, 'Acc_x')
display_missing_values(dataset, 'Acc_y')

# Affichage du nombre de valeurs uniques pour la colonne 'Acc_x'
display_unique_values(dataset, 'Acc_x')
display_unique_values(dataset, 'Acc_y')


Nombre de valeurs manquantes dans 'Acc_x': 22
Pourcentage de valeurs manquantes dans 'Acc_x': 0.24%
Nombre de valeurs manquantes dans 'Acc_y': 2
Pourcentage de valeurs manquantes dans 'Acc_y': 0.02%
Nombre de valeurs uniques dans 'Acc_x': 2754
Nombre de valeurs uniques dans 'Acc_y': 3794
