## <center>Centrer et reduire les données</center>

In [None]:
"""
Pour centrer et réduire (standardiser) les données d'un jeu de données, 
on soustrait la moyenne de chaque variable et on divise par son écart-type. 
Cela transforme les données de manière à ce que chaque variable ait 
une moyenne de 0 et une variance de 1.
Voici comment le faire en Python en utilisant pandas et numpy, avec des explications 
"""

In [3]:
import pandas as pd  
import numpy as np  

# Charger les données  
fromages_data = pd.read_csv("fromages.txt", sep="\t")  

# Sélectionner uniquement les colonnes numériques  
data = fromages_data.iloc[:, 1:].values  # Toutes les colonnes sauf la première (Fromages)  

# Calculer la moyenne et l'écart-type (empirique non corrigé)  
mean = np.mean(data, axis=0)  # Moyenne par colonne  
std_dev = np.std(data, axis=0, ddof=0)  # Écart-type par colonne (ddof=0 pour variance non corrigée)  

# Centrer et réduire les données  
data_standardized = (data - mean) / std_dev  

# Créer un DataFrame avec les données standardisées  
standardized_df = pd.DataFrame(data_standardized, columns=fromages_data.columns[1:])  # Garder les noms des colonnes  

# Ajouter la colonne des noms des fromages  
standardized_df.insert(0, fromages_data.columns[0], fromages_data[fromages_data.columns[0]])  

# Enregistrer le DataFrame dans un fichier data.txt  
standardized_df.to_csv("data.txt", sep="\t", index=False)  

# Vérifier les moyennes et variances des données standardisées  
mean_standardized = np.mean(data_standardized, axis=0)  
variance_standardized = np.var(data_standardized, axis=0, ddof=0)  

# Afficher les résultats  
print("Moyennes des variables standardisées :")  
print(mean_standardized)  

print("\nVariances des variables standardisées :")  
print(variance_standardized)

Moyennes des variables standardisées :
[-1.07193947e-16  7.65671051e-17  5.55111512e-17  8.11611315e-16
 -3.06268421e-17  1.11022302e-16  1.07193947e-16 -2.29701315e-16
  4.59402631e-17]

Variances des variables standardisées :
[1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [None]:
"""
Calcul de la Moyenne et de l'Écart-Type :

np.mean(data, axis=0) calcule la moyenne de chaque colonne.
np.std(data, axis=0, ddof=0) calcule l'écart-type pour chaque colonne en
 utilisant ddof=0 pour indiquer que nous voulons la variance non corrigée 
 (variabilité totale dans les données).
Centrage et Réduction : On utilise la formule 
(valeur - moyenne)/ecart-type
(valeur - moyenne)/ ecart-type  pour centrer et réduire les données.

Vérification des Résultats :

np.mean(data_standardized, axis=0) devrait donner un tableau où toutes les valeurs sont égales à 0,
 ce qui signifie que les données sont désormais centrées.
np.var(data_standardized, axis=0, ddof=0) devrait renvoyer un tableau où toutes les valeurs sont égales à 1,
 ce qui indique que les données sont réduites.
"""