# Prétraitement des données avec sklearn

In [11]:
import numpy as np
import sklearn.preprocessing as preprocessing

## Définition des données
Exemple de commentaires: 
* Ici, on crée un tableau numpy 2D

In [9]:
input_data = np.array([[2.1, -1.9, 5.5],
                      [-1.5, 2.4, 3.5],
                      [0.5, -7.9, 5.6],
                      [5.9, 2.3, -5.8]])

## Binarisation
Exemple de commentaires: 
* Ici, on transforme notre tableau 2D en un tableau dont toutes les valeurs sont binaires. 
* La binarisation se base sur un seuil = 0.5
* Ainsi, si une valeur est inférieure à 0.5 alors elle sera remplacée par 0 sinon elle sera remplacée par 1.

In [13]:
data_binarized = preprocessing.Binarizer(threshold = 0.5).transform(input_data)
print("\nDonnées binarisées:\n", data_binarized)


Données binarisées:
 [[1. 0. 1.]
 [0. 1. 1.]
 [0. 0. 1.]
 [1. 1. 0.]]


In [14]:
print("Mean = ", input_data.mean(axis = 0))
print("Standard deviation = ", input_data.std(axis = 0))

Mean =  [ 1.75  -1.275  2.2  ]
Std deviation =  [2.71431391 4.20022321 4.69414529]


In [17]:
data_scaled = preprocessing.scale(input_data)
print(data_scaled)
print("Mean =", data_scaled.mean(axis=0))
print("Std deviation =", data_scaled.std(axis = 0))

[[ 0.12894603 -0.14880162  0.70300338]
 [-1.19735598  0.8749535   0.27694073]
 [-0.46052153 -1.57729713  0.72430651]
 [ 1.52893149  0.85114524 -1.70425062]]
Mean = [1.11022302e-16 0.00000000e+00 0.00000000e+00]
Std deviation = [1. 1. 1.]


In [19]:
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nMin max scaled data (données mises à l'échelle):\n", data_scaled_minmax)


Min max scaled data (données mises à l'échelle):
 [[0.48648649 0.58252427 0.99122807]
 [0.         1.         0.81578947]
 [0.27027027 0.         1.        ]
 [1.         0.99029126 0.        ]]


# Labelisation des données

In [39]:
# Sample input labels
input_labels = ['rouge','noir','violet','vert','noir','jaune','blanc']

In [40]:
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)

LabelEncoder()

In [41]:
test_labels = ['vert','rouge','noir','violet']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
print("Valeurs encodées =", list(encoded_values))


Labels = ['vert', 'rouge', 'noir', 'violet']
Valeurs encodées = [4, 3, 2, 5]


In [43]:
# decoding a set of values
encoded_values = [3,0,4,1,2]
decoded_list = encoder.inverse_transform(encoded_values)
print("\nValeurs encodées =", encoded_values)
print("\nLabels décodées =", list(decoded_list))


Valeurs encodées = [3, 0, 4, 1, 2]

Labels décodées = ['rouge', 'blanc', 'vert', 'jaune', 'noir']
