<a href="https://colab.research.google.com/github/frikel12/Machine-Learning-and-Deep-Learningproject/blob/main/Features_Engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center> <h1>Ing√©nierie des caract√©ristiques <br> (Features engineering)</h1></center>


<h1>Ing√©nierie de caract√©ristiques</h1>
L'Ing√©nierie de caract√©ristiques consiste en le traitement des caract√©ristiques dans le but d'am√©liorer le comportement du mod√©le de classification. <br>
Plusieurs √©tapes peuvent √™tre utilis√©es (pas toutes utilisables pour l‚Äôimage mining)

* Valeurs manquantes (Non rencotr√©s en Image Mining)
* Valeurs aberrantes
* Transformation logarithmique
* Encodage unique (Concerne uniquement les √©tiquettes en Image Mining)
* Mise en √©chelle
* S√©lection des caract√©ristiques


<h1> Impl√©mentation </h1>

<h2> Pr√©paration de l'environnement</h2>
Nous allons travailler dans cet atelier sur des caract√©ristiques d√©ja extraites et enregistr√©es sur Google Drive  (Voir atelier tranfer Learning).

In [None]:
#from keras.preprocessing import image
import numpy as np

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


<h2> Chargement de la dataset</h2>
Pour tester et appliquer l'ing√©nierie de caract√©ristiques, nous allons utiliser des caract√©ristiques d√©j√† extraites utilisant une architecture Deep Learning VGG16 de la base d'image Corel utilis√©e dans l'atelier de classification supervis√©e.
Pour t√©l√©charger le fichier de caract√©ristiques et les √©tiquettes cliquer sur les liens ci-dessous :

[Features](https://drive.google.com/file/d/105zEqcYD1Deuzy5NM5dOPqnXDETUAfVt/view?usp=share_link)


[Labels](https://drive.google.com/file/d/1aggw9QXm9ao7CEmLa4ign9xi2zovUPnB/view?usp=drivesdk)

<h3>Charger les caract√©ristiques et les √©tiquettes.</h3>

In [None]:
# Load features and labels
import pickle
fetauresPath='/content/drive/MyDrive/Datasets/Image Mining/'
X = pickle.load( open( fetauresPath+"features_vgg16", "rb" ) )
y = pickle.load( open( fetauresPath+"labels", "rb" ) )

import numpy as np
print(np.array(X).shape, np.array(y).shape)

(490, 1000) (490,)


Pour chacune des √©tapes de l'ing√©nierie de caract√©ristiques, nous allons √©valuer √† chaque fois la classification afin de voir l'impact.
Compl√©ter l'impl√©mentation de la fonction de classification. Utiliser un algorithme de classification de votre choix.
La m√©thode doit afficher le taux de classification (accuracy) ainsi que le temps d'ex√©cution de classification.

In [None]:
from sklearn import svm
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

def classify(X,y):
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  model = svm.SVC(kernel='rbf')
  model.fit(X_train, y_train)

  y_pred = model.predict(X_test)
  accuracy = accuracy_score(y_test, y_pred)

  return accuracy



Classification utilisant les caract√©ristiques initiales sans manipulation

In [None]:
# Afficher l'accuracy
print("accuracy : ", round(classify(X,y), 2))

accuracy :  0.94


<h1>Mise en √©chelle</h1>
Dans la plupart des cas, les caract√©ristiques de type num√©rique ne sont pas dans la m√™me plage d‚Äôintervalle.
Exemple : les donn√©es sur les √¢ges et les salaires diff√©rent et ne n‚Äôont pas la m√™me fourchette.
Pour un algorithme d‚Äôapprentissage automatique, les valeurs qui ne changent pas beaucoup m√™me sur diff√©rentes √©chelles vont √™tre tr√®s influentes en termes de classification.
Les algorithmes de classification bas√©s sur le voisinage ou distance sont tr√®s sensible √† la mise en √©chelle ; comme le KNN, K-means, ‚Ä¶
Pour mettre en √©chelle les donn√©es nous avons deux solutions :

1.   Normalisation : min-max normalization
2.   Standardisation : z-score normalization



<h2> Standarization: z-score normalization</h2>
<center>z=(X-¬µ)/œÉ

X est l'ensemble d'apprentissage, ¬µ est la moyenne et  œÉ est l‚Äô√©cart type
</center>
Le z-score met en √©chelle les valeurs en prenant en compte l‚Äô√©cart type (d√©viation standard). <br>
le z-score r√©duit l‚Äôeffet des donn√©es aberrantes

In [None]:
"""Standarization
Standardize features by removing the mean and scaling to unit variance.
z = (x - u) / s
where u is the mean of the training samples or zero if with_mean=False
s is the standard deviation of the training samples or one if with_std=False.
"""
# Xzscore est la matrice de caract√©ristiques apr√®s standardisation
mean = np.mean(X, axis=0)
std = np.std(X, axis=0)
Xzscore = (X - mean)/std
#print(np.array(Xzscore).shape)
print("accuracy : ", round(classify(Xzscore,y), 2))

accuracy :  0.95


<h2>Normalization: min-max normalization</h2>
<center>Xnorm=(X-Xmin)/(Xmax -Xmin)</center>
Permet de mettre en √©chelle toutes les valeurs des caract√©ristiques dans une plage fixe entre 0 et 1.<br>
L'inconv√©nient de la normalization par min-max est qu'elle augmente les effets des valeurs aberrantes.<br>
Ainsi, avant la normalisation, il est recommand√© de traiter les valeurs aberrantes.



In [None]:
"""Noramlization
Xnorm=(X-Xmin)/(Xmax -Xmin).
"""
# Xminmax est la matrice de caract√©ristiques apr√®s normalisation

Xminmax=(X - X.min(axis=0))/(X.max(axis=0) - X.min(axis=0))

#print(np.array(Xminmax).shape)
print("accuracy : ", round(classify(Xminmax,y), 2))


accuracy :  0.97


<h2> Transformation logarithmique</h2>
Pour √©liminer les donn√©es aberrantes, une des techniques les plus utilis√©es est la transformation logarithmique.

*	Traiter des donn√©es biais√©es et, apr√®s transformation, la distribution devient plus proche de la normale.
*	R√©duire l‚Äôordre de grandeur des donn√©es. Exemple : la diff√©rence de taille n‚Äôest pas de la m√™me grandeur que la diff√©rence d'√¢ges
*	R√©duit aussi l'effet des valeurs aberrantes gr√¢ce √† la normalisation des diff√©rences d'amplitude

NB : il ne faut pas que les donn√©es soient n√©gatives





In [None]:
# Transformation logarithmique
# Xlog est la matrice de caract√©ristiques apr√®s transformation logarithmique
Xlog = np.log(X)
# Classification utilisant les caract√©ristiques apr√©s tranformation logarithmique
print("accuracy : ", round(classify(Xlog,y), 2))


accuracy :  0.97


Par la suite nous allons proc√©der a la mise en √©chelle des donn√©es apr√®s transformation logarithmique

In [None]:
# Normalization apr√©s TL

Xminmax_Log = (Xlog - Xlog.min(axis=0))/(Xlog.max(axis=0) - Xlog.min(axis=0))
print("accuracy : ", round(classify(Xminmax_Log,y), 2))


accuracy :  0.97


In [None]:
# Standarization + TL
mean = np.mean(Xlog, axis=0)
std = np.std(Xlog, axis=0)
Xzscore_Log = (Xlog - mean)/std
print("accuracy : ", round(classify(Xzscore_Log,y), 2))


accuracy :  0.98


<h1>S√©lection de caract√©ristiques (features selection)</h1>

<h2> Suppression des caract√©ristiques √† faible variance</h2>
Suppression des caract√©ristiques √† faible variance (Removing features with low variance) est une m√©thode de s√©lection (√©limination) bas√©e sur le filtrage.<br>
On peut la consid√©rer comme une m√©thode de nettoyage de caract√©ristique qui  √©l√©mine toutes les caract√©ristiques dont la variance n'atteint pas un certain seuil.<br>
Par d√©faut, elle supprime toutes les caract√©ristiques √† variance nulle, c'est-√†-dire les caract√©ristiques qui ont la m√™me valeur dans tous les √©chantillons.

In [None]:
# Nous allons utiliser les caract√©ristiques apr√®s normalisation Min-Max
# Xvth est la matrice de caract√©ristiques apr√®s suppression des caract√©ristiques (apr√®s normalisation Min-Max)  √† faible variance
from sklearn.feature_selection import VarianceThreshold

vth = VarianceThreshold()
Xvth = vth.fit_transform(Xminmax)
print("accuracy : ", round(classify(Xvth,y), 2))


accuracy :  0.97


<h2>chi2</h2>
C‚Äôest un algorithme de s√©lection des caract√©ristiques qui appartient √† la famille des algorithmes de filtrage bas√© sur la statistique ùúí2. Cette m√©thode mesure l‚Äô√©cart √† l‚Äôind√©pendance entre une caract√©ristique et une classe. Elle commence par un niveau de signification √©lev√© pour toutes les caract√©ristiques pour la discr√©tisation et chaque caract√©ristique est tri√©e en fonction de ses valeurs.

In [None]:
#Xchi2 est la matrice de caract√©ristiques apr√®s s√©lection de 100 caract√©ristiques utilisant chi2
from sklearn.feature_selection import SelectKBest, chi2

chi2 = SelectKBest(chi2, k=100)
Xchi2 = chi2.fit_transform(Xminmax, y)
print("accuracy : ", round(classify(Xchi2,y), 2))


accuracy :  0.95


<h2>Recursive Feature Elimination (RFE)</h2>
C‚Äôest une m√©thode de cartographie bas√©e sur l'id√©e √† plusieurs reprises, construire un mod√®le et choisir le meilleur ou le pire performant. Cette m√©thode qui appartient aux m√©thodes de filtrage est souvent utilis√©e comme √©tape de pr√©traitement pour les m√©thodes int√©gr√©e (souvent avec l‚Äôalgorithme de classification SVM) afin de la g√©n√©raliser √† des grandes masses de donn√©es


In [None]:
# Xrfe est la matrice de caract√©ristiques apr√®s s√©lection de 100 caract√©ristiques utilisant RFE
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

estimator = LogisticRegression()

rfe = RFE(estimator, n_features_to_select=100)
Xrfel = rfe.fit_transform(Xminmax, y)

print("accuracy : ", round(classify(Xrfel,y), 2))


accuracy :  0.98


Essayer d'identifier le nombre minimal de caract√©ristiques √† utiliser pour obtenir le taux maximal de classification.

In [None]:
# Code pour calculer le nombre minimal de caract√©ristiques √† utiliser pour obtenir le taux maximal de classification
rfe = RFE(estimator, n_features_to_select=82)
Xrfel = rfe.fit_transform(Xminmax, y)

print("accuracy : ", round(classify(Xrfel,y), 2))


accuracy :  0.98


<h1>Relief</h1>
Tente de d√©terminer le plus proche voisin d'un certain nombre d'√©chantillons s√©lectionn√©s au hasard √† partir de l'ensemble de donn√©es. Pour chaque √©chantillon s√©lectionn√©, les valeurs des caract√©ristiques sont compar√©es √† ceux des voisins les plus proches et les scores pour chaque caract√©ristique sont mis √† jour. L'id√©e est d'estimer la qualit√© des attributs en fonction de la qualit√© de leurs valeurs et faire la distinction entre des √©chantillons proches les uns des autres

In [None]:
#pour utiliser la technique de selection Relief, on peut se servir de la bibliotheque skrebate
!pip install skrebate

Collecting skrebate
  Downloading skrebate-0.62.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: skrebate
  Building wheel for skrebate (setup.py) ... [?25l[?25hdone
  Created wheel for skrebate: filename=skrebate-0.62-py3-none-any.whl size=29253 sha256=a35e12c7c43914d5073af7e1ff441f9f06fbf15f4776eb5c0f630a4c3ea7c694
  Stored in directory: /root/.cache/pip/wheels/dd/67/40/683074a684607162bd0e34dcf7ccdfcab5861c3b2a83286f3a
Successfully built skrebate
Installing collected packages: skrebate
Successfully installed skrebate-0.62


In [None]:
# XRelief est la matrice de caract√©ristiques apr√®s s√©lection de 100 caract√©ristiques utilisant Relief
from skrebate import ReliefF

relief = ReliefF(n_features_to_select=100)
XRelief = relief.fit_transform(Xminmax, y)
print("accuracy : ", round(classify(XRelief,y), 2))


accuracy :  0.96


Essayer d'identifier le nombre minimal de caract√©ristiques √† utiliser pour obtenir le taux maximal de classification.

In [None]:
# Code pour calculer le nombre minimal de caract√©ristiques √† utiliser pour obtenir le taux maximal de classification
relief = ReliefF(n_features_to_select=40)
XRelief = relief.fit_transform(Xminmax, y)
print("accuracy : ", round(classify(XRelief,y), 2))


accuracy :  0.96


<h1>R√©duction de la dimensionnalit√© </h1>
La r√©duction de la dimensionnalit√© transforme les caract√©ristiques en une dimension inf√©rieure. Elle peut √™tre consid√©r√©e comme √©tant une m√©thode de  Selection ou de cr√©ation (extraction) de caract√©ristiques o√π nous d√©rivons des informations √† partir de l‚Äôensemble de caract√©ristiques de base pour construire un nouveau sous espace de caract√©ristiques. <br>
Ls approches de r√©duction de dimensionnalit√© les plus connues sont: PCA (Principal Component Analysis; Analyse en Composantes Principales (ACP)) et ICA (Independent Component Analysis, Analyse en Composantes Independantes (ACI))





<h2> ACP </h2>

In [None]:
# Xpca est la matrice de caract√©ristiques apr√®s r√©duction de la dimensionalit√© utilisant l'ACP
# Essayer de changer la taille de r√©duction de l'ACP afin d'obtenir le meilleur taux de classification
from sklearn.decomposition import PCA

pca = PCA(n_components=120)
Xpca = pca.fit_transform(Xminmax)
print(np.array(Xpca).shape)
print("accuracy : ", round(classify(Xpca,y), 2))


(490, 120)
accuracy :  0.97


<h2> ACI </h2>

In [None]:
# Xica est la matrice de caract√©ristiques apr√®s r√©duction de la dimensionalit√© utilisant l'ACI
# Essayer de changer la taille de r√©duction de l'ACI afin d'obtenir le meilleur taux de classification
from sklearn.decomposition import FastICA

ica = FastICA(n_components=90)
Xica = ica.fit_transform(Xminmax)
print(np.array(Xica).shape)
print("accuracy : ", round(classify(Xica,y), 2))




(490, 90)
accuracy :  0.97
