# <font color=green>**REDUCTION DE LA DIMENSION D'UNE ENSEMBLE DE DONNEES PAR L'ANALYSE EN COMPOSANTES PRINCIPALES**

*Auteur : Josué Afouda*


# ***Librairies***

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

# ***Sélection des composants principaux selon le pourcentage de variance expliquée***






Au lieu de créer d'abord un modèle ACP avec comme nombre de composantes égal au nombre de varibales puis de déterminer ensuite la dimension intrinsèque raisonnable et enfin recréer un autre modèle ACP avec cette dimension intrinsèque pour transformer les données, on peut directement spécifier le pourcentage de la variance qu'on désire garder.     

Dans cette partie, nous utiliserons le jeu de données Iris. L'ensemble de données [Iris](https://archive.ics.uci.edu/ml/datasets/iris) contient 3 classes de 50 instances chacune, chaque classe se référant à un type de plante d'iris. Une classe est séparable linéairement des 2 autres; ces derniers ne sont pas linéairement séparables les uns des autres (Source : Michael Marshall (MARSHALL%PLU '@' io.arc.nasa.gov)).

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
# Importation des données
columns = ['sepal length', 'sepal width ', 'petal length', 'petal width', 'class']
df = pd.read_csv('/content/drive/My Drive/TUTORIELS/ACP/iris.data', header=None, names=columns)
df

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Quel est le nombre de composantes principales qu'il faut pour expliquer 90% de la variance totale contenue dans les données d'iris ?

In [None]:
# Suppression de la colone 'class'
df.drop(columns=['class'], inplace=True)
df

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [None]:
# Données en tableau numpy
df_array = df.values
print(type(df_array))
print(df_array.shape)

<class 'numpy.ndarray'>
(150, 4)


In [None]:
# Objet Pipeline
pipe = Pipeline([('scaler', StandardScaler()),
                 ('pca', PCA(n_components=0.8))])

df_pca = pipe.fit_transform(df_array)
df_pca


array([[-2.26454173e+00,  5.05703903e-01],
       [-2.08642550e+00, -6.55404729e-01],
       [-2.36795045e+00, -3.18477311e-01],
       [-2.30419716e+00, -5.75367713e-01],
       [-2.38877749e+00,  6.74767397e-01],
       [-2.07053681e+00,  1.51854856e+00],
       [-2.44571134e+00,  7.45626750e-02],
       [-2.23384186e+00,  2.47613932e-01],
       [-2.34195768e+00, -1.09514636e+00],
       [-2.18867576e+00, -4.48629048e-01],
       [-2.16348656e+00,  1.07059558e+00],
       [-2.32737775e+00,  1.58587455e-01],
       [-2.22408272e+00, -7.09118158e-01],
       [-2.63971626e+00, -9.38281982e-01],
       [-2.19229151e+00,  1.88997851e+00],
       [-2.25146521e+00,  2.72237108e+00],
       [-2.20275048e+00,  1.51375028e+00],
       [-2.19017916e+00,  5.14304308e-01],
       [-1.89407429e+00,  1.43111071e+00],
       [-2.33994907e+00,  1.15803343e+00],
       [-1.91455639e+00,  4.30465163e-01],
       [-2.20464540e+00,  9.52457317e-01],
       [-2.77416979e+00,  4.89517027e-01],
       [-1.

In [None]:
df_pca.shape

(150, 2)

In [None]:
df_array.shape

(150, 4)

# <font color=red>EXERCICE D'APPLICATION

