<h2 style="color:green" align="center">PCA avec Python</h2>

<p >L'analyse en composantes principales (ACP) en Python peut être utilisée pour accélérer la formation des modèles ou pour la visualisation des données. Ce didacticiel couvre les deux à l'aide de scikit-learn.
Bien que vous puissiez accélérer l'ajustement d'un algorithme d'apprentissage automatique en modifiant l'algorithme d'optimisation, une méthode plus courante pour accélérer l'algorithme consiste à utiliser l'analyse en composantes principales (ACP) . Si votre algorithme d'apprentissage est trop lent parce que la dimension d'entrée est trop élevée, l'utilisation de l'ACP pour l'accélérer peut être un choix raisonnable. Il s'agit probablement de l'application la plus courante de l'ACP. Une autre application courante de l'ACP est la visualisation des données.
</p>

***Qu'est-ce qu'un PCA ?***
L'analyse en composantes principales (ACP) est une méthode de réduction de la dimensionnalité des données et est utilisée pour améliorer la visualisation des données et accélérer la formation des modèles d'apprentissage automatique.

***Pour comprendre l'intérêt d'utiliser l'ACP pour :***
1. la visualisation des données.
2. la première partie de ce tutoriel présente une visualisation de base de l' ensemble de **données Iris** après l'application de l'ACP.
3. La deuxième partie explore comment utiliser l'ACP pour accélérer un algorithme d'apprentissage automatique (régression logistique) sur l'ensemble de données modifié du National Institute of Standards and Technology **(MNIST)**.

***PCA pour la visualisation des données***

Pour de nombreuses applications d'apprentissage automatique, il est utile de visualiser vos données . La visualisation de données bidimensionnelles ou tridimensionnelles n'est pas si difficile. Cependant, même l'ensemble de données Iris utilisé dans cette partie du didacticiel est **quadridimensionnel**. Vous pouvez utiliser l'ACP pour réduire ces données quadridimensionnelles en **deux** ou **trois** dimensions afin de pouvoir tracer et, espérons-le, mieux comprendre les données.

<h2 style='color:blue' align="center">Étape 1 : Charger l’ensemble de données Iris</h2>

In [250]:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()

<img height=300 width=300 src="iris_petal_sepal.png" />

In [253]:
df = pd.DataFrame(iris.data,columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


<h2 style='color:blue' align="center">Étape 2 : normaliser les données</h2>

***L'ACP est affectée par l'échelle***. Vous devez donc mettre à l'échelle les fonctionnalités de vos données avant d'appliquer l'ACP. Utilisez-les <span style="color:red">StandardScaler </span> pour vous aider à normaliser les fonctionnalités de l'ensemble de données à l'échelle unitaire <span style="color:red"> ( mean = 0 et variance = 1) </span>, ce qui est une exigence pour les performances optimales de nombreux algorithmes d'apprentissage automatique . Si vous ne mettez pas à l'échelle vos données , cela peut avoir un effet négatif sur votre algorithme. 

In [257]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [259]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [261]:
df = pd.DataFrame(iris.data,columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [263]:
df['target'] = iris.target
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [265]:
x = df.loc[:, features].values
y = df.loc[:,['target']].values
x

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

***Normalisation de x***

In [268]:
from sklearn.preprocessing import StandardScaler
# Standardizing the features
x = StandardScaler().fit_transform(x)

In [270]:
df = pd.DataFrame(x,columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [272]:
df['target'] = y
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,-0.900681,1.019004,-1.340227,-1.315444,0
1,-1.143017,-0.131979,-1.340227,-1.315444,0
2,-1.385353,0.328414,-1.397064,-1.315444,0
3,-1.506521,0.098217,-1.283389,-1.315444,0
4,-1.021849,1.249201,-1.340227,-1.315444,0


<h2 style='color:blue' align="center">Étape 3 : Projection PCA en 2D</h2>

<p> Les données d'origine comportent quatre colonnes (longueur des sépales, largeur des sépales, longueur des pétales et largeur des pétales). Dans cette section, le code projette les données d'origine, qui sont à quatre dimensions, en deux dimensions. Après la réduction de la dimensionnalité , il n'y a généralement pas de signification particulière attribuée à chaque composant principal. Les nouveaux composants ne sont que les deux principales dimensions de variation.</p>

In [276]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
principalComponents = pca.fit_transform(x)
principalDf = pd.DataFrame(data = principalComponents
             , columns = ['principal component 1', 'principal component 2'])
principalDf.head()

Unnamed: 0,principal component 1,principal component 2
0,-2.264703,0.480027
1,-2.080961,-0.674134
2,-2.364229,-0.341908
3,-2.299384,-0.597395
4,-2.389842,0.646835


In [278]:
finalDf = pd.concat([principalDf, df[['target']]], axis = 1)
finalDf

Unnamed: 0,principal component 1,principal component 2,target
0,-2.264703,0.480027,0
1,-2.080961,-0.674134,0
2,-2.364229,-0.341908,0
3,-2.299384,-0.597395,0
4,-2.389842,0.646835,0
...,...,...,...
145,1.870503,0.386966,2
146,1.564580,-0.896687,2
147,1.521170,0.269069,2
148,1.372788,1.011254,2


La concaténation du DataFrame le long de axis = 1. **finalDfest** le DataFrame final aprés la projection (PCA) les données.

<h2 style='color:blue' align="center">Étape 4 : Visualiser la projection 2D</h2>

<p>Dans cette section nous ne représentons que des données bidimensionnelles. Notez sur le graphique ci-dessous que les classes semblent bien séparées les unes des autres.</p>

In [291]:
print(finalDf.head(150))

     principal component 1  principal component 2  target
0                -2.264703               0.480027       0
1                -2.080961              -0.674134       0
2                -2.364229              -0.341908       0
3                -2.299384              -0.597395       0
4                -2.389842               0.646835       0
..                     ...                    ...     ...
145               1.870503               0.386966       2
146               1.564580              -0.896687       2
147               1.521170               0.269069       2
148               1.372788               1.011254       2
149               0.960656              -0.024332       2

[150 rows x 3 columns]


In [303]:
import matplotlib.pyplot as plt

# Assuming `finalDf` is your DataFrame and it has 'principal component 1', 'principal component 2', and 'target' columns.
#principal component 1	principal component 2	target
# Plotting the scatter plot
plt.figure(figsize=(8, 8))

# Loop through each target category
targets = iris.target_names
colors = ['r', 'g', 'b']

for target, color in zip(targets, colors):
    indicesToKeep = finalDf['target'] == targets
    plt.scatter(finalDf.loc[indicesToKeep, 'principal component 1'],
                finalDf.loc[indicesToKeep, 'principal component 2'],
                c=color,
                s=50,
                label=target)

plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('2 component PCA')
plt.legend(targets)
plt.grid()
plt.show()

ValueError: ('Lengths must match to compare', (150,), (3,))