# Analyse en Composantes Principales

In [3]:
import pandas
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [4]:
# Chargement du dataset de voiture
Df_Voiture = pandas.read_excel("autos_acp.xls")

ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.

In [None]:
# Affichage des caractéristiques des données
Df_Voiture.info()

In [None]:
# Description complète
Df_Voiture.describe(include='all')

In [None]:
# Afficher une représentation
Df_Voiture.head()

In [None]:
Df_Voiture.shape

In [None]:
# Matrice des corrélations sur les variables numériques (non centrée réduite)
Df_Voiture.corr()

In [None]:
#librairie graphique
import seaborn as sns

#pairplot
sns.pairplot(Df_Voiture)

In [None]:
# ACP normée : centrer et réduire les données
df_Voiture_z_scaled = Df_Voiture.copy()
# apply normalization techniques
for column in df_Voiture_z_scaled.iloc[:,1:].columns:
    df_Voiture_z_scaled[column] = (df_Voiture_z_scaled[column] - df_Voiture_z_scaled[column].mean()) / df_Voiture_z_scaled[column].std(ddof=0)
# Vérification moyenne nulle (à quelques écart près)
print("Moyenne colonne Cylindrée = " ,df_Voiture_z_scaled["CYL"].mean())
print("Moyenne colonne Poids = " ,df_Voiture_z_scaled["POIDS"].mean())
print("Moyenne colonne Vitesse Max = " ,df_Voiture_z_scaled["V-MAX"].mean())
# Vérification des écarts-type
print("écarts-type colonne Cylindrée = " ,df_Voiture_z_scaled["CYL"].std(ddof=0))
print("écarts-type colonne Poids = " ,df_Voiture_z_scaled["POIDS"].std(ddof=0))
print("écarts-type colonne Vitesse Max = " ,df_Voiture_z_scaled["V-MAX"].std(ddof=0))

In [None]:
# Matrice des corrélations
df_Voiture_z_scaled.corr()
# La trace de la matrice est égale à 6 le nombre de variable
# Nous  notons  que  les  plus  fortes corrélations  ont  lieu  entre  (PUISS, VMAX),  et  entre  (LONG, 
# LARG, POIDS). Nous observons également que le niveau global des corrélations est élevé. 

In [None]:
# Peut on retrouver le nombre d'axe et la matrice de corrélation via le calcul de l'inertie
Z = df_Voiture_z_scaled.iloc[:,1:].values
#correspondance : produit matriciel : (1/n) (Z'Z) 
print(np.dot(np.transpose(Z),Z)/df_Voiture_z_scaled.shape[0])

# Analyse Normée en Composantes Principales

In [None]:
# Calcul des composantes principales
pca = PCA()
X=pca.fit_transform(df_Voiture_z_scaled.iloc[:,1:])
X.shape # Données et feature

In [None]:
# afficher les nouvelles coordonnées des véhicules
df_X = pandas.DataFrame({
    'Comp1': X[:,0],
    'Comp2': X[:,1],
    'Comp3': X[:,2],
    'Comp4': X[:,3],
    'Comp5': X[:,4],
    'Comp6': X[:,5],
},index=df_Voiture_z_scaled.Modele)
df_X

In [None]:
#corrélation des facteurs avec les variables 
Mlambda = np.corrcoef(x=X,y=Z,rowvar=False)
print(Mlambda)

In [None]:
# Une fois que vous avez les principaux composants, vous pouvez trouver le 
# Explained_variance_ratio. Il vous fournira la quantité d'informations ou de variance
# que chaque composant principal détient après avoir projeté les données dans 
# un sous-espace de dimension inférieure 
pca.explained_variance_ratio_*100

In [None]:
print("Variance cumulée expliquée par les composantes principales = ", np.cumsum(pca.explained_variance_ratio_*100), "%")

In [None]:
# Nombre de composantes
pca.n_components_

In [None]:
# Règle du coude pour choisir les composantes à retenir
plt.plot(np.arange(1,pca.n_components_+1),pca.explained_variance_) 
plt.title("Explained variance vs. # of factors") 
plt.ylabel("Cumsum explained variance ratio") 
plt.xlabel("Factor number") 
plt.show()

In [None]:
#cumul de variance expliquée 
plt.plot(np.arange(1,pca.n_components_+1),np.cumsum(pca.explained_variance_ratio_*100)) 
plt.title("Explained variance vs. # of factors") 
plt.ylabel("Cumsum explained variance ratio") 
plt.xlabel("Factor number") 
plt.show()

In [None]:
scree = pca.explained_variance_ratio_*100
plt.bar(np.arange(len(scree))+1, scree)
plt.plot(np.arange(len(scree))+1, scree.cumsum(),c="red",marker='o')
plt.xlabel("rang de l'axe d'inertie")
plt.ylabel("pourcentage d'inertie")
plt.title("Eboulis des valeurs propres")
plt.show(block=False)

In [None]:
## distribution des composantes principales (autre version)
plt.boxplot(X)
plt.show()

# Représentations des individus sur les composantes principales

In [None]:
# Représentation des individus sur le plan des deux premières composantes (tout à la main !!)
fig, axes = plt.subplots(figsize=(10,10))
axes.scatter(df_X.Comp1,df_X.Comp2)
axes.set_xlabel('Composante_1')
axes.set_ylabel('Composante_2')
axes.set_title('Résultat de la PCA')
#ajouter les axes 
plt.plot([df_X["Comp1"].min(),df_X["Comp1"].max()],[0,0],color='red',linestyle='-',linewidth=1) 
plt.plot([0,0],[df_X["Comp2"].min(),df_X["Comp2"].max()],color='red',linestyle='-',linewidth=1) 
for k, v in df_X.iterrows():
    plt.text(v.Comp1,v.Comp2,k)
plt.grid()
plt.show()

In [None]:
# Représentation des individus sur le plan des une et trois, deux et trois
fig, axes = plt.subplots(2,figsize=(8,8))
axes[0].scatter(df_X.Comp1,df_X.Comp3)
axes[0].set_xlabel('Composante_1')
axes[0].set_ylabel('Composante_3')
axes[0].set_title('Résultat de la PCA')
#ajouter les axes 
axes[0].plot([df_X["Comp1"].min(),df_X["Comp1"].max()],[0,0],color='red',linestyle='-',linewidth=1) 
axes[0].plot([0,0],[df_X["Comp3"].min(),df_X["Comp3"].max()],color='red',linestyle='-',linewidth=1) 
for k, v in df_X.iterrows():
    #axes.annotate(v.Car)
    #plt.text(v.Comp1,v.Comp2,v.Car+"-"+v.Model)
    axes[0].text(v.Comp1,v.Comp3,k)
plt.grid()
# ====================================================
axes[1].scatter(df_X.Comp2,df_X.Comp3)
axes[1].set_xlabel('Composante_2')
axes[1].set_ylabel('Composante_3')
axes[1].set_title('Résultat de la PCA')
#ajouter les axes 
axes[1].plot([df_X["Comp2"].min(),df_X["Comp2"].max()],[0,0],color='red',linestyle='-',linewidth=1) 
axes[1].plot([0,0],[df_X["Comp3"].min(),df_X["Comp3"].max()],color='red',linestyle='-',linewidth=1) 
for k, v in df_X.iterrows():
    axes[1].text(v.Comp2,v.Comp3,k)
plt.grid()
plt.show()

In [None]:
# Plot 3D pour vérifier la répartition sur les trois axes
# import relevant libraries for 3d graph
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(figsize=(6,6))
 
# choose projection 3d for creating a 3d graph
axis = fig.add_subplot(111, projection='3d')
 
# x[:,0]is pc1,x[:,1] is pc2 while x[:,2] is pc3
axis.scatter(X[:,0],X[:,1],X[:,2])
axis.set_xlabel("PC1", fontsize=10)
axis.set_ylabel("PC2", fontsize=10)
axis.set_zlabel("PC3", fontsize=10)
plt.show()

# Représentations des variables sur les composantes

In [None]:
pca.

In [None]:
pca.components_
# df_variable = pandas.DataFrame(pca.components_.T, columns = ['PC1', 'PC2'], index=df_Voiture_z_scaled.iloc[:,2:].columns)
df_variable = pandas.DataFrame(pca.components_, columns = Df_Voiture.columns[1:], index=['Comp1','Comp2','Comp3','Comp4','Comp5','Comp6'])
# Faire les corrélations 
#corr_df = df_comp.corr(method='pearson')
# plotting heatmap
#sns.heatmap(corr_df)
df_variable.head()

## Cercle des corrélations

In [None]:
#racine carrée des valeurs propres 
sqrt_valeur_propre = np.sqrt(pca.explained_variance_)

#corrélation des variables avec les axes 
corvar = np.zeros((6,6)) 
 
for k in range(6): 
    corvar[:,k] = pca.components_[k,:] * sqrt_eigval[k] 
     
#afficher la matrice des corrélations variables x facteurs     
print(corvar) 

In [None]:
#on affiche pour les deux premiers axes 
print(pandas.DataFrame({'id':Df_Voiture.columns[1:],'COR_1':corvar[:,0],'COR_2':corvar[:,1]}))

In [None]:
#cercle des corrélations des variables
column = Df_Voiture.columns[1:].unique()

fig, axes = plt.subplots(figsize=(8,8)) 
axes.set_xlim(-1,1) 
axes.set_ylim(-1,1) 
 
#affichage des étiquettes (noms des variables) 
for j in range(6): 
    plt.annotate(column[j],(corvar[j,0],corvar[j,1]))
    plt.arrow(0, 0, corvar[j,0],corvar[j,1],color = 'y',alpha = 0.5, head_width=0.05,head_length=0.05)
     
#ajouter les axes 
axes.plot([df_X["Comp1"].min(),df_X["Comp1"].max()],[0,0],color='black',linestyle='-',linewidth=1) 
axes.plot([0,0],[df_X["Comp2"].min(),df_X["Comp2"].max()],color='black',linestyle='-',linewidth=1) 

#ajouter un cercle 
cercle = plt.Circle((0,0),1,color='blue',fill=False) 
axes.add_artist(cercle) 

axes.set_xlabel('Composante_1')
axes.set_ylabel('Composante_2')
axes.set_title('cercle des corrélations des variables')

#affichage 
plt.show() 