## Une ACP à la main en utilisant NumPY

In [1]:
import numpy
import pandas

X = numpy.array([[6, 4, 4],
                 [8, 3, 3],
                 [5, 8, 4],
                 [4, 5, 10],
                 [2, 8, 5]])

In [2]:
data = pandas.DataFrame(X)
data

Unnamed: 0,0,1,2
0,6,4,4
1,8,3,3
2,5,8,4
3,4,5,10
4,2,8,5


In [3]:
# paramètres statistiques du data frame
data.describe()

Unnamed: 0,0,1,2
count,5.0,5.0,5.0
mean,5.0,5.6,5.2
std,2.236068,2.302173,2.774887
min,2.0,3.0,3.0
25%,4.0,4.0,4.0
50%,5.0,5.0,4.0
75%,6.0,8.0,5.0
max,8.0,8.0,10.0


In [9]:
# Centrage des variables
data_centered = (data - numpy.mean(data, axis=0)) / numpy.std(data)
data_centered

Unnamed: 0,0,1,2
0,0.5,-0.777029,-0.483494
1,1.5,-1.262672,-0.886405
2,0.0,1.165543,-0.483494
3,-0.5,-0.291386,1.933975
4,-1.5,1.165543,-0.080582


In [14]:
# Calcul de la matrice de covariance
data_covariance = data_centered.cov()
data_covariance

Unnamed: 0,0,1,2
0,1.25,-0.971286,-0.604367
1,-0.971286,1.25,0.068485
2,-0.604367,0.068485,1.25


In [30]:
# Calcul des valeurs propres et vecteurs propres
eigen_values, eigen_vectors = numpy.linalg.eig(data_covariance)
eigen_values

array([2.42547715, 0.13591909, 1.18860376])

In [31]:
# Affichage des vecteurs propres
eigen_vectors

array([[ 0.69732848, -0.71625825,  0.0265915 ],
       [-0.59911807, -0.602846  , -0.52691009],
       [-0.39343428, -0.35149796,  0.84950494]])

In [32]:
# Calcul de la variance expliquée par chacune des q premières variables (tri par ordre décroissant des valeurs propres)
sorted_index = numpy.argsort(eigen_values)[::-1]
eigen_values_sorted = eigen_values[sorted_index]
eigen_vectors_sorted = eigen_vectors[:, sorted_index]

# variance_explained = numpy.dot(data_covariance, eigen_vectors)
variance_explained = eigen_values_sorted / numpy.sum(eigen_values_sorted) * 100
variance_explained

array([64.67939066, 31.69610016,  3.62450918])

In [None]:
# Calcul de la proportion de variance expliquée par chacune des q premières variables (la somme doit faire 1)
variance_explained_ratio =
variance_explained_ratio

In [27]:
# Calcul de la proportion de variance cumulée expliquée par les q premières variables 
variance_explained_ratio_cum = numpy.cumsum(variance_explained)
variance_explained_ratio_cum

array([ 64.67939066,  96.37549082, 100.        ])

In [33]:
# Vecteurs propres
eigen_vectors

array([[ 0.69732848, -0.71625825,  0.0265915 ],
       [-0.59911807, -0.602846  , -0.52691009],
       [-0.39343428, -0.35149796,  0.84950494]])

96% (64.67 et 31.69) des variances peuvent être expliquées par les composantes principales 1 et 2

In [34]:
# Calcul de la matrice de passage
P = (eigen_vectors.T[:][:3]).T
P

array([[ 0.69732848, -0.71625825,  0.0265915 ],
       [-0.59911807, -0.602846  , -0.52691009],
       [-0.39343428, -0.35149796,  0.84950494]])

In [35]:
# Vérification de la diagonalisation via un produit matriciel
P = data_centered.dot(P)
P

Unnamed: 0,0,1,2
0,1.004419,0.280247,0.01199
1,2.151224,-0.001621,-0.047804
2,-0.508075,-0.532696,-1.024867
3,-0.934982,-0.145998,1.78316
4,-1.712587,0.400069,-0.722479


In [1]:
# Calcul des coordonnées dans la nouvelle base à l'aide de la matrice de passage


In [None]:
# Affichage des coordonnées dans la nouvelle base à l'aide de la matrice de passage


## Une ACP en utilisant Scikit-Learn

In [36]:
from sklearn.decomposition import PCA
pca = PCA(n_components=3)
pca.fit(data)

PCA(n_components=3)

In [37]:
# Retrouver la variance expliquée à l'aide d'un attribut de pca
pca.explained_variance_

array([11.00784433,  6.41217478,  0.57998089])

In [38]:
# Retrouver la proportion de variance expliquée à l'aide d'un attribut de pca
pca.explained_variance_ratio_

array([0.61154691, 0.35623193, 0.03222116])

In [39]:
# Retrouver les coordonnées dans la nouvelle base à l'aide de la méthode "transform" de cpa
pca.transform(data)

array([[ 2.12913199,  0.37689752, -0.56986421],
       [ 4.47454472,  0.76019446,  0.02353496],
       [-0.40180386, -2.40525101,  1.1195183 ],
       [-3.30534284,  3.66223124,  0.25054158],
       [-2.89653002, -2.3940722 , -0.82373063]])