# Décomposition en valeurs singulières d’une matrice

## I- Installation des bib

In [4]:
!pip install numpy
!pip install pandas
!pip install scipy
!pip install matplotlib
!pip install -U scikit-learn



## II- Importation de bib

In [7]:
import numpy as np
import pandas as pd
import scipy
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

## III- Importation des donnees

In [8]:
df = pd.read_csv("autos-acp-diapos.csv")
df

Unnamed: 0,Modele,CYL,PUISS,LONG,LARG,POIDS,V.MAX
0,Alfasud TI,1350,79,393,161,870,165
1,Audi 100,1588,85,468,177,1110,160
2,Simca 1300,1294,68,424,168,1050,152
3,Citroen GS Club,1222,59,412,161,930,151
4,Fiat 132,1585,98,439,164,1105,165
5,Lancia Beta,1297,82,429,169,1080,160
6,Peugeot 504,1796,79,449,169,1160,154
7,Renault 16 TL,1565,55,424,163,1010,140
8,Renault 30,2664,128,452,173,1320,180
9,Toyota Corolla,1166,55,399,157,815,140


## IV- Prétraiter les données:

### 1- Calculer la moyenne de chaque variable

In [9]:
means = df.drop(columns=["Modele"]).mean()
means

CYL      1631.666667
PUISS      84.611111
LONG      433.500000
LARG      166.666667
POIDS    1078.833333
V.MAX     158.277778
dtype: float64

### 2- Soustraire la moyenne de chaque variable pour centrer les données

In [10]:
centered_data = df.drop(columns=["Modele"]) - means
centered_data

Unnamed: 0,CYL,PUISS,LONG,LARG,POIDS,V.MAX
0,-281.666667,-5.611111,-40.5,-5.666667,-208.833333,6.722222
1,-43.666667,0.388889,34.5,10.333333,31.166667,1.722222
2,-337.666667,-16.611111,-9.5,1.333333,-28.833333,-6.277778
3,-409.666667,-25.611111,-21.5,-5.666667,-148.833333,-7.277778
4,-46.666667,13.388889,5.5,-2.666667,26.166667,6.722222
5,-334.666667,-2.611111,-4.5,2.333333,1.166667,1.722222
6,164.333333,-5.611111,15.5,2.333333,81.166667,-4.277778
7,-66.666667,-29.611111,-9.5,-3.666667,-68.833333,-18.277778
8,1032.333333,43.388889,18.5,6.333333,241.166667,21.722222
9,-465.666667,-29.611111,-34.5,-9.666667,-263.833333,-18.277778


### 3- Calculer l'écart-type de chaque variable

In [11]:
std_devs = df.drop(columns=["Modele"]).std()
std_devs

CYL      373.929846
PUISS     20.376281
LONG      22.107358
LARG       5.313689
POIDS    136.957808
V.MAX     12.140383
dtype: float64

### 4- Diviser chaque variable par son écart-type pour réduire les données

In [12]:
scaled_data = centered_data / std_devs
scaled_data

Unnamed: 0,CYL,PUISS,LONG,LARG,POIDS,V.MAX
0,-0.753261,-0.275375,-1.831969,-1.066428,-1.5248,0.553708
1,-0.116778,0.019085,1.560566,1.944663,0.227564,0.141859
2,-0.903021,-0.815218,-0.429721,0.250924,-0.210527,-0.517099
3,-1.095571,-1.256908,-0.972527,-1.066428,-1.086709,-0.599469
4,-0.124801,0.657082,0.248786,-0.501848,0.191056,0.553708
5,-0.894999,-0.128145,-0.203552,0.439117,0.008518,0.141859
6,0.439476,-0.275375,0.701124,0.439117,0.59264,-0.352359
7,-0.178287,-1.453215,-0.429721,-0.690042,-0.502588,-1.505536
8,2.760767,2.129382,0.836825,1.19189,1.760883,1.789254
9,-1.245332,-1.453215,-1.560566,-1.819201,-1.926384,-1.505536


### 5- Créer la matrice de données Z à partir du DataFrame contenant les données centrées et réduites

In [13]:
Z = scaled_data.values
print(Z)

[[-0.75326073 -0.27537465 -1.83196922 -1.06642792 -1.52480049  0.55370761]
 [-0.1167777   0.01908537  1.56056637  1.94466269  0.227564    0.14185897]
 [-0.90302144 -0.81521802 -0.42972117  0.25092422 -0.21052712 -0.51709884]
 [-1.09557092 -1.25690805 -0.97252687 -1.06642792 -1.08670937 -0.59946857]
 [-0.12480059  0.65708208  0.24878594 -0.50184844  0.19105641  0.55370761]
 [-0.89499854 -0.12814464 -0.20355214  0.43911738  0.00851844  0.14185897]
 [ 0.43947638 -0.27537465  0.70112402  0.43911738  0.59263994 -0.35235939]
 [-0.17828656 -1.45321473 -0.42972117 -0.6900416  -0.50258787 -1.50553557]
 [ 2.76076742  2.12938219  0.83682544  1.19189003  1.76088293  1.78925352]
 [-1.24533164 -1.45321473 -1.56056637 -1.81920058 -1.92638402 -1.50553557]
 [-0.16491507  1.19692545 -0.24878594 -0.87823476 -0.13751194  1.37740488]
 [ 0.44482497 -0.12814464  0.52018879  1.00369687  0.59263994 -0.02288048]
 [ 0.97968466  1.49138547  1.60580018  0.43911738  2.12595887  0.14185897]
 [ 0.96631317  0.65708208

In [14]:
# Exclure la colonne 'Modele' (car elle contient des chaînes de caractères)
M = df.drop(columns=['Modele']).values

# Afficher la matrice
print("Matrice des valeurs numériques :")
print(M)

Matrice des valeurs numériques :
[[1350   79  393  161  870  165]
 [1588   85  468  177 1110  160]
 [1294   68  424  168 1050  152]
 [1222   59  412  161  930  151]
 [1585   98  439  164 1105  165]
 [1297   82  429  169 1080  160]
 [1796   79  449  169 1160  154]
 [1565   55  424  163 1010  140]
 [2664  128  452  173 1320  180]
 [1166   55  399  157  815  140]
 [1570  109  428  162 1060  175]
 [1798   82  445  172 1160  158]
 [1998  115  469  169 1370  160]
 [1993   98  438  170 1080  167]
 [1442   80  431  166 1129  144]
 [1769   83  440  165 1095  165]
 [1979  100  459  173 1120  173]
 [1294   68  404  161  955  140]]


In [16]:
#instanciation
sc = StandardScaler()
#transformation – centrage-réduction
Z = sc.fit_transform(M)
print(Z)

[[-0.77509889 -0.28335818 -1.88508077 -1.09734528 -1.56900676  0.56976043]
 [-0.12016326  0.01963869  1.60580955  2.0010414   0.23416142  0.14597168]
 [-0.92920139 -0.83885242 -0.44217944  0.25819889 -0.21663062 -0.53209032]
 [-1.12733318 -1.29334771 -1.00072189 -1.09734528 -1.11821472 -0.61684807]
 [-0.12841875  0.67613189  0.25599862 -0.51639778  0.19659542  0.56976043]
 [-0.9209459  -0.13185975 -0.20945342  0.45184806  0.0087654   0.14597168]
 [ 0.45221746 -0.28335818  0.72145067  0.45184806  0.60982146 -0.36257482]
 [-0.18345536 -1.49534562 -0.44217944 -0.71004695 -0.51715865 -1.54918332]
 [ 2.84080623  2.19111619  0.86108628  1.22644473  1.81193359  1.84112668]
 [-1.28143568 -1.49534562 -1.60580955 -1.87194195 -1.98223281 -1.54918332]
 [-0.16969621  1.23162613 -0.25599862 -0.90369611 -0.14149861  1.41733793]
 [ 0.45772112 -0.13185975  0.53526985  1.03279556  0.60982146 -0.02354382]
 [ 1.0080872   1.53462299  1.65235475  0.45184806  2.18759363  0.14597168]
 [ 0.99432805  0.67613189

## V- Effectuer la décomposition en valeurs singulières (SVD):

In [8]:
# Effectuer la SVD
Us, delta, Vs = np.linalg.svd(Z)

## VI-Interpréter les résultats:

### 1- Les valeurs singulières (delta) représentent la variance restituée par chaque axe

In [9]:
n = df.shape[0]  # Nombre de lignes dans le DataFrame
n

18

In [10]:
print("les valeurs singulières : \n",delta)  # Afficher les valeurs singulières
print("les variances restituées par les axes : \n" , (delta**2) / n)  # Calculer les variances restituées par les axes

les valeurs singulières : 
 [8.66917453 3.81484717 2.51835727 1.90700695 1.25603368 0.85786633]
les variances restituées par les axes : 
 [4.17525483 0.80850327 0.35234018 0.20203753 0.08764559 0.04088526]


### 2-Les matrices Us et Vs contiennent les vecteurs singuliers gauche et droit, respectivement. Elles peuvent être utilisées pour calculer les coordonnées factorielles des individus et des variables.

Les "coordonnées des variables" font référence aux relations entre les variables originales et les axes principaux dans l'espace factoriel de l'Analyse en Composantes Principales (ACP). La matrice V, de taille (p, p), contient ces relations sous forme de vecteurs orthonormés appelés vecteurs propres. En d'autres termes, chaque colonne de la matrice V représente un vecteur propre qui définit la direction et l'importance de chaque variable dans l'espace des composantes principales.

Dans votre exemple, la matrice V est transposée (numpy.transpose(Vs)), ce qui signifie que chaque ligne représente un vecteur propre. Ces vecteurs propres ont été obtenus à partir de la décomposition en valeurs singulières (SVD) de la matrice des données centrées et réduites. Plus précisément, ils correspondent aux vecteurs propres de la matrice de covariance des variables, soit la matrice (𝑍𝑇𝑍). Ces vecteurs propres fournissent les coordonnées des variables dans l'espace des composantes principales, ce qui permet de visualiser la contribution de chaque variable à chaque composante principale.

La vérification est effectuée en comparant ces vecteurs propres avec ceux obtenus directement à partir de la matrice de covariance des variables (Z'Z). La correspondance entre les deux jeux de vecteurs propres confirme la validité des résultats de l'ACP.

In [None]:
print("US : \n" ,Us)  # Matrice des vecteurs singuliers gauche
print(np.transpose(Vs))  # Matrice des vecteurs singuliers droit (transposée)

## VII - Calculer les coordonnées factorielles des individus:

### 1- Utilisez la formule 𝐹𝑖𝑘 = 𝛿𝑘 × 𝑢𝑖𝑘 pour calculer les coordonnées factorielles des individus pour chaque axe.

In [11]:
# Coordonnées factorielles - 1er facteur
coordinates = pd.DataFrame(Us[:,0] * delta[0], columns=['F_1'], index=df['Modele'])
print(coordinates)

                      F_1
Modele                   
Alfasud TI      -2.078660
Audi 100         1.517465
Simca 1300      -1.087847
Citroen GS Club -2.501227
Fiat 132         0.415801
Lancia Beta     -0.295666
Peugeot 504      0.664659
Renault 16 TL   -1.893594
Renault 30       4.285492
Toyota Corolla  -3.873484
Alfetta 1.66     0.425327
Princess 1800    0.989489
Datsun 200L      2.858216
Taunus 2000      1.277834
Rancho          -0.671640
Mazda 9295       0.374842
Opel Rekord      2.225255
Lada 1300       -2.632260
