<a href="https://colab.research.google.com/github/adrien-chinour/ia-data/blob/master/03-acp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyse en Composantes Principales : ACP

## Exercice 1

In [0]:
import numpy as np
import math
import pandas as pa
import matplotlib.pyplot as plt
from sklearn import decomposition
from sklearn import preprocessing

In [0]:
data = pa.read_csv('https://www.labri.fr/perso/zemmari/datasets/consommation.csv', index_col=0, header=0)
data.head()

In [0]:
pca_cols = ['PAO','PAA','VIO','VIA','POT','LEC','RAI','PLP']
data_pca = data[pca_cols]
X = data_pca.values # Nos variables aléatoires
n = X.shape[0] #nombre d'individus (classe socio-professionnel)
p = X.shape[1] #Nombre de variables (consommation)
print(n,p)

In [0]:
# On récupère les coeficients de corrélation entre nos variables
corr = np.corrcoef(X, rowvar=0)
print(corr)

In [0]:
# On créer les variables aléatoires Z centrées réduites
std_scaler = preprocessing.StandardScaler()
Z = std_scaler.fit_transform(X)
print(Z)

In [0]:
# On peut vérifier que nos données sont bien centrées réduites
print(np.mean(Z,axis=0))
print(np.std(Z,axis=0))

In [0]:
# On commence par un nombre de composante maximum : p
pca = decomposition.PCA(n_components=p)
coord_fact = pca.fit_transform(Z)

In [0]:
# On calcul les valeurs propres de nos variables => Var(Xi) = valeur_propre
valeurs_propres = pca.explained_variance_
print(valeurs_propres)

In [0]:
plt.plot(np.arange(1,p+1),valeurs_propres) 
plt.title("Scree plot")
plt.ylabel("Eigen values")
plt.xlabel("Factor number")
plt.show()

Selon le critère du coude, on ne garde que deux axes, ceux correspondant aux deux premières valeurs propres. Ces deux axes captures un total de variation égal à:

In [0]:
var_expl = (valeurs_propres[0]+valeurs_propres[1])/np.sum(valeurs_propres)
print(var_expl*100,'%')

In [0]:
#racine carrée des valeurs propres 
sqrt_eigval = np.sqrt(valeurs_propres)

#corrélation des variables avec les axes 
corvar = np.zeros((p,p)) 
for k in range(p):     
        corvar[:,k] = pca.components_[k,:] * sqrt_eigval[k]      

#on affiche pour les deux premiers axes 
print(pa.DataFrame({'id':data.columns,'COR_1':corvar[:,0],'COR_2':corvar[:,1]})) 

In [0]:
#contributions aux axes 
ctr = coord_fact**2 
for j in range(p):     
    ctr[:,j] = ctr[:,j]/(n*valeurs_propres[j])      
print(pa.DataFrame({'id':data.index,'CTR_1':ctr[:,0],'CTR_2':ctr[:,1]}))

In [0]:
# valeur de critere
1/(math.sqrt(valeurs_propres[0]))

## Exercice 2

In [0]:
data = pa.read_csv('http://adrien.chinour.emi.u-bordeaux.fr/datasets/consommations.csv', index_col=0, header=0)
data

In [0]:
pca_cols = ['NET','INT','SUB','LMT','DCT','IMM','EXP','VRD']
data_pca = data[pca_cols]
X = data_pca.values # Nos variables aléatoires
n = X.shape[0] #nombre d'individus (classe socio-professionnel)
p = X.shape[1] #Nombre de variables (consommation)
print(n,p)

In [0]:
# On récupère les coeficients de corrélation entre nos variables
corr = np.corrcoef(X, rowvar=0)
print(corr)

In [0]:
# On créer les variables aléatoires Z centrées réduites
std_scaler = preprocessing.StandardScaler()
Z = std_scaler.fit_transform(X)
print(Z)

In [0]:
# On commence par un nombre de composante maximum : p
pca = decomposition.PCA(n_components=p)
coord_fact = pca.fit_transform(Z)

In [0]:
# On calcul les valeurs propres de nos variables => Var(Xi) = valeur_propre
valeurs_propres = pca.explained_variance_
print(valeurs_propres)

In [0]:
plt.plot(np.arange(1,p+1),valeurs_propres) 
plt.title("Scree plot")
plt.ylabel("Eigen values")
plt.xlabel("Factor number")
plt.show()

On garde 3 axes selon le critère du coude.

In [0]:
var_expl = (valeurs_propres[0]+valeurs_propres[1]+valeurs_propres[2])/np.sum(valeurs_propres)
print(var_expl*100,'%')

In [0]:
#racine carrée des valeurs propres 
sqrt_eigval = np.sqrt(valeurs_propres)

#corrélation des variables avec les axes 
corvar = np.zeros((p,p)) 
for k in range(p):     
        corvar[:,k] = pca.components_[k,:] * sqrt_eigval[k]      

#on affiche pour les trois premiers axes 
print(pa.DataFrame({'id':data.columns,'COR_1':corvar[:,0],'COR_2':corvar[:,1],'COR_3':corvar[:,1]})) 

On ne garde pour l'interprétation des axes que les variables ayant une contribution supérieur à la contribution moyenne 1/p, 0.125 dans ce cas.

In [0]:
#contributions aux axes 
ctr = coord_fact**2 
for j in range(p):     
    ctr[:,j] = ctr[:,j]/(n*valeurs_propres[j])      
print(pa.DataFrame({'id':data.index,'CTR_1':ctr[:,0],'CTR_2':ctr[:,1],'CTR_3':ctr[:,1]}))

In [0]:
# valeur de critere
1/(math.sqrt(valeurs_propres[0]))