# Interprétation de l'ACP

Pour approfondir l'interprétation de l'ACP, nous reprenons les données *Iris* du dernier TP.

In [1]:
%matplotlib nbagg
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt


Importons d'abord les données :

In [2]:
iris = pd.read_csv('http://www.proba.jussieu.fr/pageperso/rebafka/irisdata.csv')
iris.head()

Unnamed: 0,sepal-long,sepal-larg,petal-long,petal-larg,espece
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Effectuons l'ACP :

In [3]:
from sklearn.decomposition import PCA

In [4]:
iris_pca = PCA() 
iris_res = iris_pca.fit_transform(iris.drop('espece',1))  

# Visualisation des parts de variance expliquée
Dans ce TP nous voulons mieux comprendre  les résultats de l'ACP. Tout d'abord la part de la variance expliquée par les différentes composantes principales permet d'apprécier la qualité de la représentation des données par les premières composantes principales.

On peut visualiser la part de la variance expliquée par les composantes principales par les deux graphiques suivants.


In [5]:
plt.figure()
scree = pd.Series(iris_pca.explained_variance_ratio_)
scree.plot(kind='bar', title=u"Part de la variance expliquée par CP")

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0xdf55748>

In [6]:
plt.figure()
cum = scree.cumsum()
plt.plot(range(cum.size),cum,'o--', markersize=8, color='green')
plt.plot(range(cum.size),np.ones(cum.size),':',  color='black')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0xdf55a90>]

## Question 1
Que peut-on lire sur les deux graphiques ci-dessus ? Interprétez.

# Analyse des nouvelles variables
Afin de comprendre les nouvelles variables obtenues par l'ACP on peut représenter les données projetées par un nuage des points (en dimension 2) et analyser individuellement certains points.

In [7]:
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(iris_res[0:49,0],iris_res[0:49,1], '+', markersize=7, color='blue', label='Setosa', alpha=0.5)
plt.plot(iris_res[50:99,0], iris_res[50:99,1], '*', markersize=7, color='red', label='Versicolor', alpha=0.5)
plt.plot(iris_res[100:149,0],iris_res[100:149,1], '^', markersize=7, color='green', label='Virginica', alpha=0.5)
plt.xlabel('1er axe principal')
plt.ylabel('2e axe principal')
plt.legend()
plt.title('ACP avec 2 composantes principales')
ind = iris['sepal-long'].argmax()
plt.plot(iris_res[ind,0],iris_res[ind,1],'s', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'sepal-long-max')
ind = iris['sepal-long'].argmin()
plt.plot(iris_res[ind,0],iris_res[ind,1],'s', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'sepal-long-min')
ind = iris['sepal-larg'].argmax()
plt.plot(iris_res[ind,0],iris_res[ind,1],'d', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'sepal-larg-max')
ind = iris['sepal-larg'].argmin()
plt.plot(iris_res[ind,0],iris_res[ind,1],'d', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'sepal-larg-min')
ind = iris['petal-long'].argmax()
plt.plot(iris_res[ind,0],iris_res[ind,1],'v', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'petal-long-max')
ind = iris['petal-long'].argmin()
plt.plot(iris_res[ind,0],iris_res[ind,1],'v', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'petal-long-min')
ind = iris['petal-larg'].argmax()
plt.plot(iris_res[ind,0],iris_res[ind,1],'o', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'petal-larg-max')
ind = iris['petal-larg'].argmin()
plt.plot(iris_res[ind,0],iris_res[ind,1],'o', markersize=7,color='black')
ax.text(iris_res[ind,0],iris_res[ind,1], 'petal-larg-min')

<IPython.core.display.Javascript object>



Text(-2.67384,-0.106692,u'petal-larg-min')

## Question 2
Comment interpréter le graphique ci-dessus ? Quelle est la realtion entre les variables intiales et les nouvelles variables ?

## Cercle des corrélations
Enfin pour mieux comprendre les nouvelles variables et leur relation avec les variables initiales, traçons le cercle des corrélations. Pour cela nous allons utiliser les deux fonctions suivantes (disponible sur le web) :

In [8]:
def myPCA(df):
	# Normalize data
	df_norm = (df - df.mean()) / df.std()
	# PCA
	pca = PCA()
	pca_res = pca.fit_transform(df_norm.values)
	# Ebouli
	ebouli = pd.Series(pca.explained_variance_ratio_)
	coef = np.transpose(pca.components_)
	cols = ['PC-'+str(x) for x in range(len(ebouli))]
	pc_infos = pd.DataFrame(coef, columns=cols, index=df_norm.columns)
	return pc_infos, ebouli  

def circleOfCorrelations(pc_infos, ebouli):
	plt.Circle((0,0),radius=10, color='g', fill=False)
	circle1=plt.Circle((0,0),radius=1, color='g', fill=False)
	fig = plt.gcf()
	fig.gca().add_artist(circle1)
	for idx in range(len(pc_infos["PC-0"])):
		x = pc_infos["PC-0"][idx]
		y = pc_infos["PC-1"][idx]
		plt.plot([0.0,x],[0.0,y],'k-')
		plt.plot(x, y, 'rx')
		plt.annotate(pc_infos.index[idx], xy=(x,y))
	plt.xlabel("PC-1 (%s%%)" % str(ebouli[0])[:4].lstrip("0."))
	plt.ylabel("PC-2 (%s%%)" % str(ebouli[1])[:4].lstrip("0."))
	plt.xlim((-1,1))
	plt.ylim((-1,1))
	plt.title("Circle of Correlations")

In [9]:
plt.figure()
pc_infos, ebouli = myPCA(iris.drop('espece',1))
circleOfCorrelations(pc_infos, ebouli)

<IPython.core.display.Javascript object>

## Question 3
Que lire sur le cercle des corrélations ? Comparer au graphique précédent.

# Exercice
Pour cet exercice nous travaillons avec des données météorologiques. Le fichier **meteo_mars.csv** contient les mesures de la pression moyenne (**PSTATM**), la température moyenne (**TMMOY**), la quantité de précipitations cumulées (**RR**) et la vitesse maximale du vent (**FXAB**) en mars 2016 pour différentes stations météorologiques en France. Le fichier **postes.csv** renseigne la position de ces stations en termes de latitude, longitude et altitude. Les données proviennent du site  https://donneespubliques.meteofrance.fr
1. Importer les deux tableaux de données avec la fonction **pd.read_csv** en utilisant l'option **index_col=0** afin d'utiliser la première colonne (qui est la même dans les deux  fichiers) comme **Index**. Ensuite, concaténer les deux tableaux avec la fonction **pd.concat**. Regarder l'aide pour comprendre son utilisation. Enfin, supprimer les lignes qui contiennent des **NaN**. Quelle est la taille du tableau final ?
2. Effectuer une ACP en omettant la variable **Altitude**. (On pourra utiliser **dataframe.drop()** comme dans l'exemple des données *Iris* afin de supprimer une colonne.)
3. Représenter graphiquement la part de variance expliquée par les différentes composantes principales. Commentez.
3. Tracer le nuage des points associé aux deux premières composantes principales. Indiquer  dans le graphique la valeur observée de l'**Altitude** pour certaines observations  (notammment pour les observations extrêmes). Interprétez.
4. Tracer le cercle des corrélations associé. Quelle est la relation entre les composantes prinicipales est les différentes variables initiales ?
5. Refaire une ACP en ajoutant la variable **Altitude**. Quel est l'impact de l'ajout de cette variable sur la part de variance expliquée par les différentes composantes principales ? Et sur  le cercle des corrélations associé ? Expliquez.