In [18]:
import pandas as pd

#charger les données 
data = pd.read_csv("decathlon.txt", sep="\t")


#eliminer les colonne dont on utilise pas 
new_data = data.drop(["Rank", "Points", "Competition"], axis=1)

# transformer les données en array numpy
X = new_data.values
data

Unnamed: 0,100m,Long.jump,Shot.put,High.jump,400m,110m.hurdle,Discus,Pole.vault,Javeline,1500m,Rank,Points,Competition
SEBRLE,11.04,7.58,14.83,2.07,49.81,14.69,43.75,5.02,63.19,291.7,1,8217,Decastar
CLAY,10.76,7.4,14.26,1.86,49.37,14.05,50.72,4.92,60.15,301.5,2,8122,Decastar
KARPOV,11.02,7.3,14.77,2.04,48.37,14.09,48.95,4.92,50.31,300.2,3,8099,Decastar
BERNARD,11.02,7.23,14.25,1.92,48.93,14.99,40.87,5.32,62.77,280.1,4,8067,Decastar
YURKOV,11.34,7.09,15.19,2.1,50.42,15.31,46.26,4.72,63.44,276.4,5,8036,Decastar
WARNERS,11.11,7.6,14.31,1.98,48.68,14.23,41.1,4.92,51.77,278.1,6,8030,Decastar
ZSIVOCZKY,11.13,7.3,13.48,2.01,48.62,14.17,45.67,4.42,55.37,268.0,7,8004,Decastar
McMULLEN,10.83,7.31,13.76,2.13,49.91,14.38,44.41,4.42,56.37,285.1,8,7995,Decastar
MARTINEAU,11.64,6.81,14.57,1.95,50.14,14.93,47.6,4.92,52.33,262.1,9,7802,Decastar
HERNU,11.37,7.56,14.41,1.86,51.1,15.06,44.99,4.82,57.19,285.1,10,7733,Decastar


#Standardisation des données

In [19]:
from sklearn import preprocessing
std_scale = preprocessing.StandardScaler().fit(X)
X_scaled = std_scale.transform(X)
X_scaled

array([[ 1.61477791e-01,  1.02393687e+00,  4.33405055e-01,
         1.06045671e+00,  1.69980655e-01,  1.80571557e-01,
        -1.72524347e-01,  9.37988410e-01,  1.02219600e+00,
         1.09931561e+00],
       [-9.16292580e-01,  4.47972380e-01, -2.66572563e-01,
        -1.32973498e+00, -2.16222244e-01, -1.19281907e+00,
         1.91655543e+00,  5.73807304e-01,  3.84557695e-01,
         1.94927138e+00],
       [ 8.44941928e-02,  1.27992108e-01,  3.59723200e-01,
         7.19000754e-01, -1.09395610e+00, -1.10698215e+00,
         1.38604306e+00,  5.73807304e-01, -1.67937681e+00,
         1.83652215e+00],
       [ 8.44941928e-02, -9.59940813e-02, -2.78852872e-01,
        -6.46823072e-01, -6.02425143e-01,  8.24348413e-01,
        -1.03573091e+00,  2.03053173e+00,  9.34101232e-01,
         9.32455207e-02],
       [ 1.31623176e+00, -5.43966461e-01,  8.75496182e-01,
         1.40191267e+00,  7.05398310e-01,  1.51104373e+00,
         5.79784151e-01, -1.54554909e-01,  1.07463336e+00,
        -2.

Calcul de composantes principales

In [20]:
from sklearn import decomposition

pca = decomposition.PCA(n_components=2)
pca.fit(X_scaled)

pca.explained_variance_ratio_ nous donne le pourcentage de variance expliquée par chacune des composantes.

In [None]:
#Pourcentage de variance expliquee

print(pca.explained_variance_ratio_)
print(pca.explained_variance_ratio_.sum())

La première composante explique environ un tiers de la variance observée dans les données, et la deuxième 17.3 %. Au total, ces deux composantes expliquent 50 % de la variance totale, en utilisant seulement un cinquième des dimensions initiales.

Nous pouvons représenter chaque athlète/compétition selon ces deux dimensions uniquement, et colorer chacun des points correspondants en fonction du classement de l'athlète lors de cette compétition.

In [None]:
import matplotlib.pyplot as plt

# projeter X sur les composantes principales
X_projected = pca.transform(X_scaled)

# afficher chaque observation
plt.scatter(X_projected[:, 0], X_projected[:, 1],
    # colorer en utilisant la variable 'Rank'
    c = data.Rank)

plt.xlim([-5.5, 5.5])
plt.ylim([-5.5, 5.5])
plt.xlabel("PCA1")
plt.ylabel("PCA2")
plt.colorbar()
plt.title("Données projetées sur les deux premières composantes principales et colorées par classement final")


Les bonnes performances (points bleu foncé) sont plutôt situées dans la partie droite du graphe (PC1 > 0) et les moins bonnes (points jaunes) plutôt dans la partie gauche (PC1 < 0).

Contribution de chaque variable aux composantes principales

In [None]:
pcs = pca.components_

for i, (x, y) in enumerate(zip(pcs[0, :], pcs[1, :])):
    # Afficher un segment de l'origine au point (x, y)
    plt.plot([0, x], [0, y], color='k')
    # Afficher le nom (data.columns[i]) de la performance
    plt.text(x, y, data.columns[i], fontsize='14')

# Afficher une ligne horizontale y=0
plt.plot([-0.7, 0.7], [0, 0], color='grey', ls='--')

# Afficher une ligne verticale x=0
plt.plot([0, 0], [-0.7, 0.7], color='grey', ls='--')

plt.xlim([-0.7, 0.7])
plt.ylim([-0.7, 0.7])

Les variables qui ont une contribution négative à la première composante principale correspondent aux disciplines pour lesquelles une bonne performance est représentée par un petit nombre (temps de course), et inversement pour les variables ayant une contribution positive. Cette composante permet de séparer les athlètes qui ont de très bonnes performances de ceux qui sont (relativement !) plus mauvais dans toutes les disciplines, comme nous l'avions remarqué.

La deuxième composante principale permet de séparer les athlètes plus forts (bonnes performances aux lancers) et moins endurants (basse performance aux 400 m et 1 500 m) des autres.

Ce graphique nous permet aussi d'observer que certaines variables sont très corrélées, comme Discus (performance au lancer de disque) et Shot put (performance au lancer de poids).