<center>
<a href="https://websites.isae-supaero.fr/certificat/" ><img src="https://websites.isae-supaero.fr/IMG/gif/computer-science.gif" style="float:left; max-width: 120px; display: inline" alt="Toulouse Tech"/> </a>

<a href="http://www.insa-toulouse.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/logo-insa.jpg" style="float:right; max-width: 120px; display: inline" alt="INSA"/></a> 

<a href="http://wikistat.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/wikistat.jpg" style="max-width: 250px; display: inline"  alt="Wikistat"/></a>

</center>

# [Certificat Science des Données](https://github.com/Certificat-sciences-des-donnees-bigdata) [Module de Sensibilisation](https://github.com/Certificat-sciences-des-donnees-bigdata/Module-sensibilisation)

# [Exploration Multidimensionnelle]()
# [Anayse en Composantes Principales](http://wikistat.fr/pdf/st-m-explo-acp.pdf) et [Analyse Factorielle Discriminante](http://wikistat.fr/pdf/st-m-explo-afd.pdf) 
**Résumé**: Ce calepin introduit l'exploration statistique en utilisant la librairie `scikit-learn` par des exemples de mise en oeuvre de l'[ACP](http://wikistat.fr/pdf/st-m-explo-acp.pdf) et de l'[AFD]() sur des données "jouet". Il développe ensuite deux applications de l'ACP, sur des images élémentaires de caractères et enfin sur des données économiques sous une la forme particulière d'un cube ou tableau à trois indices. 

## 1 Introduction
### 1.1 `Scikit-learn` *vs.*  R
L'objectif de ce tutoriel est d'introduire l'exploration de données multidimensionnelles  en utilisantla librairie `scikit-learn` de Python. Seule l'utilisation directe des fonctions d'exploration est abordée. Se pose rapidement une question: quand utiliser `scikit-learn` de Python plutôt que R plus complet pour certaines fonctionnalités et plus simple d'emploi?

Le choix repose sur les points suivants:
- **Attention** cette librairie manipule des objets de classe `array` de `numpy` *chargés en mémoire* et donc de taille limitée par la RAM de l'ordinateur; de façon analogue R charge en RAM des objets de type `data.frame`.
- **Attention** toujours, `scikit-learn` ne reconnaît pas (ou pas encore ?) la classe `DataFrame` de `pandas`; `scikit-learn` utilise la classe `array` de `numpy`. C'est un problème pour la gestion de variables qualitatives complexes. Une variable binaire est simplement remplacée par un codage $(0,1)$ mais, en présence de plusieurs modalités, traiter celles-ci comme des entiers n'a pas de sens statistique et remplacer une variable qualitative par l'ensemble des indicatrices (*dummy variables* $(0,1)$) de ses modalités  complique l'interprétation statistique. 
- Les implémentations en Python de certains algorithmes dans `scikit-learn` sont aussi efficaces (*e.g.* $k$-means), voire beaucoup plus efficaces pour des données volumineuses car utilisent implicitement les capacités de parallélisation.
- R offre beaucoup plus de possibilités pour une exploration, des recherches et comparaisons, des interprétations mais les capacités de parallélisation de Python sont nettement plus performantes. Plus précisément, l'introduction de nouvelles librairies n'est pas ou peu contraintes dans R, alors que celle de nouvelles méthodes dans `scikit-learn` se fait sous l'autorité d'un groupe qui en contrôle la pertinence et l'efficacité. 

En conséquences:
- Préférer R et ses libraires si la **présentation graphique** des résultats et leur **interprétation** est prioritaire.
- Pour l'emploi de méthodes pas disponibles en Python.
- Préférer Python et `scikit-learn` pour mettre au point une chaîne de traitements (*pipe line*) opérationnelle de l'extraction à une analyse privilégiant la prévision brute à l'interprétation et pour des données quantitatives ou rendues quantitatives ("vectorisation" de corpus de textes).

### 1.2 Fonctions de `scikit-learn`
La communauté qui développe cette librairie est très active, elle évolue rapidement.  Ne pas hésiter à consulter la [documentation](http://scikit-learn.org/stable/user_guide.html) pour des compléments. Voici une sélection de ses principales fonctionnalités.
- Transformations (standardisation, discrétisation binaire, regroupement de modalités, imputations rudimentaires de données manquantes) , "vectorisation" de corpus de textes (encodage, catalogue, Tf-idf), images.
- Exploration: ACP, classification non supervisée (mélanges gaussiens, propagation d'affinité, ascendante hiérarchique, SOM,...). Une fonction est ajoutée pour l'Analyse des Correspondances.
- Modélisation et apprentissage, voir le dépôt correspondant.


### 1.3 ACP avec `scikit-learn`
L'objectif est d'illustrer la mise en oeuvre de l'[analyse en composantes principales](http://wikistat.fr/pdf/st-m-explo-acp.pdf). Consulter la [documentation](http://scikit-learn.org/stable/user_guide.html) et ses nombreux [exemples](http://scikit-learn.org/stable/auto_examples/index.html) pour plus de détails sur l'utilisation de `scikit-learn`. 

La librairie `scikit-learn` a principalement été conçue en vue de l'analyse de signaux. Aussi, de nombreuses options de l'ACP ne sont pas disponibles, notamment les graphiques usuels (biplot, cercle des corrélations...). En revanche des résultats sont liés à la version probabiliste de l'ACP sous hypothèse d'une distribution gaussienne multidimensionnelle des données. 

**Attention**, l'ACP est évidemment centrée mais pas réduite. L'option n'est pas prévue et les variables doivent être réduites (fonction `sklearn.preprocessing.scale`) avant si c'est nécessaire. L'attribut `transform` désigne les composantes principales, sous-entendu: transformation par réduction de la dimension; `n_components` fixe le nombre de composantes retenues, par défaut toutes; l'attribut `components_` contient les `n_components` vecteurs propres mais non normalisés, c'est-à-dire de norme carrée la valeur propre associée, et donc à utiliser pour représenter les variables.

D'autres versions d'analyse en composantes principales sont proposées dans `Scikit-learn`: *kernel PCA, sparse PCA, ICA*...


Plusieurs jeux de données élémentaires sont utilisés dont un "jouet" afin de bien comprendre les sorties proposées par la fonction disponible.  L'autre ensemble de données est un problème classique et simplifié de [reconnaissance de caractères](http://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits) qui est inclus dans la librairie `scikit-learn`.

# <FONT COLOR="Red">Première partie: Exploration</font>

## 2.  ACP de données "jouet"
Les données sont celles de l'exemple du document pdf et aussi de l'[introduction à l'ACP](http://wikistat.fr/pdf/st-l-des-multi): les notes en maths, français, physique et anglais de 9 lycéens virtuels. Les mêmes données sont analysées avec R dans un autre [tutoriel](https://github.com/wikistat/Exploration/blob/master/TutosRudim/Cal1-R-SVDtoACP.ipynb)

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
# Construire la matrice de notes
note=[[6,6,5,5.5],[8,8,8,8],[6,7,11,9.5],[14.5,14.5,15.5,15],
   [14,14,12,12.5],[11,10,5.5,7],[5.5,7,14,11.5],[13,12.5,8.5,9.5],
   [9,9.5,12.5,12]]
dat=pd.DataFrame(note,index=["jean","alai","anni","moni","didi","andr","pier","brig","evel"],
   columns=["Math","Phys","Fran","Angl"])
dat

In [None]:
dat.boxplot()
plt.show()

Matrice des nuages de points

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(dat, figsize=(5, 5), diagonal='kde')
plt.show()

**Q** Que dire de la nature des liaisons entre les variables?

In [None]:
# Importation des fonctions
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale
import numpy as np
import matplotlib.pyplot as plt

Matrice des variances-covariances

In [None]:
dat.cov()

Matrice des corrélations

In [None]:
dat.corr()

**Q** Résumer la structure de corrélation entre les variables.

### 2.1 Valeurs propres de l'ACP non réduite
Contrairement aux habitudes de beaucoup de logiciels, l'ACP de `scikit-learn` n'est pas *réduite* par défaut. Par ailleurs, le diviseur de la formule de calcul de la variance est celui d'une estimation sans biais: $(n-1)$ au lieu de $n$.

Calcul des valeurs propres ou variances des composantes principales.

In [None]:
pca = PCA()
valPropres=pca.fit(dat).explained_variance_
print(valPropres)

Retrouver les valeurs propres du cours.

In [None]:
valPropres*8/9

### 2.2 Vecteurs propres de l'ACP non réduite

Les vecteurs propres sont aussi les coefficients des combinaisons linéaires des variables permettant de définir les variables principales.

In [None]:
pca.components_.T

### 2.3 Composantes principales de l'ACP non réduite

In [None]:
C = pca.fit(dat).transform(dat)
print(C)

Distribution des composantes principales. 

**Q** Quel choix de dimension.

In [None]:
plt.boxplot(C)
plt.show()

Tous les autres résultats (contributions, cossinus carrés, corrélations variables facteurs...) et surtout les graphes (éboulis, plans factoriels...) sont à construire car aucune fonction n'est disponible comme dans le package `FactoMineR` de R. C'est partièlement fait dans avec l'ACP des jeux de données suivants (section 4 et 5) et complété (*biplot*) dans les calepins plus détaillés des autres cas d'usage disponibles sur sur le dépôt [`github/wikistat`](https://github.com/wikistat/).

### 2.4 Représentation des individus

In [None]:
plt.figure(figsize=(8,5))
for i, j, nom in zip(C[:,0], C[:,1], dat.index):
    plt.text(i, j, nom, fontsize=16)
plt.axis((-10,12,-6,8))  
plt.show()

**Attention** le signe d'un vectreur propre n'est pas pas déterminé car c'est une direction ou sous-espace qui est "propre" pour une matrice. En fonction de l'algorithme ou logiciel utilisé, le vecteur peut être orienté dans un sens ou dans l'autre mais c'est bien la même direction qui est définie. Cela n'a aucune influence sur l'interprétation de ces résultats.

### 2.5 Graphe des variables
Calcul des coordonnées et réprésentation des variables

In [None]:
coord1=pca.components_[0]*np.sqrt(pca.explained_variance_[0])
coord2=pca.components_[1]*np.sqrt(pca.explained_variance_[1])
fig = plt.figure(figsize=(5,5))
ax = fig.add_subplot(1, 1, 1)
for i, j, nom in zip(coord1,coord2, dat.columns):
    plt.text(i, j, nom, fontsize=16)
    plt.arrow(0,0,i,j,color='black')
plt.axis((-4,4,-4,4))
plt.show()

Le cercle des corrélations n'est pas tracé car les variables ne sont pas réduites.

## 3 AFD de données "jouet"
L'objectif de cet exemple sur des données très simples est de montrer l'intérêt d'une AFD par rapport à une ACP lorsque des groupes ou classes des individus sont connues *a priori*.

### 3.1 Lecture des données
Les données sont issues de l'observation de 6 variables, des dimensions d'ailes, élitres, antennes, pattes de 3 classes d'insectes. Il s'agit donc de vérifier graphiquement la bonne capacité de ces variables à distinguer ou discriminer ces trois classes.

In [None]:
insect=pd.read_csv("https://www.math.univ-toulouse.fr/~besse/Wikistat/Data/lubisch.txt",sep='\s+',header=0)
insect.head()

### 3.2 ACP 
**Q** Quel est le graphique ci-dessous? Comment choisir le nombre de composantes?

In [None]:
from sklearn.preprocessing import scale
X=scale(insect[["X1","X2","X3","X4","X5","X6"]])
Y=insect["Y"]
C = pca.fit(X).transform(X)
plt.boxplot(C)
plt.show()

#### Graphique des individus

In [None]:
plt.figure(figsize=(10,6))
for i, j, nom in zip(C[:,0],C[:,1], Y):
    plt.scatter(i, j, color=nom)
plt.axis((-5,7,-4,4))  
plt.show()

**Q** Commenter la forme des trois nuages de points, la déjà bonne séparation des classes.

#### Graphique des variables

In [None]:
coord1=pca.components_[0]*np.sqrt(pca.explained_variance_[0])
coord2=pca.components_[1]*np.sqrt(pca.explained_variance_[1])
fig = plt.figure(figsize=(5,5))
ax = fig.add_subplot(1, 1, 1)
for i, j, nom in zip(coord1,coord2, insect.columns):
    plt.text(i, j, nom, fontsize=16)
    plt.arrow(0,0,i,j,color='black')
plt.axis((-1.2,1.2,-1.2,1.2))
# cercle
c=plt.Circle((0,0), radius=1, color='gray', fill=False)
ax.add_patch(c)
plt.show()

**Q** Commenter la structure de corrélation des variables, la qualité de représentation.

### 3.3 AFD


L'AFD est l'ACP des barycentres des classes avec la métrique de Mahalanobis dans l'espace des individus.

**Q** Comment cette métrique est-elle définie?

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
method = LinearDiscriminantAnalysis()
lda=method.fit(X,Y)

**Q** Que devient la forme des nuages? A quoi cela est-il dû? Commenter la séparation des classes.

In [None]:
Clda=lda.transform(X)
plt.figure(figsize=(10,6))
for i, j, nom in zip(Clda[:,0],Clda[:,1], Y):
    plt.scatter(i, j, color=nom)
plt.axis((-8,7,-4,6))  
plt.show()

# <FONT COLOR="Red">Compléments: Exploration</font> de données plus complexes
Les deux exemples qui suivents proposent des applications de l'ACP à d'autres jeux de données afin de montrer les capacités de cette méthode d'exploration multidimensionnelle. Ce sont des compléments intéressants mais pas indispensables à la bonne compréhension de la suite du cours.

## 4 ACP des données "Caractères"


Il s'agit d'explorer les données issues de la pixellisation de tracés de caractères dont les procédés d'obtention et prétraitement sont décrits sur le [site de l'UCI](http://archive.ics.uci.edu/ml/datasets/Pen-Based+Recognition+of+Handwritten+Digits) (Lichman, 2013). Les chiffres ont été saisies sur des tablettes à l'intérieur de cadres de résolution $500\times 500$. Des procédures de normalisation,  ré-échantillonnage spatial puis de lissage ont été appliquées. Chaque caractère apparaît finalement discrétisé sous la forme d'une matrice $8\times 8$ de pixels à 16 niveaux de gris et identifié par un label. Les données sont archivées sous la forme d'une matrice ou tableau à trois indices. Elles sont également archivées après vectorisation des images sous la forme d'une matrice à $p=64$ colonnes.

L'étude du même type de données, mais nettement plus complexes (MNIST): 60 000 caractères représentés par des images de 784 pixels (26 $\times$ 26) fait l'objet d'un autre calepin.

### 4.1 Prise en main des données

In [None]:
# Importations 
import matplotlib.pyplot as plt
from sklearn import datasets
%matplotlib inline
# les données présentes dans la librairie
digits = datasets.load_digits()
# Contenu et mode d'obtention
print(digits)

In [None]:
# Dimensions
digits.images.shape

In [None]:
# Sous forme d'un cube d'images 1797 x 8x8
print(digits.images)

In [None]:
# Sous forme d'une matrice 1797 x 64
print(digits.data)

In [None]:
# Label réel de chaque caractère
print(digits.target)

Voici un aperçu des empilements des images à décrire puis ensuite en principe à discriminer:

In [None]:
images_and_labels = list(zip(digits.images, 
   digits.target))
for index, (image, label) in  enumerate(images_and_labels[:8]):
     plt.subplot(2, 4, index + 1)
     plt.axis('off')
     plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
     plt.title('Chiffres: %i' % label)

### 4.2 Analyse en composantes principales

In [None]:
from sklearn.decomposition import PCA
X=digits.data
y=digits.target
target_name=[0,1,2,3,4,5,6,7,8,9]
# définition de la commande
pca = PCA()
# Estimation, calcul des composantes principales
C = pca.fit(X).transform(X)
# Décroissance de la variance expliquée
plt.plot(pca.explained_variance_ratio_)
plt.show()

Diagramme boîte des premières composantes principales.

In [None]:
plt.boxplot(C[:,0:20])
plt.show()

**Q** Quelle dimension retenir en principe?

Représentation des caractères dans le premier plan principal. 

La représentation des variables (pixels) et le *biplot* n'ont pas grand intérêt pour ces données. 

In [None]:
plt.scatter(C[:,0], C[:,1], c=y, label=target_name)
plt.show()

Le même graphique avec une légende mais moins de couleurs.

In [None]:
# attention aux indentations
plt.figure()
for c, i, target_name in zip("rgbcmykrgb",[0,1,2,3,4,5,6,7,8,9], target_name):
       plt.scatter(C[y == i,0], C[y == i,1], c=c, label=target_name)
plt.legend()
plt.title("ACP Digits")
plt.show()

Graphique en trois dimensions.

In [None]:
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure(1, figsize=(8, 6))
ax = Axes3D(fig, elev=-150, azim=110)
ax.scatter(C[:, 0], C[:, 1], C[:, 2], c=y, cmap=plt.cm.Paired)
ax.set_title("ACP: trois premieres composantes")
ax.set_xlabel("Comp1")
ax.w_xaxis.set_ticklabels([])
ax.set_ylabel("Comp2")
ax.w_yaxis.set_ticklabels([])
ax.set_zlabel("Comp3")
ax.w_zaxis.set_ticklabels([])
plt.show()

## 5  Données "cubiques" de l'OCDE
###  5.1 Introduction
#### Objectif
L'objectif de cette section  est l'exploration de données socio-économiques plus complexes. La principale spécificité de ces données est de se présenter  sous la forme d'un cube de données ou tableau à trois entrées: le numéro de ligne, le numéro de variable et l'année d'observation de cette variable. Après une description classique, la mise en oeuvre de l'analyse en composantes principales avec python nécessite un effort particulier afin de produire les graphes adaptés à la structure particulière des données. 

#### Les données
Les données sont issues de l'Observatoire de l'OCDE.  Pour chaque pays membre et pour chacune des années  1975, 1977, 1979, 1981, on connaît les valeurs prises par les  variables suivantes qui sont toutes des \emph{taux}~:
- Taux brut de natalité, 
- Taux de chômage, 
- Pourcentage d'actifs dans le secteur primaire, 
- Pourcentage d'actifs dans le secteur secondaire, 
- produit intérieur brut (par habitant), 
- Formation brute de capital fixe (par habitant), 
- Hausse des prix, 
- Recettes courantes  (par habitant), 
- Mortalité infantile, 
- Consommation de protéines animales  (par habitant), 
- Consommation d'énergie  (par habitant).

Elles sont disponibles dans le fichier: `ocdeR.dat`.

Les mêmes variables sont donc observées, sur les mêmes pays ou individus à quatre dates différentes. Plusieurs stratégies d'analyse sont possibles (tableau moyen, tableaux concaténés, meilleur compromis ou double ACP). La plus adaptée pour ces données est de considérer les observations des variables pour chacun des individus:  pays $\times$ années. 



In [None]:
# Importation des principals librairies et 
# Affichage des graphiques dans le notebook
%matplotlib inline 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 5. 2 Lecture des données

In [None]:
ocde=pd.read_csv("https://www.math.univ-toulouse.fr/~besse/Wikistat/Data/ocde.txt",sep='\s+',header=0)
ocde.head()

### 5.3  Statistiques élémentaires
Consulter rapidement ces résultats; Que dire à propos de la symétrie des distributions, de leur normalité, des valeurs atypiques.

In [None]:
ocde.mean()

In [None]:
ocde["CNRJ"].hist(bins=20)
plt.show()

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(ocde, alpha=0.2, figsize=(15, 15), diagonal='kde')
plt.show()

**Q** Quel est le graphique ci-dessous? Que représentent les blocs dagonaux? Que dire des structures de corrélation? 

### 5.4 [Analyse en composantes principales](http://wikistat.fr/pdf/st-m-explo-acp.pdf)
Chaque pays étant observé 4 fois, la principale difficulté technique est de faire apparaître cette structure chronologique dans les graphique afin d'illustrer la dynamique économique de la période considérée.

**Q** Justifier la nécessité de réduire.

**Q** Pourqoi toutes les variables sont des taux?

#### Choix de dimension

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale
# réduction
ocdeS=scale(ocde)
pca = PCA()
cpOcde = pca.fit_transform(ocdeS)
# Eboulis
plt.plot(pca.explained_variance_ratio_)
plt.show()

In [None]:
plt.boxplot(cpOcde)
plt.show()

**Q** Quel est le graphe ci-dessus. Que dire de la première composante? Quelle dimension choisir?

#### Représentation des variables

In [None]:
coord1=pca.components_[0]*np.sqrt(pca.explained_variance_[0])
coord2=pca.components_[1]*np.sqrt(pca.explained_variance_[1])
fig = plt.figure(figsize=(5,5))
ax = fig.add_subplot(1, 1, 1)
for i, j, nom in zip(coord1,coord2, ocde.columns):
    plt.text(i, j, nom)
    plt.arrow(0,0,i,j,color='black')
plt.axis((-1.2,1.2,-1.2,1.2))
# cercle
c=plt.Circle((0,0), radius=1, color='gray', fill=False)
ax.add_patch(c)
plt.show()

**Q** Interpréter chacun des deux premiers axes.

**Exo** représenter le plan (2,3) et interpréter le 3ème axe.

#### Représentation basique des individus

In [None]:
plt.figure(figsize=(10,6))
for i, j, nom in zip(cpOcde[:,0], cpOcde[:,1], ocde.index):
#    color = int(i/4)
    plt.text(i, j, nom ,color="blue")
plt.axis((-5,7,-4,4))  
plt.show()

#### Représentation adaptée à ces données
La structure particulière des données nécessite un graphique adapté. Ceci est en fait le **principal objectif** d'une *bonne exploration des données*: trouver la **représentation graphique** qui permet d'en comprendre toute la structure en une seule vue.

In [None]:
import matplotlib.patheffects as PathEffects

comp_0 = 0
comp_1 = 1

cmap = plt.get_cmap("tab20")

fig = plt.figure(figsize=(16,8))
ax = fig.add_subplot(1,1,1)
for i,k in enumerate(np.arange(0,cpOcde.shape[0],4)):
    country =ocde.index[k]
    xs = cpOcde[k:k+4,comp_0]
    ys = cpOcde[k:k+4, comp_1]
    ax.plot(xs,ys, color=cmap(i), marker=".", markersize=15)
    txt = ax.text(xs[-4], ys[-4], country, horizontalalignment="left", verticalalignment="top",
            color=cmap(i), fontweight="bold", fontsize=15)
    # Add black line around text
    #txt.set_path_effects([PathEffects.withStroke(linewidth=1, foreground='black')])
    ax.set_xlabel("PC%d" %comp_0, fontsize=20)
    ax.set_ylabel("PC%d" %comp_1, fontsize=20)
plt.tight_layout()
plt.show()

**Q** Analyser les évolutions des économies des différents pays. Les remplacer dans la période considérée. 