<center>
<img src="https://raw.githubusercontent.com/Yorko/mlcourse.ai/master/img/ods_stickers.jpg" />

<h1>Open Machine Learning Course</h1>


<br><br>

<center>
Auteur: [Yury Kashnitskiy](https://yorko.github.io).  
Traduit et édité par [Ousmane Cissé](https://www.linkedin.com/in/ousmane-ciss%C3%A9/).  
Ce matériel est soumis aux termes et conditions de la licence [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/).  
L'utilisation gratuite est autorisée à des fins non commerciales.
</center>

# <center>Topic 7. Apprentissage non supervisé
## <center>Part 1. Analyse en Composantes Principales
    
**Il s'agit principalement de démontrer certaines applications de l'ACP, pour la théorie, l'étude [sujet 7](https://mlcourse.ai/notebooks/blob/master/jupyter_english/topic07_unsupervised/topic7_pca_clustering.ipynb?flush_cache=true) dans notre cours. <br> Notebook utilisé dans l'enregistrement de la leçon 7, [partie 1](https://youtu.be/-AswHf7h0I4).**

Décomposition en valeurs singulières (SVD) de la matrice $X$:

$$\Large X = UDV^T,$$

où $U \in R^{m \times m}$, $V \in R^{n \times n}$ - sont des matrices orthogonales et $D \in R^{m \times n}$ - est une matrice diagonale

<img src='https://raw.githubusercontent.com/Yorko/mlcourse.ai/master/img/svd_diag_matrix.png' width=70%>

### Analyse en composantes principales
1. Définir $k<d$ - une nouvelle dimension
2. Échelle $X$:
 - changer $\Large x^{(i)}$ en $\Large  x^{(i)} - \frac{1}{m} \sum_{i=1}^{m}{x^{(i)}}$
 - $\Large  \sigma_j^2 = \frac{1}{m} \sum_{i=1}^{m}{(x^{(i)})^2}$
 - changer $\Large x_j^{(i)}$ en $\Large \frac{x_j^{(i)}}{\sigma_j}$
4. Trouvez la décomposition en valeurs singulières de $X$:
$$\Large X = UDV^T$$
5. Définissez $V =$ [$k$ colonnes les plus à gauche de $V$]
6. Retourne $$\Large Z = XV \in \mathbb{R}^{m \times k}$$

### Exemple 2D

In [None]:
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

In [None]:
np.random.seed(0)
mean = np.array([0.0, 0.0])
cov = np.array([[1.0, -1.0], 
                [-2.0, 3.0]])
X = np.random.multivariate_normal(mean, cov, 300)

pca = PCA()
pca.fit(X)
print('Proportion of variance explained by each component:\n' +\
      '1st component - %.2f,\n2nd component - %.2f\n' %
      tuple(pca.explained_variance_ratio_))
print('Directions of principal components:\n' +\
      '1st component:', pca.components_[0],
      '\n2nd component:', pca.components_[1])

plt.figure(figsize=(10,10))
plt.scatter(X[:, 0], X[:, 1], s=50, c='r')
for l, v in zip(pca.explained_variance_ratio_, pca.components_):
    d = 5 * np.sqrt(l) * v
    plt.plot([0, d[0]], [0, d[1]], '-k', lw=3)
plt.axis('equal')
plt.title('2D normal distribution sample and its principal components')
plt.show()

1ère composante principale

In [None]:
# Keep enough components to explain 90% of variance
pca = PCA(0.90)
X_reduced = pca.fit_transform(X)

# Map the reduced data into the initial feature space
X_new = pca.inverse_transform(X_reduced)

plt.figure(figsize=(10,10))
plt.plot(X[:, 0], X[:, 1], 'or', alpha=0.3)
plt.plot(X_new[:, 0], X_new[:, 1], 'or', alpha=0.8)
plt.axis('equal')
plt.title('Projection of sample onto the 1st principal component')
plt.show()

Nous avons réduit de moitié la dimensionnalité de l'espace des variables, tout en conservant les variables les plus importantes. C'est l'idée de base de la réduction de la dimensionnalité - pour approximer un ensemble de données multidimensionnelles en utilisant des données d'une dimension plus petite, tout en préservant autant d'informations sur l'ensemble de données que possible.

# Visualisation de données de grande dimension

#### Exemple d'iris

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
X, y = iris.data, iris.target

pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

print("Meaning of the 2 components:")
for component in pca.components_:
    print(" + ".join("%.3f x %s" % (value, name)
                     for value, name in zip(component,
                                            iris.feature_names)))
plt.figure(figsize=(10,7))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=70, cmap='viridis')
plt.show()

## Chiffres manuscrits

In [None]:
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

print('Projecting %d-dimensional data to 2D' % X.shape[1])

plt.figure(figsize=(12,10))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, 
            edgecolor='none', alpha=0.7, s=40,
            cmap=plt.cm.get_cmap('nipy_spectral', 10))
plt.colorbar()
plt.show()

Jetons un coup d'œil aux 2 premières composantes principales

In [None]:
f, (ax1, ax2) = plt.subplots(1, 2, sharey=True)

im = pca.components_[0]
ax1.imshow(im.reshape((8, 8)), cmap='binary')
ax1.set_xticks([])
ax1.set_yticks([])
ax1.set_title('First principal component')

im = pca.components_[1]
ax2.imshow(im.reshape((8, 8)), cmap='binary')
ax2.set_xticks([])
ax2.set_yticks([])
ax2.set_title('Second principal component')
plt.show()

### Compression des données

In [None]:
plt.figure(figsize=(4,2))
plt.imshow(X[15].reshape((8, 8)), cmap='binary')
plt.xticks([])
plt.yticks([])
plt.title('Source image')
plt.show()

fig, axes = plt.subplots(8, 8, figsize=(10, 10))
fig.subplots_adjust(hspace=0.1, wspace=0.1)

for i, ax in enumerate(axes.flat):
    pca = PCA(i + 1).fit(X)
    im = pca.inverse_transform(pca.transform(X[15].reshape(1, -1)))

    ax.imshow(im.reshape((8, 8)), cmap='binary')
    ax.text(0.95, 0.05, 'n = {0}'.format(i + 1), ha='right',
            transform=ax.transAxes, color='red')
    ax.set_xticks([])
    ax.set_yticks([])

Combien de composantes choisir? En règle générale, ils laissent au moins 90% de la variance des données à conserver.

In [None]:
pca = PCA().fit(X)

plt.figure(figsize=(10,7))
plt.plot(np.cumsum(pca.explained_variance_ratio_), color='k', lw=2)
plt.xlabel('Number of components')
plt.ylabel('Total explained variance')
plt.xlim(0, 63)
plt.yticks(np.arange(0, 1.1, 0.1))
plt.axvline(21, c='b')
plt.axhline(0.9, c='r')
plt.show()

In [None]:
pca = PCA(0.9).fit(X)
print('We need %d components to explain 90%% of variance' 
      % pca.n_components_)

### PCA comme prétraitement

PCA sert souvent de technique de prétraitement. Jetons un coup d'œil à une tâche de reconnaissance faciale

In [None]:
%%time
from sklearn import datasets
from sklearn.model_selection import train_test_split

lfw_people = datasets.fetch_lfw_people(min_faces_per_person=50, 
                resize=0.4, data_home='../../data/faces')

print('%d objects, %d features, %d classes' % (lfw_people.data.shape[0],
      lfw_people.data.shape[1], len(lfw_people.target_names)))
print('\nPersons:')
for name in lfw_people.target_names:
    print(name)

Distribution de la classe cible:

In [None]:
for i, name in enumerate(lfw_people.target_names):
    print("{}: {} photos.".format(name, (lfw_people.target == i).sum()))

In [None]:
fig = plt.figure(figsize=(8, 6))

for i in range(15):
    ax = fig.add_subplot(3, 5, i + 1, xticks=[], yticks=[])
    ax.imshow(lfw_people.images[i], cmap='bone')

In [None]:
X_train, X_test, y_train, y_test = \
    train_test_split(lfw_people.data, lfw_people.target, random_state=0)

print('Train size:', X_train.shape[0], 'Test size:', X_test.shape[0])

Ici, nous avons recours à «RandomizedPCA» (un algorithme un peu plus efficace) pour trouver les 100 premières composantes principales qui conservent> 90% de variance.

In [None]:
pca = PCA(n_components=100, svd_solver='randomized')
pca.fit(X_train)

print('100 principal components explain %.2f%% of variance' %
      (100 * np.cumsum(pca.explained_variance_ratio_)[-1]))
plt.figure(figsize=(10,7))
plt.plot(np.cumsum(pca.explained_variance_ratio_), lw=2, color='k')
plt.xlabel('Number of components')
plt.ylabel('Total explained variance')
plt.xlim(0, 100)
plt.yticks(np.arange(0, 1.1, 0.1))
plt.show()

Premières composantes principales. Belles variables!

In [None]:
fig = plt.figure(figsize=(16, 6))
for i in range(30):
    ax = fig.add_subplot(3, 10, i + 1, xticks=[], yticks=[])
    ax.imshow(pca.components_[i].reshape((50, 37)), cmap='bone')

"Mean face"

In [None]:
plt.imshow(pca.mean_.reshape((50, 37)), cmap='bone')
plt.xticks([])
plt.yticks([])
plt.show()

Examinons maintenant la classification après avoir réduit la dimensionnalité de 1850 variables à seulement 100.
Nous adapterons un classificateur softmax, alias une régression logistique multinomiale.

In [None]:
%%time
from sklearn.linear_model import LogisticRegression

X_train_pca = pca.transform(X_train)
X_test_pca = pca.transform(X_test)

In [None]:
clf = LogisticRegression(multi_class='multinomial', 
                         random_state=17, solver='lbfgs', 
                         max_iter=10000)
clf.fit(X_train_pca, y_train)
y_pred = clf.predict(X_test_pca)

In [None]:
from sklearn.metrics import (accuracy_score, classification_report,
                             confusion_matrix)

print("Accuracy: %f" % accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, target_names=lfw_people.target_names))

M = confusion_matrix(y_test, y_pred)
M_normalized = M.astype('float') / M.sum(axis=1)[:, np.newaxis]

plt.figure(figsize=(10,10))
im = plt.imshow(M_normalized, interpolation='nearest', cmap='Greens')
plt.colorbar(im, shrink=0.71)
tick_marks = np.arange(len(lfw_people.target_names))
plt.xticks(tick_marks - 0.5, lfw_people.target_names, rotation=45)
plt.yticks(tick_marks, lfw_people.target_names)
plt.tight_layout()
plt.ylabel('True person')
plt.xlabel('Predicted person')
plt.title('Normalized confusion matrix')
plt.show()

Comparons ce résultat avec le cas lorsque nous formons le modèle avec toutes les 1850 variables initiales.

In [None]:
%%time
clf = LogisticRegression(multi_class='multinomial', 
                         random_state=17, solver='lbfgs', 
                         max_iter=10000)
clf.fit(X_train, y_train)
y_pred_full = clf.predict(X_test)

In [None]:
print("Accuracy: %f" % accuracy_score(y_test, y_pred_full))

Eh bien ... cela n'a pas fonctionné comme un bon exemple d'illustration, la régression logistique est toujours assez rapide avec 1850 variables, mais la précision est de 79%, ce qui est remarquablement supérieur à 72%. Mais pour les images de plus haute résolution et avec des modèles plus lourds, la différence de temps d'entraînement sera beaucoup plus remarquable.

## Quelques références
- [PCA wiki page](https://en.wikipedia.org/wiki/Principal_component_analysis)
- [PCA in 3 steps](http://sebastianraschka.com/Articles/2015_pca_in_3_steps.html)
- [SVD wiki page](https://en.wikipedia.org/wiki/Singular_value_decomposition)
- [Eigenface](https://en.wikipedia.org/wiki/Eigenface)