# TE62MI - Algebre linéaire et réduction de dimension

## TP 2. Analyse en Composantes Principales (ACP)

### Description

L'objectif de ce TP est d'étudier et mettre en œuvre l'analyse en composantes principales (ACP) comme méthode de réduction de dimensionnalité, sur des données réelles. Nous appliquerons l'ACP sur un jeu de données de vins Italiens, qui correspond à l'analyse chimique de vins cultivés dans la même région en Italie mais issus de trois cépages différents (trois types de vin; trois classes). Ce jeu de données est composé de $n=178$ observations, décrivant les quantités de $d=13$ constituants trouvés dans chacun d'eux. Initialement, nous divisons l'ensemble des données en un sous ensemble d'entraînement et un sous ensemble de test (après avoir mélangé les données pour avoir des instances de toutes les classes dans chaque sous ensemble).

### Rappels de cours

Pour un ensemble de points en dimensions $d$, l'ACP vise à trouver un sous-espace linéaire de dimension $k \leq d$ tel que les points se trouvent principalement sur ce sous-espace. Un tel sous-espace tente de maintenir la majeure partie de la variance des données et peut être spécifié par $d$ vecteurs orthogonaux qui forment un nouveau système de coordonnées, appelé les composantes principales. L'espoir est que seul $ k << d$ composantes suffisent pour approximer l'espace couvert par les $d$
axes originaux. 

Ainsi, la première composante principale maximise la variance après projection (c'est-à-dire qu'elle représente autant de variabilité des données que possible), et chaque composante successive a à son tour la variance la plus élevée possible sous la contrainte d'être orthogonal (c'est-à-dire non corrélé) avec les composantes précédentes.

L'ACP peut être calculée en utilisant la décomposition en valeurs propres de la matrice de covariance comme
suit :
1. Soit $X \in \mathbb{R}^{nd}$ une matrice correspondant à $n$ points en dimension $d$. Centrer $X$ en soustrayant les valeurs moyennes des
colonnes : $X = X - M$
2. Calculer la matrice de covariance $C= X^T X$
3. Trouver les valeurs propres et les vecteurs propres $V$ de $C$
4. Projeter les données $X$ sur les $k$ vecteurs propres $V_{[1:k]}$ correspondant aux $k$ plus grandes valeurs propres : $X' = XV_{[1:k]}^T \in \mathbb{R}^{nk}$

La fraction de variance préservée dans les données transformées/projetées est donnée par :
$var = \frac{\sum_{i=0}^k \lambda_i}{\sum_{j=0}^d \lambda_j}$
où les $\lambda_j$ sont les valeurs propres de la matrice de covariance triées par ordre décroissant.

### Tâches à effectuer dans ce TP

Compléter les champs de code manquant, entre `### TODO ###` et `### ENDO ###` afin de
mettre en œuvre la technique de l'ACP
- Compléter les méthodes `fit` et `transform` dans la classe appelée `PCA` (`section 2`) 
- Tester votre implémentation et comparer à scikit-learn. Inspecter la distribution des valeurs singulières de $X$ (`section 3`) 
- Quelle est la variance expliquée par chaque composante principale? (`section 3`)
- Projeter les données en 3D (sur les 3 premières composantes) et les visualiser en 2D. (`section 4`)
- Qu'observez-vous ? Quel cépage a la plus grande variance ? (`section 4`)
- Interpréter le sens des vecteurs propres appris. Quelles caractéristiques d'origine affectent l'espace de dimension réduite? (`section 5`)

## 1. Lire le jeu de données

In [None]:
# Load data (Wine dataset)
import numpy as np
dataset = np.genfromtxt('data/wine_data.csv', delimiter=',')

In [None]:
# Shuffle and split datataset
np.random.seed(42) # seed to reproduce results
np.random.shuffle(dataset)
X_train = dataset[:100,1:] # training data
X_test = dataset[101:,1:] # testing data

In [None]:
# Print X_train shape (n,d)
X_train.shape

## 2. Implémentation de l'ACP

In [None]:
class PCA(object):
    
    def __init__(self, n_components=2):
        
        # input space
        self.n_samples_ = None # a number, int (n)
        self.n_features_in_  = None # a number, int (d)
        
        # center data
        self.mean_ = None # a vector, ndarray of shape (d,)
        
        # principal components
        self.n_components_ = n_components # a number, int (k)
        self.components_ = None # a matrix, ndarray of shape (k, d), aka eigenvectors
        self.singular_values_ = None # a vector, ndarray of shape (k,), aka eigenvalues**1/2
        self.explained_variance_ratio_ = None #  a vector, ndarray of shape (k,)
    
    def fit(self, X):
        ''' 
        Performs principal components analysis (PCA) on the n-by-d data matrix X (data)
        Rows of X correspond to observations (wines), columns to variables.
        
        Saves values for self.n_features_in_, self.n_samples_, self.mean_
        as well as self.singular_values_, self.components_ and self.explained_variance_ratio_
        For example, self.n_features_in_ = X.shape[1]
        
        Args:
            X: the data matrix (n,p)
        '''
        
        k = self.n_components_
        self.n_samples_ = X.shape[0]
        self.n_features_in_ = X.shape[1]
        
        # Compute the mean and center X (save self.mean_)

        ### TODO ###
        #
        #
        ### ENDO ###
        
        # Calculate the covariance matrix C
        
        ### TODO ###
        #
        #
        ### ENDO ###

        # Save the matrix decomposition parameters (save self.singular_values_, self.components_)
        
        ### TODO ###
        #
        #
        #
        ## ENDO ##
        
        # Measure the quality of the low rank approximation (save self.explained_variance_ratio_)
        
        ### TODO ###
        #
        ## ENDO ##
        
    def transform(self, X):
        ''' 
        Reduces dimensonality of the n-by-d data matrix X using principal components analysis (PCA)
        
        Args:
            X: the data matrix (n,d)
        Returns:
            y: the data in a lower dimension (n, k)
        '''
        
        # Project X on the new space
        
        ## TODO ##
        #
        #
        #
        ## ENDO ##
    
    def fit_transform(self, X):
        self.fit(X)
        return self.transform(X)

## 3. Tester l'implémentation

In [None]:
#!pip install scikit-learn # uncomment this line to install scikit learn

In [None]:
#from sklearn.decomposition import PCA # uncomment this line to compare your implementation to scikit learn
pca = PCA(n_components=3)
pca.fit(X_train)

assert pca.n_samples_ == X_train.shape[0]
assert pca.n_features_in_ == X_train.shape[1]
assert pca.n_components_ == 3
assert pca.mean_.shape == (X_train.shape[1],)
assert pca.components_.shape == (3, X_train.shape[1])
assert pca.singular_values_.shape == (3,)
assert np.sum(np.abs(pca.singular_values_)-pca.singular_values_)==0 # positive values
assert pca.explained_variance_ratio_[0] >= 0.

print(pca.singular_values_)
print(pca.explained_variance_ratio_)

In [None]:
y_train = pca.transform(X_train)
y_test = pca.transform(X_test)

assert y_train.shape == (X_train.shape[0], 3)
assert y_test.shape == (X_test.shape[0], 3)

## 4. Visualize results

In [None]:
import matplotlib.pyplot as plt

def visualize_data(offset=0):
    plt.figure(1, figsize=(10,5))

    plt.subplot(121)
    c_train = dataset[:100,0] # class labels of training data (cultivars, type of wine) 
    plt.scatter(y_train[:,offset], y_train[:,offset+1], c=c_train)
    plt.xlabel("Principal component {}".format(offset+1))
    plt.ylabel("Principal component {}".format(offset+2))
    plt.title("PCA on the WINE dataset (train)")

    plt.subplot(122)
    c_test = dataset[101:,0] # class labels of testing data (cultivars, type of wine) 
    plt.scatter(y_test[:,offset], y_test[:,offset+1], c=c_test)
    plt.xlabel("Principal component {}".format(offset+1))
    plt.ylabel("Principal component {}".format(offset+2))
    plt.title("PCA on the WINE dataset (test)")

    plt.show()

In [None]:
visualize_data(offset=0) # change to 1 to visualize projection on principal components 2 and 3

### TODO ###
# Qu'observez vous?
# Quelles composantes principales permettent de distinguer les trois types de vins?
### ENDO ###

## 5. Analyse model

In [None]:
### TODO ###
# À quelles dimensions de l'espace d'origine correspondent les composantes principales?
### ENDO ###

In [None]:
plt.scatter(np.abs(pca.components_[0]), np.arange(len(pca.components_[0])), label="PC1", alpha=0.5)
plt.scatter(np.abs(pca.components_[1]), np.arange(len(pca.components_[1])), label="PC2", alpha=0.5)
plt.scatter(np.abs(pca.components_[2]), np.arange(len(pca.components_[2])), label="PC3", alpha=0.5)
plt.xlabel("|coefficient value|")
plt.xlim(-0.1,1.1)
plt.ylabel("Features (original space)")
plt.title("PC1 and PC3 coordinates")
plt.legend()
plt.show()