# Objectifs du TP 2 : ACP fonctionnelle

- ACP des données "Canadian weather" avec les différentes approches vues en cours :
    - directement sur les vecteurs de données
    - en approchant chaque donnée par une B-spline sur une grille commune, puis en faisant une ACP classique
    - en développant une ACP dans une base de fonctions
- Même objectifs pour des données "destructurées" (i.e. numération des CD4)

Pour cela, nous allons principalement utiliser deux packages python: ```skfda``` et ```scipy```.

In [1]:
from skfda import datasets
import matplotlib.pyplot as plt
import numpy as np

ModuleNotFoundError: No module named 'skfda'

### Chargement des données de températures du Canada

Nous allons en premier lieu manipuler le jeu de données "Canadian weather" issu du package skfda.

In [None]:
tableau, cat = datasets.fetch_weather(return_X_y=True, as_frame=True)
fd = tableau.iloc[:, 0].values
fd_temperatures = fd.coordinates[0]


In [None]:
colormap = plt.colormaps['seismic']
label_names = cat.values.categories
nlabels = len(label_names)
label_colors = colormap(np.arange(nlabels) / (nlabels - 1))
label_cat = cat.values.codes

fd_temperatures.plot(group=label_cat, group_colors=label_colors,group_names=label_names)
plt.show()

## ACP classique

**Exercice:**
- effectuer une ACP classique sur les données en considérant chaque "courbe" comme un vecteur de taille 365
- tracer les deux premières composantes principales.
- tracer les projections des données sur les deux premières composantes principales.

In [None]:
## ACP classique

n = 35
data = np.reshape(fd_temperatures.data_matrix, (n,365))
t = np.reshape(fd_temperatures.grid_points, (365))

...

In [None]:
## Plot des deux premières composantes

...

In [None]:
## Plot des projections des données sur les deux premières composantes

...

## ACP classique sur les données lissées

**Exercice:**
- approcher chacun des vecteurs par une B-spline régularisée de degré 3
- interpoler ces splines sur $t_{\text{interp}} = [0,0.5,1,1.5,\ldots,364,364.5, 365]$
- effectuer une ACP classique sur ces nouveaux vecteurs (de plus grande dimension)
- tracer les deux premières composantes principales
- tracer les projections des données sur les deux premières composantes principales.

Pour représenter les données dans une base B-spline cubique (de degré 3), utiliser les fonctions ```splrep``` et ```BSpline```du package scipy.interpolate, avec un paramètre de régularisation $s=50$.

In [None]:
## Approximation des vecteurs de données par B-spline de degré 3 et interpolation de ces splines sur t_interp

from scipy.interpolate import splrep
from scipy.interpolate import BSpline

t_interp = ...
data_lisse = np.zeros(...)

for i in np.arange(n):
    ...
    data_lisse[i,:] = ...

In [None]:
## ACP sur "vecteurs régularisés"

...

In [None]:
## Plot des deux premières composantes

...

In [None]:
## Plot des projections des données sur les deux premières composantes

...

**Exercice:** Comparer sur une même figure:
- les composantes principales par l'ACP classique, régularisées a posteriori par Bspline (et interpolées sur $t_{\text{interp}}$)
- les composantes principales obtenues après approximations par Bspline des vecteurs de données

In [None]:
## Approximation par Bspline des deux premières composantes principales obtenues par l'ACP classique

...

In [None]:
## Comparaison des composantes principales lissées par Bspline après ACP et des composantes principales obtenues
# en ayant lisser les données avant l'ACP.

plt.plot(...,..., label = '1ère composante', color = 'blue')
plt.plot(..., ..., 'b--', label = '1ère composante, approchée par Bspline après ACP')

plt.plot(..., ..., label = '2ème composante, ', color = 'red')
plt.plot(..., ..., 'r--', label = '2ème composante, approchée par Bspline après ACP')

plt.title('ACP classique')
plt.legend()
plt.show()

**Question:** Quel est le problème ici?

# ACP sur une base de fonctions Bspline : méthode utilisant skfda

In [None]:
from skfda.representation.basis import BSplineBasis
basis = BSplineBasis(n_basis = 70, order = 4)

basis_fd = fd_temperatures.to_basis(basis)


**Exercice:** Via la fonction ```FPCA``` du package ```skfda```, récupérer les deux premières composantes principales obtenues par ACP dans une base de fonctions, et les plotter.

In [None]:
from skfda.preprocessing.dim_reduction import FPCA

fpca = ...
fpca.fit(...)

## Plot des composantes
...



**Exercice:** Comparer les 3 méthodes sur la première composante. Qu'en déduisez-vous?

In [None]:
## Comparaison des 3 méthodes

plt.plot(..., ..., 'r--', label = '1ère composante lissée par Bspline après ACP classique')
plt.plot(..., ..., label = '1ère composante d une ACP de données lisses', color = 'blue')
plt.plot(..., ..., label = '1ère composante d une FPCA', color = 'orange')
plt.legend()
plt.show()

# ACP fonctionnelle sur les données CD4

Tiré de l'étude MACS (Multicenter AIDS Cohort Study), l'ensemble de données sur la numération des cellules CD4 recueille le nombre de cellules CD4 par millilitre de sang de $N = 366$ participants. Les cellules CD4 sont un type particulier de globules blancs et sont des composants clés du système immunitaire. Le VIH attaque les cellules CD4 dans le sang du patient. Le nombre de cellules CD4 peut donc être considéré comme une mesure de la progression de la maladie. Pour cet ensemble de données, le nombre de cellules CD4 est mesuré environ deux fois par an et centré sur le moment de la séroconversion, qui est le moment où le VIH devient détectable. Pour chaque individu, le nombre de mesures varie de 1 à 11 sur une période de 18 mois avant et 42 mois après la séroconversion. Les points d'échantillonnage sont différents d'une observation à l'autre.

In [None]:
import pandas as pds
cd4 = pds.read_csv('cd4.csv', index_col=0)
all_argvals = cd4.columns.astype(np.int64)
argvals = {idx:np.array(all_argvals[~np.isnan(row)]) for idx, row in enumerate(cd4.values)}
values = {idx:row[~np.isnan(row)] for idx, row in enumerate(cd4.values)}
nb_patients = len(argvals)

Nous supprimons les patients qui ont un nombre d'observations $\leq 3$.

In [None]:
patients_out = []

for i in np.arange(nb_patients):
    if len(argvals[i]) < 4:
        del argvals[i]
        del values[i]
        patients_out.append(i)

patients = np.arange(nb_patients)
patients = np.delete(patients, patients_out)

nb_patients = len(patients)

**Exercice:** Afficher les observations des 20 premiers patients.

In [None]:
for i, pat in enumerate(patients[:20]):
    plt.scatter(..., ...)
    plt.plot(..., ...)

In [None]:
# On calcule [min_temps, max_temps], l'intervalle maxixal de points d'échantillonage, tout patient confondu.

min_temps = np.min(argvals[patients[0]])
max_temps = np.max(argvals[patients[0]])

for i, pat in enumerate(patients):
    a = np.min(argvals[pat])
    min_temps = np.min((a, min_temps))
    
    b = np.max(argvals[pat])
    max_temps = np.max((b, max_temps))

**Exercice:** Approcher les observations par des Bpline, sur l'intervalle maximal des temps d'observations des patients, en interpolant sur ```temps = np.linspace(min_temps, max_temps, 100)```.

In [None]:
temps = np.linspace(min_temps, max_temps, 100)
cd4_lisse = np.zeros((...,...))

for i, pat in enumerate(patients):
    ...
    cd4_lisse[i,:] = ...
    
plt.plot(temps,cd4_lisse.T)
plt.show()

Que remarquez-vous? Et qu'en déduisez-vous?

**Exercice:** Refaire une approximation par Bspline sans extrapoler en dehors de l'enveloppe convexe du support des fonctions (voir les paramètres de la fonction BSpline).

In [None]:
for i, pat in enumerate(patients):
    ...
    cd4_lisse[i,:] = ...
plt.plot(temps,cd4_lisse[:20,:].T)

for i, pat in enumerate(patients[:20]):
    plt.scatter(argvals[pat], values[pat])
plt.show()

**Remarque:** Il est primordial que les fonctions aient une base commune afin de pouvoir les comparer!

Nous utiliserons une base de Fourier ici.

In [None]:
from skfda.representation.basis import FourierBasis
from skfda.representation.basis import FDataBasis

nb_basis = 3
basis = FourierBasis(domain_range = (min_temps, max_temps), n_basis = nb_basis)


In [None]:
## On calcule les coefficients de chaque courbe dans la base de Fourier

basis_coeff = np.zeros((nb_patients,nb_basis))
for i, pat in enumerate(patients):
    aa = FDataBasis.from_data(values[pat], grid_points=argvals[pat], basis=basis)
    basis_coeff[i,:] = ...

**Exercice:** En utilisant la fonction ```FDataBasis``` tracer les courbes dans la base de Fourier, puis tracer les deux premières composantes principales en utilisant la fonction ```FPCA``` de ```skfda.preprocessing.dim_reduction```.


In [None]:
data = FDataBasis(..., ...)
data.plot()
plt.show()

In [None]:
fpca = ...
fpca.fit(...)
...
plt.title('Deux 1ères composantes principales')
plt.show()

**Exercice:** tracer les projections des données sur les deux premières composantes principales.

In [None]:
...
