# Import des outils / jeu de données

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

import statsmodels.api as sm

In [None]:
np.random.seed(0)
sns.set_theme()

In [None]:
df = pd.read_csv(
    "data/data-cleaned-feature-engineering.csv",
    sep=",",
    index_col="ID",
    parse_dates=True,
)

In [None]:
df_transforme = pd.read_csv(
    "data/data-transformed.csv",
    sep=",",
    index_col="ID",
    parse_dates=True,
)

## Variables globales

In [None]:
var_numeriques = [
    "Year_Birth",
    "Income",
    "Recency",
    "MntWines",
    "MntFruits",
    "MntMeatProducts",
    "MntFishProducts",
    "MntSweetProducts",
    "MntGoldProds",
    "NumDealsPurchases",
    "NumWebPurchases",
    "NumCatalogPurchases",
    "NumStorePurchases",
    "NumWebVisitsMonth",
]

In [None]:
var_categoriques = [
    "Education",
    "Marital_Status",
    "Kidhome",
    "Teenhome",
    "Complain",
    "AcceptedCmp1",
    "AcceptedCmp2",
    "AcceptedCmp3",
    "AcceptedCmp4",
    "AcceptedCmp5",
    "Response",
]

# Régressions

In [None]:
from sklearn.model_selection import train_test_split

## Régression logistique

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    confusion_matrix,
    ConfusionMatrixDisplay,
    classification_report,
)

In [None]:
X = df[var_numeriques]

In [None]:
y = df[["Response"]].astype(int)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
log_reg = LogisticRegression(random_state=0)

In [None]:
log_reg.fit(X_train, y_train)

In [None]:
y_pred = log_reg.predict(X_test)

In [None]:
print(classification_report(y_test, y_pred, labels=log_reg.classes_))

In [None]:
cm = confusion_matrix(y_test, y_pred, labels=log_reg.classes_)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=log_reg.classes_)
disp.plot()

In [None]:
# todo: commenter

## Régression PLS

In [None]:
# todo: refaire la régression PLS mais PAS sur une variable catégorique (erreur ici)

In [None]:
from sklearn.cross_decomposition import PLSRegression

In [None]:
# Initialisation de l'objet PLSRegression avec 2 composantes PLS
pls = PLSRegression(n_components=2)

In [None]:
# Apprentissage du modèle sur les données
pls.fit(df_transforme[var_numeriques], df_transforme["Response"])

In [None]:
# Prédiction de la variable cible sur de nouvelles données
y_pred = pls.predict(df_transforme[var_numeriques])

In [None]:
# Evaluation de la performance du modèle
r2 = pls.score(df_transforme[var_numeriques], df_transforme["Response"].astype(int))

In [None]:
r2

## Régression linéaire simple

Modèle simple : une variable à expliquer Y et une seule variable explicative X.

$$y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$

Hypothèses à vérifier pour la régression linéaire simple :

1) il existe une corrélation linéaire entre X et Y

1) la distribution de l’erreur ε est indépendante de la variable X (exogénéité)

2) l'erreur suit une loi normale centrée i.e. E(ε_i) = 0

3) l’erreur est de variance constante (homoscédasticité)
i.e Var(ε_i) = s, une constante

4) les erreurs sont indépendantes (absence d'autocorrélation)
i.e. Cov(εi, εj) = 0, pour tout i, j

In [None]:
X = np.array(df_transforme["Income"])
Y = np.array(df_transforme["NumStorePurchases"])

### Hypothèse 1 : corrélation linéaire

In [None]:
from scipy.stats import pearsonr

In [None]:
print(
    "Le coefficient de corrélation linéaire entre X et Y vaut",
    pearsonr(X, Y)[0],
    "la pvalue associée vaut",
    pearsonr(X, Y)[1],
    "il existe donc bien une relation linéaire entre X et Y.",
)

Le reste des hypothèses à tester requiert d'effectuer la régression linéaire :

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model = LinearRegression().fit(X_train.reshape(-1, 1), Y_train)
Y_train_hat = model.predict(X_train.reshape(-1, 1))

In [None]:
plt.scatter(X_train, Y_train, color="black")
plt.plot(X_train, Y_train_hat, color="red")
plt.title("Régression linéaire du nombre d'achats en magasin en fonction du revenu")

In [None]:
print(model.intercept_, model.coef_, model.score(X_train.reshape(-1, 1), Y_train))

Equation de régression :

$$y_i = 0.46 + 2.21 * x_i$$

### Hypothèse 2 : exogénéité

In [None]:
residuals = Y_train - Y_train_hat

plt.scatter(X_train, residuals)

In [None]:
print(
    "Le coefficient de corrélation entre X et les residus vaut",
    pearsonr(X_train, residuals)[0],
    ". On a bien indépendance et donc exogénéité.",
)

### Hypothèse 3 : l'erreur suit une loi normale centrée i.e. E(ε_i) = 0

In [None]:
import statistics
from scipy import stats

In [None]:
plt.hist(residuals, density=True)

x = np.linspace(-7, 7, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1))
plt.title("Histogramme des résidus en superposition avec la densité de la loi normale")
plt.show()

In [None]:
print("La moyenne des résidus vaut", statistics.mean(residuals))
print("Mais les résidus ne suivent pas une loi normale")

In [None]:
sm.qqplot(residuals, line="45")
print("On constate sur le qqplot que les points ne suivent pas la droite x = y")

In [None]:
print(
    "Un test de shapiro, pour tester l'hypothèse de normalité, nous donne une pvalue de",
    stats.shapiro(residuals)[1],
    ". On rejette l'hypothèse nulle et on conclut que les résidus ne suivent pas une loi normale.",
)

### Hypothèse 4 : homoscédasticité

In [None]:
def abline(slope, intercept):
    axes = plt.gca()
    x_vals = np.array(axes.get_xlim())
    y_vals = intercept + slope * x_vals
    plt.plot(x_vals, y_vals, "-", color="red")

In [None]:
plt.plot(residuals, "bo")
plt.title("Nuage de points des résidus")
abline(0, 7)
abline(0, -7)

In [None]:
import statsmodels.stats.api as sms
from statsmodels.compat import lzip

In [None]:
fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

In [None]:
fit.summary()

In [None]:
res_names = ["F statistic", "p-value"]
gq_test = sms.het_goldfeldquandt(fit.resid, fit.model.exog)
lzip(res_names, gq_test)

In [None]:
bp_test = sms.het_breuschpagan(fit.resid, fit.model.exog)
lzip(res_names, bp_test)

Le test de Goldfeld-Quandt ne nous donne pas d'hétéroscédasticité, contraiement au test de Breusch-Pagan.

### Hypothèse 5 : absence d'autocorrélation

In [None]:
from statsmodels.graphics.regressionplots import *

In [None]:
sm.graphics.tsa.plot_acf(residuals)
print("On remarque une absence d'autocorrélation.")

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train, cooks[0])
plt.xlabel("Revenus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.005) if x]
print(cooks_indexes)
# affiche les indexes des individus dont les distances de cook dépassent une certaine valeur

In [None]:
influence_plot(fit)
print("")

### Score du modèle

#### Qualité d'ajustement

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [None]:
print(f"Le R² du modèle vaut {model.score(X_train.reshape(-1, 1), Y_train)}")

In [None]:
print(f"MSE = {mean_squared_error(Y_train, Y_train_hat)}")
print(f"RMSE = {mean_squared_error(Y_train, Y_train_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_train, Y_train_hat)}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model.score(X_train.reshape(-1, 1), Y_train)}"
)
print(
    f"R² du modèle sur les données de test = {model.score(X_test.reshape(-1, 1), Y_test)}"
)

In [None]:
Y_test_hat = model.predict(X_test.reshape(-1, 1))

In [None]:
plt.scatter(X_test, Y_test, color="black")
plt.plot(X_test, Y_test_hat, color="red")
plt.title("Nombre d'achats en magasin en fonction du revenu : données test")

In [None]:
print(f"MSE = {mean_squared_error(Y_test, Y_test_hat)}")
print(f"RMSE = {mean_squared_error(Y_test, Y_test_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_test, Y_test_hat)}")

In [None]:
# todo: cross-validation

## Régression linéaire multiple

Modèle multiple : une variable à expliquer Y et N variables explicatives X_i

$$y_i = \beta_0 + \beta_1 X_i(1) + \beta_2 X_i(2) + \beta_3 X_i(3) + ... + \beta_P X_i(P) + \epsilon_i$$

Hypothèses à vérifier pour la régression linéaire multiple :

1) il existe une corrélation linéaire entre X_i et Y

2) Cov(X_p_i, ε_j) = 0, pour tout i, j (exogénéité) et pour chaque variable explicative X_p

3) l'erreur suit une loi normale centrée i.e. E(ε_i) = 0

4) l’erreur est de variance constante (homoscédasticité)
i.e Var(εi) = s, une constante

5) les erreurs sont indépendantes (absence d'autocorrélation)
i.e. Cov(εi, εj) = 0, pour tout i, j

6) absence de colinéarité entre les variables explicatives,
i.e. X_t * X est régulière, det(X_t * X) ≠ 0

Pour les besoins de la régression linéaire, nous créons des variables muettes (dummy variables) pour inclure les variables catégoriques `Education` et `Marital_status` à la régression.

In [None]:
df_reg = df_transforme.copy()

In [None]:
df_reg = pd.get_dummies(df_reg, columns=["Education", "Marital_Status"])

In [None]:
df_reg.columns

Pour cette régression, on suppose que l'entreprise veut profiler au mieux les clients qui achètent dans le magasin. C'est pourquoi la variable d'intérêt pour la régression sera le `nombre d'achats en magasin`.

Nos variables explicatives sont des variables numériques et des variables catégoriques transformées en variables muettes.
Nous commençons par un grand nombre de variables explicatives puis nous en éliminerons progressivement pendant la vérifications des hypothèses.

In [None]:
var_numeriques_reg = [
    "Income",
    "Year_Birth",
    "Recency",
    "NbAcceptedCampaigns",
    "NumWebPurchases",
    "NumDealsPurchases",
    "NumWebVisitsMonth",
    "NumCatalogPurchases",
    "MntWines",
    "MntFruits",
    "MntMeatProducts",
    "MntFishProducts",
    "MntSweetProducts",
    "MntGoldProds",
]

var_categoriques_reg = [
    "NbChildren",
    "Education_2n Cycle",
    "Education_Basic",
    "Education_Graduation",
    "Education_Master",
    "Education_PhD",
    "Marital_Status_Divorced",
    "Marital_Status_Married",
    "Marital_Status_Single",
    "Marital_Status_Together",
    "Marital_Status_Widow",
]

In [None]:
X = df_reg[var_categoriques_reg + var_numeriques_reg]
Y = df_reg["NumStorePurchases"]

In [None]:
print(
    "Nous avons",
    X.shape[1],
    "variables explicatives au début de la régression dont",
    X[var_numeriques_reg].shape[1],
    "variables numériques.",
)

### Hypothèse 1 : lien linéaire entre Y et les variables explicatives numériques

In [None]:
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[0:4], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[4:8], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[8:12], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[12:], y_vars="NumStorePurchases")

In [None]:
for x in X[var_numeriques_reg].columns:
    corr = pearsonr(X[x], Y)
    print(
        "Le coefficient de corrélation linéaire entre Y et",
        x,
        "vaut",
        corr[0],
        "la pvalue vaut",
        corr[1],
    )

In [None]:
# TODO: faire un joli affichage avec SNS heatmap

On décide déjà d'écarter la variable `Recency` de la régression.

In [None]:
del X["Recency"]
var_numeriques_reg.remove("Recency")

### Réalisation du modèle

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model_multiple = LinearRegression().fit(X_train, Y_train)
Y_train_hat = model_multiple.predict(X_train)

In [None]:
plt.scatter(Y_train, Y_train_hat, color="black")
plt.title("Valeurs prédites contres vraies valeurs (donnéees d'entraînement)")
abline(1, 0)

### Hypothèse 2 : exogénéité sur les variables numériques
(Cela n'a pas de sens de tester l'exogénéité sur les variables catégoriques car la notion de corrélation ne fonctionne pas avec celles-ci.)

In [None]:
residuals = Y_train - Y_train_hat

In [None]:
for x in X_train[var_numeriques_reg].columns:
    corr = pearsonr(X_train[x], residuals)
    print(
        "Le coefficient de corrélation entre",
        x,
        "et les residus vaut",
        corr[0],
        "et la pvalue associée vaut",
        corr[1],
    )

Il n'y a pas d'endogénéité.

### Hypothèse 3 : l'erreur suit une loi normale centrée i.e. E(ε_i) = 0

In [None]:
plt.hist(residuals, density=True)

x = np.linspace(-6, 6, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1))
plt.title("Histogramme des résidus en superposition avec la densité de la loi normale")
plt.show()

In [None]:
print("La moyenne des résidus vaut", statistics.mean(residuals))

In [None]:
sm.qqplot(residuals, line="45")
print("On constate sur le qqplot que les points ne suivent pas la droite x = y")

In [None]:
print(
    "Un test de shapiro, pour tester l'hypothèse de normalité, nous donne une pvalue de",
    stats.shapiro(residuals)[1],
    ". On rejette l'hypothèse nulle et on conclut que les résidus ne suivent pas une loi normale.",
)

### Hypothèse 4 : homoscédasticité

In [None]:
plt.plot(residuals, "bo")
plt.title("Nuage de points des résidus")
abline(0, 6.5)
abline(0, -6.5)

In [None]:
fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

In [None]:
fit.summary()

In [None]:
res_names = ["F statistic", "p-value"]
gq_test = sms.het_goldfeldquandt(fit.resid, fit.model.exog)
lzip(res_names, gq_test)

In [None]:
bp_test = sms.het_breuschpagan(fit.resid, fit.model.exog)
lzip(res_names, bp_test)

In [None]:
white_test = sms.het_white(fit.resid, fit.model.exog)
lzip(res_names, white_test)

Le test de Goldfeld-Quandt, qui vérifie la constance de la variance entre deux échantillons, ne nous donne pas d'hétéroscédasticité, contrairement aux tests de White et de Breusch-Pagan.

### Hypothèse 5 : absence d'autocorrélation

In [None]:
sm.graphics.tsa.plot_acf(residuals)
print("On remarque une absence d'autocorrélation.")

### Réduction du nombre de variables explicatives par le critère AIC

In [None]:
def aic(X, Y, regressor=""):  # entrer X le dataframe des variables explicatives,
    # Y la variable expliquée, et le regresseur utilisé
    aic_list = []

    for col in X.columns:
        X_temp = X.drop(col, axis=1)

        if regressor == "linearOLS":
            model_temp = sm.OLS(Y, X_temp).fit()
        elif regressor == "GLMpoisson":
            model_temp = sm.GLM(Y, X_temp, family=sm.families.Poisson()).fit()
        else:
            return "Entrer un régresseur valide"

        aic_list.append([col, model_temp.aic])

    return aic_list

In [None]:
def stepwise(X, Y, regressor=""):  # entrer X le dataframe des variables explicatives,
    # Y la variable expliquée, et le regresseur utilisé

    if regressor == "linearOLS":
        current_aic = sm.OLS(Y, X).fit().aic  # aic avec les variables actuelles
    elif regressor == "GLMpoisson":
        current_aic = sm.GLM(Y, X, family=sm.families.Poisson()).aic
    else:
        return "Entrer un régresseur valide"

    aic_list = aic(
        X, Y, regressor
    )  # liste des aic par supression des variables une a une

    my_bool = 0  # pour indiquer si aucune variable n'est a enlever
    for i in range(
        len(aic_list)
    ):  # si l'aic diminue pour une variable supprimee, on enleve cette variable du df X

        if aic_list[i][1] < current_aic:
            del X[aic_list[i][0]]  # a l'interieur des crochets c'est une string
            my_bool = 1

    if my_bool == 0:
        return "L'algorithme stepwise est terminé."

In [None]:
while True:
    if (
        stepwise(X_train, Y_train, regressor="linearOLS")
        == "L'algorithme stepwise est terminé."
    ):
        break

In [None]:
stepwise(X_train, Y_train, regressor="linearOLS")

In [None]:
# on refait les modèles après sélection de variables

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

model_multiple = LinearRegression().fit(X_train, Y_train)

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train.index, cooks[0])
plt.xlabel("Index des individus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.010) if x]
# détermine l'index dans la liste des individus dont la distance de cook dépasse 0.010

In [None]:
for i in cooks_indexes:
    print(X_train.iloc[[i]].index[0])

In [None]:
# TODO: supprimer les individus aux distances trop grandes

In [None]:
influence_plot(fit)
print("")

Les distances de Cook ont été largement réduites par la sélection de variables au critère AIC.

### Score du modèle

#### Qualité d'ajustement

In [None]:
print(f"Le R² du modèle vaut {model_multiple.score(X_train, Y_train)}")

In [None]:
Y_train_hat = model_multiple.predict(X_train)

In [None]:
print(f"MSE = {mean_squared_error(Y_train, Y_train_hat)}")
print(f"RMSE = {mean_squared_error(Y_train, Y_train_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_train, Y_train_hat)}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model_multiple.score(X_train, Y_train)}"
)
print(f"R² du modèle sur les données de test = {model_multiple.score(X_test, Y_test)}")

In [None]:
Y_test_hat = model_multiple.predict(X_test)

In [None]:
plt.scatter(Y_test, Y_test_hat, color="black")
abline(1, 0)
plt.title("Valeurs prédites contre les vraies valeurs : données de test du modèle")

In [None]:
print(f"MSE = {mean_squared_error(Y_test, Y_test_hat)}")
print(f"RMSE = {mean_squared_error(Y_test, Y_test_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_test, Y_test_hat)}")

## Regression GLM

In [None]:
import scipy

In [None]:
X = df_transforme[
    [
        "Income",
        "NumWebPurchases",
        "NumDealsPurchases",
        "NumWebVisitsMonth",
        "NumCatalogPurchases",
        "MntWines",
        "MntFruits",
        "MntMeatProducts",
        "MntFishProducts",
        "MntSweetProducts",
        "MntGoldProds",
        "Year_Birth",
        "NbChildren",
        "Recency",
        "NbAcceptedCampaigns",
    ]
]
Y = df_transforme["NumStorePurchases"]

In [None]:
scipy.stats.probplot(Y, dist="poisson", sparams=(5), plot=plt)
plt.show()

In [None]:
poisson_model = sm.GLM(Y, X, family=sm.families.Poisson()).fit()

In [None]:
poisson_model.summary()

Réduction du nombre de variables grâce au critère AIC

In [None]:
def aic_GLM(X, Y):  # entrer X le dataframe des variables explicatives
    aic_list = []
    for col in X.columns:
        X_temp = X.drop(col, axis=1)
        model_temp = sm.GLM(Y, X_temp, family=sm.families.Poisson()).fit()
        aic_list.append([col, model_temp.aic])

    return aic_list

In [None]:
def stepwise_GLM(X, Y):
    current_aic = (
        sm.GLM(Y, X, family=sm.families.Poisson()).fit().aic
    )  # aic avec les variables actuelles
    aic_list = aic_GLM(X, Y)  # liste des aic par supression des variables une a une

    my_bool = 0  # pour indiquer si aucune variable n'est a enlever
    for i in range(
        len(aic_list)
    ):  # si l'aic diminue pour une variable supprimee, on enleve cette variable du df X
        if aic_list[i][1] < current_aic:
            del X[aic_list[i][0]]  # a l'interieur des crochets c'est une string
            my_bool = 1

    if my_bool == 0:
        print("Le stepwise est terminé.")

In [None]:
stepwise_GLM(X_train, Y_train)

In [None]:
stepwise_GLM(X_train, Y_train)

In [None]:
poisson_model = sm.GLM(Y_train, X_train, family=sm.families.Poisson()).fit()
Y_test_hat = poisson_model.predict(X_test)

In [None]:
plt.scatter(Y, Y_hat)
plt.title("Valeurs prédites contres vraies valeurs (valeurs test)")
abline(1, 0)

In [None]:
print(f"MSE = {mean_squared_error(Y, Y_hat)}")
print(f"RMSE = {mean_squared_error(Y, Y_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y, Y_hat)}")

## Régression polynomiale

In [None]:
X = df_transforme[
    [
        "Income",
        "NumWebPurchases",
        "NumDealsPurchases",
        "NumWebVisitsMonth",
        "NumCatalogPurchases",
        "MntWines",
        "MntFruits",
        "MntMeatProducts",
        "MntFishProducts",
        "MntSweetProducts",
        "MntGoldProds",
        "Year_Birth",
        "Childhome",
        "Recency",
        "NbAcceptedCampaigns",
    ]
]
Y = df_transforme["NumStorePurchases"]

In [None]:
# Transformer les données en matrice de caractéristiques polynomiales
poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X)

In [None]:
X_train, X_test, Y_train, Y_test = train_test_split(X_poly, Y, test_size=0.5)

In [None]:
# Entraîner un modèle de régression linéaire sur les données transformées
polynomial_model = LinearRegression().fit(X_train, Y_train)

In [None]:
Y_test_hat = polynomial_model.predict(X_test)
Y_train_hat = polynomial_model.predict(X_train)

In [None]:
plt.scatter(Y_test_hat, Y_test)
plt.title("Valeurs prédites contres vraies valeurs (valeurs test)")
abline(1, 0)

In [None]:
print(f"MSE = {mean_squared_error(Y_test, Y_test_hat)}")
print(f"RMSE = {mean_squared_error(Y_test, Y_test_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_test, Y_test_hat)}")

In [None]:
print(f"MSE = {mean_squared_error(Y_train, Y_train_hat)}")
print(f"RMSE = {mean_squared_error(Y_train, Y_train_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_train, Y_train_hat)}")

On constate que le modèle polynomial s'ajuste mieux aux données d'entraînement, mais est moins bon pour prédire les valeurs de test. Plus le degré des polynômes augmente, plus cet écart s'empire.

Jusqu'alors, le meilleur résultat a été obtenu par la régression linéaire multiple, avec élimination des variables par critères AIC.