# Import des outils / jeu de données

In [None]:
import statistics

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import statsmodels.stats.api as sms
import xgboost
from scipy import stats
from scipy.stats import kstest, pearsonr, poisson
from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import LinearRegression, PoissonRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from statsmodels.compat import lzip
from statsmodels.graphics.regressionplots import *
from statsmodels.stats.outliers_influence import variance_inflation_factor
from tensorflow import keras
from tensorflow.keras import layers

In [None]:
np.random.seed(0)
sns.set_theme()

In [None]:
df = pd.read_csv(
    "data/data-cleaned-feature-engineering.csv",
    sep=",",
    index_col="ID",
    parse_dates=True,
)

In [None]:
df_transforme = pd.read_csv(
    "data/data-transformed.csv",
    sep=",",
    index_col="ID",
    parse_dates=True,
)

## Variables globales

In [None]:
var_numeriques = [
    "Year_Birth",
    "Income",
    "Recency",
    "MntWines",
    "MntFruits",
    "MntMeatProducts",
    "MntFishProducts",
    "MntSweetProducts",
    "MntGoldProds",
    "NumDealsPurchases",
    "NumWebPurchases",
    "NumCatalogPurchases",
    "NumStorePurchases",
    "NumWebVisitsMonth",
]

In [None]:
var_categoriques = [
    "Education",
    "Marital_Status",
    "Kidhome",
    "Teenhome",
    "AcceptedCmp1",
    "AcceptedCmp2",
    "AcceptedCmp3",
    "AcceptedCmp4",
    "AcceptedCmp5",
    "Response",
]

## Fonctions et variables utiles

In [None]:
score_modeles = []

In [None]:
def affiche_score(modele, y_test, y_pred):
    """Affiche la MSE, RMSE et MAE du modèle."""
    print(f"MSE = {mean_squared_error(y_test, y_pred)}")
    print(f"RMSE = {mean_squared_error(y_test, y_pred, squared=False)}")
    print(f"MAE = {mean_absolute_error(y_test, y_pred)}")

In [None]:
def ajout_score(modele, nom_modele, y_test, y_pred):
    """Ajoute la MMSE, RMSE et MAE au dataframe score_modeles."""
    score_modeles.extend(
        (
            [nom_modele, "mse", mean_squared_error(y_test, y_pred)],
            [nom_modele, "rmse", mean_squared_error(y_test, y_pred, squared=False)],
            [nom_modele, "mae", mean_absolute_error(y_test, y_pred)],
        )
    )

# Régression linéaire simple

Modèle simple : une variable à expliquer $Y$ et une seule variable explicative $X$.

$$y_i = \beta_0 + \beta_1 X_i + \epsilon_i$$

Hypothèses à vérifier pour la régression linéaire simple :

1) il existe une corrélation linéaire entre $X$ et $Y$

1) la distribution de l’erreur $\epsilon$ est indépendante de la variable X (exogénéité)

2) l'erreur suit une loi normale centrée i.e. $E(ε_i) = 0$

3) l’erreur est de variance constante (homoscédasticité)
i.e $Var(ε_i) = \sigma^2$, une constante

4) les erreurs sont indépendantes (absence d'autocorrélation)
i.e. $Cov(εi, εj) = 0$, pour tout $i, j \in N \times N, i \neq j$

In [None]:
X = np.array(df_transforme["Income"])
Y = np.array(df_transforme["NumStorePurchases"])

### Hypothèse 1 : corrélation linéaire

In [None]:
print(
    "Le coefficient de corrélation linéaire entre X et Y vaut",
    pearsonr(X, Y)[0],
    "la pvalue associée vaut",
    pearsonr(X, Y)[1],
    "il existe donc bien une relation linéaire entre X et Y.",
)

Le reste des hypothèses à tester requiert d'effectuer la régression linéaire :

In [None]:
X_train, X_test, Y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model = LinearRegression().fit(X_train.reshape(-1, 1), Y_train)
Y_train_hat = model.predict(X_train.reshape(-1, 1))

In [None]:
plt.scatter(X_train, Y_train, color="black")
plt.plot(X_train, Y_train_hat, color="red")
plt.title("Régression linéaire du nombre d'achats en magasin en fonction du revenu")

In [None]:
print(model.intercept_, model.coef_, model.score(X_train.reshape(-1, 1), Y_train))

Equation de régression :

$$y_i = 0.42 + 2.21 * x_i$$

### Hypothèse 2 : exogénéité

In [None]:
residuals = Y_train - Y_train_hat

plt.scatter(X_train, residuals)

In [None]:
print(
    "Le coefficient de corrélation entre X et les residus vaut",
    pearsonr(X_train, residuals)[0],
    ". On a bien indépendance et donc exogénéité.",
)

### Hypothèse 3 : l'erreur suit une loi normale centrée i.e. E(ε_i) = 0

In [None]:
plt.hist(residuals, density=True)

x = np.linspace(-7, 7, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1))
plt.title("Histogramme des résidus en superposition avec la densité de la loi normale")
plt.show()

In [None]:
print("La moyenne des résidus vaut", statistics.mean(residuals))
print("Mais les résidus ne suivent pas une loi normale")

In [None]:
sm.qqplot(residuals, line="45")
print("On constate sur le qqplot que les points ne suivent pas la droite x = y")

In [None]:
print(
    "Un test de shapiro, pour tester l'hypothèse de normalité, nous donne une pvalue de",
    stats.shapiro(residuals)[1],
    ". On rejette l'hypothèse nulle et on conclut que les résidus ne suivent pas une loi normale.",
)

### Hypothèse 4 : homoscédasticité

In [None]:
def abline(slope, intercept):
    axes = plt.gca()
    x_vals = np.array(axes.get_xlim())
    y_vals = intercept + slope * x_vals
    plt.plot(x_vals, y_vals, "-", color="red")

In [None]:
plt.plot(residuals, "bo")
plt.title("Nuage de points des résidus")
abline(0, 7)
abline(0, -7)

In [None]:
fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

In [None]:
fit.summary()

In [None]:
res_names = ["F statistic", "p-value"]
gq_test = sms.het_goldfeldquandt(fit.resid, fit.model.exog)
lzip(res_names, gq_test)

In [None]:
bp_test = sms.het_breuschpagan(fit.resid, fit.model.exog)
lzip(res_names, bp_test)

Le test de Goldfeld-Quandt ne nous donne pas d'hétéroscédasticité, contraiement au test de Breusch-Pagan.

### Hypothèse 5 : absence d'autocorrélation

In [None]:
sm.graphics.tsa.plot_acf(residuals)
print("On remarque une absence d'autocorrélation.")

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train, cooks[0])
plt.xlabel("Revenus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.010) if x]
print(cooks_indexes)
# affiche les indexes des individus dont les distances de cook dépassent une certaine valeur

In [None]:
influence_plot(fit)
print("")

### Score du modèle

#### Qualité d'ajustement

In [None]:
print(f"Le R² du modèle vaut {model.score(X_train.reshape(-1, 1), Y_train)}")

In [None]:
print(f"MSE = {mean_squared_error(Y_train, Y_train_hat)}")
print(f"RMSE = {mean_squared_error(Y_train, Y_train_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_train, Y_train_hat)}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model.score(X_train.reshape(-1, 1), Y_train)}"
)
print(
    f"R² du modèle sur les données de test = {model.score(X_test.reshape(-1, 1), y_test)}"
)

In [None]:
y_pred = model.predict(X_test.reshape(-1, 1))

In [None]:
plt.scatter(X_test, y_test, color="black")
plt.plot(X_test, y_pred, color="red")
plt.title("Nombre d'achats en magasin en fonction du revenu : données test")

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "Régression simple"
ajout_score(model, nom_modele, y_test, y_pred)

In [None]:
# todo: cross-validation

# Régression linéaire multiple

Modèle multiple : une variable à expliquer $Y$ et $P$ variables explicatives $X_i$

$$y_i = \beta_0 + \beta_1 X_i(1) + \beta_2 X_i(2) + \beta_3 X_i(3) + ... + \beta_P X_i(P) + \epsilon_i$$

Hypothèses à vérifier pour la régression linéaire multiple :

1) il existe une corrélation linéaire entre $X_i$ et $Y$

2) $Cov(X_i, ε_j) = 0$, pour tout $i, j \in N \times N, i \neq j$ (exogénéité) et pour chaque variable explicative $X_p$

3) l'erreur suit une loi normale centrée i.e. $E(ε_i) = 0$

4) l’erreur est de variance constante (homoscédasticité)
i.e $Var(ε_i) = \sigma^2$, une constante

5) les erreurs sont indépendantes (absence d'autocorrélation)
i.e. $Cov(εi, εj) = 0$, pour tout $i, j \in N \times N, i \neq j$

6) absence de colinéarité entre les variables explicatives,
i.e. $X^t * X$ est régulière, $det(X^t * X) \neq 0$

Pour les besoins de la régression linéaire, nous créons des variables muettes (dummy variables) pour inclure les variables catégoriques `Education` et `Marital_status` à la régression.

In [None]:
df_reg = df_transforme.copy()

In [None]:
df_reg = pd.get_dummies(df_reg, columns=["Education", "Marital_Status"])

In [None]:
df_reg.columns

Pour cette régression, on suppose que l'entreprise veut profiler au mieux les clients qui achètent dans le magasin. C'est pourquoi la variable d'intérêt pour la régression sera le `nombre d'achats en magasin`.

Nos variables explicatives sont des variables numériques et des variables catégoriques transformées en variables muettes.
Nous commençons par un grand nombre de variables explicatives puis nous en éliminerons progressivement pendant la vérifications des hypothèses.

In [None]:
var_numeriques_reg = [
    "Income",
    "Year_Birth",
    "Recency",
    "NbAcceptedCampaigns",
    "NumWebPurchases",
    "NumDealsPurchases",
    "NumWebVisitsMonth",
    "NumCatalogPurchases",
    "MntWines",
    "MntFruits",
    "MntMeatProducts",
    "MntFishProducts",
    "MntSweetProducts",
    "MntGoldProds",
]

var_categoriques_reg = [
    "NbChildren",
    "Education_2n Cycle",
    "Education_Basic",
    "Education_Graduation",
    "Education_Master",
    "Education_PhD",
    "Marital_Status_Divorced",
    "Marital_Status_Married",
    "Marital_Status_Single",
    "Marital_Status_Together",
    "Marital_Status_Widow",
]

In [None]:
X = df_reg[var_categoriques_reg + var_numeriques_reg]
Y = df_reg["NumStorePurchases"]

In [None]:
print(
    "Nous avons",
    X.shape[1],
    "variables explicatives au début de la régression dont",
    X[var_numeriques_reg].shape[1],
    "variables numériques.",
)

### Hypothèse 1 : lien linéaire entre Y et les variables explicatives numériques

In [None]:
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[0:4], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[4:8], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[8:12], y_vars="NumStorePurchases")
sns.pairplot(df_transforme, x_vars=var_numeriques_reg[12:], y_vars="NumStorePurchases")

In [None]:
for x in X[var_numeriques_reg].columns:
    corr = pearsonr(X[x], Y)
    print(
        "Le coefficient de corrélation linéaire entre Y et",
        x,
        "vaut",
        corr[0],
        "la pvalue vaut",
        corr[1],
    )

In [None]:
# TODO: faire un joli affichage avec SNS heatmap

On décide déjà d'écarter la variable `Recency` de la régression.

In [None]:
del X["Recency"]
var_numeriques_reg.remove("Recency")

### Réalisation du modèle

In [None]:
X_train, X_test, Y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model_multiple = LinearRegression().fit(X_train, Y_train)
Y_train_hat = model_multiple.predict(X_train)

In [None]:
plt.scatter(Y_train, Y_train_hat, color="black")
plt.title("Valeurs prédites contres vraies valeurs (donnéees d'entraînement)")
abline(1, 0)

### Hypothèse 2 : exogénéité sur les variables numériques
(Cela n'a pas de sens de tester l'exogénéité sur les variables catégoriques car la notion de corrélation ne fonctionne pas avec celles-ci.)

In [None]:
residuals = Y_train - Y_train_hat

In [None]:
for x in X_train[var_numeriques_reg].columns:
    corr = pearsonr(X_train[x], residuals)
    print(
        "Le coefficient de corrélation entre",
        x,
        "et les residus vaut",
        corr[0],
        "et la pvalue associée vaut",
        corr[1],
    )

Il n'y a pas d'endogénéité.

### Hypothèse 3 : l'erreur suit une loi normale centrée i.e. $E(ε_i) = 0$

In [None]:
plt.hist(residuals, density=True)

x = np.linspace(-6, 6, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1))
plt.title("Histogramme des résidus en superposition avec la densité de la loi normale")
plt.show()

In [None]:
print("La moyenne des résidus vaut", statistics.mean(residuals))

In [None]:
sm.qqplot(residuals, line="45")
print("On constate sur le qqplot que les points ne suivent pas la droite x = y")

In [None]:
print(
    "Un test de shapiro, pour tester l'hypothèse de normalité, nous donne une pvalue de",
    stats.shapiro(residuals)[1],
    ". On rejette l'hypothèse nulle et on conclut que les résidus ne suivent pas une loi normale.",
)

### Hypothèse 4 : homoscédasticité

In [None]:
plt.plot(residuals, "bo")
plt.title("Nuage de points des résidus")
abline(0, 6.5)
abline(0, -6.5)

In [None]:
fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

In [None]:
fit.summary()

In [None]:
res_names = ["F statistic", "p-value"]
gq_test = sms.het_goldfeldquandt(fit.resid, fit.model.exog)
lzip(res_names, gq_test)

In [None]:
bp_test = sms.het_breuschpagan(fit.resid, fit.model.exog)
lzip(res_names, bp_test)

In [None]:
white_test = sms.het_white(fit.resid, fit.model.exog)
lzip(res_names, white_test)

Le test de Goldfeld-Quandt, qui vérifie la constance de la variance entre deux échantillons, ne nous donne pas d'hétéroscédasticité, contrairement aux tests de White et de Breusch-Pagan.

### Hypothèse 5 : absence d'autocorrélation

In [None]:
sm.graphics.tsa.plot_acf(residuals)
print("On remarque une absence d'autocorrélation.")

### Hypothèse 6 : absence de multicolinéarité

Calcul de la matrice $X^t \times X$ et de son déterminant :

In [None]:
X_train_matrix = X_train.to_numpy()
X_train_matrix_transpose = np.matrix.transpose(X_train_matrix)

In [None]:
det = np.linalg.det(np.matmul(X_train_matrix_transpose, X_train_matrix))
det

#### Variance Inflation Factor

$$ VIF_i = 1 / ( 1 − R_i^2 ) $$
​
où $R_i^2 =$ coefficient de détermination non ajusté pour la régression de la ième variable indépendante sur les autres variables restantes
​


Le facteur d'inflation de la variance est une mesure de l'augmentation de la variance des estimations de paramètres si une variable supplémentaire est ajoutée à la régression linéaire. C'est une mesure de la multicolinéarité de la matrice des variables explicatives.

Une recommandation est que si le VIF est supérieur à 10, alors la variable explicative en question est fortement colinéaire avec les autres variables explicatives, et les estimations de paramètres auront de grandes erreurs en raison de cela.

*Cf la documentation de statsmodels*

In [None]:
vif = [
    variance_inflation_factor(sm.add_constant(X_train).values, i)
    for i in range(sm.add_constant(X_train).shape[1])
]
# Rq: la fonction VIF attend une constante dans le dataframe d'entree

In [None]:
print(pd.DataFrame({"VIF": vif[1:]}, index=X_train.columns))

### Réduction du nombre de variables explicatives par le critère AIC

Le critère d'information d'Akaike s'écrit comme suit :

$$ AIC = 2 \times k - 2 \times \ln(L) $$

où k est le nombre de paramètres à estimer du modèle et L est le maximum de la fonction de vraisemblance du modèle.

In [None]:
def aic(X, Y, regressor=""):  # entrer X le dataframe des variables explicatives,
    # Y la variable expliquée, et le regresseur utilisé
    aic_list = []

    for col in X.columns:
        X_temp = X.drop(col, axis=1)

        if regressor == "linearOLS":
            model_temp = sm.OLS(Y, sm.add_constant(X_temp)).fit()
        elif regressor == "GLMpoisson":
            model_temp = sm.GLM(
                Y, sm.add_constant(X_temp), family=sm.families.Poisson()
            ).fit()

        else:
            return "Entrer un régresseur valide"

        aic_list.append([col, model_temp.aic])

    return aic_list

In [None]:
def stepwise(X, Y, regressor=""):  # entrer X le dataframe des variables explicatives,
    # Y la variable expliquée, et le regresseur utilisé

    if regressor == "linearOLS":
        current_aic = (
            sm.OLS(Y, sm.add_constant(X)).fit().aic
        )  # aic avec les variables actuelles
    elif regressor == "GLMpoisson":
        current_aic = (
            sm.GLM(Y, sm.add_constant(X), family=sm.families.Poisson()).fit().aic
        )
    else:
        return "Entrer un régresseur valide"

    aic_list = aic(
        X, Y, regressor
    )  # liste des aic par supression des variables une a une

    my_bool = 0  # pour indiquer si aucune variable n'est a enlever
    for i in range(
        len(aic_list)
    ):  # si l'aic diminue pour une variable supprimee, on enleve cette variable du df X

        if aic_list[i][1] < current_aic:
            del X[aic_list[i][0]]  # a l'interieur des crochets c'est une string
            my_bool = 1

    if my_bool == 0:
        return "L'algorithme stepwise est terminé."

In [None]:
print("Avant l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

In [None]:
while True:
    if (
        stepwise(X_train, Y_train, regressor="linearOLS")
        == "L'algorithme stepwise est terminé."
    ):
        break

In [None]:
stepwise(X_train, Y_train, regressor="linearOLS")

In [None]:
print("Après l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

In [None]:
# on refait les modèles après sélection de variables

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

model_multiple = LinearRegression().fit(X_train, Y_train)

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train.index, cooks[0])
plt.xlabel("Index des individus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.010) if x]
# détermine l'index dans la liste des individus dont la distance de cook dépasse 0.010

In [None]:
extreme_ind_list = [X_train.iloc[[i]].index[0] for i in cooks_indexes]

for ind in extreme_ind_list:
    print(ind)

In [None]:
# TODO: supprimer les individus aux distances trop grandes

In [None]:
influence_plot(fit)
print("")

In [None]:
X_train.drop(extreme_ind_list + [5316], inplace=True)
Y_train.drop(extreme_ind_list + [5316], inplace=True)

In [None]:
# on refait les modèles après suppression des individus extremes

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.OLS(Y_train, sm.add_constant(X_train)).fit()

model_multiple = LinearRegression().fit(X_train, Y_train)

Les distances de Cook ont été largement réduites par la sélection de variables au critère AIC.

### Score du modèle

#### Qualité d'ajustement

In [None]:
print(f"Le R² du modèle vaut {model_multiple.score(X_train, Y_train)}")

In [None]:
Y_train_hat = model_multiple.predict(X_train)

In [None]:
mse_train_lineaire_multiple = mean_squared_error(Y_train, Y_train_hat)
rmse_train_lineaire_multiple = mean_squared_error(Y_train, Y_train_hat, squared=False)
mae_train_lineaire_multiple = mean_absolute_error(Y_train, Y_train_hat)

In [None]:
print(f"MSE = {mse_train_lineaire_multiple}")
print(f"RMSE = {rmse_train_lineaire_multiple}")
print(f"MAE = {mae_train_lineaire_multiple}")

In [None]:
print(f"MSE = {mean_squared_error(Y_train, Y_train_hat)}")
print(f"RMSE = {mean_squared_error(Y_train, Y_train_hat, squared=False)}")
print(f"MAE = {mean_absolute_error(Y_train, Y_train_hat)}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model_multiple.score(X_train, Y_train)}"
)
print(f"R² du modèle sur les données de test = {model_multiple.score(X_test, y_test)}")

In [None]:
y_pred = model_multiple.predict(X_test)

In [None]:
plt.scatter(y_test, y_pred, color="black")
abline(1, 0)
plt.title("Valeurs prédites contre les vraies valeurs : données de test du modèle")

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "Régression multiple"
ajout_score(model, nom_modele, y_test, y_pred)

# Régression par modèle linéaire généralisé (GLM) : régression de Poisson

- Notons $Y$ notre variable d'intérêt et $X_1, ..., X_P$ nos variables explicatives.
- On suppose que Y suit une loi de Poisson de paramètre $\lambda \in \mathbb{R+*}$


- On cherche à déterminer les coefficients de l'équation :

$\log(\mathrm{E}(Y|X)) = \log( \lambda ) = \alpha + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_P X_P $

Ce qui revient à déterminer les coefficients de l'équation :

$\lambda = e^{\alpha + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_P X_P}$

L'objectif de la régression est d'estimer $\alpha, \beta_1, ..., \beta_P$.
Une fois ces coefficients estimés, on peut déterminer, pour un nouveau vecteur $X$,
$E(Y|X) = e^{\alpha + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_P X_P}$

### Hypothèses à vérifier : 

<br>
- Avant de choisir la régression de Poisson :

1. La variable d'intérêt doit être une variable de comptage, à valeurs entières positives.  

2. La variable d'intérêt doit suivre une loi de Poisson :  
$Y | X ∼ Poisson(\lambda)$, où $\lambda \in \mathbb{R+*}$ , en particulier, la moyenne de Y doit être égale à sa variance.

3. $log(\lambda)$ est une fonction linéaire de $X_1, X_2, ... , X_P$  

<br>
- A posteriori :

4. $Cov(X_i, ε_j) = 0$, pour tout $i, j \in N \times N, i \neq j$ (exogénéité) et pour chaque variable explicative $X_p$

5. L'erreur suit une loi normale centrée i.e. $E(ε_i) = 0$

6. L’erreur est de variance constante (homoscédasticité)
i.e $Var(ε_i) = \sigma^2$, une constante

7. Les erreurs sont indépendantes (absence d'autocorrélation)
i.e. $Cov(εi, εj) = 0$, pour tout $i, j \in N \times N, i \neq j$

8. Absence de colinéarité entre les variables explicatives,
i.e. $X^t * X$ est régulière, $det(X^t * X) \neq 0$

In [None]:
X = df_reg[var_categoriques_reg + var_numeriques_reg]
Y = df["NumStorePurchases"]

### Hypothèses 1 : nature de la variable d'intérêt
La variable `NumberStorePurchases` désigne le nombre d'achat effectués en magasin. C'est bien une variable de comptage dont les valeurs sont entières et positives.

### Hypothèse 2 : loi de Poisson ?

In [None]:
plt.hist(df["NumStorePurchases"], density=True)

# creating a numpy array for x-axis
x = np.arange(0, 20, 1)

# poisson distribution data for y-axis
y = poisson.pmf(x, mu=5)

plt.plot(x, y)
plt.plot()

In [None]:
ks_statistic, p_value = kstest(df["NumStorePurchases"], "poisson", args=(5, 0))
print(ks_statistic, p_value)

In [None]:
print(
    "Variance de Y :",
    df["NumStorePurchases"].var(),
    ": Espérance de Y:",
    df["NumStorePurchases"].mean(),
)

In [None]:
print(
    "La variance et l'espérance de Y ne sont pas égales. Cela peut dégrader la qualité de notre régression."
)

### Hypothèse 3 : lien linéaire entre $log(Y)$ et $X_1, ..., X_P$

In [None]:
null_index = Y[Y == 0].index
# on élimine les 0 pour appliquer le log

In [None]:
sns.pairplot(
    pd.concat(
        [X.drop(index=null_index, axis=0), np.log(Y.drop(index=null_index, axis=0))],
        axis=1,
    ),
    x_vars=var_numeriques_reg[0:4],
    y_vars="NumStorePurchases",
)
sns.pairplot(
    pd.concat(
        [X.drop(index=null_index, axis=0), np.log(Y.drop(index=null_index, axis=0))],
        axis=1,
    ),
    x_vars=var_numeriques_reg[4:8],
    y_vars="NumStorePurchases",
)
sns.pairplot(
    pd.concat(
        [X.drop(index=null_index, axis=0), np.log(Y.drop(index=null_index, axis=0))],
        axis=1,
    ),
    x_vars=var_numeriques_reg[8:12],
    y_vars="NumStorePurchases",
)
sns.pairplot(
    pd.concat(
        [X.drop(index=null_index, axis=0), np.log(Y.drop(index=null_index, axis=0))],
        axis=1,
    ),
    x_vars=var_numeriques_reg[12:],
    y_vars="NumStorePurchases",
)

In [None]:
for x in X[var_numeriques_reg].columns:
    corr = pearsonr(
        X.drop(index=null_index, axis=0)[x], np.log(Y.drop(index=null_index, axis=0))
    )
    print(
        "Le coefficient de corrélation linéaire entre log(Y) et",
        x,
        "vaut",
        corr[0],
        "la pvalue vaut",
        corr[1],
    )

Il existe bien un lien linéaire entre $log(Y)$ et les variables explicatives.

### Réalisation du modèle

In [None]:
X_train, X_test, Y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model_poisson = PoissonRegressor().fit(X_train, Y_train)
Y_train_hat = model_poisson.predict(X_train)

Ici, notre fonction de lien est $f(\lambda) = log(\lambda)$  
Elle est utilisée par défaut par sci-kit learn 

In [None]:
plt.scatter(Y_train, Y_train_hat, color="black")
plt.title("Valeurs prédites contres vraies valeurs (donnéees d'entraînement)")
abline(1, 0)

### Hypothèse 4 : exogénéité sur les variables numériques
(Cela n'a pas de sens de tester l'exogénéité sur les variables catégoriques car la notion de corrélation ne fonctionne pas avec celles-ci.)

In [None]:
residuals = Y_train - Y_train_hat

In [None]:
for x in X_train[var_numeriques_reg].columns:
    corr = pearsonr(X_train[x], residuals)
    print(
        "Le coefficient de corrélation entre",
        x,
        "et les residus vaut",
        corr[0],
        "et la pvalue associée vaut",
        corr[1],
    )

Il n'y a pas d'endogénéité.

### Hypothèse 5 : l'erreur suit une loi normale centrée i.e. $E(ε_i) = 0$

In [None]:
plt.hist(residuals, density=True)

x = np.linspace(-6, 6, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1))
plt.title("Histogramme des résidus en superposition avec la densité de la loi normale")
plt.show()

In [None]:
print("La moyenne des résidus vaut", statistics.mean(residuals))

In [None]:
sm.qqplot(residuals, line="45")
print("On constate sur le qqplot que les points ne suivent pas la droite x = y")

In [None]:
print(
    "Un test de shapiro, pour tester l'hypothèse de normalité, nous donne une pvalue de",
    stats.shapiro(residuals)[1],
    ". On rejette l'hypothèse nulle et on conclut que les résidus ne suivent pas une loi normale.",
)

### Hypothèse 6 : homoscédasticité

In [None]:
plt.plot(residuals, "bo")
plt.title("Nuage de points des résidus")
abline(0, 6.5)
abline(0, -6.5)

In [None]:
fit = sm.GLM(Y_train, sm.add_constant(X_train), family=sm.families.Poisson()).fit()

In [None]:
fit.summary()

In [None]:
res_names = ["F statistic", "p-value"]
gq_test = sms.het_goldfeldquandt(fit.resid_response, fit.model.exog)
lzip(res_names, gq_test)

La pvalue du test de Goldfeld-Quandt est supérieure à 0.05 dont on conserve l'hypothèse d'homoscédasticité au seuil de 5% (et même au delà).

### Hypothèse 7 : absence d'autocorrélation

In [None]:
sm.graphics.tsa.plot_acf(residuals)
print("On remarque une absence d'autocorrélation.")

### Hypothèse 8 : absence de multicolinéarité

In [None]:
vif = [
    variance_inflation_factor(sm.add_constant(X_train).values, i)
    for i in range(sm.add_constant(X_train).shape[1])
]
# Rq: la fonction VIF attend une constante dans le dataframe d'entree

In [None]:
print(pd.DataFrame({"VIF": vif[1:]}, index=X_train.columns))

### Réduction du nombre de variables explicatives par le critère AIC

In [None]:
print("Avant l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

In [None]:
while True:
    if (
        stepwise(X_train, Y_train, regressor="GLMpoisson")
        == "L'algorithme stepwise est terminé."
    ):
        break

In [None]:
stepwise(X_train, Y_train, regressor="GLMpoisson")

In [None]:
print("Après l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

In [None]:
# on refait les modèles après sélection de variables

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.GLM(Y_train, sm.add_constant(X_train), family=sm.families.Poisson()).fit()

model_poisson = PoissonRegressor().fit(X_train, Y_train)

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train.index, cooks[0])
plt.xlabel("Index des individus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.010) if x]
# détermine l'index dans la liste des individus dont la distance de cook dépasse 0.010

In [None]:
extreme_ind_list = [X_train.iloc[[i]].index[0] for i in cooks_indexes]

for ind in extreme_ind_list:
    print(ind)

In [None]:
X_train.drop(extreme_ind_list, inplace=True)
Y_train.drop(extreme_ind_list, inplace=True)

In [None]:
# on refait les modèles après suppression des individus extremes

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.GLM(Y_train, sm.add_constant(X_train), family=sm.families.Poisson()).fit()

model_poisson = PoissonRegressor().fit(X_train, Y_train)

In [None]:
# Remarque : statsmodels ne fait pas d'influence plot pour les modeles GLM

### Score du modèle

#### Qualité d'ajustement

In [None]:
print(f"Le R² du modèle vaut {model_poisson.score(X_train, Y_train)}")

In [None]:
Y_train_hat = model_poisson.predict(X_train)

In [None]:
mse_train_poisson = mean_squared_error(Y_train, Y_train_hat)
rmse_train_poisson = mean_squared_error(Y_train, Y_train_hat, squared=False)
mae_train_poisson = mean_absolute_error(Y_train, Y_train_hat)

In [None]:
print(f"MSE = {mse_train_poisson}")
print(f"RMSE = {rmse_train_poisson}")
print(f"MAE = {mae_train_poisson}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model_poisson.score(X_train, Y_train)}"
)
print(f"R² du modèle sur les données de test = {model_poisson.score(X_test, y_test)}")

In [None]:
y_pred = model_poisson.predict(X_test)

In [None]:
plt.scatter(y_test, y_pred, color="black")
abline(1, 0)
plt.title("Valeurs prédites contre les vraies valeurs : données de test du modèle")

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "GLM Poisson"
ajout_score(model, nom_modele, y_test, y_pred)

In [None]:
print("Constante : ", model_poisson.intercept_)
for i in range(len(model_poisson.coef_)):
    print(f" beta_{i + 1} = {model_poisson.coef_[i]} ")

# Régression polynomiale

### Création des données

On conserve les mêmes variables explicatives et la même variable d'intérêt, mais en séparant les variables catégoriques des variables numériques qu'on transformera en monômes.  
Ceci car cela n'aurait pas de sens d'élever des variables catégoriques au carré et afin d'éviter l'explosion combinatoire.

In [None]:
X_ref = df_reg[var_numeriques_reg + var_categoriques_reg]

In [None]:
X_numeriques = df_reg[var_numeriques_reg]
X_categoriques = df_reg[var_categoriques_reg]
Y = df_reg["NumStorePurchases"]

In [None]:
# Transformer les données en matrice de caractéristiques polynomiales
poly = PolynomialFeatures(degree=2)

X_poly = poly.fit_transform(X_numeriques)
# Remarque : pendant la transformation, l'ordre des lignes est conservé, ce qui permettra de remettre les index

In [None]:
# trouvé sur stack over flow :
# permet de créer un df à partir de l'objet numpy array en sortie de la fonction fit_transform de sklearn

target_feature_names = [
    "x".join(["{}^{}".format(pair[0], pair[1]) for pair in tuple if pair[1] != 0])
    for tuple in [zip(X.columns, p) for p in poly.powers_]
]
# détermine les noms de colonnes


X_poly = pd.DataFrame(X_poly, columns=target_feature_names)

In [None]:
# je remets les indexes au df X_poly afin de pouvoir le concaténer avec le df des var categoriques avant la régression
X_poly = X_poly.set_index(pd.Index(X_categoriques.index))

In [None]:
X = pd.concat([X_poly, X_categoriques], axis=1)

In [None]:
X.shape

Bien évidemment, il y a de la redondance dans les variables explicatives et donc de la colinéarité structurelle.

### Réalisation du modèle

In [None]:
X_train, X_test, Y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model_poly = LinearRegression().fit(X_train, Y_train)
Y_train_hat = model_poly.predict(X_train)

In [None]:
plt.scatter(Y_train, Y_train_hat, color="black")
plt.title("Valeurs prédites contres vraies valeurs (donnéees d'entraînement)")
abline(1, 0)

### Réduction du nombre de variables explicatives par le critère AIC

In [None]:
print("Avant l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

In [None]:
while True:
    if (
        stepwise(
            X_train, list(Y_train), regressor="linearOLS"
        )  # il faut transformer Y en liste sinon cela bug, je ne sais pas pourquoi
        == "L'algorithme stepwise est terminé."
    ):
        break

In [None]:
stepwise(X_train, list(Y_train), regressor="linearOLS")

In [None]:
print("Après l'AIC, le nombre de variables explicatives est :", X_train.shape[1])

La procédure AIC a permi de purifier notre modèle de 77 variables explicatives.

In [None]:
# on refait les modèles après sélection de variables

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.OLS(
    list(Y_train), sm.add_constant(X_train)
).fit()  # comme il existe deja une constante dans X_train, statsmodels n'en rajoute pas une deuxieme

model_poly = LinearRegression().fit(X_train, Y_train)

### Distance de Cook

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train.index, cooks[0])
plt.xlabel("Index des individus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
cooks_indexes = [i for i, x in enumerate(cooks[0] > 0.02) if x]
# détermine l'index dans la liste des individus dont la distance de cook dépasse 0.010

In [None]:
extreme_ind_list = [X_train.iloc[[i]].index[0] for i in cooks_indexes]

for ind in extreme_ind_list:
    print(ind)

In [None]:
influence_plot(fit)
print("")

In [None]:
X_train.drop(extreme_ind_list + [6237, 9058], inplace=True)
Y_train.drop(extreme_ind_list + [6237, 9058], inplace=True)

In [None]:
# on refait les modèles après suppression des individus extremes

X_test = X_test[
    X_train.columns
]  # homogénéisation des données de test et d'entraînement

fit = sm.OLS(
    list(Y_train), sm.add_constant(X_train)
).fit()  # comme il existe deja une constante dans X_train, statsmodels n'en rajoute pas une deuxieme

model_poly = LinearRegression().fit(X_train, Y_train)

In [None]:
influence = fit.get_influence()
cooks = influence.cooks_distance

In [None]:
plt.scatter(X_train.index, cooks[0])
plt.xlabel("Index des individus")
plt.ylabel("Distances de Cook")
plt.show()

In [None]:
influence_plot(fit)
print("")

### Score du modèle

#### Qualité d'ajustement

In [None]:
print(f"Le R² du modèle vaut {model_poly.score(X_train, Y_train)}")

In [None]:
Y_train_hat = model_poly.predict(X_train)

In [None]:
mse_train_poly = mean_squared_error(Y_train, Y_train_hat)
rmse_train_poly = mean_squared_error(Y_train, Y_train_hat, squared=False)
mae_train_poly = mean_absolute_error(Y_train, Y_train_hat)

In [None]:
print(f"MSE = {mse_train_poly}")
print(f"RMSE = {rmse_train_poly}")
print(f"MAE = {mae_train_poly}")

#### Qualité de prédiction

Train / test split

In [None]:
print(
    f"R² du modèle sur les données d'entraînement = {model_poly.score(X_train, Y_train)}"
)
print(f"R² du modèle sur les données de test = {model_poly.score(X_test, y_test)}")

In [None]:
y_pred = model_poly.predict(X_test)

In [None]:
plt.scatter(y_test, y_pred, color="black")
abline(1, 0)
plt.title("Valeurs prédites contre les vraies valeurs : données de test du modèle")

In [None]:
print(f"MSE = {mean_squared_error(y_test, y_pred)}")
print(f"RMSE = {mean_squared_error(y_test, y_pred, squared=False)}")
print(f"MAE = {mean_absolute_error(y_test, y_pred)}")

La mesure de la qualité d'ajustement à nos données de test est biaisée par des valeurs prédites extrêmes.

In [None]:
sns.histplot(y_pred)

In [None]:
y_pred_new = y_pred[y_pred > 0]
y_test_new = y_test[y_pred > 0]

In [None]:
plt.scatter(y_test_new, y_pred_new, color="black")
abline(1, 0)
plt.title("Valeurs prédites contre les vraies valeurs : données de test du modèle")

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "Régression polynomiale"
ajout_score(model, nom_modele, y_test, y_pred)

Corrigé de ces erreurs, le modèle polynomial est notre meilleur modèle.

In [None]:
print("Constante : ", model_poly.intercept_)
for i in range(len(model_poly.coef_)):
    print(f" beta_{i + 1} = {model_poly.coef_[i]} ")

# Régression PLS

Comme nous avons de la multi-colinéarité dans notre modèle, nous allons essayer une méthode de régression robuste face à ce phénomène : la régression PLS.

In [None]:
X = pd.get_dummies(df_transforme[var_numeriques].drop(columns=["NumStorePurchases"]))

In [None]:
y = df[["NumStorePurchases"]].astype(int)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
liste_mae_pls = []
for n in range(1, 14):
    pls = PLSRegression(n_components=n)

    pls.fit(X_train, y_train)
    pls.score(X_train, y_train)
    y_pred = pls.predict(X_test)

    liste_mae_pls.append(mean_absolute_error(y_test, y_pred))

In [None]:
plt.title("MAE en fonction du nombre de composantes PLS")
plt.plot(range(1, 14), liste_mae_pls)
plt.scatter(np.argmin(liste_mae_pls) + 1, np.min(liste_mae_pls), label="minimum")
plt.legend()

In [None]:
print(np.argmin(liste_mae_pls) + 1)

In [None]:
pls = PLSRegression(n_components=8)

In [None]:
pls.fit(X_train, y_train)

In [None]:
pls.score(X_train, y_train)

In [None]:
y_pred = pls.predict(X_test)

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "Régression PLS"
ajout_score(model, nom_modele, y_test, y_pred)

# XGBoost

In [None]:
X = pd.get_dummies(df_transforme.drop(columns=["NumStorePurchases", "Dt_Customer"]))

In [None]:
y = df[["NumStorePurchases"]].astype(int)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
tuned_xgb = xgboost.XGBRegressor(
    n_estimators=1000,
    learning_rate=0.05,
    n_jobs=4,
    eval_metric="mae",
    early_stopping_rounds=20,
    random_state=0,
)

In [None]:
tuned_xgb.fit(X_train, y_train, eval_set=[(X_test, y_test)], verbose=False)

In [None]:
y_pred = tuned_xgb.predict(X_test)

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "XGBoost"
ajout_score(model, nom_modele, y_test, y_pred)

# Réseau de neurones

In [None]:
X_train = np.asarray(X_train).astype("float32")
y_train = np.asarray(y_train).astype("float32")
X_test = np.asarray(X_test).astype("float32")
y_test = np.asarray(y_test).astype("float32")

In [None]:
X_train.shape

In [None]:
model = keras.Sequential(
    [
        layers.Dense(4, activation="relu", input_shape=[35]),
        layers.Dense(4, activation="relu"),
        layers.Dense(1, activation="sigmoid"),
    ]
)

In [None]:
model.compile(
    optimizer="adam",
    loss="mean_absolute_error",
)

In [None]:
early_stopping = keras.callbacks.EarlyStopping(
    patience=10,
    min_delta=0.001,
    restore_best_weights=True,
)

In [None]:
history = model.fit(
    X_train,
    y_train,
    # validation_data=(X_test, y_test),
    validation_split=0.2,
    batch_size=512,
    epochs=1000,
    callbacks=[early_stopping],
    verbose=0,  # hide the output because we have so many epochs
)

In [None]:
history_df = pd.DataFrame(history.history)
# Start the plot at epoch 5
history_df.loc[5:, ["loss", "val_loss"]].plot()

In [None]:
y_pred = model.predict(X_test)

In [None]:
affiche_score(model, y_test, y_pred)

In [None]:
nom_modele = "Réseau de Neurones"
ajout_score(model, nom_modele, y_test, y_pred)

# Sauvegarde des données

In [None]:
score_modeles_df = pd.DataFrame(score_modeles, columns=["Modèle", "Métrique", "Valeur"])

In [None]:
score_modeles_df.to_csv("data/results/regressions.csv")