# Mod√©lisation de la Fid√©lisation Client ‚Äì R√©gression Logistique
Ce notebook reproduit ton analyse de fid√©lisation client.


**Objectifs :**

- Identifier les facteurs expliquant la fid√©lit√©

- Tester les relations statistiques entre variables

- Construire un mod√®le pr√©dictif (r√©gression logistique)

- √âvaluer la performance du mod√®le


> ‚ö†Ô∏è Adapte les noms de colonnes selon ton dataset r√©el.


## 1. Import des biblioth√®ques

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

%matplotlib inline

## 2. Chargement des donn√©es
On suppose un dataset contenant au minimum :

- `Age`
- `Gender`
- `Satisfaction` (score 1-10)
- `Engagement` (visites, dur√©e...)
- `Frequency` (nombre d‚Äôachats)
- `Loyalty` (0 = non fid√®le, 1 = fid√®le)

Tu peux ajuster selon ton fichier.

In [None]:
# üîÅ Remplacer par ton fichier r√©el
file_path = "data/fidelisation_clients.csv"

df = pd.read_csv(file_path)
df.head()

## 3. Nettoyage et pr√©paration des donn√©es

In [None]:
df.info()

# Suppression des valeurs manquantes
df = df.dropna()

df.describe()

## 4. Analyse exploratoire des variables

In [None]:
plt.figure(figsize=(6,4))
sns.histplot(df["Satisfaction"], kde=True)
plt.title("Distribution du score de satisfaction")
plt.show()

In [None]:
plt.figure(figsize=(6,4))
sns.scatterplot(data=df, x="Engagement", y="Frequency", hue="Loyalty")
plt.title("Engagement vs Fr√©quence d'achat")
plt.show()

### Matrice de corr√©lation

In [None]:
plt.figure(figsize=(8,5))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")
plt.title("Corr√©lations")
plt.show()

## 5. Pr√©paration des donn√©es pour le mod√®le

In [None]:
# Variables explicatives (exemple)
X = df[["Satisfaction", "Engagement", "Frequency"]]

# Variable cible
y = df["Loyalty"]

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

X_train.head()

## 6. R√©gression Logistique

In [None]:
model = LogisticRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
accuracy

### Interpr√©tation des coefficients

In [None]:
coef_df = pd.DataFrame({
    "Variable": X.columns,
    "Coefficient": model.coef_[0]
})
coef_df

## 7. Matrice de Confusion

In [None]:
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.title("Matrice de Confusion")
plt.xlabel("Pr√©diction")
plt.ylabel("R√©el")
plt.show()

## 8. Rapport de classification

In [None]:
print(classification_report(y_test, y_pred))

## 9. Conclusions & Recommandations
Exemple de conclusions (√† adapter) :


- Le mod√®le affiche une pr√©cision autour de **85-88 %**.

- La **satisfaction** est la variable la plus pr√©dictive.

- L‚Äôengagement digital a aussi un impact significatif.

- La fr√©quence d‚Äôachat distingue fortement les clientes fid√®les.


### Recommandations marketing :

- Cr√©er un parcours fid√©lit√© bas√© sur les clientes engag√©es.

- D√©ployer des campagnes de r√©activation pour les clients peu actifs.

- Accro√Ætre l'exp√©rience client (UX / service client) pour booster la satisfaction.

