# 📊 Analyse des Transactions et des Cartes Prépayées
## dans plusieurs points de vente.

---

### Contexte
L'utilisation des cartes prépayées est devenue essentielle pour fidéliser les clients et gérer les transactions. Ce projet vise à développer une solution d'analyse de données pour ce système.




In [1]:
# Importation des bibliotheques

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots


la Convertion du format excel en csv nous permet une lecture plus rapide des données due au caractéristique du csv :

*   Format plate et simple.
*   Plus leger et rapide en lecture.
*   Stockage plus efficace (Pour notre cas).






## Chargement et Exploration des Données :

### Montée de Google Drive pour la Persistance des Données

Pour garantir que nos données et fichiers sont accessibles et persistants durant notre travail sur Google Colab, nous allons monter Google Drive. Cela nous permettra de sauvegarder nos résultats, d'accéder aux fichiers et de charger les données nécessaires à notre analyse.


In [2]:
# Lier drive avec colob
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Chargement et exploration de données :

In [3]:
# Le chemain où le fichier est stockée existe dans COLAB's userdata.
from google.colab import userdata


# Lire le fichier dans un DataFrame Pandas.
df_init =  pd.read_csv(userdata.get('file_path'))

### Avantages du Format CSV

- **Compatibilité**: Les fichiers CSV peuvent être ouverts par presque tous les logiciels de traitement de données, ce qui les rend très flexibles.
- **Légèreté**: Les fichiers CSV sont généralement plus petits en taille par rapport aux fichiers XLSX, facilitant ainsi le partage et le stockage.
- **Facilité d'Utilisation**: Le format texte simple permet une manipulation facile des données.


In [4]:
# Sneak-peek sur nos données pour vérifier si elles sont lues dans un format désirable.
df_init.head()

Unnamed: 0,ID_Règlement,ID_Operation,Date_Règlement,Heure_Règlement,Paiement,Référence,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,...,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Role,Statut,Pointage,Date_Sys
0,287967,700877295,2024-02-29,08:07:37,Carte prépayée,,13.5,13.5,0.0,CLT10001,...,MOUMOUN,952.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
1,287983,700877305,2024-02-29,08:17:54,Carte prépayée,,8.0,8.0,0.0,CLT10001,...,FARAIDI,921.51,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
2,287994,700877312,2024-02-29,08:23:33,Carte prépayée,,20.0,20.0,0.0,CLT10001,...,RACHIDI Salah,790.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
3,282957,700874995,2024-02-22,11:19:17,Carte prépayée,,87.0,87.0,0.0,CLT10001,...,EL AZRAK,346.23,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-22
4,282972,700874999,2024-02-22,11:31:14,Carte prépayée,,5.0,5.0,0.0,CLT10001,...,ZERIOUEL,875.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-22


In [5]:
df_init.shape

(15222, 22)

In [6]:
df_init.tail()

Unnamed: 0,ID_Règlement,ID_Operation,Date_Règlement,Heure_Règlement,Paiement,Référence,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,...,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Role,Statut,Pointage,Date_Sys
15217,387932,700915710,2024-09-04,10:10:28,Carte prépayée,,7.0,7.0,0.0,CLT10001,...,AQEL,1453.55,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-09-04
15218,387944,700915716,2024-09-04,10:20:13,Carte prépayée,,35.0,35.0,0.0,CLT10001,...,AIT HAJJI,6000.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-09-04
15219,387991,700915730,2024-09-04,10:52:03,Carte prépayée,,54.0,54.0,0.0,CLT10001,...,ZAGHBACH,59.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-09-04
15220,388014,906105768,2024-09-04,11:16:27,Carte prépayée,,5.0,5.0,0.0,CLT10001,...,ZAHID,66.0,RST10014,Epicerie - Rabat,USR10029,Moncef,Caissier,Validé,False,2024-09-04
15221,388034,700915738,2024-09-04,11:25:34,Carte prépayée,,8.0,8.0,0.0,CLT10001,...,REMMAL,36.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-09-04


In [7]:
# Decouvrir le type de data pour chaque colonne.
df_init.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15222 entries, 0 to 15221
Data columns (total 22 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   ID_Règlement      15222 non-null  int64  
 1   ID_Operation      15222 non-null  int64  
 2   Date_Règlement    15222 non-null  object 
 3   Heure_Règlement   15222 non-null  object 
 4   Paiement          15222 non-null  object 
 5   Référence         99 non-null     float64
 6   Montant_Rgl       15222 non-null  float64
 7   Montant_Versé     15222 non-null  float64
 8   Montant_Rst       15222 non-null  float64
 9   ID_Client         10690 non-null  object 
 10  Client            10690 non-null  object 
 11  ID_CartePP        15222 non-null  object 
 12  Bénéficiaire_CPP  14668 non-null  object 
 13  Solde_CPP         15222 non-null  float64
 14  ID_Restaurant     15222 non-null  object 
 15  Restaurant        15222 non-null  object 
 16  ID_User           15221 non-null  object

On constate que ya des colonne qui nécessitent un changement de type.

In [8]:
# le nombre de données manquantes.

df_init.isna().sum()

Unnamed: 0,0
ID_Règlement,0
ID_Operation,0
Date_Règlement,0
Heure_Règlement,0
Paiement,0
Référence,15123
Montant_Rgl,0
Montant_Versé,0
Montant_Rst,0
ID_Client,4532


Dans notre jeu de données, la plupart des colonnes sur lesquelles nous allons travailler ne contiennent pas de valeurs manquantes

In [9]:
# Checking for dups.
df_init.duplicated().sum()

0

Pas de doublons.

descriptive statistics.

In [10]:
# Resumé statistique sur les données numerique.
df_init.describe()

Unnamed: 0,ID_Règlement,ID_Operation,Référence,Montant_Rgl,Montant_Versé,Montant_Rst,Solde_CPP
count,15222.0,15222.0,99.0,15222.0,15222.0,15222.0,15222.0
mean,304552.634673,641593100.0,5541115000000000.0,33.954553,33.954553,-1.406516e-08,1971.674024
std,38098.097638,148272600.0,3240446000000000.0,59.042239,59.04224,1.320466e-06,17955.030315
min,250355.0,201901600.0,585.0,1.5,1.5,-9.918212e-05,1.5
25%,271202.75,500515800.0,2759346000000000.0,10.0,10.0,0.0,100.5
50%,299481.5,700871300.0,4293358000000000.0,24.0,24.0,0.0,332.0
75%,334226.75,700897200.0,9432400000000000.0,45.0,45.0,0.0,965.875
max,388034.0,906105800.0,9942445000000000.0,2799.527996,2799.528076,5.340576e-05,550177.0


In [11]:
# la meme chose pour les données categorique
df_init.describe(include='object')

Unnamed: 0,Date_Règlement,Heure_Règlement,Paiement,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Role,Statut,Date_Sys
count,15222,15222,15222,10690,10690,15222,14668,15222,15222,15221,15221,15221,15222,15222
unique,243,12870,1,2,2,1007,855,7,7,13,12,1,1,243
top,2024-01-16,10:00:28,Carte prépayée,CLT10001,CLIENT AU COMPTANT,4284648158394883,RACHIDI Salah,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Souhail,Caissier,Validé,2024-01-16
freq,171,6,15222,9955,9955,278,278,8152,8152,4158,4311,15221,15222,171


In [12]:
# Installer ydata-profiling si ce n'est pas déjà fait
!pip install ydata-profiling

# Importer les bibliothèques nécessaires
from ydata_profiling import ProfileReport


Collecting ydata-profiling
  Downloading ydata_profiling-4.11.0-py2.py3-none-any.whl.metadata (20 kB)
Collecting visions<0.7.7,>=0.7.5 (from visions[type_image_path]<0.7.7,>=0.7.5->ydata-profiling)
  Downloading visions-0.7.6-py3-none-any.whl.metadata (11 kB)
Collecting htmlmin==0.1.12 (from ydata-profiling)
  Downloading htmlmin-0.1.12.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting phik<0.13,>=0.11.1 (from ydata-profiling)
  Downloading phik-0.12.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting multimethod<2,>=1.4 (from ydata-profiling)
  Downloading multimethod-1.12-py3-none-any.whl.metadata (9.6 kB)
Collecting imagehash==4.3.1 (from ydata-profiling)
  Downloading ImageHash-4.3.1-py2.py3-none-any.whl.metadata (8.0 kB)
Collecting dacite>=1.8 (from ydata-profiling)
  Downloading dacite-1.8.1-py3-none-any.whl.metadata (15 kB)
Collecting PyWavelets (from imagehash==4.3.1->ydata-profiling)
  Downloading pywavelets-1.

In [13]:
# Générer le rapport de profil
profile = ProfileReport(df_init, title='Rapport de profilage de données : ', explorative = True)

# Afficher le rapport dans le notebook
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

D'après le profilage des données réalisé ci-dessus, nous pouvons conclure que le jeu de données est relativement propre. Cependant, certaines étapes de nettoyage initial sont nécessaires pour garantir la qualité de nos analyses. Ces étapes comprennent :

1. **Conversions de Types** : Nous devons nous assurer que toutes les colonnes de notre DataFrame ont le type de données approprié. Par exemple, les dates doivent être au format datetime et les montants au format numérique.

2. **Sélection des Colonnes** : Il est essentiel de sélectionner les colonnes pertinentes pour notre analyse. Cela implique d'identifier et d'éliminer les colonnes inutiles qui n'apportent pas de valeur ajoutée à notre étude pour une memoire mieux gèrée.

3. **Gestion des Valeurs Manquantes** :
La plupart des valeurs manquantes se trouvent dans des colonnes que nous n'utiliserons pas pour notre analyse. Étant donné que ces colonnes ne sont pas pertinentes pour nos objectifs, il est préférable de les laisser sans traitement.

4. **Élimination des Anomalies (Outliers)** : Concernant les anomalies, on va conscare la partie 7 pour les mieux comprendre


5. **Revalidation des Données** : Après avoir effectué ces changements, nous devons procéder à une réévaluation pour valider l'efficacité des nettoyages réalisés et nous assurer que notre jeu de données est prêt pour une analyse approfondie.

Ces étapes nous aideront à assurer la fiabilité de nos résultats et à optimiser notre processus d'analyse des données.







## Conversion des Dates en Type Date

Nous avons converti les colonnes `Date_Règlement` et `Heure_Règlement` en un seul type de données datetime dans la colonne `datetime_Reglement`, puis supprimé les colonnes d'origine pour simplifier notre jeu de données.


In [14]:
# Converting the date to a date types

df_init['datetime_Reglement'] = pd.to_datetime(df_init['Date_Règlement'] + ' ' + df_init['Heure_Règlement'])

new_date_time = df_init.pop('datetime_Reglement')
df_init.insert(3, 'datetime_Reglement', new_date_time)

# Dropping the old date and time columns

df_init.drop(['Date_Règlement', 'Heure_Règlement'], axis=1, inplace=True)

In [15]:
df_init.head()

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Paiement,Référence,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,...,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Role,Statut,Pointage,Date_Sys
0,287967,700877295,2024-02-29 08:07:37,Carte prépayée,,13.5,13.5,0.0,CLT10001,CLIENT AU COMPTANT,...,MOUMOUN,952.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
1,287983,700877305,2024-02-29 08:17:54,Carte prépayée,,8.0,8.0,0.0,CLT10001,CLIENT AU COMPTANT,...,FARAIDI,921.51,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
2,287994,700877312,2024-02-29 08:23:33,Carte prépayée,,20.0,20.0,0.0,CLT10001,CLIENT AU COMPTANT,...,RACHIDI Salah,790.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-29
3,282957,700874995,2024-02-22 11:19:17,Carte prépayée,,87.0,87.0,0.0,CLT10001,CLIENT AU COMPTANT,...,EL AZRAK,346.23,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-22
4,282972,700874999,2024-02-22 11:31:14,Carte prépayée,,5.0,5.0,0.0,CLT10001,CLIENT AU COMPTANT,...,ZERIOUEL,875.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,Caissier,Validé,False,2024-02-22


### Suppression des Colonnes Inutiles

Nous allons supprimer certaines colonnes superflues :

- La colonne `Référence` sera supprimée car elle présente un taux de valeurs manquantes de 99 %, ce qui la rend peu informative.
- Les colonnes `Pointage`, `Role` et `Statut` seront également supprimées car elles contiennent les mêmes valeurs pour toutes les instances, n'apportant donc pas d'informations supplémentaires à l'analyse.


In [16]:
# we will drop some extra columns such as 'reference'


df_init.drop(columns='Référence',inplace = True) # the reference column has a 99% missing value rate that's why dropping it was the best option.
df_init.drop(columns='Pointage',inplace = True) # The pointage column has the same values for all instences.
df_init.drop(columns='Role',inplace = True) # The pointage column has the same values for all instences.
df_init.drop(columns='Statut',inplace = True) # The pointage column has the same values for all instences.

df_init.head()

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Paiement,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Date_Sys
0,287967,700877295,2024-02-29 08:07:37,Carte prépayée,13.5,13.5,0.0,CLT10001,CLIENT AU COMPTANT,1237736457745921,MOUMOUN,952.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,2024-02-29
1,287983,700877305,2024-02-29 08:17:54,Carte prépayée,8.0,8.0,0.0,CLT10001,CLIENT AU COMPTANT,9854337878921188,FARAIDI,921.51,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,2024-02-29
2,287994,700877312,2024-02-29 08:23:33,Carte prépayée,20.0,20.0,0.0,CLT10001,CLIENT AU COMPTANT,4284648158394883,RACHIDI Salah,790.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,2024-02-29
3,282957,700874995,2024-02-22 11:19:17,Carte prépayée,87.0,87.0,0.0,CLT10001,CLIENT AU COMPTANT,3628329735567861,EL AZRAK,346.23,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,2024-02-22
4,282972,700874999,2024-02-22 11:31:14,Carte prépayée,5.0,5.0,0.0,CLT10001,CLIENT AU COMPTANT,9536648418398212,ZERIOUEL,875.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza,2024-02-22


In [17]:
# on valide s'est date systeme a toujours la meme valeur que time(datetime_reglement) pour chaque ligne.

df_init[df_init['datetime_Reglement'].dt.date != pd.to_datetime(df_init['Date_Sys'])]

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Paiement,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User,Date_Sys


In [18]:
df_init.drop(columns='Date_Sys',inplace = True) # The date_sys column has the same values as date reglement for all instences.

df_init.drop(columns = 'Paiement',inplace = True) # The paiement column has the same values for all instences.

la colonne `datetime_Reglement` que nous avons créée est équivalente à `Date_Règlement`

In [19]:
# The missing values for this specifique case cannot be filled with other data for data integrity purpose.
df_init.head()

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User
0,287967,700877295,2024-02-29 08:07:37,13.5,13.5,0.0,CLT10001,CLIENT AU COMPTANT,1237736457745921,MOUMOUN,952.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
1,287983,700877305,2024-02-29 08:17:54,8.0,8.0,0.0,CLT10001,CLIENT AU COMPTANT,9854337878921188,FARAIDI,921.51,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
2,287994,700877312,2024-02-29 08:23:33,20.0,20.0,0.0,CLT10001,CLIENT AU COMPTANT,4284648158394883,RACHIDI Salah,790.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
3,282957,700874995,2024-02-22 11:19:17,87.0,87.0,0.0,CLT10001,CLIENT AU COMPTANT,3628329735567861,EL AZRAK,346.23,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
4,282972,700874999,2024-02-22 11:31:14,5.0,5.0,0.0,CLT10001,CLIENT AU COMPTANT,9536648418398212,ZERIOUEL,875.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza


In [20]:
df_init.isna().sum()

Unnamed: 0,0
ID_Règlement,0
ID_Operation,0
datetime_Reglement,0
Montant_Rgl,0
Montant_Versé,0
Montant_Rst,0
ID_Client,4532
Client,4532
ID_CartePP,0
Bénéficiaire_CPP,554


handling the outliers

*   Using boxplot to represent the data
*   using the z-score method to eliminate outliers



# Analyse des tendances des transactions :

2.1

In [21]:
# Grouper les données par jour, semaine et mois pour analyser les tendances des montants de transactions (Montant_Rgl).
print(df_init.groupby(df_init['datetime_Reglement'].dt.date)['Montant_Rgl'].mean())



datetime_Reglement
2024-01-01    28.383117
2024-01-02    22.973684
2024-01-03    27.591603
2024-01-04    24.717949
2024-01-05    27.748227
                ...    
2024-08-31    31.167778
2024-09-01    25.614634
2024-09-02    21.501527
2024-09-03    20.940098
2024-09-04    14.066667
Name: Montant_Rgl, Length: 243, dtype: float64


In [22]:
# Grouping the transactions by day
daily_data = df_init.resample('D', on='datetime_Reglement')['Montant_Rgl'].sum().reset_index()


# Grouping the transactions by week
weekly_data = df_init.resample('W', on='datetime_Reglement')['Montant_Rgl'].sum().reset_index()
weekly_data['Type'] = 'Weekly'

# Grouping the transactions by month
monthly_data = df_init.resample('ME', on='datetime_Reglement')['Montant_Rgl'].sum().reset_index()
monthly_data['Type'] = 'Monthly'

In [23]:
# creer la data pour le graph linear hebdo et mensuel
data_combined = pd.concat([monthly_data, weekly_data])

In [24]:
data_combined


daily_data

Unnamed: 0,datetime_Reglement,Montant_Rgl
0,2024-01-01,2185.500000
1,2024-01-02,3928.500000
2,2024-01-03,3614.500000
3,2024-01-04,3856.000000
4,2024-01-05,3912.500000
...,...,...
243,2024-08-31,1402.550002
244,2024-09-01,2100.400002
245,2024-09-02,2816.700000
246,2024-09-03,2135.890000


In [25]:
# lineplot qui decript la variation du volume des transaction avec une frequence hebdo et mensuel
fig = px.line(data_combined, x='datetime_Reglement', y='Montant_Rgl', color='Type',
              title='Variations Hebdomadaires et Mensuelles des Volumes de Transactions',
              labels={'datetime_Reglement': 'Date', 'Montant_Rgl': 'Total Montant_Rgl', 'Type': 'Aggregation Type'})

# Ajuster la mise en page pour une meilleure lisibilité
fig.update_layout(
    xaxis_title='Date',
    yaxis_title='Total Montant_Rgl',
    xaxis_tickangle=-45,  # Rotation des labels de l'axe des x
    legend_title_text='La mesure traitée : ',
    template='plotly_white'  # Ajouter une grille claire
)

# Afficher le graphique interactif
fig.show()

## Interprétation des Variations Hebdomadaires et Mensuelles des Volumes de Transactions

Le graphique à deux lignes ci-dessous illustre les variations du volume des transactions, tant sur une base hebdomadaire que mensuelle, tout au long de l'année.

### Analyse des Tendances :

1. **Tendances Mensuelless** :
   1. **Relations entre Pics et Creux** :
   - **Relation Inverse** :
    Il existe une relation inverse claire entre les pics et les creux des volumes de transactions. Plus précisément, plus le pic de transactions est élevé, plus les creux tendent à être bas. Cela suggère que durant les périodes d'activité intense, telles que les promotions ou les périodes saisonnières, l'engagement des consommateurs peut être réduit dans les mois suivants.
   - **Pics et Creux Notables** :
     - Le pic le plus élevé du volume des transactions se produit à la fin de mai, indiquant une période de dépenses significatives des consommateurs, probablement motivée par des facteurs tels que des promotions, des tendances saisonnières ou des événements qui encouragent l'utilisation des cartes prépayées.
     - En revanche, les volumes de transactions les plus bas sont observés dans les derniers jours d'août. Cette baisse peut être attribuée à la fin des vacances d'été, à une réduction des habitudes de consommation alors que les consommateurs se préparent pour la rentrée scolaire, ou à un manque d'activités promotionnelles.

   - **Durée des Tendances** :
      - Il est à noter que l'augmentation des volumes de transactions est de courte durée, les pics ne se maintenant pas longtemps. En revanche, les baisses subséquentes des volumes de transactions ont tendance à durer plus longtemps, ce qui indique un besoin potentiel d'intervention stratégique pour maintenir l'engagement des consommateurs durant les périodes creuses.

2. **Tendances Hebdomadaire** :
   - L'absence de tendance régulière d'une semaine à l'autre suggère que les clients n'ont pas de rythme fixe d'utilisation de leurs cartes prépayées. Cela pourrait indiquer que les comportements de consommation sont influencés par des facteurs externes ponctuels comme des promotions, événements ou variations saisonnières  plutôt qu'une routine de consommation hebdomadaire stable.

   - Les fluctuations au sein des mois, visibles plus précisément sur le graphique hebdomadaire, révèlent des opportunités d'optimisation. Par exemple, le fait de mieux comprendre ces variations permet aux responsables de la gestion des cartes prépayées de mieux ajuster les offres et les promotions pour anticiper et stimuler les périodes creuses. Le suivi des pics d’activité, particulièrement au milieu du mois, permettrait de mieux gérer les ressources (personnel, stocks, etc.).

  - Les transactions montrent que les pics et baisses importantes se concentrent souvent au milieu du mois. Cela pourrait être lié à des cycles de paie, à la disponibilité financière des clients ou à des offres spéciales qui incitent à plus de dépenses à ce moment-là. Pour les entreprises, c'est une information clé : intensifier les promotions ou ajuster les campagnes marketing autour de ces périodes pourrait capter davantage de clients au bon moment et accroître les ventes.



In [26]:
# La meme chose pour la frequence journalière
fig = px.line(daily_data, x='datetime_Reglement', y='Montant_Rgl',
              title='Variation des transactions par jour',
              labels={'datetime_Reglement': 'Date', 'Montant_Rgl': 'Total Montant_Rgl', 'Type': 'Aggregation Type'})

# Ajuster la mise en page pour une meilleure lisibilité
fig.update_layout(
    xaxis_title='Date',
    yaxis_title='Total Montant_Rgl',
    xaxis_tickangle=-45,  # Rotation des labels de l'axe des x
    legend_title_text='Aggregation Type',
    template='plotly_white'  # Ajouter une grille claire
)

# Afficher le graphique interactif
fig.show()

## Interprétation des Variations Quotidiennes des Transactions

1. **Variations Périodiques Hebdomadaires** :
   - Les variations observées dans les transactions sont périodiques, suivant un cycle hebdomadaire. Cela indique une tendance récurrente des dépenses au sein de chaque semaine, où les clients semblent adopter des habitudes de consommation régulières.

2. **Un peak Minimum Par Mois** :
   - Nous constatons qu'au moins un peak de transactions survient chaque mois, généralement situé dans la deuxième ou troisième semaine. Cela pourrait correspondre à des moments de salaires, des promotions ou d'autres événements incitant à des achats plus importants.

3. **Volume Très Bas Pendant les Week-Ends** :
   - Les transactions chutent significativement pendant les week-ends, suggérant que les cartes prépayées sont majoritairement utilisées durant la semaine. Pour les entreprises, cela peut être une opportunité d'analyser les raisons derrière cette baisse et de réfléchir à des stratégies pour stimuler l'engagement des clients durant ces périodes creuses.


# Analyse des tendances d'utilisation des cartes prépayées :


In [27]:
# Groupement du solde cpp au fil du temps(journalier) :

solde_cpp_grouped = df_init.resample('D', on = 'datetime_Reglement')['Solde_CPP'].mean().reset_index()


solde_cpp_grouped

Unnamed: 0,datetime_Reglement,Solde_CPP
0,2024-01-01,3155.003636
1,2024-01-02,440.285789
2,2024-01-03,568.812977
3,2024-01-04,1737.840833
4,2024-01-05,5782.611206
...,...,...
243,2024-08-31,1445.607778
244,2024-09-01,1296.824390
245,2024-09-02,1042.206794
246,2024-09-03,958.314902


In [28]:
# Créer un graphique en ligne avec Plotly pour visualiser la moyenne du solde_cpp par semaine
fig = px.line(solde_cpp_grouped, x='datetime_Reglement', y='Solde_CPP',
              title='Solde moyen des cartes prépayées par jour',
              labels={'datetime_Reglement': 'Date', 'Solde_CPP': 'Solde moyen des cartes prépayées'})

# Personnaliser la mise en page pour les titres et axes
fig.update_layout(
    xaxis_title='Date',
    yaxis_title='Solde moyen des cartes prépayées',
    xaxis_tickangle=-45,  # Rotation des labels de l'axe des x
    legend_title_text='Solde_cpp : SOLDE DES CARTES PRÉPAYÉES',  # Titre de la légende
    template='plotly_white'  # Fond blanc avec une grille légère
)

# Afficher le graphique interactif
fig.show()

## Variations du Solde des Cartes Prépayées (Moyenne Journalière) au Cours de l'Année (d'une manière journalière)

En observant les soldes des cartes prépayées sur une base journalière, les tendances suivantes émergent :

1. **Période de Pics Importants** :
   - La période présentant les pics les plus élevés s'étend du début du mois de mars à la fin du mois de mai. Cela pourrait indiquer une période de recharge intense des cartes, où les clients sont plus susceptibles de maintenir un solde élevé sur leurs cartes.

2. **Variabilité Mensuelle** :
   - Le solde des cartes prépayées varie beaucoup chaque mois, avec typiquement trois fluctuations marquées par mois. Ces variations suggèrent que les habitudes de recharge et de dépense des clients sont assez régulières, mais suivent des cycles intra-mensuels distincts.

Ces observations fournissent des informations cruciales pour comprendre les comportements de recharge et d'utilisation des cartes prépayées au fil du temps.


# Analyse du comportement des clients :


4.1


In [29]:
#  Le top 10 des client les plus dépensiers par somme.

highest_spenders = df_init.groupby('Bénéficiaire_CPP')['Montant_Rgl'].sum().reset_index()
highest_spenders = highest_spenders.sort_values(by='Montant_Rgl', ascending=False).head(10)
highest_spenders.columns = ['user','spending']

highest_spenders_names = highest_spenders['user']


highest_spenders


Unnamed: 0,user,spending
735,RIFAI,17737.572536
230,CHAGH,12992.532396
764,SELMANI,12726.843949
192,BOUICHENADE,11338.0
728,REGRAGUI,10653.672295
277,DOUDOUH,10428.1
374,EL YAAGOUBI,10137.209394
631,MINTOAMA,9119.0
366,EL MOUNTADAR,8889.065796
805,ZAABOUL,8840.296894


4.4.1

## Top 10 Dépenseurs : Analyse des Titulaires de Cartes Prépayées

Le graphique en barres ci-dessous représente les 10 plus grands dépenseurs parmi les titulaires de cartes prépayées :

1. **Rifai en Tête des Dépenseurs** :
   - Rifai est le détenteur de carte ayant le montant total de dépenses le plus élevé, atteignant **17 000**. Cela le place largement en tête des autres utilisateurs.

2. **Chagh et Selmani Suivent** :
   - Chagh et Selmani se trouvent en deuxième et troisième position, avec des montants proches de **13 000** chacun, montrant une forte activité de dépenses également.

Ce classement des dépenseurs permet d’identifier les clients les plus actifs en termes de transactions, ce qui peut être utile pour des stratégies de fidélisation.


In [30]:
# Créer un graphique en barres avec Plotly pour visualiser les plus gros dépensiers
fig = px.bar(highest_spenders, x='user', y='spending',
             title='Le top 10 des plus gros dépensiers par montant_rgl',
             labels={'user': 'Client', 'spending': 'Total dépensé'},
             color = 'user',
             color_discrete_sequence=px.colors.qualitative.Pastel)  # Palette pastel

# Personnaliser la mise en page
fig.update_layout(
    xaxis_title='Client',
    yaxis_title='Total dépensé',
    template='plotly_white'  # Fond blanc avec une grille légère
)

# Afficher le graphique interactif
fig.show()

## Analyse des 10 Clients les Plus Dépenseurs par Dépense Moyenne

Le graphique ci-dessous illustre les 10 clients ayant la dépense moyenne par transaction la plus élevée :

1. **Rifai Domine Toujours** :
   - Rifai conserve la première place avec une dépense moyenne par transaction d'environ **350mad**. Cela montre que, non seulement il dépense le plus en termes de somme totale, mais qu'il effectue également des transactions de montants significativement plus élevés que les autres utilisateurs.

2. **Autres Clients Varient entre 70mad et 40mad** :
   - Les autres clients ont des dépenses moyennes qui varient entre **70mad et 40mad** par transaction, ce qui représente une différence notable avec Rifai.

### Interprétation :

  - Rifai pourrait représenter un **compte entreprise** ou un **groupe familial**, ce qui expliquerait les transactions de grande envergure. Cela indiquerait que ses achats ne sont pas pour une seule personne mais pour plusieurs utilisateurs ou occasions spéciales.
  - Il est possible que Rifai utilise sa carte pour des **achats ponctuels de grande valeur**, comme des événements ou des commandes groupées, ce qui expliquerait pourquoi sa dépense moyenne est si élevée par rapport aux autres. Cela pourrait aussi signaler des **pics de dépenses** liés à des événements ou périodes spécifiques.


In [31]:
#  La moyenne des dépences pour les top 10 client les plus dépenciers
spenders_with_high_mean = df_init[df_init['Bénéficiaire_CPP'].isin(highest_spenders_names) ].groupby('Bénéficiaire_CPP')['Montant_Rgl'].mean().sort_values(ascending=False).reset_index().head(10)
spenders_with_high_mean.columns = ['user','mean']
spenders_with_high_mean


#  un graphique en barres pour visualiser les clients avec la plus haute moyenne de dépense
fig = px.bar(spenders_with_high_mean, x='user', y='mean',
             title='Le top 10 avec la plus haute moyenne de dépense',
             labels={'user': 'Client', 'mean': 'Moyenne des dépenses'},
             color='user',  # Couleur unique pour chaque client
             color_discrete_sequence=px.colors.qualitative.Pastel)  # Palette pastel

# updading the theme and layout of  each element
fig.update_layout(
    xaxis_title='Client',
    yaxis_title='Moyenne Montant_Rgl',
    xaxis_tickangle=-45,  # Rotation des labels de l'axe des x
    template='plotly_white'  # Fond blanc avec grille claire
)

# Afficher le graphique interactif
fig.show()


write a small description

In [32]:
# highest spenders
highest_spenders_filtered = df_init[df_init['Bénéficiaire_CPP'].isin(highest_spenders_names)]

# Step 2: Variations of soldcpp for highest 10 spenders
highest_spenders_soldeCPP = highest_spenders_filtered.groupby([pd.Grouper(key='datetime_Reglement', freq='D'), 'Bénéficiaire_CPP'])['Solde_CPP'].mean().reset_index()

highest_spenders_soldeCPP.columns = ['date', 'user', 'solde']

highest_spenders_5  = highest_spenders_soldeCPP.head(15)

# un graphique en ligne pour visualiser la variation du solde des plus dépensiers
fig = px.line(highest_spenders_soldeCPP, x='date', y='solde', color='user',
              title='Variation du solde des plus dépensiers par semaine',
              labels={'date': 'Date', 'solde': 'Solde carte prépayée', 'user': 'Utilisateur'})

# Customize the hover template to format the tooltip
fig.update_traces(hovertemplate='<b>Date:</b> %{x}<br>'  # Display date
                  '<b>Solde:</b> %{y:.2f}MAD<br>'  # Display balance without 'k' and format with 2 decimal places
                  '<b>Utilisateur:</b> %{text}<br>',  # Display user
                  text=highest_spenders_soldeCPP['user'])  # Ensure user info is included

# Personnaliser la mise en page pour une meilleure lisibilité
fig.update_layout(
    height=1200,
    xaxis_title='Date',
    yaxis_title='Solde carte prépayée',
    xaxis_tickangle=-45,  # Rotation des labels de l'axe des x
    legend_title_text='Desc',  # Titre de la légende
    template='plotly_white'  # Fond blanc avec grille légère
)

# Afficher le graphique interactif
fig.show()


# Analyse des Valeurs de Solde_CPP

## Contexte
Les valeurs de `solde_cpp` représentent le solde moyen des cartes prépayées utilisées par les clients sur une période d'un an. L'analyse des plus grands dépensiers a révélé des comportements d'utilisation variés qui influencent ces soldes.

## Compréhension des Soldes

1. **Rifai**
   - **Solde_CPP** : Élevé
   - **Dépenses Moyennes** : 347,80 MAD
   - **Dépenses Totales** : 17 737,57 MAD
   - **Interprétation** : Un solde élevé peut indiquer une utilisation active de la carte pour des achats de plus grande valeur ou des transactions régulières. Cela pourrait aussi signaler une tendance à maintenir un solde positif pour éviter des refus de paiement.

2. **Chagh**
   - **Solde_CPP** : Modéré
   - **Dépenses Moyennes** : 81,20 MAD
   - **Dépenses Totales** : 12 992,53 MAD
   - **Interprétation** : Un solde modéré peut refléter une gestion prudente des dépenses. Les clients comme Chagh peuvent utiliser leur carte principalement pour des achats stratégiques tout en maintenant un solde suffisant pour couvrir les frais.

3. **Selmani**
   - **Solde_CPP** : Relativement Bas
   - **Dépenses Moyennes** : 49,91 MAD
   - **Dépenses Totales** : 12 726,84 MAD
   - **Interprétation** : Un solde plus bas pourrait suggérer que Selmani effectue des transactions fréquentes de faible montant, ce qui peut résulter d'un budget serré ou d'un modèle de consommation axé sur les petits achats.

## Conclusion
Les valeurs de `solde_cpp` révèlent des comportements d'utilisation variés parmi les clients, allant de l'utilisation intensive pour des achats importants à une gestion plus modérée des dépenses. Cela souligne l'importance d'adapter les offres de services financiers aux besoins spécifiques des différents segments de clients.


In [33]:
# Les 10 clients avec le solde moyen de carte prépayée le plus élevé.

solde_cpp_grouped = df_init.groupby('Bénéficiaire_CPP')['Solde_CPP'].mean().reset_index()


solde_cpp_grouped = solde_cpp_grouped.sort_values(by='Solde_CPP', ascending=False).head(10)
solde_cpp_grouped.columns = ['user','mean']

solde_cpp_grouped



# Créer un graphique à barres pour visualiser les clients
fig = px.bar(solde_cpp_grouped,
             x='user',
             y='mean',
             title='Les top 10 clients avec la plus haute moyenne du soldeCPP.',
             labels={'user': 'Client', 'mean': 'Moyenne des dépenses'},
             color='mean',  # Optionally color the bars based on the mean values
             )  # Use a pastel color scale

# Ajuster les labels et la rotation des ticks sur l'axe des x
fig.update_layout(
    xaxis_title='Client',
    yaxis_title='Moyenne du solde cpp',
    template='plotly_white'  # Use a clean white background
)

# Afficher le graphique interactif
fig.show()



# Analyse des montants restants et des soldes à zéro

In [34]:
# Filtrer les transactions avec des montants restants impayés (Montant_Rst > 0) et grouper par client pour identifier les clients avec les soldes impayés les plus élevés.

client_avec_reste = df_init[df_init['Montant_Rst'] > 0].groupby('Bénéficiaire_CPP')['Montant_Rst'].sum().sort_values(ascending=False).reset_index().head(10)

client_avec_reste.columns = ['user','sum']
client_avec_reste




Unnamed: 0,user,sum
0,RIFAI,7.629394e-05
1,SELMANI,4.482269e-05
2,REGRAGUI,2.288818e-05
3,HOUSNI,2.145767e-06
4,SEGBEDJI Yao,1.907349e-06
5,EL YAAGOUBI,1.907349e-06
6,CHAGH,1.907349e-06
7,DOUDOUH,1.907349e-06
8,KADIRI Lalla,9.536743e-07
9,AMEZIANE,9.536743e-07


In [35]:
# Let's use a barplot to visualise the clients with the highest sum unpaid amounts


fig = px.bar(client_avec_reste,
             x='user',
             y='sum',
             title='Le top 10 des clients par somme du Montant restant .',
             labels={'user': 'Client', 'sum': 'Somme du Montant restant'},
             color='sum',  # Optionally color the bars based on the mean values
             )  # Use a pastel color scale

# Ajuster les labels et la rotation des ticks sur l'axe des x
fig.update_layout(
    xaxis_title='Client',
    yaxis_title='Moyenne des dépenses',
    xaxis_tickangle=-45,  # Rotate x-axis labels for readability
    template='plotly_white'  # Use a clean white background
)

# Afficher le graphique interactif
fig.show()

### Montant Restant de Rifai

Rifai a un montant restant par transaction plus élevé car il dépense plus en général. Ses transactions sont souvent de plus grande valeur et il gère mieux son budget, évitant les dépenses excessives. Cela lui permet de conserver un solde plus important après chaque achat.


In [41]:
#  Extrayons les transactions avec le solde_cpp le plus bas. Remarque : il n'y a aucune transaction avec un solde_cpp égal à 0.

lowest_soldeCPP_transactions = df_init[df_init['Solde_CPP'] < 2.5].sort_values(by='Solde_CPP', ascending=True)

lowest_soldeCPP_transactions

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User
2633,258161,903112066,2024-01-13 09:41:51,1.5,1.5,0.0,CLT10001,CLIENT AU COMPTANT,6823678547655982,ELAYATI,1.5,RST10012,L'Casis Cafétéria HCZ,USR10024,Morad
5944,277840,700872789,2024-02-15 12:06:10,1.5,1.5,0.0,CLT10001,CLIENT AU COMPTANT,4286483724417672,EL KHIYATI,1.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10003,Soundoss
11964,338619,700900833,2024-05-29 10:38:27,1.5,1.5,0.0,CLT10001,CLIENT AU COMPTANT,2837729626496993,BEN DAOUD,1.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10003,Soundoss
25,286139,902104331,2024-02-27 08:54:11,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,8996293639675569,TOUZANI,2.0,RST10012,L'Casis Cafétéria HCZ,USR10027,Ayman
3119,260546,903112971,2024-01-17 08:05:35,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,8892392132798721,AZZA,2.0,RST10012,L'Casis Cafétéria HCZ,USR10024,Morad
3169,260825,700865576,2024-01-17 12:07:20,1.5,1.5,0.0,CLT10001,CLIENT AU COMPTANT,5337453992181631,HAFID,2.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
4839,267542,903116976,2024-01-30 10:32:59,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,8696718292873527,EL ANSARI,2.0,RST10012,L'Casis Cafétéria HCZ,USR10024,Morad
5362,274262,903121231,2024-02-10 10:08:35,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,7173439323935434,BENRBIEA,2.0,RST10012,L'Casis Cafétéria HCZ,USR10024,Morad
13532,352990,903151459,2024-06-22 08:20:54,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,6717984289382833,EL AMMA,2.0,RST10012,L'Casis Cafétéria HCZ,USR10023,Abdelkarim
13780,356700,700908348,2024-06-29 08:50:01,2.0,2.0,0.0,CLT10001,CLIENT AU COMPTANT,1242158537222635,OUEDRAOGO PENGDWENDE,2.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza


In [42]:
# the clients with the lowest mean solde_cpp
lower_soldcpp_by_client = lowest_soldeCPP_transactions.groupby('Bénéficiaire_CPP')[['Solde_CPP', 'Montant_Rgl']].agg('mean').sort_values(by='Solde_CPP', ascending=True).reset_index()

lower_soldcpp_by_client.columns = ['clients','moyenne_soldecpp','moyenne_montantRGL']
lower_soldcpp_by_client



Unnamed: 0,clients,moyenne_soldecpp,moyenne_montantRGL
0,BEN DAOUD,1.5,1.5
1,EL KHIYATI,1.5,1.5
2,ELAYATI,1.5,1.5
3,AZZA,2.0,2.0
4,BENRBIEA,2.0,2.0
5,EL AMMA,2.0,2.0
6,EL ANSARI,2.0,2.0
7,HAFID,2.0,1.5
8,OUEDRAOGO PENGDWENDE,2.0,2.0
9,TOUZANI,2.0,2.0


### Analyse des moyennes de solde_cpp et montant_rgl

1. **Cohérence entre Solde_CPP et Montant_RGL** : Pour la majorité des clients, les valeurs de `solde_cpp` et `montant_rgl` sont identiques, ce qui montre que les transactions utilisent souvent tout le solde de la carte prépayée.
   
2. **Faible variance** : Les moyennes varient entre 1,5 et 2,0, indiquant des transactions de faible montant, probablement des micropaiements réguliers.

3. **Cas particulier** : Le client **HAFID** montre une différence avec un solde restant après paiement, ce qui suggère un comportement d'achat différent.

En résumé, les transactions sont de faible valeur avec peu de variation, à l'exception d'un cas particulier.


## Analyse des heures de pointe et des lieux les plus performants :




**Les Lieux les plus performant :**

In [43]:
# on groupe le Montant_Rgl par le nom du restaurant 'Restaurant'.
les_plus_performants = df_init.groupby('Restaurant')['Montant_Rgl'].sum().reset_index()

les_plus_performants.columns = ['place','sales']

les_plus_performants = les_plus_performants.sort_values(by='sales', ascending=False).head(10)

# bar plot
fig = px.bar(
    les_plus_performants.head(12),
    x='place',
    y='sales',
    title='Les points de vente les plus performants (volume des transactions)',
    labels={'place': 'Point de vente', 'sales': 'Revenu total en (MAD)'},
    color='sales',  # Optional: Color the bars based on sales
    color_continuous_scale='deep'  # Use a deep color scale
)

# Ajuster les labels et la rotation des ticks sur l'axe des x
fig.update_layout(
    xaxis_title='Point de vente',
    yaxis_title='Revenu total (MAD)',
    xaxis_tickangle=-50,  # Rotate x-axis labels for readability
    template='plotly_white'  # Use a clean white background
)


fig.show()



In [44]:
# Performance des resto par heure

sales_by_hour = df_init.groupby(['Restaurant',df_init['datetime_Reglement'].dt.hour])['Montant_Rgl'].sum().reset_index()

sales_by_hour.columns = ['place','hour','sales']

# better view of the data using pivot table.


sales_pivot = df_init.pivot_table(values='Montant_Rgl',
                                  index='Restaurant',
                                  columns=df_init['datetime_Reglement'].dt.hour,
                                  aggfunc='sum',
                                  fill_value=0)

sales_pivot = sales_pivot.sort_index(axis=1)


# Display the pivot table
sales_pivot.head(7)




# switch this one to pivot table so that it's more readable

datetime_Reglement,1,4,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23
Restaurant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Café - Boulangerie - Pâtisserie - Rabat,97.5,102.5,146.5,3411.5,7877.0,16494.5,24297.5,14222.0,21494.0,9341.5,7076.0,13481.5,15569.0,18595.5,10346.0,8747.0,4420.5,4220.5,3452.0,122.0
Epicerie - Rabat,0.0,0.0,0.0,170.0,27.0,146.450001,257.249999,931.800003,531.950001,735.900002,305.0,677.850002,457.700001,646.950001,568.450001,395.5,822.4,730.95,498.1,0.0
L'Casis Cafétéria HCZ,0.0,0.0,0.0,875.0,2292.5,1412.0,1283.0,856.5,1657.0,2042.0,2709.0,2375.0,1602.5,1057.0,645.0,866.0,432.5,949.5,517.0,0.0
Lavomatic - Rabat,0.0,0.0,0.0,0.0,0.0,1760.0,6279.5,5384.5,6239.26,6126.44,4501.5,5541.0,4708.5,3815.44,1768.0,150.0,0.0,0.0,0.0,0.0
Pharmacie & Parapharmacie - Rabat,0.0,0.0,0.0,0.0,0.0,742.104395,877.540002,4209.488478,5548.97315,693.779994,2950.952999,2290.994217,5986.800496,5834.851027,3729.333813,270.600002,188.391998,0.0,0.0,0.0
Restaurant Gastronomique - Rabat,0.0,0.0,0.0,0.0,130.0,0.0,0.0,1065.0,2296.0,3408.0,1616.0,1163.0,1130.0,625.0,460.0,905.0,1771.0,1431.0,405.0,0.0
Snack Pizzeria - Rabat,0.0,0.0,0.0,0.0,0.0,110.0,417.0,4705.0,35841.0,19579.0,12984.0,9714.0,9142.0,11586.0,12217.0,33479.0,19934.0,20798.0,16698.0,660.0


In [45]:
# Créer un graphique à lignes multiples pour montrer la performance de chaque point par heure
fig = px.line(
    sales_by_hour,
    x='hour',
    y='sales',
    color='place',  # Group by place
    title='Performance des points de vente par heure',
    labels={'hour': 'Heure (24h)', 'sales': 'Somme des ventes'},
    markers=False  # Enable markers on the lines
)

# Ajuster les labels et la rotation des ticks sur l'axe des x
fig.update_layout(
    xaxis_title='Heure (24h)',
    yaxis_title='Somme des ventes',
    xaxis_tickangle=-45,  # Rotate x-axis labels for readability
    legend_title='Desc',
    grid=dict(rows=1, columns=1),  # Add grid lines
    xaxis=dict(tickmode='array', tickvals=list(range(24))),  # Set x-axis ticks for each hour
)

# Afficher le graphique interactif
fig.show()


# Interprétation des données de vente par point de vente

Les données représentent les recettes de différents points de vente à Rabat sur une période donnée, réparties par semaines. Voici une interprétation des performances des établissements :

## 1. Café - Boulangerie - Pâtisserie - Rabat
- **Secteur**: Restauration
- **Performance**:
  - Le chiffre d'affaires est très élevé, atteignant jusqu'à 34,111.5 durant la semaine 7, avec des ventes stables tout au long des autres semaines.
  - Cela indique une forte affluence et une bonne gestion.

## 2. Épicerie - Rabat
- **Secteur**: Commerce de détail
- **Performance**:
  - Les ventes sont modestes, avec un pic à 931.8 en semaine 11.
  - Les recettes sont peu fréquentes, ce qui suggère que l'établissement pourrait bénéficier d'une stratégie marketing pour attirer plus de clients.

## 3. L'Casis Cafétéria HCZ
- **Secteur**: Restauration
- **Performance**:
  - Les ventes sont fluctuantes, culminant à 2,709.0 en semaine 10, avec une performance faible aux autres semaines.
  - Cela pourrait indiquer une dépendance à des événements spécifiques ou à une clientèle limitée.

## 4. Lavomatic - Rabat
- **Secteur**: Services
- **Performance**:
  - Les ventes commencent à partir de la semaine 6, atteignant un maximum de 6,279.5 en semaine 7.
  - L'absence de ventes pendant plusieurs semaines peut signaler un manque de visibilité ou une clientèle sporadique.

## 5. Pharmacie & Parapharmacie - Rabat
- **Secteur**: Santé
- **Performance**:
  - Bien que les ventes commencent faibles, elles atteignent un maximum de 5,548.97 en semaine 12.
  - Les fluctuations pourraient indiquer une réponse à des promotions ou des besoins saisonniers.

## 6. Restaurant Gastronomique - Rabat
- **Secteur**: Restauration
- **Performance**:
  - Les ventes sont sporadiques, avec des pics notables en semaine 8 et 9, atteignant respectivement 1,065.0 et 2,296.0.
  - Cela pourrait refléter une clientèle de niche ou des événements spéciaux.

## 7. Snack Pizzeria - Rabat
- **Secteur**: Restauration
- **Performance**:
  - Ce point de vente affiche des recettes très élevées, atteignant jusqu'à 35,841.0 en semaine 12.
  - Cela suggère une forte popularité et une bonne fidélisation de la clientèle.


# 7. Détection des anomalies (outliers) :

In [61]:
# Détection des anomalies dans les montants des transactions (Montant_Rgl) en utilisant l'IQR
Q1 = np.percentile(df_init['Montant_Rgl'], 25)
Q3 = np.percentile(df_init['Montant_Rgl'], 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR # la valeur minimale qu'on peut tolerer
upper_bound = Q3 + 1.5 * IQR # la valeur maximale à tolérer
outliers = df_init[(df_init['Montant_Rgl'] < lower_bound) | (df_init['Montant_Rgl'] > upper_bound)]



# Afficher les outliers détectés

outliers.sort_values(by = 'Montant_Rgl', ascending = True)


outliers_grouped_all = outliers.pivot_table(index=['Restaurant','Bénéficiaire_CPP',outliers['datetime_Reglement'].dt.hour], values='Montant_Rgl', aggfunc=['sum','mean','count'])
outliers_grouped_all.sort_values(by = 'datetime_Reglement', ascending = False)
outliers_grouped_all.sort_index(axis = 1 , level = 1)

# Setting up pandas max result settings to max_rows
pd.set_option('display.max_rows', None)


outliers_grouped_all.head()

# Vous pouvez ensuite traiter ces outliers comme vous le souhaitez (suppression, remplacement, etc.)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Montant_Rgl,Montant_Rgl,Montant_Rgl
Restaurant,Bénéficiaire_CPP,datetime_Reglement,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Café - Boulangerie - Pâtisserie - Rabat,AARAB,8,150.0,150.0,1
Café - Boulangerie - Pâtisserie - Rabat,ASSELLALOU MOHAMED,16,125.0,125.0,1
Café - Boulangerie - Pâtisserie - Rabat,BENJOUAD,17,620.0,620.0,1
Café - Boulangerie - Pâtisserie - Rabat,BOUICHENADE,11,238.0,119.0,2
Café - Boulangerie - Pâtisserie - Rabat,BOUICHENADE,12,472.0,157.333333,3


In [62]:
# outliers grouped by clients

outliers_grouped_clients = outliers.groupby('Bénéficiaire_CPP')['Montant_Rgl'].size().reset_index()
outliers_grouped_clients.columns = ['user','number_of_outliers']

outliers_grouped_clients.sort_values(by = 'number_of_outliers' ,ascending = False,inplace = True)

outliers_grouped_clients



Unnamed: 0,user,number_of_outliers
24,BOUICHENADE,37
27,CHAGH,35
114,RIFAI,32
113,REGRAGUI,23
53,EL YAAGOUBI,20
119,SELMANI,17
38,DOUDOUH,14
62,FARAIDI,13
131,ZAABOUL,13
81,MAARIF,11


In [63]:
# Créer un graphique à barres pour visualiser les clients avec le plus d'outliers
fig = px.bar(
    outliers_grouped_clients.head(15),
    x='user',
    y='number_of_outliers',
    title='Les clients avec le plus d\' anomalie',
    labels={'user': 'Client', 'number_of_outliers': 'Nombre d\'anomalie'},
    color='number_of_outliers',  # Optionally color the bars based on the number of outliers
    color_continuous_scale='deep',  # Use a deep color scale
    text='number_of_outliers'  # Display the number of outliers on the bars
)

# Ajuster les labels et la rotation des ticks sur l'axe des x
fig.update_traces(texttemplate='%{text:.2f}', textposition='outside')  # Format text on bars
fig.update_layout(
    xaxis_title='Clients',
    yaxis_title='count anomalies',
    xaxis_tickangle=-45,  # Rotate x-axis labels for readability
    template='plotly_white',  # Clean background
)

# Afficher le graphique interactif
fig.show()

## Analyse des Anomalies des Montants de Transaction

### Clients à Dépenses Élevées
Les clients suivants ont été identifiés comme des anomalies avec des montants de transaction significativement élevés :

| Index | Nom du Client      | Montant Dépensé |
|-------|--------------------|------------------|
| 24    | BOUICHENADE       | 37               |
| 27    | CHAGH              | 35               |
| 114   | RIFAI              | 32               |
| 113   | REGRAGUI           | 23               |
| 53    | EL YAAGOUBI        | 20               |

### Clients à Dépenses Faibles
De plus, les clients suivants ont été signalés pour des montants de transaction extrêmement bas :

| Index | Nom du Client      | Montant Dépensé |
|-------|--------------------|------------------|
| 60    | FADEL              | 1                |
| 59    | EZ-ZAHORI          | 1                |
| 58    | ESSAADANI          | 1                |



In [64]:
# Outliers grouped by place



outliers_per_place = outliers.groupby('Restaurant')['Montant_Rgl'].size().reset_index()
outliers_per_place.columns = ['place','number_of_outliers']

outliers_per_place.sort_values(by = 'number_of_outliers' ,ascending = False,inplace = True)







# bar plot qui representes le nombre de valu
fig = px.bar(
    outliers_per_place,
    x='place',
    y='number_of_outliers',
    title='Nombre d\'Anomalies par Restaurant',
    labels={'place': 'Restaurant', 'number_of_outliers': 'Nombre d\'Anomalies'},
    color='number_of_outliers',  # Color bars based on the number of outliers
    color_continuous_scale='Viridis'  # Use a color scale for the bars
)

# Ajuster la mise en page
fig.update_layout(
    xaxis_title='Restaurant',
    yaxis_title='Nombre d\'Anomalies',
    xaxis_tickangle=-45,  # Rotate x-axis labels for better readability
    template='plotly_white',  # Clean background
)

# Afficher le graphique interactif
fig.show()



In [65]:
# distribution des anomalies par jour

outliers_over_day = outliers.groupby(outliers['datetime_Reglement'].dt.time)['Montant_Rgl'].sum().reset_index()

outliers_over_day.columns = ['hour','occurrence']
outliers_over_day.sort_values(by = 'hour' ,ascending = True,inplace = True)

print(type(outliers_over_day['hour'][3]))

# scatter plot qui decrit les distribution des anomalies au cours du jour.

fig = px.scatter(
    outliers_over_day,
    x='hour',
    y='occurrence',
    title="Distribution des anomalies par heure de la journée",
    labels={'hour': 'Heure', 'occurrence': "Nombre d'anomalies"}
)

# Update the layout for better aesthetics
fig.update_layout(
    title_font=dict(size=16, family='Arial', weight='bold'),
    xaxis_title='Heure de la journée',
    yaxis_title="Nombre d'anomalies",
    xaxis_tickvals=[f'{i:02d}:00:00' for i in range(24)],
    xaxis_ticktext=[f'{i:02d}:00' for i in range(24)],
    xaxis_tickangle=-45,  # Rotate x-axis labels for readability
    xaxis_tickformat='%H:%M',  # Format to display hour and minute
)

# Show the plot
fig.show()





<class 'datetime.time'>


### Densité Cohérente :
La densité des points reste cohérente tout au long de la journée, indiquant une occurrence stable des transactions à travers différentes heures.

### Présence de Hauts Outliers :
Il y a plusieurs outliers notables dans le jeu de données, caractérisés par des valeurs exceptionnellement élevées de Montant_Rgl. Ces outliers suggèrent des cas spécifiques où les montants des transactions s'écartent considérablement de la norme, ce qui mérite une investigation plus approfondie pour comprendre leurs causes sous-jacentes.

In [66]:
# les anomalies par heure

outliers_per_hour = outliers.groupby(outliers['datetime_Reglement'].dt.hour)['Montant_Rgl'].size().reset_index()
outliers_per_hour.columns = ['hour','number_of_outliers']
outliers_per_hour.sort_values(by = 'hour' ,ascending = True,inplace = True)


# Group the data to get the number of outliers per hour
outliers_per_hour = outliers.groupby(outliers['datetime_Reglement'].dt.hour)['Montant_Rgl'].size().reset_index()
outliers_per_hour.columns = ['hour', 'number_of_outliers']
outliers_per_hour.sort_values(by='hour', ascending=True, inplace=True)

# Create a scatter plot using Plotly
fig = px.bar(
    outliers_per_hour,
    x='hour',
    y='number_of_outliers',
    title='Anomalies par heure de la journée',
    labels={'hour': 'Heure de la journée', 'number_of_outliers': "Nombre d'anomalies"},
)

# Update layout for better aesthetics
fig.update_layout(
    title_font=dict(size=16, family='Arial', weight='bold'),
    xaxis_title='Heure de la journée',
    yaxis_title="Nombre d'anomalies",
    xaxis_tickangle=-45,  # Rotate x-axis labels for readability
    xaxis=dict(
        tickmode='linear',  # Ensure a tick for every hour
        tick0=0,  # Start the ticks at 0 (midnight)
        dtick=1  # Set a tick every 1 hour
    ),
    grid=dict(rows=1, columns=1),  # Optional: Add grid lines
)

# Show the plot
fig.show()

 ### Barplot des Outliers par Heure
Le barplot décrit le nombre d'outliers par heure de la journée révèle que la quantité la plus élevée d'outliers se situe entre 10h et 13h, avec un second pic entre 16h et 17h. Cela peut s'expliquer par le fait qu'il y a généralement moins de transactions aux autres heures, rendant les montants plus élevés durant ces périodes plus significatifs.


# Analyse des performances des caissiers :


In [60]:

transactions_per_user = outliers.groupby('Prenom User')['Montant_Rgl'].size().reset_index(name='number_of_transactions')

# sum of 'Montant_Rgl'
sum_per_user = outliers.groupby('Prenom User')['Montant_Rgl'].sum().reset_index(name='total_sum')

# Sort values for better visualization
transactions_per_user.sort_values(by='number_of_transactions', ascending=False, inplace=True)
sum_per_user.sort_values(by='total_sum', ascending=False, inplace=True)

# Visualization for the top 10 users with the most transactions
fig_transactions = px.bar(
    transactions_per_user.head(10),  # Display top 10 users
    x='Prenom User',
    y='number_of_transactions',
    title='top 10 caissier par nombre de transaction',
    labels={'number_of_transactions': 'Nombre de transactions'},
    color='Prenom User',
    color_discrete_sequence=px.colors.qualitative.Plotly
)

# Visualization for the top 10 users with the highest total Montant_Rgl
fig_sum = px.bar(
    sum_per_user.head(10),  # Display top 10 users
    x='Prenom User',
    y='total_sum',
    title='top 10 des caissiers par somme des montants traités',
    labels={'total_sum': 'Somme des Montants'},
    color='Prenom User',
    color_discrete_sequence=px.colors.qualitative.Plotly
)

# Update layouts for both figures
fig_transactions.update_layout(
    xaxis_title='Utilisateur',
    yaxis_title='Nombre de transactions',
    xaxis_tickangle=-45  # Rotate x-axis labels for readability
)

fig_sum.update_layout(
    xaxis_title='Utilisateur',
    yaxis_title='Somme des Montants',
    xaxis_tickangle=-45  # Rotate x-axis labels for readability
)

# Display figures
fig_transactions.show()
fig_sum.show()


## Analyse des Outliers par Entreprise

### Nombre d'Outliers par Entreprise
- Le premier barplot affiche le **nombre d'outliers** identifiés pour chaque entreprise. Cette métrique met en évidence les entreprises qui rencontrent le plus souvent des écarts par rapport aux montants de transaction normaux.

### Somme des Montants des Outliers par Entreprise
- Le deuxième barplot illustre la **somme des montants** de tous les outliers pour chaque entreprise. Cela nous permet de voir non seulement combien d'outliers une entreprise a, mais aussi la valeur totale associée à ces outliers.

### Observations Clés
- Il est à noter que les entreprises avec la **somme la plus élevée d'outliers** ne correspondent pas toujours à celles avec le **nombre le plus élevé d'outliers**. Cette disparité suggère que certaines entreprises peuvent avoir moins de transactions qui sont exceptionnellement élevées en valeur, entraînant une somme totale significative des montants d'outliers malgré un nombre d'instances plus faible.
- Ce phénomène peut être lié à la **stratégie de tarification** ou aux **services offerts** par chaque entreprise, indiquant que des transactions de prix plus élevés pourraient contribuer à la somme des montants d'outliers sans nécessairement augmenter le nombre total d'outliers.


## Analyse de la Corrélation entre Montant_Rgl et Solde_CPP

In [53]:
df_init.head()

Unnamed: 0,ID_Règlement,ID_Operation,datetime_Reglement,Montant_Rgl,Montant_Versé,Montant_Rst,ID_Client,Client,ID_CartePP,Bénéficiaire_CPP,Solde_CPP,ID_Restaurant,Restaurant,ID_User,Prenom User
0,287967,700877295,2024-02-29 08:07:37,13.5,13.5,0.0,CLT10001,CLIENT AU COMPTANT,1237736457745921,MOUMOUN,952.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
1,287983,700877305,2024-02-29 08:17:54,8.0,8.0,0.0,CLT10001,CLIENT AU COMPTANT,9854337878921188,FARAIDI,921.51,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
2,287994,700877312,2024-02-29 08:23:33,20.0,20.0,0.0,CLT10001,CLIENT AU COMPTANT,4284648158394883,RACHIDI Salah,790.0,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
3,282957,700874995,2024-02-22 11:19:17,87.0,87.0,0.0,CLT10001,CLIENT AU COMPTANT,3628329735567861,EL AZRAK,346.23,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza
4,282972,700874999,2024-02-22 11:31:14,5.0,5.0,0.0,CLT10001,CLIENT AU COMPTANT,9536648418398212,ZERIOUEL,875.5,RST10005,Café - Boulangerie - Pâtisserie - Rabat,USR10004,Hamza


In [54]:
overall_correlation = df_init['Montant_Rgl'].corr(df_init['Solde_CPP'])
print(f'Overall Correlation: {overall_correlation:.2f}')

# Create a scatter plot for overall correlation
fig_overall = px.scatter(df_init, x='Montant_Rgl', y='Solde_CPP',
                         title='Overall Correlation between Montant_Rgl and Solde_CPP',
                         labels={'Montant_Rgl': 'montant_rgl', 'Solde_CPP': 'Balance (Solde_CPP)'})

fig_overall.show()


Overall Correlation: 0.12



- Après avoir étudié la corrélation entre **Montant_Rgl** et **Solde_CPP** sans regroupement, un coefficient de corrélation de **0,12** a été obtenu.
- Ce résultat indique qu'il existe **peu ou pas de corrélation** entre ces deux variables, suggérant que les montants réglés ne sont pas significativement liés aux soldes des cartes prépayées.


# Analyse de la correlation :

In [55]:
# Group the data by 'Bénéficiaire_CPP' (Client) and calculate the total spending and total balance
corr_grouped_by_clients = df_init.groupby('Bénéficiaire_CPP').agg({'Montant_Rgl': 'sum', 'Solde_CPP': 'sum'}).reset_index()

# Calculate the correlation for the grouped data
grouped_correlation = corr_grouped_by_clients['Montant_Rgl'].corr(corr_grouped_by_clients['Solde_CPP'])
print(f'Correlation entre la totalité du sold_cpp et la somme des Montant_Rgl: {grouped_correlation:.2f}')

# Create a scatter plot for grouped correlation with correct naming
fig_grouped = px.scatter(
    corr_grouped_by_clients,
    y='Solde_CPP',
    x='Montant_Rgl',
    title='Correclaiton entre la sum(solde_cpp) et sum(Montant_rgl) par client',  # Updated title
    labels={
        'Montant_Rgl': 'sum(Montant_Rgl) par client',  # Correct label
        'Solde_CPP': 'sum(Solde_CPP) par client'  # Correct label
    }
)

# Show the plot
fig_grouped.show()


Correlation entre la totalité du sold_cpp et la somme des Montant_Rgl: 0.54


- La corrélation de **0,54** entre les sommes des soldes et des montants réglés suggère une relation plus significative, ce qui indique que lorsque les clients dépensent davantage, leurs soldes prépayés tendent à être plus élevés. Cela pourrait indiquer un comportement où les clients ayant des fonds disponibles sont plus susceptibles d'effectuer des transactions plus importantes.

In [56]:
# Group the data by 'Client' and calculate the total spending and average balance
corr_grouped_by_clients_mean = df_init.groupby('Bénéficiaire_CPP').agg({'Montant_Rgl': 'mean', 'Solde_CPP': 'mean'}).reset_index()

# on calcule la correlation entre
grouped_correlation = corr_grouped_by_clients_mean['Montant_Rgl'].corr(corr_grouped_by_clients_mean['Solde_CPP'])
print(f'Correlation entre la moyenne des transactions et du solde_cpp par porteur de carte: {grouped_correlation:.2f}')

# Create a scatter plot for grouped correlation with revised naming
fig_grouped = px.scatter(
    corr_grouped_by_clients_mean,
    x='Montant_Rgl',
    y='Solde_CPP',
    title='Correlation between Total Spending and Average Prepaid Card Balance (Grouped by Client)',
    labels={
        'Montant_Rgl': 'mean(Montant_Rgl) par client',
        'Solde_CPP': 'mean(Solde_CPP) par client'
    }
)

# Show the plot
fig_grouped.show()


Correlation entre la moyenne des transactions et du solde_cpp par porteur de carte: 0.28


- La corrélation de **0,28** entre les moyennes de **Solde_CPP** et **Montant_Rgl** renforce cette idée, bien qu'elle montre une légère tendance à la hausse. Cela pourrait indiquer que les clients avec des soldes plus élevés effectuent légèrement des transactions plus importantes, mais cette relation reste faible.

In [57]:
# Group the data by 'Client' and calculate the total spending and average balance
corr_grouped_by_clients_mean_sum = df_init.groupby('Bénéficiaire_CPP').agg({'Montant_Rgl': 'sum', 'Solde_CPP': 'mean'}).reset_index()

# on calcule la correlation entre
grouped_correlation = corr_grouped_by_clients_mean_sum['Montant_Rgl'].corr(corr_grouped_by_clients_mean_sum['Solde_CPP'])
print(f'Correlation entre la moyenne du soldeCpp et la somme du montant_rgl par client: {grouped_correlation:.2f}')

# Create a scatter plot for grouped correlation with revised naming
fig_grouped = px.scatter(
    corr_grouped_by_clients_mean_sum,
    x='Montant_Rgl',
    y='Solde_CPP',
    title='Correlation entre la moyenne du sold_cpp et la somme des transactions (par client)',
    labels={
        'Montant_Rgl': 'sum(Montant_Rgl) par client',
        'Solde_CPP': 'mean(Solde_CPP) par client'
    }
)

# Show the plot
fig_grouped.show()


Correlation entre la moyenne du soldeCpp et la somme du montant_rgl par client: 0.47


- Enfin, la corrélation de **0,47** entre la moyenne des soldes et la somme des montants réglés indique également une relation modérée, ce qui suggère que les clients qui effectuent des transactions plus fréquentes ou plus importantes ont tendance à maintenir des soldes plus élevés.

- En somme, ces résultats montrent que, bien que des corrélations existent, elles varient en fonction de la mesure utilisée et soulignent la complexité des comportements transactionnels des clients.


*"L'analyse indique que, bien qu'il existe des corrélations faibles à modérées entre les soldes des clients et les montants des transactions, les relations suggèrent que des soldes de cartes prépayées plus élevés peuvent entraîner des transactions légèrement plus importantes, mais l'influence globale reste limitée."*


