In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
import datetime as dt
import re
import pandas as pd
import numpy as np

In [None]:
from itertools import combinations

In [None]:
from functions.utils import *
from functions.mapping_virements import *
from functions.clean_data import *
from functions.check_clientops import *
from functions.mapping_prelevement import *

# Context

Pour le réconciliation des prélèvements, il faut travailler à la fois sur les lignes de crédit et les lignes de débit. 

1. On part des données de xml (le détail des sessions envoyées à la banque pour prélever), on vérifie si le montant reçu (montant crédité) est égal au montant demandé (montant envoyé par session). Les écarts viennent des ordres pour lesquels le prélèvement n'est pas passé (pas de crédit, donc pas de rejet). Il faut vérifier ensuite l'écart correspond à quel(s) ordres? 
L'ordre est réglé dans la foulée ou nous avons créé des parts sans argent ? 

2. La deuxième vérification est sur les rejets de prélèvement. Une fois la session est passée, on va recevoir des rejets dans les jours suivants. Donc il faut vérifier si les ordres correspondants sont bien annulés?


__I. Données reçues__
1. Données de relevé bancaire (rejets de prélèvement)
2. Extraction des listes de sessions de prélèvements (compris le nom de la session, date)
3. Fichiers XML sur le détail des ordres compris dans chaque session de prélèvement (un fichier = une session)
4. Données de BO sur les sessions validées
5. Suivi des rejets de ClientOps
6. Fichier de détail des sessions de PEI
7. Données de BO sur les mouvements (compris des sessions PEI retractées)

__II. Cheminement de traitement des données__ :
1. Importer les données de différentes périodes
2. Pour les SUB : 
- Prendre des fichiers XMLs dispo, les rapprocher avec l'extraction des listes de sessions pour voir s'il nous manque des sessions
- Rapprocher les données de XMLs avec Données BO sur les sessions validées. La différence = Rejet BO (rejets de prélèvements selon BO)


3. Pour les PEI :
- Prendre le détail des PEI
- Rapprocher avec les données de mouvements BO pour identifier les ordres rejetés = rejets BO


4. Rapprocher les rejets BO vs rejets dans relevé bancaire pour retrouver la ligne
5. Recroiser avec le suivi de ClientOps pour assurer que la ligne est bien trouvée.

L'objectif est de trouver s'il y a des rejets dans relevé bancaire mais l'ordre n'est pas annulé/rejeté dans BO ?




# Import data

In [None]:
folder_path = "xxxx"

## 1. Relevé bancaire

### Avant 0621

In [None]:
df_prelevements_historique = pd.read_excel(folder_path + "/transformed_data/2. Banque/2. Données avant 0621_Prélèvements.xlsx",sheet_name="Sheet1")

patern_id_transaction = r'(?<=PRLV SEPA EMIS\s)([a-zA-Z\s\-\.\d]*)(?=\sECH)'
patern_nb_transaction = r'(?<=NBR)\/(\d*)'
df_prelevements_historique.loc[:,"ID_remise"] = df_prelevements_historique.loc[:,'Libellé'].str.extract(patern_id_transaction)
df_prelevements_historique.loc[:,"Nb_transaction"] = df_prelevements_historique.loc[:,'Libellé'].str.extract(patern_nb_transaction)
df_prelevements_historique.loc[:,"Nb_transaction"] = df_prelevements_historique.loc[:,"Nb_transaction"].astype(int)

df_rejets_historique = pd.read_excel(folder_path + "/transformed_data/2. Banque/2. Données avant 0621_lignes de débit.xlsx",sheet_name="débit")
rejets_prlv = r'PRLV SEPA REJETE|REJET PRLV SEPA|REMBT PRLV SEPA|PRLV SEPA RETOURNE'
df_rejets_historique["rejets_prlv"] = df_rejets_historique["Libellé"].apply(lambda f: bool(re.search(rejets_prlv,f)))
df_rejets_historique = df_rejets_historique[df_rejets_historique["rejets_prlv"]==True].drop(columns="rejets_prlv")

patern_nb_ordres = r'(?<=NBRE)\/(\d*)'
df_rejets_historique.loc[:,"Nb_ordres"] = df_rejets_historique.loc[:,"Libellé"].str.extract(patern_nb_ordres)
df_rejets_historique.loc[:,"Nb_ordres"] = df_rejets_historique.loc[:,"Nb_ordres"].astype(int)

### Depuis 0621

In [None]:
df_credit_recent = pd.read_excel(folder_path + "/transformed_data/2. Banque/1.0 Depuis 0621_Releve_lignes de crédit.xlsx",sheet_name="Crédit")
df_debit_recent = pd.read_excel(folder_path + "/transformed_data/2. Banque/1.0 Depuis 0621_Releve_lignes de débit.xlsx",sheet_name="Débit")

df_prelevements_recent = df_credit_recent[df_credit_recent["Type_Transaction"] == "PRLV SEPA EMIS"]
df_prelevements_recent = df_prelevements_recent[['Id sys', 'Date', 'Valeur', 'Libellé', 'Ref.', 'Crédit',
       'Fonds', 'Mois', 'Type_Transaction', 'Nb_transaction', 'ID_remise']]
df_rejets_prlv_recent = df_debit_recent[df_debit_recent["Type_Transaction"].isin([
                        "PRLV SEPA REJETE", 'PRLV SEPA RETOURNE','REMBT PRLV SEPA'
                        ])]

patern_nb_ordres = r'(?<=NBRE)\/(\d*)'
df_rejets_prlv_recent.loc[:,"Nb_ordres"] = df_rejets_prlv_recent.loc[:,"Libellé"].str.extract(patern_nb_ordres)
df_rejets_prlv_recent.loc[:,"Nb_ordres"] = df_rejets_prlv_recent.loc[:,"Nb_ordres"].astype(int)

### Concat

In [None]:
df_prelevements = pd.concat([df_prelevements_historique,df_prelevements_recent])
df_prelevements = df_prelevements[['Id sys', 'Date', 'Libellé', 'Valeur', 'Crédit', 'Fonds',
       'Periode', 'Type_Transaction', 'ID_remise', 'Nb_transaction',
       ]]

df_rejets_prlv = pd.concat([df_rejets_historique,df_rejets_prlv_recent])
df_rejets_prlv = df_rejets_prlv[['Id sys', 'Date', 'Libellé', 'Valeur', 'Débit', 'Fonds',
       'Periode', 'Type_Transaction', 'Nb_ordres']]
df_rejets_prlv.loc[:,"Id sys"] = df_rejets_prlv.loc[:,"Id sys"].astype(object)

## 2. Liste des sessions de prélèvements

In [None]:
### La liste Excel des sessions de prélèvements ###
file_path_excel = folder_path + "/raw_data/2. Prélèvement/1. Sessions prlv/Vue Recherche avancée _ Prélèvement _ Paiement (NEW avec identifiant de la remise).xlsx"
sheet_name = "Vue Recherche avancée _ Pré..."
df_liste_session = pd.read_excel(file_path_excel, sheet_name=sheet_name)

## 3. Détail des sessions de prélèvement - XML

In [None]:
#### Importer les données récentes #####
path_to_xml = folder_path + "/raw_data/2. Prélèvement/1. Sessions prlv/Fichiers xml/"
subscription_foler = "Souscriptions/"
filenames = os.listdir(path_to_xml + subscription_foler)
df_sub = pd.DataFrame()
for filename in filenames:
    df_xml_file = read_xml(path_to_xml,subscription_foler,filename)
    df_sub = pd.concat([df_sub,df_xml_file])

In [None]:
#### Les données historiques (les données sont mélangées entre PEI et SUB) ####
hist_folder = "Historique/"
filenames = os.listdir(path_to_xml + hist_folder)
df_hist = pd.DataFrame()
list_file_errors = []
for filename in filenames:
    try:
        df_xml_file = read_xml(path_to_xml,hist_folder,filename)
        df_hist = pd.concat([df_hist,df_xml_file])
    except ValueError:
        list_file_errors.append(filename)
        
### il y a quelques fichiers avec l'encodage = latin-1 au lieu de utf-8
for filename in list_file_errors:
    df_xml_file = read_xml(path_to_xml,hist_folder,filename,'latin-1')
    df_hist = pd.concat([df_hist,df_xml_file])

## 4. Ordres validés - Données BO

In [None]:
#### Importer l'extraction à jour sur les ordres validés
path_folder = folder_path + "/raw_data/2. Prélèvement/1. Sessions prlv/Ordres validés/"
filenames = os.listdir(path_folder)
df_ordres_valides_BO = pd.DataFrame()
for filename in filenames:
    df_file = pd.read_excel(path_folder + filename,sheet_name = "Vue Recherche avancée _ Ordre")
    df_ordres_valides_BO = pd.concat([df_ordres_valides_BO,df_file])

## 5. Details des sessions de PEI

In [None]:
#### Détail full des sessions de PEI #### 
PEI_pathfile = folder_path + "/raw_data/2. Prélèvement/1. Sessions prlv/PEI_Lines.csv"
df_PEI_lines = pd.read_csv(PEI_pathfile,sep=";")

## 6. Mouvements BO

In [None]:
#### Données sur le mouvements BO pour identifier les ordres retractés ### 
BO_pathfile = folder_path + "/raw_data/0. Data BO/Movements full.csv"
df_mouvements_BO = pd.read_csv(BO_pathfile,sep=";")

## 7. Souscription et commentaire

In [None]:
subscription_pathfile = folder_path + "/raw_data/0. Data BO/Subscriptions_full_2.csv"
df_souscription = pd.read_csv(subscription_pathfile,sep=";",low_memory=False)

In [None]:
### Annotation
df_commentaire = pd.read_excel(folder_path + "/transformed_data/commentaire_agg.xlsx",sheet_name="commentaire")

In [None]:
df_souscription = df_souscription[["Id","Idsubscriptionorder"]].rename(columns={"Id":"Id_order"})
df_commentaire = df_commentaire.merge(df_souscription,on="Id_order")

## 8. Suivi des rejets ClientOps

In [None]:
################ SUB ###############
path_rejets = folder_path + "/raw_data/2. Prélèvement/2. Suivi des rejets Client Ops/"
df_rejets_CC = pd.read_excel(path_rejets + "Suivi des rejets CC depuis décembre 2018.xlsx", sheet_name = "Souscriptions")
df_rejets_XL = pd.read_excel(path_rejets + "Suivi des rejets XL depuis décembre 2018.xlsx", sheet_name = "Souscriptions")
df_rejets_EU = pd.read_excel(path_rejets + "Suivi des rejets EU depuis juin 2020.xlsx", sheet_name = "Souscriptions")

df_rejets_CC.loc[:,"Fonds_rejet"] = "CC"
df_rejets_XL.loc[:,"Fonds_rejet"] = "XL"
df_rejets_EU.loc[:,"Fonds_rejet"] = "EU"
df_rejets_SUB_clientops = pd.concat([df_rejets_CC,df_rejets_XL,df_rejets_EU]).reset_index(drop=True)
df_rejets_SUB_clientops.loc[:,"SUB_PEI"] = "SUB"

In [None]:
################ PEI ###############
path_rejets = folder_path + "/raw_data/2. Prélèvement/2. Suivi des rejets Client Ops/"
df_rejets_pei_CC = pd.read_excel(path_rejets + "Suivi des rejets CC depuis décembre 2018.xlsx", sheet_name = "PEI")
df_rejets_pei_XL = pd.read_excel(path_rejets + "Suivi des rejets XL depuis décembre 2018.xlsx", sheet_name = "PEI")
df_rejets_pei_EU = pd.read_excel(path_rejets + "Suivi des rejets EU depuis juin 2020.xlsx", sheet_name = "PEI")

df_rejets_pei_CC.loc[:,"Fonds_rejet"] = "CC"
df_rejets_pei_XL.loc[:,"Fonds_rejet"] = "XL"
df_rejets_pei_EU.loc[:,"Fonds_rejet"] = "EU"
df_rejets_PEI_clientops = pd.concat([df_rejets_pei_CC,df_rejets_pei_XL,df_rejets_pei_EU]).reset_index(drop=True)
df_rejets_PEI_clientops.loc[:,"SUB_PEI"] = "PEI"

# Data Quality

## Fichiers xml

In [None]:
# il y a des fichiers xml qui sont déjà dans le dossier Souscription
df_hist_clean = df_hist[~df_hist["id_session"].isin(df_sub["id_session"])] 

In [None]:
df_xml = pd.concat([df_sub,df_hist_clean])
df_xml.loc[:,'date_session'] = df_xml.loc[:,"id_session"].str.split().str[1]
df_xml.loc[:,'date_session'] = pd.to_datetime(df_xml['date_session'],format='%Y%m%d')

In [None]:
df_xml_lists = df_xml[['filename','id_session','product','date_session']].drop_duplicates()
df_xml_lists.loc[:,"month_year"] = pd.to_datetime(df_xml_lists["date_session"]).dt.to_period('M')
df_xml_lists.groupby(by=["month_year","product"])["id_session"].count().reset_index().to_excel(folder_path + "/output/2. Prlv/3. Prélèvements_DQ_Verification fichiers xml.xlsx",sheet_name="xml",index=False)

In [None]:
df_xml.to_excel(folder_path+"/transformed_data/2. Banque/Prlv_XML concaténés.xlsx",sheet_name="XML",index=False)

## Liste des sessions vs Détail xml

In [None]:
df_liste_session = df_liste_session.reset_index()

In [None]:
######### Vérifier si les fichiers xml sont présents ######## 
df_list_sessions_concat = df_liste_session.merge(df_xml_lists[["id_session","product"]],
                            left_on="Identifiant de la remise",
                            right_on='id_session',
                            how='outer',indicator=True)

df_xml_manquants = df_list_sessions_concat[df_list_sessions_concat['_merge']=="left_only"][df_liste_session.columns] ## d'autres statuts que signé

df_list_session_trouve = df_list_sessions_concat[df_list_sessions_concat['_merge']=="both"][["Identifiant","Statut","Ordre de prélèvement",\
                                                                    "Créé le","Session PEI","Identifiant de la remise",\
                                                                    'Nb de transactions', 'Montant','product']]

In [None]:
df_list_sessions_concat["Fichier xml présent?"] = df_list_sessions_concat['_merge'].map({"both":"Oui",
                                                                              "left_only":"Non",
                                                                              "right_only":"xml présent mais ligne non exisante"})

In [None]:
df_liste_session_check = df_liste_session.merge(df_list_sessions_concat[["Nom du fichier SEPA","Fichier xml présent?"]],on="Nom du fichier SEPA",how="outer")
df_liste_session_check.loc[:"Fichier xml présent?"] = df_liste_session_check.loc[:"Fichier xml présent?"].fillna("Non")

## Montant demandé vs Montant reçu (Session de prélèvement relevé crédit vs BO)

In [None]:
df_prelevements = df_prelevements[df_prelevements["Date"]<="2022-05-31"]
df_list_session_trouve = df_list_session_trouve[df_list_session_trouve["Créé le"] <= '2022-05-31 00:00:00']

In [None]:
df_list_sessions_concat.loc[:,"Identifiant de la remise"] = df_list_sessions_concat.loc[:,"Identifiant de la remise"].str.upper()
df_prelevements.loc[:,"ID_remise"] = df_prelevements.loc[:,"ID_remise"].str.upper()
df_prelevements_sub = df_prelevements[df_prelevements["ID_remise"].str.contains("SUB",na=False)]

In [None]:
df_list_sessions_concat.loc[:,"Identifiant_remise_court"] = df_list_sessions_concat.loc[:,"Identifiant de la remise"].str[0:22]
df_prelevements.loc[:,"ID_remise_court"] = df_prelevements.loc[:,"ID_remise"].str[0:22]

In [None]:
### Rapprocher avec le relevé bancaire pour voir si les données sont complètes
df_list_sessions_concat = df_list_sessions_concat.drop(columns="_merge").merge(df_prelevements,\
                                          left_on = "Identifiant_remise_court",
                                          right_on = "ID_remise_court",
                                          how = "outer", indicator=True)

In [None]:
#### Les xml manquants (session trouvée dans relevé mais pas dans fichier Excel - BO)
df_not_match1 = df_list_sessions_concat[df_list_sessions_concat["_merge"]=="right_only"]
df_not_match1 = df_not_match1[df_prelevements.columns]
# df_not_match.to_excel(folder_path + "/output/2. Prlv/3. Prélèvements_DQ_Session sur relevé non trouvées dans BO.xlsx",sheet_name="Sessions non trouvées", index=False)

In [None]:
df_not_match1 = df_not_match1[df_not_match1["ID_remise"].str.contains("SUB",na=False)]
df_not_match1

In [None]:
### Pour les sessions trouvées, vérifier si le montant demandé = montant reçu sur le compte
df_list_sessions = df_list_sessions_concat[df_list_sessions_concat["_merge"]=="both"]
df_list_sessions.loc[:,"Meme_montant"] = df_list_sessions["Montant"] == df_list_sessions["Crédit"]
df_list_sessions.loc[:,"Meme_nb_transaction"] = df_list_sessions["Nb de transactions"] == df_list_sessions["Nb_transaction"]
df_list_sessions.loc[:,"Ecart_montant"] = df_list_sessions["Montant"] - df_list_sessions["Crédit"]
df_list_sessions.loc[:,"Ecart_nb_transaction"] = df_list_sessions["Nb de transactions"] - df_list_sessions["Nb_transaction"]

In [None]:
df_list_sessions["Fichier xml présent?"].value_counts()

In [None]:
######## des sessions dans relevé (crédit),dans Excel mais pas de xml
list_sessions_manquantes  = list(df_list_sessions[df_list_sessions["Fichier xml présent?"]=="Non"]["ID_remise"])
df_not_matched_2 = df_prelevements_sub[df_prelevements_sub["ID_remise"].isin(list_sessions_manquantes)]

In [None]:
df_not_match = pd.concat([df_not_match1,df_not_matched_2])
df_not_match.to_excel(folder_path + "/output/2. Prlv/Prlv_DQ_Session sur relevé non trouvées dans BO.xlsx",sheet_name="Sessions non trouvées", index=False)

In [None]:
df_not_match["Crédit"].sum()

In [None]:
# Les sessions ayant un écart dans le montant demandé vs montant reçu
df_ecart_session = df_list_sessions[df_list_sessions["Meme_montant"]==False][["Identifiant","id_session","Nb de transactions","Montant","Créé le",\
                                           "Id sys","Libellé","Fonds","Nb_transaction","Crédit","Valeur","Ecart_montant","Ecart_nb_transaction"]]
df_ecart_session_detail = df_ecart_session.merge(df_xml,
                      left_on=["id_session","Ecart_montant"],
                      right_on=["id_session","amount"])

df_ecart_session_detail = df_ecart_session_detail.groupby(by=['Identifiant', 'id_session', 'Nb de transactions', 'Montant', 'Créé le',\
                                                              'Id sys', 'Libellé', 'Fonds', 'Nb_transaction', 'Crédit', 'Valeur',\
                                                              'Ecart_montant', 'Ecart_nb_transaction']).agg({'client_name':" | ".join,
                                                                                                           'order_name': " | ".join}).reset_index()

df_ecart_session_detail.to_excel(folder_path + "/output/2. Prlv/Prlv_Ecart montant dans les sessions_Details.xlsx",sheet_name="Ecart", index=False)

In [None]:
df_ecart_session[df_ecart_session["Identifiant"].str.contains("souscription")]["Identifiant"].count()

In [None]:
df_pei = df_ecart_session[df_ecart_session["Identifiant"].str.contains("PEI")]
df_sub = df_ecart_session[df_ecart_session["Identifiant"].str.contains("souscription")]

In [None]:
# df_ecart_session.to_excel(folder_path + "/output/2. Prlv/Prlv_Ecart montant dans les sessions_Details.xlsx",sheet_name="Ecart", index=False)

In [None]:
df_prelevements["Crédit"].sum() - df_list_sessions["Crédit"].sum()  ### Montant des sessions manquantes + ecart

In [None]:
df_list_sessions["Fonds_xml"] = df_list_sessions["Ordre de prélèvement"].str[0:2].fillna(df_list_sessions["Session PEI"].str[0:2])
df_list_sessions["Bon_compte"] = df_list_sessions["Fonds_xml"] == df_list_sessions["Fonds"]

In [None]:
len(df_ecart_session)

In [None]:
df_ecart_session["pei_sub"] = df_ecart_session["id_session"].str[0:3]
df_ecart_session["pei_sub"] = df_ecart_session["pei_sub"].fillna("PEI")
df_ecart_session[df_ecart_session["pei_sub"]=="PEI"]["Ecart_nb_transaction"].sum()

# Rapprochement

## SUB

In [None]:
df_not_match["Nb_transaction"].sum()

In [None]:
df_xml["pei_sub"] = df_xml["id_session"].str[:3]
df_xml_sub = df_xml[df_xml["pei_sub"]=="SUB"]
df_xml_sub = df_xml_sub[df_xml_sub["date_session"]<= "2022-10-30"]

In [None]:
liste_sessions_credit = list(df_prelevements_sub["ID_remise"].str[0:22])
######### Supprimer les fichiers qui ne sont pas dans les sessions de prélèvements #######
df_xml_sub = df_xml_sub[df_xml_sub["id_session"].str.upper().str[0:22].isin(liste_sessions_credit)]

In [None]:
df_prelevements_sub["Fonds"].value_counts()

In [None]:
df_xml_sub["ord_prlv"] = df_xml_sub["ord_prlv"].str[0:13]

In [None]:
df_ordres_valides_BO =df_ordres_valides_BO[df_ordres_valides_BO["Créé le"]<= "2022-10-30"]
df_ordres_valides_BO["Ordre de prélèvement"] = df_ordres_valides_BO["Ordre de prélèvement"].str[0:13]
df_ordres_valides_BO =df_ordres_valides_BO[~df_ordres_valides_BO["Ordre de prélèvement"].str.contains("11/2022|12/2022",na=False)]

In [None]:
df_xml_sub["ord_prlv"] = df_xml_sub["ord_prlv"].str[0:13]

In [None]:
len(df_ordres_valides_BO)

In [None]:
df_xml_sub_agg = df_xml_sub.groupby(by=["id_session","product"])["amount"].sum().reset_index()
df_xml_sub_agg["id_session"] = df_xml_sub_agg["id_session"].str.upper()
df_xml_sub_agg

In [None]:
df_merge = df_xml_sub_agg.merge(df_prelevements, left_on = "id_session",right_on="ID_remise")

In [None]:
df_merge["Fonds_diff"] = df_merge["Fonds"] == df_merge["product"]

### Ordres validés

#### Paiement au mauvais compte

In [None]:
df_ordres_valides_BO["Bon_compte"] = df_ordres_valides_BO["Produit"] == df_ordres_valides_BO["Ordre de prélèvement"].str[0:2]
df_ordres_valides_BO[df_ordres_valides_BO["Bon_compte"]==False].to_excel(folder_path + "/output/2. Prlv/Prlv_mauvais compte.xlsx",sheet_name="Mauvais compte",index=False)

#### Ordres validés mais non trouvés dans les fichiers xml

In [None]:
### Rapprochement entre les ordres validés BO versus les fichiers XML
df_concat_sessions = df_ordres_valides_BO.merge(df_xml_sub,
                                            left_on=["Identifiant ordre CRM","Ordre de prélèvement"],
                                            right_on=["order_name","ord_prlv"],
                                            how="outer", indicator=True)

In [None]:
df_ordres_not_in_xml = df_concat_sessions[df_concat_sessions["_merge"]=="left_only"] #### Données xml hors période d'analyse (après oct 2022 ou statut différent de Signé)
df_rejets_BO = df_concat_sessions[df_concat_sessions["_merge"]=="right_only"][df_xml_sub.columns] ## ordres dans xml mais pas validés
df_both = df_concat_sessions[df_concat_sessions["_merge"]=="both"] ### ordres validés et l'argent reçu

In [None]:
#### Enlever les sessions après 31/05/2022
pattern = "([\d\/]+)"
df_ordres_not_in_xml["Date_prlv"] = df_ordres_not_in_xml["Ordre de prélèvement"].str.extract(pattern)
df_ordres_not_in_xml["Date_prlv"] = pd.to_datetime(df_ordres_not_in_xml["Date_prlv"],format = "%d/%m/%Y",errors="coerce").fillna(pd.to_datetime(df_ordres_not_in_xml["Date_prlv"],format = "%Y%m%d",errors="coerce"))
df_ordres_not_in_xml = df_ordres_not_in_xml[df_ordres_not_in_xml["Date_prlv"]<="2022-05-31"]

In [None]:
### List des xml manquants
df_xml_manquants = df_list_sessions[df_list_sessions["Fichier xml présent?"]=="Non"]
df_xml_manquants = df_xml_manquants[df_xml_manquants["Identifiant"].str.contains("souscription")]
df_xml_manquants["Ordre de prélèvement"] = df_xml_manquants["Ordre de prélèvement"].str[0:13]

In [None]:
len(df_xml_manquants)

In [None]:
### Enlever les sessions pour lesquelles le fichier xml n'est pas présent
df_ordres_not_in_xml = df_ordres_not_in_xml[~df_ordres_not_in_xml["Ordre de prélèvement"].isin(df_xml_manquants["Ordre de prélèvement"].tolist())]#.to_excel(folder_path + "/output/2. Prlv/Prlv_ordres orphelins.xlsx",sheet_name="Sheet1")

In [None]:
len(df_ordres_not_in_xml)

In [None]:
### Agréger les ordres manquants dans xml par session
df_ordres_not_in_xml_agg = df_ordres_not_in_xml.groupby("Ordre de prélèvement").agg({"Identifiant ordre CRM":"count","Montant souscript":"sum"}).reset_index()
df_ordres_not_in_xml_agg = df_ordres_not_in_xml_agg.rename(columns={"Identifiant ordre CRM":"nb_ordres"})
df_list_sessions["Ordre de prélèvement"] = df_list_sessions["Ordre de prélèvement"].str[0:13]

In [None]:
### Re-rapprocher une deuxième fois avec le numéro d'ordre de prélèvement (si le montant de toute la session match, on valide)
### car il y a beaucoup d'ordres dans le fichier xml qui sont mal renseigné (par exemple : MS-145 au lieu de ORD-xxxx)
### c'est pour ça qu'on n'a pas trouvé ces ordres dans les fichiers XMLs

df_ordres_not_in_xml_agg = df_list_sessions[["Ordre de prélèvement","Nb de transactions"]].merge(df_ordres_not_in_xml_agg,on="Ordre de prélèvement")
df_ordres_not_in_xml_agg["Ecart_nb_ordres"] = df_ordres_not_in_xml_agg["Nb de transactions"] - df_ordres_not_in_xml_agg["nb_ordres"]

Pour les lignes dont : 
- Ecart_nb_ordres > 10 : les sessions splittées en deux fichiers (2 lignes) ou il y a des rejets
- Ecart_nb_ordres petit (<=3) : ordres validés mais non trouvés dans le fichier xml

In [None]:
df_ordres_not_in_xml_agg_checked = df_ordres_not_in_xml_agg[df_ordres_not_in_xml_agg["nb_ordres"]<=3]
df_ordres_not_in_xml = df_ordres_not_in_xml[df_ordres_not_in_xml["Ordre de prélèvement"].isin(df_ordres_not_in_xml_agg_checked["Ordre de prélèvement"])][["Ordre de prélèvement","Associé","Montant souscript","Identifiant ordre CRM"]]

In [None]:
df_ordres_not_in_xml.to_excel(folder_path + "/output/2. Prlv/Prlv_Ordres non trouvés dans les fichiers xml.xlsx",sheet_name="ordres_not_in_xml",index=False)

#### Montant de souscription versus Montant prélevé ?

In [None]:
df_both["Ecart_montant"] = df_both["amount"] - df_both["Montant souscript"]

In [None]:
df_ecart_montant_prlv = df_both[abs(df_both["Ecart_montant"]) >= 1][['Identifiant ordre CRM', 'Créé le',
       'Code associé', 'Associé', 'Souscripteur PP', 'Souscripteur PM',
       'Produit', 'Type de propriété', 'Statut', 'Montant souscript',
       'Ordre de prélèvement', 'client_name', 'order_name', 'date_sign', 'amount', 'product',
       'id_session', 'ord_prlv','date_session',"Ecart_montant"]]

In [None]:
df_ecart_montant_prlv.to_excel(folder_path+"/output/2. Prlv/Prlv_Ordres_Montant prélevé different du montant souscript.xlsx",sheet_name="Ecart",index=False)

#### Ordres rejetés (BO)

In [None]:
df_rejets_BO = df_rejets_BO[['client_name', 'order_name', 'date_sign', 'amount', 'product','id_session','date_session','ord_prlv']]
df_rejets_BO = df_rejets_BO.sort_values(by = ["order_name","date_session","product"])
df_rejets_BO["id_ord_unique"] = df_rejets_BO["ord_prlv"] + " | " + df_rejets_BO["order_name"] ## Créer l'id unique pour le rapprochement
df_rejets_BO["nb_ord"] = 1

In [None]:
### Identifier tous les ordres qui sont pas bien renseignés le numéro :

df_rejets_BO_agg = df_rejets_BO.groupby(by="ord_prlv").agg({"date_session":"count","amount":"sum"}).reset_index().rename(columns={"date_session":"Nb ordres"})
df_rejets_BO_agg = df_rejets_BO_agg.merge(df_ordres_not_in_xml_agg[["Ordre de prélèvement","nb_ordres","Montant souscript"]],left_on= "ord_prlv", right_on="Ordre de prélèvement",how="outer",indicator=True)
df_rejets_BO_agg = df_rejets_BO_agg[df_rejets_BO_agg["_merge"]!="right_only"]
df_rejets_BO_agg["Ecart_nb_ordres"] = df_rejets_BO_agg["Nb ordres"] - df_rejets_BO_agg["nb_ordres"]
df_rejets_BO_agg["Ecart_montant"] = df_rejets_BO_agg["amount"] - df_rejets_BO_agg["Montant souscript"]
df_rejets_BO_agg = df_rejets_BO_agg[df_rejets_BO_agg["Ecart_nb_ordres"]!=0]

In [None]:
### Si l'écart de nb ordres = 1, on récupère l'ordre rejeté : 
df_rejets_BO_agg_1_ord = df_rejets_BO_agg[df_rejets_BO_agg["Ecart_nb_ordres"]==1]
df_rejets_BO_1_ord = df_rejets_BO_agg_1_ord[["ord_prlv","Ecart_montant"]].merge(df_xml,left_on=["ord_prlv","Ecart_montant"],
                                                                               right_on=["ord_prlv","amount"])

In [None]:
### Enlever les ordres dont le nom est mal renseigné
df_rejets_BO = df_rejets_BO[df_rejets_BO["ord_prlv"].isin(df_rejets_BO_agg[df_rejets_BO_agg["Ecart_nb_ordres"]!=1]["ord_prlv"])]

df_rejets_BO = pd.concat([df_rejets_BO,df_rejets_BO_agg_1_ord])

df_rejets_BO = df_rejets_BO.drop(columns=['Nb ordres', 'Ordre de prélèvement', 'nb_ordres', 'Montant souscript',
       '_merge', 'Ecart_nb_ordres', 'Ecart_montant'])

### Checker avec ClientOps

In [None]:
df_rejets_SUB_clientops['Réf. de bout en bout'] = df_rejets_SUB_clientops['Réf. de bout en bout'].apply(lambda x :"_".join(x.split()[:2]))

In [None]:
df_rejets_clientops = pd.concat([df_rejets_SUB_clientops,df_rejets_PEI_clientops])

In [None]:
df_rejets_clientops = df_rejets_clientops[['Date de rejet', 'Date opé. initiale', 'Montant', 'Réf. mandat',
                       'Débiteur','Chargé de dossier', 'Commentaires/régularisation',
                       'Date réception fonds', 'Fonds_rejet','Réf. de bout en bout',
                       'Commentaire/régularisation',"SUB_PEI"]]

In [None]:
### Nettoyer les données
df_rejets_clientops["Date de rejet"] = df_rejets_clientops["Date de rejet"].fillna(df_rejets_clientops["Date opé. initiale"])
df_rejets_clientops["Date de rejet"] = df_rejets_clientops["Date de rejet"].astype(str)
df_rejets_clientops["Date opé. initiale"] = df_rejets_clientops["Date opé. initiale"].astype(str)

df_rejets_clientops["Date de rejet"] = df_rejets_clientops["Date de rejet"].str.replace(r'\t','',regex=True)
df_rejets_clientops["Date opé. initiale"] = df_rejets_clientops["Date opé. initiale"].str.replace(r'\t',"")
df_rejets_clientops["Réf. mandat"] = df_rejets_clientops["Réf. mandat"].str.replace(r'\t',"")
df_rejets_clientops["Débiteur"] = df_rejets_clientops["Débiteur"].str.replace(r'\t',"")
df_rejets_clientops["Date de rejet"]= pd.to_datetime(df_rejets_clientops["Date de rejet"],format='%Y-%m-%d %H:%M:%S',errors="coerce").fillna(pd.to_datetime(df_rejets_clientops["Date de rejet"], format='%d/%m/%Y',errors="coerce"))

df_rejets_clientops["Montant"] = df_rejets_clientops["Montant"].astype(str)
df_rejets_clientops["Montant"] = df_rejets_clientops["Montant"].str.replace("EUR","")
df_rejets_clientops["Montant"] = df_rejets_clientops["Montant"].str.replace(" ","")
df_rejets_clientops["Montant"] = df_rejets_clientops["Montant"].str.replace(",",".")
df_rejets_clientops["Montant"] = df_rejets_clientops["Montant"].astype(float)

In [None]:
### A enlever après car les données bancaires reçus sont jusqu'au 31/10/2022
df_rejets_clientops = df_rejets_clientops[df_rejets_clientops["Date de rejet"]<='2022-10-31'] 
df_rejets_BO = df_rejets_BO[df_rejets_BO["date_session"]<='2022-10-31']

In [None]:
df_rejets_ClientOps_BO = df_rejets_clientops.merge(df_rejets_BO,
                                 left_on=['Réf. mandat','Fonds_rejet'],
                                 right_on=['order_name','product'],
                                how='outer',indicator=True)
len(df_rejets_ClientOps_BO[df_rejets_ClientOps_BO["_merge"]=="both"])

In [None]:
len(df_rejets_BO)

## Session PEI

In [None]:
df_mouvements_BO = df_mouvements_BO[df_mouvements_BO["SubscriptionType"]=="Mandat PEI"]
df_mouvements_BO = df_mouvements_BO[~df_mouvements_BO["Retraction_Order_Id"].isnull()]

df_mouvements_BO["MovementDate"] = pd.to_datetime(df_mouvements_BO["MovementDate"],format = '%Y-%m-%d')
df_PEI_lines["SignatureDate"] = pd.to_datetime(df_PEI_lines["SignatureDate"],format = '%Y-%m-%d')

df_rejets_PEI = df_PEI_lines.merge(df_mouvements_BO[["Idmove",'Retraction_Order_Id', 'Retraction_Order_Name']],
                                   left_on="MovementName",right_on="Idmove")
# df_rejets_PEI = df_rejets_PEI[df_rejets_PEI["_merge"]=="both"].drop(columns="_merge")

In [None]:
df_rejets_PEI["date_session"] = df_rejets_PEI["SessionPEIName"].apply(lambda x : x.split("_")[1][0:8])
df_rejets_PEI["date_session"] = pd.to_datetime(df_rejets_PEI["date_session"],format = "%Y%m%d")
df_rejets_PEI["Amount"] = df_rejets_PEI["Amount"].str.replace(",",".").astype(float)
df_rejets_PEI["nb_ord"] = 1
df_rejets_PEI["product"] = df_rejets_PEI["SessionPEIName"].apply(lambda x : str(x).split("_")[0])
df_rejets_PEI["year"] = df_rejets_PEI["SessionPEIName"].str.split("_").str[1].str[2:4]
df_rejets_PEI["month"] = df_rejets_PEI["SessionPEIName"].str.split("_").str[1].str[4:6]
df_rejets_PEI["ord_prlv"] = "CORUM MON PE IMMO " + df_rejets_PEI["month"] + "/" + df_rejets_PEI["year"]
df_rejets_PEI["id_ord_unique"] =df_rejets_PEI["ord_prlv"] + " | " + df_rejets_PEI['MandateName']
df_rejets_PEI = df_rejets_PEI.rename(columns={"Amount":"amount",
                                             "AssocieName":"client_name"
                                             }).drop(columns=["month","year"])

### Rapprochement des rejets

In [None]:
df_rejets_BO_v0 = df_rejets_BO
df_rejets_prlv_v0 = df_rejets_prlv
df_rejets_PEI_v0 = df_rejets_PEI
df_rejets_ClientOps_v0 = df_rejets_clientops

In [None]:
#################

In [None]:
df_rejets_clientops = df_rejets_ClientOps_v0[df_rejets_ClientOps_v0["Date de rejet"]<="2022-05-31"]
df_rejets_BO = df_rejets_BO_v0[df_rejets_BO_v0["date_session"]<="2022-05-31"]
df_rejets_BO = df_rejets_BO.drop_duplicates(subset=["id_ord_unique","amount"],keep='first')
df_rejets_prlv = df_rejets_prlv_v0[df_rejets_prlv_v0["Valeur"]<="2022-06-10"]

df_rejets_PEI = df_rejets_PEI_v0
df_rejets_PEI = df_rejets_PEI[df_rejets_PEI["date_session"]<="2022-05-31"]

In [None]:
#########################

In [None]:
list_fonds = ["XL","EU","CC"]
df_rejets_SUB_trouves = pd.DataFrame()
df_rejets_PEI_trouves = pd.DataFrame()
df_rejets_prlv_trouves = pd.DataFrame()
df_rejets_ClientOps_trouve = pd.DataFrame()
df_ordres_non_annules = pd.DataFrame()
df_rejets_SUB_restant = pd.DataFrame()
df_rejets_PEI_restant = pd.DataFrame()
df_rejets_prlv_restant = pd.DataFrame()
for fonds in list_fonds :
    df_rejets_BO_fonds = df_rejets_BO[df_rejets_BO["product"]==fonds]
    df_rejets_clientops_fonds = df_rejets_clientops[df_rejets_clientops["Fonds_rejet"]==fonds]
    df_rejets_clientops_PEI_fonds = df_rejets_clientops_fonds[df_rejets_clientops_fonds["SUB_PEI"]=="PEI"]
    df_rejets_clientops_fonds = df_rejets_clientops_fonds[df_rejets_clientops_fonds["SUB_PEI"]=="SUB"]
    df_rejets_prlv_fonds = df_rejets_prlv[df_rejets_prlv['Fonds']==fonds]
    df_rejets_PEI_fonds = df_rejets_PEI[df_rejets_PEI["product"]==fonds]


    df_rejets_SUB_trouves_fonds,df_rejets_PEI_trouves_fonds,df_rejets_prlv_trouves_fonds,df_rejets_ClientOps_trouve_fonds,df_ordres_non_annules_fonds = full_rapprochement_prelvement(df_rejets_prlv_fonds,df_rejets_BO_fonds,df_rejets_PEI_fonds,df_rejets_clientops_fonds,df_rejets_clientops_PEI_fonds)

    df_rejets_SUB_restant_fonds = df_rejets_BO_fonds[~df_rejets_BO_fonds["id_ord_unique"].isin(df_rejets_SUB_trouves_fonds["id_ord_unique"])]
    df_rejets_PEI_restant_fonds = df_rejets_PEI_fonds[~df_rejets_PEI_fonds["id_ord_unique"].isin(df_rejets_PEI_trouves_fonds["id_ord_unique"])]
    df_rejets_prlv_restant_fonds = df_rejets_prlv_fonds[~df_rejets_prlv_fonds["Id sys"].isin(df_rejets_prlv_trouves_fonds["Id sys"])]
    df_rejets_prlv_restant_fonds["Nb_ordres_restant"] = df_rejets_prlv_restant_fonds["Nb_ordres"]
    df_rejets_prlv_trouves_partiel_fonds = df_rejets_prlv_trouves_fonds[df_rejets_prlv_trouves_fonds["Statut"]=="1 rejet pls ordres_rapprochement partiel"]
    df_rejets_prlv_restant_fonds = pd.concat([df_rejets_prlv_restant_fonds,df_rejets_prlv_trouves_partiel_fonds])

    df_rejets_SUB_trouves = pd.concat([df_rejets_SUB_trouves,df_rejets_SUB_trouves_fonds])
    df_rejets_PEI_trouves = pd.concat([df_rejets_PEI_trouves,df_rejets_PEI_trouves_fonds])
    df_rejets_prlv_trouves = pd.concat([df_rejets_prlv_trouves,df_rejets_prlv_trouves_fonds])
    df_rejets_ClientOps_trouve = pd.concat([df_rejets_ClientOps_trouve,df_rejets_ClientOps_trouve_fonds])
    df_ordres_non_annules = pd.concat([df_ordres_non_annules,df_ordres_non_annules_fonds])
    df_rejets_SUB_restant = pd.concat([df_rejets_SUB_restant,df_rejets_SUB_restant_fonds])
    df_rejets_PEI_restant = pd.concat([df_rejets_PEI_restant,df_rejets_PEI_restant_fonds])
    df_rejets_prlv_restant = pd.concat([df_rejets_prlv_restant,df_rejets_prlv_restant_fonds])

In [None]:
df_rejets_prlv_restant.groupby("Fonds")["Nb_ordres_restant"].sum()

In [None]:
df_rejets_SUB_restant.groupby('product')["client_name"].count()

In [None]:
df_rejets_PEI_restant.groupby('product')["client_name"].count()

## Check résultat

## concat

In [None]:
print(f'nb rejets prlv_restant : {df_rejets_prlv_restant["Nb_ordres_restant"].sum()}')
print(f'nb rejets BO_restant : {len(df_rejets_SUB_restant)+len(df_rejets_PEI_restant)}')
print(f'nb rejets SUB_restant : {len(df_rejets_SUB_restant)}')
print(f'nb rejets PEI_restant : {len(df_rejets_PEI_restant)}')

In [None]:
print(f'nb lignes prlv_trouvé : {len(df_rejets_prlv_trouves)}')
print(f'nb rejets prlv_trouvé : {df_rejets_prlv["Nb_ordres"].sum()-df_rejets_prlv_restant["Nb_ordres_restant"].sum()}')
print(f'nb rejets BO_trouvé : {len(df_rejets_SUB_trouves)+len(df_rejets_PEI_trouves)}')
print(f'nb rejets SUB_trouvé : {len(df_rejets_SUB_trouves)}')
print(f'nb rejets PEI_trouvé : {len(df_rejets_PEI_trouves)}')
print(f'nb rejets ClientOps_trouvé : {len(df_rejets_ClientOps_trouve)}')
print(f'nb rejets rejetés mais non annulés : {len(df_ordres_non_annules)}')

In [None]:
df_rejets_SUB_trouves.to_excel(folder_path + "/output/2. Prlv/Prlv_Rejets Souscription trouves.xlsx",sheet_name="SUB_trouvé")
df_rejets_PEI_trouves.to_excel(folder_path + "/output/2. Prlv/Prlv_Rejets PEI trouves.xlsx",sheet_name="PEI_trouvé")
df_rejets_prlv_trouves.to_excel(folder_path + "/output/2. Prlv/Prlv_Rejets relevé bancaire trouves.xlsx",sheet_name="releve bancaire")
df_rejets_ClientOps_trouve.to_excel(folder_path + "/output/2. Prlv/Prlv_Rejets ClientOps trouves.xlsx",sheet_name="rejets ClientOps")

In [None]:
### Ordres rejetés avec virements trouvés mais non trouvés dans rejets BO ####
### Récupérer commentaire
df_ordres_non_annules = df_ordres_non_annules.merge(df_commentaire[["Idsubscriptionorder","NoteBO"]],
                                                    left_on="Réf. mandat",right_on="Idsubscriptionorder",how="outer",indicator=True)
df_ordres_non_annules = df_ordres_non_annules[df_ordres_non_annules["_merge"]!="right_only"]
df_ordres_non_annules = df_ordres_non_annules.drop(columns=["id_ord_unique","Id sys","Idsubscriptionorder","_merge"])


df_ordres_non_annules.to_excel(folder_path + "/output/2. Prlv/Prlv_Light checks_Ordres rejetés mais non_annules.xlsx",sheet_name="ordres_non_annules")

In [None]:
df_rejets_SUB_restant = df_rejets_SUB_restant.merge(df_commentaire[["Idsubscriptionorder","NoteBO"]],
                                                    left_on="order_name",right_on="Idsubscriptionorder",how="outer",indicator=True)
df_rejets_SUB_restant = df_rejets_SUB_restant[df_rejets_SUB_restant["_merge"]!="right_only"]

In [None]:
df_rejets_SUB_restant.to_excel(folder_path + "/output/2. Prlv/Prlv_Heavy checks_Rejets Souscription restant.xlsx",sheet_name="rejets_SUB_restant")
df_rejets_PEI_restant.to_excel(folder_path + "/output/2. Prlv/Prlv_Heavy checks_Rejets PEI restant.xlsx",sheet_name="rejets_PEI_restant")
df_rejets_prlv_restant.to_excel(folder_path + "/output/2. Prlv/Prlv_Heavy checks_Rejets relevé bancaire restant.xlsx",sheet_name="rejets_prlv_restant")