# INTRODUCTION

In [1]:
import pandas as pd
from datetime import datetime

from kiblib.utils.db import DbConn

In [2]:
db_conn = DbConn().create_engine()

In [3]:
query = """SELECT * 
FROM koha_prod.borrowers b"""

In [4]:
adherents = pd.read_sql(query, db_conn)

In [5]:
adherents.columns #avant la traduction

Index(['borrowernumber', 'cardnumber', 'surname', 'firstname', 'title',
       'othernames', 'initials', 'streetnumber', 'streettype', 'address',
       'address2', 'city', 'state', 'zipcode', 'country', 'email', 'phone',
       'mobile', 'fax', 'emailpro', 'phonepro', 'B_streetnumber',
       'B_streettype', 'B_address', 'B_address2', 'B_city', 'B_state',
       'B_zipcode', 'B_country', 'B_email', 'B_phone', 'dateofbirth',
       'branchcode', 'categorycode', 'dateenrolled', 'dateexpiry',
       'date_renewed', 'gonenoaddress', 'lost', 'debarred', 'debarredcomment',
       'contactname', 'contactfirstname', 'contacttitle', 'borrowernotes',
       'relationship', 'sex', 'password', 'flags', 'userid', 'opacnote',
       'contactnote', 'sort1', 'sort2', 'altcontactfirstname',
       'altcontactsurname', 'altcontactaddress1', 'altcontactaddress2',
       'altcontactaddress3', 'altcontactstate', 'altcontactzipcode',
       'altcontactcountry', 'altcontactphone', 'smsalertnumber',
       '

In [6]:
adherents = adherents.rename(columns={"cardnumber":"numéro de carte",
                              "surname":"nom",
                              "firstname":"prénom",
                              "title": "Madame ou Monsieur",
                              "othernames":"nom de l'épouse",
                              "address":"adresse",
                              "address2":"complément d'adresse",
                              "city":"ville",
                              "zipcode":"code postal",
                              "country":"pays",
                              "phone":"numéro de téléphone fixe",
                              "mobile":"numéro de téléphone portable",
                              "B_address":"date de l'appel téléphonique",
                              "B_address2":"résultat de l'appel",
                              "B_city":"date demande création tiers",
                              "B_state":"numéro du titre de recette",
                              "B_zipcode":"numéro de tiers GF",
                              "B_country":"date création titre de recette",
                              "dateofbirth":"date de naissance",
                              "branchcode":"site de rattachement",
                              "categorycode":"type de carte",
                              "dateenrolled":"date d'inscription",
                              "dateexpiry":"date d'expiration",
                              "date_renewed":"date de renouvellement",
                              "gonenoaddress":"parti sans laisser d'adresse",
                              "lost":"carte perdue",
                              "debarred":"date de suspension",
                              "contactname":"nom du garant",
                              "contactfirstname":"prénom du garant",
                              "relationship":"relation garant",
                              "password":"mot de passe",
                              "contactnote":"documents à payer",
                              "altcontactfirstname":"lieu et date de naissance de l'adhérent",
                              "altcontactsurname":"lieu de naissance du garant"})

In [7]:
adherents.columns # après la traduction

Index(['borrowernumber', 'numéro de carte', 'nom', 'prénom',
       'Madame ou Monsieur', 'nom de l'épouse', 'initials', 'streetnumber',
       'streettype', 'adresse', 'complément d'adresse', 'ville', 'state',
       'code postal', 'pays', 'email', 'numéro de téléphone fixe',
       'numéro de téléphone portable', 'fax', 'emailpro', 'phonepro',
       'B_streetnumber', 'B_streettype', 'date de l'appel téléphonique',
       'résultat de l'appel', 'date demande création tiers',
       'numéro du titre de recette', 'numéro de tiers GF',
       'date création titre de recette', 'B_email', 'B_phone',
       'date de naissance', 'site de rattachement', 'type de carte',
       'date d'inscription', 'date d'expiration', 'date de renouvellement',
       'parti sans laisser d'adresse', 'carte perdue', 'date de suspension',
       'debarredcomment', 'nom du garant', 'prénom du garant', 'contacttitle',
       'borrowernotes', 'relation garant', 'sex', 'mot de passe', 'flags',
       'userid', 'op

In [13]:
for i in adherents:
    print(adherents[i])
    print("----------------------------------------------------------------")

0            5
1            9
2           15
3           25
4           28
         ...  
29044    72523
29045    72524
29046    72525
29047    72526
29048    72527
Name: borrowernumber, Length: 29049, dtype: int64
----------------------------------------------------------------
0        X0001654721
1        X0002058641
2        X0001920261
3        X0002404233
4        X0001659292
            ...     
29044    X0002653631
29045    X0002653648
29046    X0002653662
29047    X0002653655
29048    X0002653679
Name: numéro de carte, Length: 29049, dtype: object
----------------------------------------------------------------
0          BOUNOUA
1         BENTAHAR
2           BARLET
3            SEYDI
4           DUMONT
           ...    
29044       RAZOUK
29045        VAAST
29046      MOUSSIT
29047      MOUSSIT
29048    SAUDEMONT
Name: nom, Length: 29049, dtype: object
----------------------------------------------------------------
0             Juhra
1              Ryad
2           Camill

# DÉFINITION DE QUELQUES VARIABLES
# Transformation des colonnes au format `date`

In [8]:
adherents["date de naissance"] = pd.to_datetime(adherents["date de naissance"])

In [9]:
adherents["date d'inscription"] = pd.to_datetime(adherents["date d'inscription"])

In [10]:
# adherents["date d'expiration"] = pd.to_datetime(adherents["date d'expiration"])

In [11]:
adherents["date d'de renouvellement"] = pd.to_datetime(adherents["date de renouvellement"])

# Deadlines

In [14]:
deadline_18_ans = pd.to_datetime("today") - pd.Timedelta(365*18, unit='D')

# Types d'adhérents

In [15]:
adherents_mineurs = adherents[adherents["date de naissance"] < deadline_18_ans]

In [16]:
adherents_majeurs = adherents[adherents["date de naissance"] > deadline_18_ans]

# Colonnes à exporter

In [17]:
colonnes_a_exporter = ["numéro de carte",
                       "nom",
                       "prénom",
                       "Madame ou Monsieur",
                       "adresse",
                       "complément d'adresse",
                       "ville",
                       "code postal",
                       "pays",
                       "email",
                       "numéro de téléphone fixe",
                       "numéro de téléphone portable",
                       'fax', 'emailpro', 'phonepro',
                       "date de l'appel téléphonique",
                       "résultat de l'appel", 
                       "date demande création tiers",
                       "numéro du titre de recette",
                       "numéro de tiers GF",
                       "date création titre de recette",
                       "date de naissance",
                       "site de rattachement",
                       "type de carte",
                       "date d'inscription",
                       "date d'expiration",
                       "date de renouvellement",
                       "parti sans laisser d'adresse",
                       "carte perdue",
                       "date de suspension",
                       "nom du garant",
                       "prénom du garant",
                       "relation garant",
                       "documents à payer",
                       "lieu et date de naissance de l'adhérent",
                       "lieu de naissance du garant"]

# ANALYSE DES ANOMALIES SUR LES CARTES ADHÉRENTS
# Les données manquantes
## *Numéro de téléphone manquant*

In [75]:
adherents_telephone_ko = adherents[~adherents["numéro de téléphone fixe"].isna()]
adherents_telephone_ko = adherents_telephone_ko[~adherents_telephone_ko["numéro de téléphone portable"].isna()]

adherents_telephone_ko = adherents_telephone_ko[(~adherents_telephone_ko["numéro de téléphone fixe"].str.contains("\w",regex=True))]
adherents_telephone_ko = adherents_telephone_ko[(~adherents_telephone_ko["numéro de téléphone portable"].str.contains("\w",regex=True))]

In [77]:
adherents_telephone_ko[colonnes_a_exporter].to_excel("../data/liste_anomalies_adherents_telephone_ko.xlsx",index=False)

## *Email manquaunt*

In [19]:
adherents_email_ko = adherents[~adherents["email"].isna()]
adherents_email_ko = adherents_email_ko[~adherents_email_ko["email"].str.contains("\w",regex=True)]

In [None]:
adherents_telephone_ko[colonnes_a_exporter].to_excel("../data/liste_anomalies_adherents_email_ko.xlsx",index=False)

## *Adhérents mineurs complément d'adresse manquant ou incorrect*

In [20]:
adherents_mineurs_complement_adresse_ko = adherents_mineurs[adherents_mineurs["complément d'adresse"].isna()]

In [21]:
adherents_mineurs_complement_adresse = adherents_mineurs[~adherents_mineurs["complément d'adresse"].isna()]

In [92]:
adherents_mineurs_complement_adresse_incorrect = adherents_mineurs_complement_adresse[~adherents_mineurs_complement_adresse["complément d'adresse"].str.contains("chez",case=False)]
adherents_mineurs_complement_adresse_incorrect["complément d'adresse"]

3              Appt. 12
5        Appartement 12
10               Appt 2
12                     
13                     
              ...      
28712         appart 26
28713                  
28716    Appt 103 Bat 1
28717    Appt 103 Bat 1
28718                  
Name: complément d'adresse, Length: 13345, dtype: object

## *Adhérents mineurs nom garant manquant ou incorrect*

On souhaite dans un second temps une liste des adhérents mineurs dont les champs suivants ne sont pas renseignés : 
* `contactname`(transformé en `nom du garant`)
* `contactfirstname` (transformé en `prénom du garant`)
* `altcontactfirstname` (champ détourné qui contient des informations sur le lieu et date de naissance du garant)

In [88]:
adherents_mineurs_nom_garant_ko = adherents_mineurs[adherents_mineurs["nom du garant"].isna()]


In [95]:
adherents_mineurs_nom_garant_incorrect = adherents_mineurs_nom_garant[~adherents_mineurs_nom_garant["nom du garant"].str.contains(("\w"),regex=True)]
len(adherents_mineurs_nom_garant_incorrect)

14859

In [None]:
adherents_mineurs_nom_garant_ko[colonnes_a_exporter].to_excel("../data/liste_anomalies_adherents_mineurs_nom_garant_ko.xlsx",index=False)

In [87]:
adherents_mineurs_nom_garant_incorrect[colonnes_a_exporter].to_excel("../data/liste_anomalies_adherents_mineurs_nom_garant_incorrect.xlsx",index=False)

## *Adhérents mineurs prénom garant manquant*

In [91]:
adherents_mineurs_prénom_garant_ko = adherents_mineurs[adherents_mineurs["prénom du garant"].isna()]
len(adherents_mineurs_prénom_garant_ko)

654

In [26]:
adherents_mineurs_prénom_garant = adherents_mineurs[~adherents_mineurs["prénom du garant"].isna()]
adherents_mineurs_prénom_garant_incorrect = adherents_mineurs_prénom_garant[~adherents_mineurs_prénom_garant["prénom du garant"].str.contains(("\w"),regex=True)]
adherents_mineurs_prénom_garant_incorrect.groupby("prénom du garant").size()

prénom du garant
    14868
dtype: int64

In [27]:
adherents_mineurs_infos_garant = adherents_mineurs[~adherents_mineurs["lieu de naissance du garant"].isna()]
adherents_mineurs_infos_garant_incorrect = adherents_mineurs_infos_garant[~adherents_mineurs_infos_garant["lieu de naissance du garant"].str.contains(("\w"),regex=True)]
adherents_mineurs_infos_garant_incorrect.groupby("lieu de naissance du garant").size()

lieu de naissance du garant
    14368
dtype: int64

# Les données incorrectes
## *Les adhérents mineurs*
[...]

## *Les adhérents majeurs*

In [28]:
adherents_majeurs_complement_adresse = adherents_majeurs[~adherents_majeurs["complément d'adresse"].isna()]
adherents_majeurs_complement_adresse_incorrect = adherents_majeurs_complement_adresse[adherents_majeurs_complement_adresse["complément d'adresse"].str.contains("Chez")]
adherents_majeurs_complement_adresse_incorrect.groupby("complément d'adresse").size()

complément d'adresse
 Appart. 621 Chez Bechar Louiza                               1
- Chez Mme Saloua MADACHE                                     1
-Chez HASSAN EEBOOW Farhiyo                                   1
/12- Chez Mme OUALI Maria                                     1
/2 Chez Mme Delphine                                          1
                                                             ..
porte 5   Chez Ichammene                                      1
porte 9- Chez Mme Bigot Isabelle                              1
porte 9-Chez Mme Bigot Isabelle                               1
porte D. Chez mme Hamdi Nabila                                1
résidence laure lot ac 206 Chez Mme GUEHAM èP TIR  Ouardia    2
Length: 2541, dtype: int64

## *Les villes*
J'ai dans un premier temps effectués diverses requêtes dans le champs "ville" via les fonctions "str.contains" et "str.match" afin de détecter des anomalies.
Mais, face à la diversité des erreurs rencontrées, j'ai décidé de mettre en place un système de ***liste normalisée inversé***. Plutôt que de faire de faire des requêtes en essayant de déterminer ce qui constituait une anomalie (ex : ville écrite en minuscule, tiret manquant, présence de chiffres etc...), j'ai décidé de dresser la liste de toutes les villes présentes au moins une fois avec une graphie normalisée (j'ai choisi celle de Wikipédia), puis de faire une requête qui exclue ces dernières. Autrement dit, grâce à la fonction "str.match" inversé, je fait une recherche qui exclue toutes les villes qui ne font pas partie de cette "liste normalisée" pour ne laisser au final que les erreurs.

#### ***Villes limitrophes à Roubaix***

In [7]:
anomalies_villes = adherents[~adherents["ville"].str.match("CROIX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HEM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LEERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LYS-LEZ-LANNOY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ROUBAIX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TOURCOING")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WATTRELOS")]

#### ***Villes de la MEL***

In [8]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VILLENEUVE-D'ASCQ")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MARCQ-EN-BAROEUL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LAMBERSART")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ARMENTIERES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LOOS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA MADELEINE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONS-EN-BAROEUL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WASQUEHAL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HALLUIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RONCHIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FACHES-THUMESNIL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WATTIGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HAUBOURDIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RONCQ")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MOUVAUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-ANDRE-LEZ-LILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("COMINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SECLIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MARQUETTE-LEZ-LILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WAMBRECHIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANNOEULLIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NEUVILLE-EN-FERRAIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BONDUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LEERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LESQUIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA CHAPELLE-D'ARMENTIERES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PERENCHIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LINSELLES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HOUPLINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WAVRIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("QUESNOY-SUR-DEULE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA BRASSEE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SANTES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINHGIN-EN-WEPPES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ERQUINGHEM-LYS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WERVICQ-SUD")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BAUVIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BAISIEUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SEQUEDIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOUSBECQUE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HALLENNES-LEZ-HAUBOURDIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PROVIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TOUFFLERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ALLENNES-LES-MARAIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TEMPLEMARS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HOUPLIN-ANCOISNE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FRETIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("EMMERIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LEZENNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WILLEMS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SALOME")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CHERENG")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINGHIN-EN-MELANTOIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VERLINGHEM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAPINGHEM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FRELINGHIEN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HERLIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FOURNES-EN-WEPPES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LOMPRET")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PREMESQUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MARQUILLIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAILLY-LEZ-LANNOY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DEULEMONT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LANNOY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOIS-GRENIER")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AUBERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ILLIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANSTAING")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VENDEVILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FOREST-SUR-MARQUE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TRESSIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RADINGHEM-EN-WEPPES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ENNETIERES-EN-WEPPES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HANTAY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GRUSON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FROMELLES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CARNIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PERONNE-EN-MELANTOIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NOYELLE-LES-SECLIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BEAUCAMPS-LIGNY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOUVINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LE MAISNIL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ENGLOS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ERQUINGHEM-LE-SEC")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WICRES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ESCOBECQUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WARNETON")]

#### ***Villes du Nord***

In [9]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANZIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ATTICHES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AUBY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AULNOY-LEZ-VALENCIENNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AVELIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AVESNES-SUR-HELPE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BACHY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BAILLEUL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BERGUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOUCHAIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOURGHELLES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOUSIGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAESTRE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAMPHIN-EN-PEVELE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAPPELLE-BROUCK")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAPPELLE-LA-GRANDE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CLAMART")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("COURCHELETTES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CYSOING")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DENAIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DOUAI")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DUNKERQUE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ERRE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FELLERIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FLETRE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FOURMIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FLINES-LES-MORTAGNE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GENECH")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GONDECOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GRAVELINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HASNON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HAUTMONT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HAZEBROUCK")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HELLEMMES-LILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HERGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA BASSEE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA GORGUE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LAMBVRES-LEZ-DOUAI")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LANDRECIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LAUWIN-PLANQUE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LE PLESSIS-ROBINSON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LOMME")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LOON-PLAGE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LOUVROIL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MAUBEUGE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MERRIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MERVILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONS-EN-PEVELE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MORTAGNE-DU-NORD")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NIEPPE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NOYELLES-LES-SECLIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OHAIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ONNAING")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ORCHIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OSTRICOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PHALEMPIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PONT-A-MARCQ")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RAISMES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINGHIN-EN-WEPPES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-AMAND-LES-EAUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-ANDRE-LEZ-LILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-SAULVE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-VAAST-EN-CAMBRESIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAMEON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SIN-LE-NOBLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SOMAIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("STEENVOORDE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("STEENWERCK")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TEMPLEUVE-EN-PEVELE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TERDEGHEM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("THUMERIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VALENCIENNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VIEUX-CONDE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WAHAGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WATTRELOS")]

#### ***Villes du Pas-de-Calais***

In [10]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AIX-NOULETTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANGRES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ARRAS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ARQUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AUCHEL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AUDIGHEN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BAINCTHUN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BLANGERVAL-BLANGERMONT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BRUAY-LA-BUISSIERE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CALAIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CARVIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("COURCELLES-LES-LENS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CREQUY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DOUVRIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HAISNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HESDIGNEUL-LES-BETHUNE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HINGES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ISBERGUES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA COMTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LENS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LIBERCOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LIEVIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONTIGNY-EN-GOHELLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NOEUX-LES-MINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OIGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OUTREAU")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PONT-A-VENDIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ROUVROY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SALLAUMINES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAMER")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SERICOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VAUDRICOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VENDIN-LE-VIEIL")]

#### ***Villes belges***

In [11]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BRUXELLES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CHARLEROI")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CHAUMONT-GISTOUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DOTTIGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ESTAIMBOURG")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("EVREGNIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ESTAIMPUIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GAND")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GINGELOM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HERINNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HERSEAUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LEUZE-EN-HAINAUT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LIEGE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MENIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MOUSCRON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NECHIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OBIGIES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RAMEGNIES-CHIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("REKKEM")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TEMPLEUVE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TOURNAI")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("WARCOING")]

#### ***Villes d'autres départements***

In [12]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AIZENAY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ALLUY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AMIENS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANGERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ANTIBES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("AUBIGNY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BAGNOLET")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BOISSY-MAUVOISIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BORDEAUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BORRE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("BREST")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CAEN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CANNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CARRIERES-SOUS-POISSY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CHERBOURG")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CLERMONT-FERRAND")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("COMBS-LA-VILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("CONDRIEU")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("DIJON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ERMENONVILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("EVREUX")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("EYBENS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("FLERS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GRENOBLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GANZEVILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GENNES-SUR-SEICHE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("GONNEVILLE-LA-MALLET")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("IVRY-SUR-SEINE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("JUAN-LES-PINS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LACROIX-SAINT-OUEN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LA GARNACHE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LAPTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LE MANS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LEMPDES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LE NOUVION-EN-THIERACHE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LYON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MAGNANVILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MARLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MARSEILLE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MAULEON-LICHARRE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MAZAMET")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONT-DE-MARSAN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONTFORT-L'AMAURY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NANCY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NIBAS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NOGENTEL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("NOISY-LE-GRAND")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OGNOLLES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("OULLINS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("PARIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("LES PAVILLONS-SOUS-BOIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RENNES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("ROUEN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("RUEIL-MALMAISON")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAILLY-FLIBEAUCOURT")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-DENIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-GERMAIN-SOUS-CAILLY")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-JEAN-KERDANIEL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-LOUIS")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-MARTIN-LE-NOEUD")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-MAUR-DES-FOSSES")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAINT-ROMAIN-EN-GAL")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAULCE-SUR-RHONE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SAULCE-MONCLIN")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("SEGRIE-FONTAINE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("STRASBOURG")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("THOUROTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("TOULOUSE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VALENCE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VIC-LE-COMTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VIENNE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VILLABE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VILLEPINTE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VILLEURBANNE")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("VOIRON")]

#### ***Villes étrangères***

In [13]:
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("HUELVA")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MADRID")]
anomalies_villes = anomalies_villes[~anomalies_villes["ville"].str.match("MONCHENGLADBACH")]

In [16]:
anomalies_villes.groupby(['ville','date d\'inscription']).size().sort_values(ascending=False)

ville                date d'inscription
Marbaix              2023-08-02            4
Roubaix              2005-03-31            3
                     2019-05-21            2
Faumont              2005-03-31            2
Roubaix              2019-02-06            2
                                          ..
LYS LEZ LANNOY       2023-08-08            1
Le Havre             2023-08-17            1
Le Mans              2024-05-28            1
Le Plessis Robinson  2023-08-18            1
wallers              2024-08-27            1
Length: 219, dtype: int64

In [37]:
anomalies_villes[colonnes_a_exporter].to_excel("../data/liste_anomalies_adherents_ville_incorrect.xlsx",index=False)

# ANALYSE SPÉCIFIQUE DES ADHÉRENTS SANS CONTENTIEUX

In [38]:
query2 = """SELECT i.date_due, i.borrowernumber 
FROM koha_prod.issues i
ORDER BY i.date_due ASC"""

In [39]:
prets = pd.read_sql(query2, db_conn)

In [40]:
prets = prets.rename(columns={"date_due":"date de retour"})

In [41]:
prets["date de retour"] = pd.to_datetime(prets["date de retour"])

In [42]:
delai_28jours = prets["date de retour"] + pd.Timedelta(28,unit='D')

In [43]:
prets_contentieux = prets[delai_28jours < pd.to_datetime("today")]

In [44]:
prets_contentieux

Unnamed: 0,date de retour,borrowernumber
0,2016-12-15 23:59:00,27771
1,2016-12-16 23:59:00,27771
2,2016-12-16 23:59:00,16684
3,2016-12-16 23:59:00,16684
4,2017-02-09 23:59:00,31322
...,...,...
6844,2023-03-04 23:59:00,3320
6845,2023-03-05 23:59:00,10284
6846,2023-03-05 23:59:00,7193
6847,2023-03-05 23:59:00,69987


In [45]:
adherents_contentieux = prets_contentieux.drop_duplicates("borrowernumber")
adherents_contentieux

Unnamed: 0,date de retour,borrowernumber
0,2016-12-15 23:59:00,27771
2,2016-12-16 23:59:00,16684
4,2017-02-09 23:59:00,31322
5,2017-03-09 23:59:00,19767
9,2017-04-05 23:59:00,25983
...,...,...
6844,2023-03-04 23:59:00,3320
6845,2023-03-05 23:59:00,10284
6846,2023-03-05 23:59:00,7193
6847,2023-03-05 23:59:00,69987


In [46]:
adherents_contentieux['contentieux'] = True
adherents_contentieux

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  adherents_contentieux['contentieux'] = True


Unnamed: 0,date de retour,borrowernumber,contentieux
0,2016-12-15 23:59:00,27771,True
2,2016-12-16 23:59:00,16684,True
4,2017-02-09 23:59:00,31322,True
5,2017-03-09 23:59:00,19767,True
9,2017-04-05 23:59:00,25983,True
...,...,...,...
6844,2023-03-04 23:59:00,3320,True
6845,2023-03-05 23:59:00,10284,True
6846,2023-03-05 23:59:00,7193,True
6847,2023-03-05 23:59:00,69987,True


In [47]:
adherents_avec_infocontentieux = adherents.merge(adherents_contentieux,left_on ="borrowernumber",right_on="borrowernumber",how="left")
adherents_avec_infocontentieux["contentieux"].value_counts()

True    2103
Name: contentieux, dtype: int64

In [48]:
adherents_avec_infocontentieux.loc[adherents_avec_infocontentieux["contentieux"].isna(), "contentieux"] = False
adherents_avec_infocontentieux["contentieux"].value_counts()

False    26617
True      2103
Name: contentieux, dtype: int64

# Vérification des champs B_...
* `adherents__en_contentieux = adherents_avec_infocontentieux[adherents_avec_infocontentieux['contentieux'] == True]`
* `adherents_pas_en_contentieux = adherents_avec_infocontentieux[adherents_avec_infocontentieux['contentieux'] == False]`

In [49]:
adherents_avec_infocontentieux = adherents_avec_infocontentieux[["borrowernumber",
                                                                 "numéro de carte",
                                                                 "type de carte",
                                                                 "date de l'appel téléphonique",
                                                                 "résultat de l'appel",
                                                                 "date demande création tiers",
                                                                 "numéro du titre de recette",
                                                                 "numéro de tiers GF",
                                                                 "date création titre de recette",
                                                                 "documents à payer",
                                                                 "contentieux"]]

## *Date de l'appel téléphonique*

In [50]:
verification_b_address = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["date de l'appel téléphonique"] != ''))]

In [51]:
verification_b_address.groupby("date de l'appel téléphonique").size() #avant affinage

date de l'appel téléphonique
01102022                 1
1 RUE DU PAS GRILLANT    1
2020-07-24               1
2020-07-31               1
2020-08-05               1
                        ..
Luc Charles              2
Madame Allaert           1
Madame Boittiaux         1
Mme DUPONT               1
Monsieur Brunin          1
Length: 124, dtype: int64

In [52]:
#test d'affinage pour collectivités -> il fautdra changer le nom de la variable
verification_b_address = verification_b_address[~verification_b_address["date de l'appel téléphonique"].isna()]
verification_b_address = verification_b_address[~verification_b_address["date de l'appel téléphonique"].str.match("\d{4}-\d{2}-\d{2}")]

In [53]:
verification_b_address.groupby("date de l'appel téléphonique").size() #après affinage (exlusion des dates)

date de l'appel téléphonique
01102022                 1
1 RUE DU PAS GRILLANT    1
Luc Charles              2
Madame Allaert           1
Madame Boittiaux         1
Mme DUPONT               1
Monsieur Brunin          1
dtype: int64

## *Résultat de l'appel*

In [54]:
verification_b_address2 = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["résultat de l'appel"] != ""))]

In [55]:
verification_b_address2 = verification_b_address2[~verification_b_address2["résultat de l'appel"].isna()]
verification_b_address2 = verification_b_address2[~verification_b_address2["résultat de l'appel"].str.match("message vocal")]
verification_b_address2 = verification_b_address2[~verification_b_address2["résultat de l'appel"].str.match("téléphone inconnu")]
verification_b_address2 = verification_b_address2[~verification_b_address2["résultat de l'appel"].str.match("usager joint")]

In [56]:
verification_b_address2.groupby("résultat de l'appel").size()

résultat de l'appel
0                               3
19 rue Louis Decottignies       1
19 rue Saint Joseph             1
255 avenue des Nations Unies    1
97-99, rue de Bouvines          1
dtype: int64

## *date demande création tiers*

In [57]:
verification_b_city = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["date demande création tiers"] != ""))]

In [58]:
verification_b_city.groupby("date demande création tiers").size()

date demande création tiers
2021-01-19    4
2021-01-23    8
2021-01-26    3
2021-01-28    1
2021-02-09    3
             ..
2023-02-22    1
2023-02-23    2
BOLBEC        1
ROUBAIX       8
TOURCOING     1
Length: 101, dtype: int64

## *numéro du titre de recette*

In [59]:
verification_b_state = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["numéro du titre de recette"] != ""))]

In [60]:
verification_b_state.groupby("numéro du titre de recette").size()

numéro du titre de recette
0                            100
20210010                       1
2021001; 2021002; 2021003      1
20210021                       1
20210028                       1
                            ... 
20220231                       1
20230001                       1
20230006                       1
20230011                       1
20230047                       1
Length: 94, dtype: int64

## *numéro de tiers GF*

In [61]:
verification_b_zipcode = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["numéro de tiers GF"] != ""))]

In [62]:
verification_b_zipcode.groupby("numéro de tiers GF").size()

numéro de tiers GF
0        75
25818     1
41509     2
47822     1
50028     2
         ..
96865     1
98543     1
98783     1
98796     1
98798     1
Length: 216, dtype: int64

## *Date création titre de recette*

In [63]:
verification_b_state = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["date création titre de recette"] != ""))]

In [64]:
verification_b_state.groupby("date création titre de recette").size()

date création titre de recette
2016-07-27    1
2018-11-06    2
2018-11-07    1
2018-12-05    1
2018-12-06    5
             ..
2023-01-18    1
2023-01-20    1
2023-01-25    2
2023-02-01    1
France        1
Length: 98, dtype: int64

## *Documents à payer*

In [65]:
verification_contactnote = adherents_avec_infocontentieux[(adherents_avec_infocontentieux['contentieux'] == False) &
                          ((adherents_avec_infocontentieux["documents à payer"] != ""))]

In [66]:
verification_contactnote.groupby("documents à payer").size()

documents à payer
C0002170495                                                                                                                           1
C0002780020                                                                                                                           1
C0003217347 (52.75)                                                                                                                   2
C0003759763                                                                                                                           1
C0003946912 (9.95)\r\nC2500015885 (10.95)\r\nC2500014422 (5.95)\r\nC2500010480 (6.60)\r\nC0005659975 (5.80)\r\nC0005747320 (7.90)     1
                                                                                                                                     ..
Titre de recette réglé à la Trésorerie                                                                                                1
Titre de recette réglé à la Tr