# Nettoyage du fichier des autorités

Quelques lignes de python et pandas pour nettoyer le contenu du CSV, essentiellement filtrer les emails qui n'en sont pas, et corriger le format de quelques adresses mal saisies.

Pour exécuter le code, il suffit de cliquer sur la première cellule, puis taper <SHIFT+Entrée> (exécute le code, et passe à la cellule suivante)

In [1]:
# installer pandas avant tout, avec `pip install pandas` ou
# voir https://pandas.pydata.org/pandas-docs/stable/install.html

# import de librairies, pandas pour le traitement de données
import pandas as pd

In [2]:
# chargement du CSV dans un DataFrame
liste = pd.read_csv('french-authorities.csv', encoding='latin_1')

In [3]:
# afficher les 5 premières lignes, pour vérifier que tout à l'air ok
liste[liste['tag_string'] == 'gendarmerie']

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string
85,gendarmerie-01004-01,Brigade de gendarmerie - Ambérieu-en-Bugey,cob.amberieu-en-bugey@gendarmerie.interieur.go...,"Adresse : 14 Rue Jean Mermoz, 01500, Ambérieu-...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
86,gendarmerie-01034-01,Brigade de gendarmerie - Belley,cob.belley@gendarmerie.interieur.gouv.fr,"Adresse : Caserne Sibuet - 9 Rue Mante, 01300,...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
87,gendarmerie-01053-01,Brigade de gendarmerie - Bourg-en-Bresse,bta.bourg-en-bresse@gendarmerie.interieur.gouv.fr,"Adresse : 2 Rue de Chateaubriand, 01000, Bourg...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
88,gendarmerie-01072-01,Brigade de gendarmerie - Ceyzériat,cob.ceyzeriat@gendarmerie.interieur.gouv.fr,"Adresse : 340 Avenue du Revermont, 01250, Ceyz...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
89,gendarmerie-01074-01,Brigade de gendarmerie - Chalamont,cob.chalamont@gendarmerie.interieur.gouv.fr,"Adresse : Rue de Bugey, 01320, Chalamont | Tél...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
90,gendarmerie-01079-01,Brigade de gendarmerie - Champagne-en-Valromey,cob.culoz@gendarmerie.interieur.gouv.fr,"Adresse : 148 Route du Col de Richemont, 01260...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
91,gendarmerie-01091-01,Brigade de gendarmerie - Châtillon-en-Michaille,bta.chatillon-en-michaille@gendarmerie.interie...,"Adresse : 186 Allée Saint-Christophe, 01200, C...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
92,gendarmerie-01093-01,Brigade de gendarmerie - Châtillon-sur-Chalaronne,cob.chatillon-sur-chalaronne@gendarmerie.inter...,"Adresse : 146 Rue Pierre Marcault, 01400, Chât...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
93,gendarmerie-01104-01,Brigade de gendarmerie - Chézery-Forens,bta.chezery-forens@gendarmerie.interieur.gouv.fr,"Adresse : Chemin de la Diamanterie, 01200, Ché...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie
94,gendarmerie-01108-01,Brigade de gendarmerie - Coligny,cob.montrevel-en-bresse@gendarmerie.interieur....,"Adresse : Chemin de Cornaloup, 01270, Coligny ...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie


In [4]:
print(f'{len(liste)} lignes dans le fichier')

61516 lignes dans le fichier


In [5]:
# corriger quelques tags invalides
liste.tag_string[liste['tag_string'] == 'mairi'] = 'mairie'
liste.tag_string[liste['tag_string'] == 'mairie_com'] = 'mairie'
liste.tag_string[liste['tag_string'] == 'paris_mairie'] = 'mairie'

# Recherche des doublons

In [6]:
# définir la liste sur laquelle on va travailler
df = liste

In [7]:
# Vérifier si on a des noms en double (puisque c'est la colonne qu'Alaveteli utilise pour
# déterminer si un enregistrement est déjà dans la DB)
doublons = df[df.duplicated(subset='name', keep=False)].sort_values(by='name')

non_doublons = df[~df.isin(doublons)].dropna(how='all')
# exporter les doublons dans un CSV
# doublons.to_csv('autorites_en_double.csv', index=False)

In [8]:
len(doublons.index)

4517

In [9]:
len(non_doublons.index)

56999

In [10]:
doublons.head(5)

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string
40549,agefiph-63113-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhones-alpes@agefiph.asso.fr,Adresse : Immeuble Gergovia - 65 boulevard Fra...,http://www.agefiph.fr,agefiph
23428,agefiph-38193-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhone-alpes@agefiph.asso.fr,Adresse : Parc d'affaires de Saint-Hubert - 33...,http://www.agefiph.fr,agefiph
30759,agefiph-51454-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Reims 2000 - 95 boulevard d...,http://www.agefiph.fr,agefiph
32647,agefiph-54395-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Joffre-Saint-Thiébaut - 13-...,http://www.agefiph.fr,agefiph
52253,agefiph-80021-01,Agefiph - Hauts-de-France,hauts-de-france@agefiph.asso.fr,"Adresse : 3 rue Vincent-Auriol - CS 64801,8004...",http://www.agefiph.fr,agefiph


In [11]:
# extraire le nom des communes
doublons['commune'] = doublons["notes"].str.extract("([^,]*\| Tél)")
doublons['commune'] = doublons['commune'].str[:-6]
doublons['commune'] = doublons['commune'].str.replace("( Cedex)","")
doublons['commune'] = doublons['commune'].str.replace("[0-9]","")
doublons['commune'] = doublons['commune'].str.strip()
doublons['commune'].fillna('', inplace=True)

In [14]:
doublons.head(5)

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,commune
40549,agefiph-63113-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhones-alpes@agefiph.asso.fr,Adresse : Immeuble Gergovia - 65 boulevard Fra...,http://www.agefiph.fr,agefiph,Clermont-Ferrand
23428,agefiph-38193-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhone-alpes@agefiph.asso.fr,Adresse : Parc d'affaires de Saint-Hubert - 33...,http://www.agefiph.fr,agefiph,L'Isle-d'Abeau
30759,agefiph-51454-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Reims 2000 - 95 boulevard d...,http://www.agefiph.fr,agefiph,Reims
32647,agefiph-54395-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Joffre-Saint-Thiébaut - 13-...,http://www.agefiph.fr,agefiph,Nancy
52253,agefiph-80021-01,Agefiph - Hauts-de-France,hauts-de-france@agefiph.asso.fr,"Adresse : 3 rue Vincent-Auriol - CS 64801,8004...",http://www.agefiph.fr,agefiph,Amiens


In [15]:
doublons.to_csv('autorites_en_double.csv', index=False)

In [16]:
# Vérifier pour chaque colonne si name contient le nom de la commune
doublons['commune_in_name'] = doublons.apply(lambda x: x['commune'] in x['name'],axis=1)


In [17]:
# Copier les lignes pour lesquelles la commune n'est pas dans le name dans une nouvelle dataframe
commune_not_in_name = doublons[doublons.commune_in_name == False]

# Copier les lignes pour lesquelles la commune est dans le name dans une nouvelle dataframe
commune_in_name = doublons[doublons.commune_in_name == True]

In [18]:
# Ajouter le nom de la commune dans le name
commune_not_in_name['name'] = commune_not_in_name['name'] +  ' - ' + commune_not_in_name['commune']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [19]:
# Fusionner les deux listes 
deduplicates = pd.concat([commune_in_name, commune_not_in_name])

In [20]:
# Ajouter les 8 derniers numéros de l'id dans le name
deduplicates.name = deduplicates['name'] +  ' ' + deduplicates['#id'].str[-8:]

In [21]:
deduplicates

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,commune,commune_in_name
60063,gendarmerie-97128-01,Brigade de gendarmerie - Sainte-Anne 97128-01,bta.ste-anne@gendarmerie.interieur.gouv.fr,"Adresse : 1 Impasse Joas Section Castaing,9718...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,Sainte-Anne,True
25625,cij-41018-01,Bureau information jeunesse - Blois 41018-01,contact@infojeune41.org,"Adresse : 15 avenue de Vendôme,401000,Blois | ...",http://www.infojeune41.org,cij,Blois,True
25626,cij-41018-02,Bureau information jeunesse - Blois 41018-02,contact@infojeune41.org,"Adresse : 15 avenue Vendôme,401000,Blois | Tél...",http://www.infojeune41.org,cij,Blois,True
51278,cij-78440-02,Bureau information jeunesse - Les Mureaux 7844...,bij@mairie-lesmureaux.fr,"Adresse : 100 rue Paul-Doumer,78130,Les Mureau...",http://www.mairie-lesmureaux.fr,cij,Les Mureaux,True
51279,cij-78440-03,Bureau information jeunesse - Les Mureaux 7844...,bij@mairie-lesmureaux.fr,"Adresse : 100 rue Paul-Doumer,78130,Les Mureau...",http://www.lesmureaux.fr,cij,Les Mureaux,True
51283,cij-78517-02,Bureau information jeunesse - Rambouillet 7851...,bij@usineachapeaux.fr,"Adresse : MJC Centre Social - 32 rue Gambetta,...",http://www.yij78.org,cij,Rambouillet,True
51282,cij-78517-01,Bureau information jeunesse - Rambouillet 7851...,bij@usineachapeaux.fr,Adresse : Maison des jeunes et de la culture -...,http://www.usineachapeaux.fr,cij,Rambouillet,True
58518,cij-92063-02,Bureau information jeunesse - Rueil-Malmaison ...,bij@mairie-rueilmalmaison.fr,"Adresse : 16 rue Jean-Mermoz,92500,Rueil-Malma...",,cij,Rueil-Malmaison,True
58517,cij-92063-01,Bureau information jeunesse - Rueil-Malmaison ...,bij@mairie-rueilmalmaison.fr,"Adresse : 16 rue Jean-Mermoz,92500,Rueil-Malma...",,cij,Rueil-Malmaison,True
8823,caf-16107-01,Caisse d'allocations familiales (Caf) de Chare...,,Adresse : Maison de services au public - Place...,https://www.caf.fr,caf,Confolens,True


In [22]:
# exporter les doublons dans un CSV
deduplicates.to_csv('deduplicates.csv', index=False)

In [23]:
# fusionner les lignes dédoublonnées avec les "non doublons"
liste_dedup = pd.concat([deduplicates, non_doublons], sort=True)
liste_dedup

Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string
60063,gendarmerie-97128-01,Sainte-Anne,True,http://www.gendarmerie.interieur.gouv.fr,Brigade de gendarmerie - Sainte-Anne 97128-01,"Adresse : 1 Impasse Joas Section Castaing,9718...",bta.ste-anne@gendarmerie.interieur.gouv.fr,gendarmerie
25625,cij-41018-01,Blois,True,http://www.infojeune41.org,Bureau information jeunesse - Blois 41018-01,"Adresse : 15 avenue de Vendôme,401000,Blois | ...",contact@infojeune41.org,cij
25626,cij-41018-02,Blois,True,http://www.infojeune41.org,Bureau information jeunesse - Blois 41018-02,"Adresse : 15 avenue Vendôme,401000,Blois | Tél...",contact@infojeune41.org,cij
51278,cij-78440-02,Les Mureaux,True,http://www.mairie-lesmureaux.fr,Bureau information jeunesse - Les Mureaux 7844...,"Adresse : 100 rue Paul-Doumer,78130,Les Mureau...",bij@mairie-lesmureaux.fr,cij
51279,cij-78440-03,Les Mureaux,True,http://www.lesmureaux.fr,Bureau information jeunesse - Les Mureaux 7844...,"Adresse : 100 rue Paul-Doumer,78130,Les Mureau...",bij@mairie-lesmureaux.fr,cij
51283,cij-78517-02,Rambouillet,True,http://www.yij78.org,Bureau information jeunesse - Rambouillet 7851...,"Adresse : MJC Centre Social - 32 rue Gambetta,...",bij@usineachapeaux.fr,cij
51282,cij-78517-01,Rambouillet,True,http://www.usineachapeaux.fr,Bureau information jeunesse - Rambouillet 7851...,Adresse : Maison des jeunes et de la culture -...,bij@usineachapeaux.fr,cij
58518,cij-92063-02,Rueil-Malmaison,True,,Bureau information jeunesse - Rueil-Malmaison ...,"Adresse : 16 rue Jean-Mermoz,92500,Rueil-Malma...",bij@mairie-rueilmalmaison.fr,cij
58517,cij-92063-01,Rueil-Malmaison,True,,Bureau information jeunesse - Rueil-Malmaison ...,"Adresse : 16 rue Jean-Mermoz,92500,Rueil-Malma...",bij@mairie-rueilmalmaison.fr,cij
8823,caf-16107-01,Confolens,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Chare...,Adresse : Maison de services au public - Place...,,caf


# Nettoyage de la liste dédupliquée pour upload dans Alaveteli

In [24]:
# Préparation de la liste dedupliquée pour fusion avec la liste des PRADA

In [25]:
# certains code postaux ont un 0 en trop (et donc 6 chiffres): 91360 => 901360, on l'enlève
def remove_extra_zero(cp):
    if pd.notna(cp) and len(cp) == 6:
        if cp[0] == '0':
            # le CP commence par un zéro, on l'enlève
            return cp[1:]
        elif cp[1] == '0':
            # il y'a un zéro inséré en deuxième position (????)
            return cp[0] + cp[2:]
        else:
            print(f"Code Postal invalide: {cp}")
    else:
        return cp
remove_extra_zero('901360')

'91360'

In [26]:
liste_dedup[liste_dedup.notes.str.contains(r', ?([0-9]{6}),(.*?)\|', na=False)]

  return func(self, *args, **kwargs)


Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string
25625,cij-41018-01,Blois,True,http://www.infojeune41.org,Bureau information jeunesse - Blois 41018-01,"Adresse : 15 avenue de Vendôme,401000,Blois | ...",contact@infojeune41.org,cij
25626,cij-41018-02,Blois,True,http://www.infojeune41.org,Bureau information jeunesse - Blois 41018-02,"Adresse : 15 avenue Vendôme,401000,Blois | Tél...",contact@infojeune41.org,cij
8823,caf-16107-01,Confolens,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Chare...,Adresse : Maison de services au public - Place...,,caf
8822,caf-16106-01,Confolens,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Chare...,Adresse : Maison départementale des solidarité...,,caf
7086,greta-13210-01,Marseille,True,http://www.gretanet.com,Greta - Marseille-Méditerranée 13210-01,Adresse : Lycée Jean-Perrin - 74 rue Verdillon...,gmm@ac-aix-marseille.fr,greta
7087,greta-13213-01,Marseille,True,http://www.gretanet.com,Greta - Marseille-Méditerranée 13213-01,Adresse : Lycée technique régional Jean-Perrin...,gmm@ac-aix-marseille.fr,greta
8919,mairie-16001-01,Abzac,True,,Mairie - Abzac 16001-01,"Adresse : 4 place Morice-Lipsi, 016500, Abzac ...",mairie-abzac@orange.fr,mairie
10237,mairie-18001-01,Achères,True,http://www.acheres18.fr,Mairie - Achères 18001-01,"Adresse : 2 route d'Henrichemont, 018250, Achè...",mairie.acheres@wanadoo.fr,mairie
5813,mairie-11001-01,Aigues-Vives,True,,Mairie - Aigues-Vives 11001-01,"Adresse : 3 place de la Mairie, 011800, Aigues...",mairie-aiguesvives@wanadoo.fr,mairie
5818,mairie-11006-01,Albas,True,,Mairie - Albas 11006-01,"Adresse : 10 rue Malpetto, 011360, Albas | Tél...",albas.11@wanadoo.fr,mairie


In [27]:
# extraire un code postal à 5 chiffres puis 2 chiffres, et une commune (normalisée)
liste_dedup['domaine'] = liste_dedup['request_email'].str.split('@', expand=True)[1]
cp_commune = liste_dedup['notes'].str.extract(r', ?([0-9]{4,6}),(.*?)\|')
liste_dedup['cp'] = cp_commune[0].str.zfill(5)
liste_dedup['cp'] = liste_dedup.cp.apply(remove_extra_zero)
# réinjecter le CP corrigé dans l'adresse
repl = lambda m: ', ' + remove_extra_zero(m.group(1)) + ',' + m.group(2) + '|'
liste_dedup.notes = liste_dedup.notes.str.replace(r', ?([0-9]{6}),(.*?)\|', repl)

liste_dedup['cp3'] = liste_dedup.cp.str.slice(0, 3)
# normaliser la commune en majuscules sans accents, et sans 'CEDEX'
liste_dedup['commune_norm'] = cp_commune[1].str.translate(str.maketrans('àéèëöÀÉÈËÖ', 'aeeeöAEEEO')) \
                .str.upper() \
                .str.replace(' CEDEX', '') \
                .str.replace('-', ' ') \
                .str.strip()
# certaines mairies partagent une meme adresse, on recupère leur nom au lieu de se baser sur l'adresse
liste_dedup.commune_norm[liste_dedup.name.str.startswith('Mairie ')] = liste_dedup.name \
    .str.translate(str.maketrans('àâéèëöÀÉÈËÖ', 'aaeeeöAEEEO')) \
    .str.replace("Mairie deleguee -", '') \
    .str.replace("Mairie -", '') \
    .str.replace(r'[0-9]', '') \
    .str.upper() \
    .str.replace('-', ' ') \
    .str.strip()

In [28]:
liste_dedup[liste_dedup.commune_norm.str.contains('TOURLAVILL', na=False)]

Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string,domaine,cp,cp3,commune_norm
29971,caf-50129-04,,,https://www.caf.fr,Caisse d'allocations familiales (Caf) de la Ma...,"Adresse : Le Nid - Rue du Caplain,50110,Tourla...",,caf,,50110,501,TOURLAVILLE
30022,cpam-50129-02,,,https://www.ameli.fr,Caisse primaire d'assurance maladie (CPAM) de ...,Adresse : Le Nid - Quartier de Pontmarais - Ru...,,cpam,,50110,501,TOURLAVILLE
30218,mairie-50129-02,,,https://www.cherbourg.fr/infos-services/mairie...,Mairie déléguée - Tourlaville,Adresse : 109 avenue des Prairies - Tourlavill...,stephanie.lagalle@cherbourg.fr,mairie,cherbourg.fr,50110,501,TOURLAVILLE
30689,pole_emploi-50129-02,,,http://www.pole-emploi.fr,Pôle emploi - Cherbourg - Lanoé,"Adresse : 100 impasse des Cerisiers,50110,Tour...",,pole_emploi,,50110,501,TOURLAVILLE


In [29]:
# on ajoute des tags plus spécifiques pour les epci: communautés de communes/agglomérations
liste_dedup.tag_string[(liste_dedup.tag_string == 'epci') & (liste_dedup.name.str.startswith('Communauté de communes'))] = 'epci communaute_communes'
liste_dedup.tag_string[(liste_dedup.tag_string == 'epci') & (liste_dedup.name.str.startswith("Communauté d'agglomération"))] = 'epci communaute_agglomerations'

In [31]:
# vérifier qu'il ne reste pas de nom en double
liste_dedup[liste_dedup.duplicated(subset=['name'], keep=False)]

Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string,domaine,cp,cp3,commune_norm


# Fusion avec la liste des PRADA fournie par la CADA

In [32]:
annuaire = pd.read_csv('annuaire_des_prada.csv')

In [33]:
# renommons les colonnes
remplacements = {
    "Département de l'autorité": "dept",
    "Nom de l'administration": "nom_admin",
    "Courriel 1 PRADA": "courriel_prada",
    "Adresse PRADA": "adresse_prada",
    "Code postal/Ville de l'autorité": "adresse"
}
annuaire.rename(index=str, inplace=True, columns=remplacements)

In [34]:
#annuaire.dropna(subset=['courriel_prada'], inplace=True)

In [35]:
# suppression de quelques lignes invalides
# region LRMP est maintenant appelée Occitanie
annuaire = annuaire[annuaire.courriel_prada != 'patrick.bracq@regionlmrp.fr']
# ces communes rattachées à Lille seront traitées à la main
annuaire = annuaire[annuaire['Nom PRADA'] != 'MATZ']

In [36]:
len(annuaire)

1701

In [37]:
split = annuaire['adresse'].str.split(pat=' / ', expand=True)
annuaire['cp'] = split[0]
annuaire['cp3'] = annuaire.cp.str.slice(0,3)
# extraire le nom de la commune de l'adresse
annuaire['commune_norm'] = split[1].str.replace(' CEDEX', '').str.replace('-', ' ').str.strip()
# certaines petites communes ont leur mairie à la même adresse qu'une plus grosse mairie.
# pour les mairies, on extrait la commune du nom de l'administration pour éviter des doublons
annuaire.commune_norm[annuaire.nom_admin.str.startswith('Mairie d')] = \
    annuaire.nom_admin[annuaire.nom_admin.str.startswith('Mairie d')] \
    .str.translate(str.maketrans('àâéèëöÀÉÈËÖ', 'aaeeeöAEEEO')) \
    .str.replace(r"Mairie des ", "Les ") \
    .str.replace(r"Mairie du ", 'Le ') \
    .str.replace(r"Mairie d[e']", '') \
    .str.replace('-', ' ') \
    .str.replace(r'[0-9]+', '') \
    .str.strip() \
    .str.upper()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  from ipykernel import kernelapp as app


In [38]:
categories = [
    {
        'c': 'mairie', 'txt': 'Mairie', 'tag': 'mairie'
    },
    {
        'c': 'c_dept', 'txt': 'Conseil départemental ', 'tag': 'cg'
    },
    {
        'c': 'c_reg', 'txt': 'Conseil régional', 'tag': 'cr$'
    },
    {
        'c': 'comm_communes', 'txt': 'Communauté de communes ', 'tag': 'communaute_communes'
    },
    {
        'c': 'comm_agglo', 'txt': "Communauté d'agglomération", 'tag': 'communaute_agglomerations'
    },
    {
        'c': 'pref', 'txt': 'Préfecture ', 'tag': 'prefecture$'
    },
    {
        'c': 'pref_reg', 'txt': 'Préfecture de la région', 'tag': 'prefecture_region'
    },
    {
        'c': 'rectorat', 'txt': 'Rectorat ', 'tag': 'rectorat'
    },
    {
        'c': 'hopital', 'txt': "Centre hospitalier", 'tag': 'chu'
    },   
]
for cat in categories:
    annuaire[cat['c']] = annuaire['nom_admin'].str.startswith(cat['txt'])
    liste_dedup[cat['c']] = liste_dedup['tag_string'].str.contains(cat['tag'])

In [41]:
annuaire['domaine'] = annuaire['courriel_prada'].str.split('@', expand=True)[1]

In [42]:
# compter les différentes catégories
tn = tm = 0
for cat in categories:
    n = len(annuaire[annuaire[cat['c']]])
    m = len(liste_dedup[liste_dedup[cat['c']]])
    tn += n
    tm += m
    print(f"{n} {cat['txt']} | {m}")
print(f"Total: {tn} | {tm}")

688 Mairie | 36107
96 Conseil départemental  | 96
23 Conseil régional | 16
406 Communauté de communes  | 999
117 Communauté d'agglomération | 193
93 Préfecture  | 102
6 Préfecture de la région | 17
20 Rectorat  | 32
25 Centre hospitalier | 0
Total: 1474 | 37562


In [43]:
# traitement au cas par cas de quelques cas posant probleme lors de la fusion des 2 listes
# on supprime quelques enregistrements qui apparaissent comme doublons, il faudra les traiter à la main
liste_dedup = liste_dedup[liste_dedup['#id'] != 'mairie-74010-05']
liste_dedup = liste_dedup[liste_dedup['#id'] != 'mairie-74010-06']

In [44]:
# extraire les administrations qui ont une catégorie identifiée, on traitera les autres à la main
annuaire_categorise = annuaire[annuaire['mairie'] \
                               | annuaire['comm_communes'] \
                               | annuaire['comm_agglo'] \
                               | annuaire['c_dept'] \
                               | annuaire['c_reg'] \
                               | annuaire['pref'] \
                               | annuaire['pref_reg'] \
                               | annuaire['rectorat'] 
                               | annuaire['hopital']]
liste_dedup_categorisee = liste_dedup[liste_dedup['mairie'] \
                               | liste_dedup['comm_communes'] \
                               | liste_dedup['comm_agglo'] \
                               | liste_dedup['c_dept'] \
                               | liste_dedup['c_reg'] \
                               | liste_dedup['pref'] \
                               | liste_dedup['pref_reg'] \
                               | liste_dedup['rectorat'] 
                               | liste_dedup['hopital']]

In [45]:
len(annuaire_categorise)

1468

In [46]:
ld = len(liste_dedup_categorisee)
la = len(annuaire_categorise)
print(f"{ld} + {la} = {ld + la}")

37560 + 1468 = 39028


In [47]:
merge_cols = ['mairie', 'c_dept', 'c_reg', 'rectorat', 'pref', 'pref_reg', 'comm_communes', 'hopital', 'comm_agglo', 'cp3', 'commune_norm']
fusion = pd.merge(liste_dedup_categorisee, annuaire_categorise, how='right', on=merge_cols, indicator=True) #, validate='one_to_one')

In [48]:
len(fusion[fusion['#id'].notna()])

1046

In [49]:
# réduire fusion à la liste des seuls id + emails utiles
fusion_propre = fusion[fusion['#id'].notna() & fusion['courriel_prada'].notna()][['#id', 'courriel_prada']].copy()

In [50]:
fusion_propre.shape

(930, 2)

In [53]:
# réintégration des emails PRADA dans la liste_dedup principale
fusion2 = pd.merge(liste_dedup, fusion_propre, how='left', on=['#id']) #, validate='one_to_one')
fusion2.request_email = fusion2.courriel_prada.where(fusion2.courriel_prada.notna(), fusion2.request_email)
liste_fusionnee = fusion2

In [54]:
liste_fusionnee[liste_fusionnee.request_email.isna()]
#liste_dedup[liste_dedup.request_email.isna()]

Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string,domaine,cp,...,mairie,c_dept,c_reg,comm_communes,comm_agglo,pref,pref_reg,rectorat,hopital,courriel_prada
9,caf-16107-01,Confolens,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Chare...,Adresse : Maison de services au public - Place...,,caf,,16500,...,False,False,False,False,False,False,False,False,False,
10,caf-16106-01,Confolens,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Chare...,Adresse : Maison départementale des solidarité...,,caf,,16500,...,False,False,False,False,False,False,False,False,False,
11,caf-33240-01,Lesparre,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Giron...,Adresse : Maison départementale de la solidari...,,caf,,33340,...,False,False,False,False,False,False,False,False,False,
12,caf-33240-02,Lesparre,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Giron...,Adresse : Maison départementale des solidarité...,,caf,,33340,...,False,False,False,False,False,False,False,False,False,
13,caf-54323-01,Longwy,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Meurt...,Adresse : Centre social - Blanche Haye - 16 av...,,caf,,54400,...,False,False,False,False,False,False,False,False,False,
14,caf-54323-02,Longwy,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Meurt...,Adresse : Point numérique - Centre social - Bl...,,caf,,54400,...,False,False,False,False,False,False,False,False,False,
15,caf-54329-01,Lunéville,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Meurt...,Adresse : Service Meurthe - 46 rue Ernest-Bich...,,caf,,54300,...,False,False,False,False,False,False,False,False,False,
16,caf-54329-02,Lunéville,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de Meurt...,Adresse : Maison du département - 28 rue de la...,,caf,,54300,...,False,False,False,False,False,False,False,False,False,
17,caf-07324-02,Tournon,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de l'Ard...,"Adresse : 18 place Rampon, 7300, Tournon | Tél...",,caf,,07300,...,False,False,False,False,False,False,False,False,False,
18,caf-07324-01,Tournon,True,https://www.caf.fr,Caisse d'allocations familiales (Caf) de l'Ard...,"Adresse : 18 place Rampon, 7300, Tournon | Tél...",,caf,,07300,...,False,False,False,False,False,False,False,False,False,


In [55]:
len(liste_fusionnee)

61514

# Nettoyage des emails

In [56]:
# nettoyage des emails mal formattés (sur la base des erreurs vus pendant les tests d'upload)
def nettoyage_adresses_mails(df):
    # certains emails incluent le préfixe "mailto:", on l'enlève
    df['request_email'] = df.request_email.str.replace("^mailto:", "")

    # enlever les double points ".." -> "."
    df['request_email'] = df.request_email.str.replace("\.\.", "\.")

    # enlever un point à la fin de l'email (par exemple 'abc@domaine.fr.'' -> 'abc@domaine.fr')
    df['request_email'] = df.request_email.str.replace("\.$", "")
    
    return df

In [57]:
def filter_valid_emails(df):
    df2 = nettoyage_adresses_mails(df)
    # verifier les emails valides
    df2['valid_email'] = df.request_email.str.match("(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)")
    print(f'{len(df2[df2.valid_email != True].index)} lignes sans email valide')
    # copier les lignes avec un email valide dans un nouveau DataFrame
    output = df2[df2.valid_email == True]
    print(f'{len(output.index)} emails valides')
    return output

emails_valides = filter_valid_emails(liste_fusionnee)

11248 lignes sans email valide
50266 emails valides


In [58]:
# exporter les autorités par batches de `file_size` pour faciliter l'upload sur le site
# on génère une série de fichiers "emails_valideN.csv" avec N l'index de la première ligne qu'il contient
# (index par rapport au DataFrame "emails_valides", donc sans valeur pour alaveteli)
def export_in_batches(df, batch_size=5000):
    for i in range(0, len(df.index), batch_size):
        df[i:i+batch_size].to_csv(f'emails_valide{i}.csv', index=False)

In [59]:
# vérifier une dernière fois qu'il ne reste pas de noms en double
# il faut un résultat vide ici!
emails_valides[emails_valides['name'].duplicated(keep=False)]

Unnamed: 0,#id,commune,commune_in_name,home_page,name,notes,request_email,tag_string,domaine,cp,...,c_dept,c_reg,comm_communes,comm_agglo,pref,pref_reg,rectorat,hopital,courriel_prada,valid_email


In [60]:
# ne garder que les colonnes utiles
emails_a_exporter = emails_valides[['#id', 'name', 'request_email', 'notes', 'home_page', 'tag_string']]

In [61]:
export_in_batches(emails_a_exporter, 5000)

In [62]:
# c'est tout. Reste à importer dans alaveteli!

# Fusion avec les données déjà dans madada
Pour l'instant, on peut passer cette section, vu que le serveur est vide

In [166]:
# On récupère la liste des autorités de madada, via un script sur le serveur
# qui exporte plus que le CSV obtenu sur le site (emails, tags)
autorites_existantes = pd.read_csv('authority-export.csv')

In [167]:
for n in autorites_existantes[autorites_existantes.name.str.contains('CIO')]['name']:
    print(n)

Centre d’information et d’orientation (CIO) - Ambérieu-en-Bugey
Centre d’information et d’orientation (CIO) - Bellegarde-sur-Valserine
Centre d’information et d’orientation (CIO) - Belley
Centre d’information et d’orientation (CIO) - Bourg-en-Bresse
Centre d’information et d’orientation (CIO) - Oyonnax
Centre d’information et d’orientation (CIO) - Trévoux


In [168]:
# pour éviter les doublons, on enlève de `emails_valides` les autorités déjà sur le serveur.
# NOTE: ceci signifie que l'upload de ce fichier ne mettra pas à jour les lignes déjà existantes.
difference = emails_valides.merge(autorites_existantes, how='left', on='name', indicator=True, suffixes=('', '_y'))
difference = difference[difference['_merge'] == 'left_only']
difference.drop(columns=['#id_y', 'request_email_y', 'home_page_y', 'tag_string_y', 'notes_y'], inplace=True)

In [169]:
print(len(difference[difference['_merge'] == 'both']))
difference

0


Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email,publication_scheme,_merge
13,cio-01004-01,Centre dinformation et dorientation (CIO) - ...,cio-amberieu@ac-lyon.fr,"Adresse : Rue Marcel-Paul - BP 512, 01505, Amb...",http://www2.ac-lyon.fr/orientation/ain/amberieu/,cio,True,,left_only
14,cio-01033-01,Centre dinformation et dorientation (CIO) - ...,cio-bellegarde@ac-lyon.fr,"Adresse : 12 rue Joliot-Curie - BP 612, 01206,...",http://bellegarde.cio.ac-lyon.fr,cio,True,,left_only
15,cio-01034-01,Centre dinformation et dorientation (CIO) - ...,cio-belley@ac-lyon.fr,Adresse : Ilôt Grammont - 56 rue du Lieutenant...,,cio,True,,left_only
16,cio-01053-01,Centre dinformation et dorientation (CIO) - ...,cio-bourg@ac-lyon.fr,"Adresse : 34 rue du Général-Delestraint, 01000...",http://bourg.cio.ac-lyon.fr/spip/,cio,True,,left_only
17,cio-01283-01,Centre dinformation et dorientation (CIO) - ...,cio-oyonnax@ac-lyon.fr,"Adresse : 22 rue Victor-Hugo, 01100, Oyonnax |...",http://www.ac-lyon.fr,cio,True,,left_only
18,cio-01427-01,Centre dinformation et dorientation (CIO) - ...,cio-trevoux@ac-lyon.fr,"Adresse : 627 route de Jassans, 01600, Trévoux...",http://www.ac-lyon.fr,cio,True,,left_only
66,gendarmerie-01173-01,Brigade de gendarmerie - Gex,cob.gex@gendarmerie.interieur.gouv.fr,"Adresse : 105 Rue de Domparon, 01170, Gex | Té...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
67,gendarmerie-01185-01,Brigade de gendarmerie - Hauteville-Lompnes,cob.hauteville-lompnes@gendarmerie.interieur.g...,Adresse : HLM Les Cornelles - 126 Rue du Pays-...,http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
68,gendarmerie-01194-01,Brigade de gendarmerie - Jassans-Riottier,cob.trevoux@gendarmerie.interieur.gouv.fr,"Adresse : 194 Rue du Collège, 01480, Jassans-R...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
69,gendarmerie-01202-01,Brigade de gendarmerie - Lagnieu,cob.lagnieu@gendarmerie.interieur.gouv.fr,"Adresse : 719 Route du Port, 01150, Lagnieu | ...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only


In [19]:
# pour plus tard:
# marquer les emails qui sont en fait un lien vers une page web
liste['links_to_webpage'] = liste.request_email.str.match("http(s)*:\/\/.+")

In [20]:
liste[liste.links_to_webpage == True]

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email,links_to_webpage
35,cirfa-01053-01,Centre d'information et de recrutement des for...,https://www.recrutement.terre.defense.gouv.fr/...,"Adresse : 8 boulevard du Maréchal Leclerc, 010...",https://www.recrutement.terre.defense.gouv.fr/...,cirfa,False,True
74,epci-01185-01,Communauté de communes - Plateau d'Hauteville,https://plateauhauteville.jimdo.com/contact/,Adresse : Haut Bugey Agglomération - 320 rue d...,https://plateauhauteville.jimdo.com/,epci,False,True
127,gendarmerie_moto-01004-01,Gendarmerie - Brigade motorisée - Ambérieu-en-...,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 14 rue Jean Mermoz, 01500, Ambérieu-...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
128,gendarmerie_moto-01034-01,Gendarmerie - Brigade motorisée - Belley,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 9 rue Mante - Caserne Sibuet, 01300,...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
129,gendarmerie_moto-01053-02,Gendarmerie - Peloton motorisé - Bourg-en-Bresse,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : Autoroute A40, sortie n°7 - Bourg-e...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
130,gendarmerie_moto-01091-01,Gendarmerie - Brigade motorisée - Valserhône,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 186 Allée Saint-Christophe, 01200, C...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
131,gendarmerie_moto-01427-01,Gendarmerie - Brigade motorisée - Trévoux,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 240 Rue des Frères Bacheville, 01600...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
136,inspection_academique-01053-01,Direction des services départementaux de l'Édu...,http://www.ac-lyon.fr/pid33436/nous-contacter....,"Adresse : 10 rue de la Paix, 01000, Bourg-en-B...",http://www.ia01.ac-lyon.fr,inspection_academique,False,True
394,mairie-01286-01,Mairie - Parves-et-Nattages,http://www.parvesetnattages.fr/fr/nous-contacter,"Adresse : 67 route de Sorbier, 01300, Parves-e...",http://www.parvesetnattages.fr,mairie,False,True
445,mairie-01348-01,Mairie - Saint-Didier-sur-Chalaronne,http://www.saintdidiersurchalaronne.fr/fr/nous...,"Adresse : 1 place de la Fontaine, 01140, Saint...",http://www.saintdidiersurchalaronne.fr/,mairie,False,True


In [None]:
# code à exécuter dans la console RoR sur le serveur pour exporter un CSV plus complet
require 'csv'
CSV.open('authority-export.csv', 'w') do |csv|
  csv << ['#id', 'name', 'request_email', 'publication_scheme', 'home_page', 'tag_string', 'notes']
  PublicBody.find_in_batches.each do |batch|
    batch.each do |pb|
      csv << [ pb.id, pb.name, pb.request_email, pb.publication_scheme, pb.home_page, pb.tag_string, pb.notes ]
    end
  end
end