# Nettoyage du fichier des autorités

Quelques lignes de python et pandas pour nettoyer le contenu du CSV, essentiellement filtrer les emails qui n'en sont pas, et corriger le format de quelques adresses mal saisies.

Pour exécuter le code, il suffit de cliquer sur la première cellule, puis taper <SHIFT+Entrée> (exécute le code, et passe à la cellule suivante)

In [171]:
# installer pandas avant tout, avec `pip install pandas` ou
# voir https://pandas.pydata.org/pandas-docs/stable/install.html

# import de librairies, pandas pour le traitement de données
import pandas as pd

In [172]:
# chargement du CSV dans un DataFrame
liste = pd.read_csv('french-authorities.csv', encoding='latin_1')

In [173]:
# afficher les 5 premières lignes, pour vérifier que tout à l'air ok
liste.head()

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string
0,accompagnement_personnes_agees-01322-01,Plateforme d'accompagnement et de répit pour l...,plateforme@auxlucioles.fr,"Adresse : Rue du Collège, 01600, Reyrieux | Té...",,accompagnement_personnes_agees
1,adil-01053-01,Agence départementale d'information sur le log...,adil.01@wanadoo.fr,"Adresse : 34 rue du Général-Delestraint, 01000...",http://www.adil01.org,adil
2,afpa-01053-01,Agence nationale pour la formation professionn...,,"Adresse : 17 route de Seillon, 01000, Bourg-en...",https://www.afpa.fr,afpa
3,anah-01053-01,Agence nationale de l'habitat (Anah) - Ain,logement@ain.fr,"Adresse : 13 avenue de la Victoire - CS 415, 0...",http://www.anah.fr,anah
4,banque_de_france-01053-01,Banque de France - Succursale départementale -...,,Adresse : 15 avenue Alphonse Baudin - CS 30001...,http://www.banque-france.fr,banque_de_france


In [174]:
print(f'{len(liste)} lignes dans le fichier')

61535 lignes dans le fichier


In [175]:
# nettoyage des emails mal formattés (sur la base des erreurs vus pendant les tests d'upload)

# certains emails incluent le préfixe "mailto:", on l'enlève
liste['request_email'] = liste.request_email.str.replace("^mailto:", "")

# enlever les double points ".." -> "."
liste['request_email'] = liste.request_email.str.replace("\.\.", "\.")

# enlever un point à la fin de l'email (par exemple 'abc@domaine.fr.'' -> 'abc@domaine.fr')
liste['request_email'] = liste.request_email.str.replace("\.$", "")

In [176]:
# verifier les emails valides
liste['valid_email'] = liste.request_email.str.match("(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)")

In [177]:
print(f'{len(liste[liste.valid_email != True].index)} lignes sans email valide')

11372 lignes sans email valide


In [178]:
# copier les lignes avec un email valide dans un nouveau DataFrame
emails_valides = liste[liste.valid_email == True]

In [179]:
print(f'{len(emails_valides.index)} emails valides')

50163 emails valides


In [180]:
emails_valides

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email
0,accompagnement_personnes_agees-01322-01,Plateforme d'accompagnement et de répit pour l...,plateforme@auxlucioles.fr,"Adresse : Rue du Collège, 01600, Reyrieux | Té...",,accompagnement_personnes_agees,True
1,adil-01053-01,Agence départementale d'information sur le log...,adil.01@wanadoo.fr,"Adresse : 34 rue du Général-Delestraint, 01000...",http://www.adil01.org,adil,True
3,anah-01053-01,Agence nationale de l'habitat (Anah) - Ain,logement@ain.fr,"Adresse : 13 avenue de la Victoire - CS 415, 0...",http://www.anah.fr,anah,True
6,bureau_de_douane-01160-01,Bureau de douane - Ferney-Voltaire,r-ferney-voltaire@douane.finances.gouv.fr,"Adresse : BP 137 - Route de Genève, 01216, Fer...",http://www.douane.gouv.fr,bureau_de_douane,True
7,bureau_de_douane-01289-02,Bureau de douane (viticulture) - Bourg-en-Bresse,viti-bourg-en-bresse@douane.finances.gouv.fr,"Adresse : 650 rue Lavoisier, 01960, Péronnas |...",http://www.douane.gouv.fr,bureau_de_douane,True
16,cci-01053-01,Chambre de commerce et d'industrie (CCI) - Ain,cci@ain.cci.fr,"Adresse : 1 rue Joseph-Bernier - CS 60048, 010...",http://www.ain.cci.fr,cci,True
17,cdg-01289-01,Centre de gestion de la fonction publique terr...,direction@cdg01.fr,"Adresse : 145 chemin de Bellevue, 01960, Péron...",http://www.cdg01.fr,cdg,True
18,centre_impots_fonciers-01053-01,Centre des impôts foncier de Bourg-en-Bresse,cdif.bourg-en-bresse@dgfip.finances.gouv.fr,"Adresse : 5 rue de la Grenouillère - BP 80418,...",http://www.impots.gouv.fr,centre_impots_fonciers,True
23,chambre_agriculture-01053-01,Chambre d'agriculture - Ain,accueil@ain.chambagri.fr,"Adresse : 4 avenue du Champ-de-Foire - BP 84, ...",http://www.synagri.com,chambre_agriculture,True
24,chambre_metier-01053-01,Chambre de métiers et de l'artisanat (CMA) - Ain,contact@cma-ain.fr,Adresse : 102 boulevard Édouard-Herriot - BP 1...,http://www.cma-ain.fr,chambre_metier,True


# Recherche des doublons

In [181]:
# Vérifier si on a des noms en double (puisque c'est la colonne qu'Alaveteli utilise pour
# déterminer si un enregistrement est déjà dans la DB)
doublons = emails_valides[emails_valides.duplicated(subset='name', keep=False)].sort_values(by='name')

# exporter les doublons dans un CSV
# doublons.to_csv('autorites_en_double.csv', index=False)

In [182]:
doublons.head(5)

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email
40563,agefiph-63113-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhones-alpes@agefiph.asso.fr,Adresse : Immeuble Gergovia - 65 boulevard Fra...,http://www.agefiph.fr,agefiph,True
23439,agefiph-38193-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhone-alpes@agefiph.asso.fr,Adresse : Parc d'affaires de Saint-Hubert - 33...,http://www.agefiph.fr,agefiph,True
30770,agefiph-51454-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Reims 2000 - 95 boulevard d...,http://www.agefiph.fr,agefiph,True
32658,agefiph-54395-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Joffre-Saint-Thiébaut - 13-...,http://www.agefiph.fr,agefiph,True
36290,agefiph-59350-01,Agefiph - Hauts-de-France,hauts-de-france@agefiph.asso.fr,"Adresse : 27 bis rue du Vieux-Faubourg,59040,L...",http://www.agefiph.fr,agefiph,True


In [183]:
# extraire le nom des communes
doublons['commune'] = doublons["notes"].str.extract("([^,]*\| Tél)")
doublons['commune'] = doublons['commune'].str[:-6]
doublons['commune'] = doublons['commune'].str.replace("( Cedex)","")
doublons['commune'] = doublons['commune'].str.replace("[0-9]","")
doublons['commune'] = doublons['commune'].str.strip()

In [184]:
doublons.head(5)

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email,commune
40563,agefiph-63113-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhones-alpes@agefiph.asso.fr,Adresse : Immeuble Gergovia - 65 boulevard Fra...,http://www.agefiph.fr,agefiph,True,Clermont-Ferrand
23439,agefiph-38193-01,Agefiph - Auvergne-Rhône-Alpes,auvergne-rhone-alpes@agefiph.asso.fr,Adresse : Parc d'affaires de Saint-Hubert - 33...,http://www.agefiph.fr,agefiph,True,L'Isle-d'Abeau
30770,agefiph-51454-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Reims 2000 - 95 boulevard d...,http://www.agefiph.fr,agefiph,True,Reims
32658,agefiph-54395-01,Agefiph - Grand Est,grand-est@agefiph.asso.fr,Adresse : Immeuble Joffre-Saint-Thiébaut - 13-...,http://www.agefiph.fr,agefiph,True,Nancy
36290,agefiph-59350-01,Agefiph - Hauts-de-France,hauts-de-france@agefiph.asso.fr,"Adresse : 27 bis rue du Vieux-Faubourg,59040,L...",http://www.agefiph.fr,agefiph,True,Lille


In [185]:
doublons.to_csv('autorites_en_double.csv', index=False)

In [186]:
# Vérifier pour chaque colonne si name contient le nom de la commune
doublons['commune_in_name'] = doublons.apply(lambda x: x['commune'] in x['name'],axis=1)


In [187]:
# Copier les lignes pour lesquelles la commune n'est pas dans le name dans une nouvelle dataframe
commune_not_in_name = doublons[doublons.commune_in_name == False]

# Copier les lignes pour lesquelles la commune est dans le name dans une nouvelle dataframe
commune_in_name = doublons[doublons.commune_in_name == True]

In [188]:
# Ajouter le nom de la commune dans le name
commune_not_in_name.name = commune_not_in_name['name'] +  ' - ' + commune_not_in_name['commune']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self[name] = value


In [189]:
# Fusionner les deux listes 
deduplicates = pd.concat([commune_in_name, commune_not_in_name])

In [190]:
# Ajouter les 8 derniers numéros de l'id dans le name
deduplicates.name = deduplicates['name'] +  ' ' + deduplicates['#id'].str[-8:]

In [191]:
# exporter les doublons dans un CSV
deduplicates.to_csv('deduplicates.csv', index=False)

# Fusion avec les données déjà dans madada
Pour l'instant, on peut passer cette section, vu que le serveur est vide

In [166]:
# On récupère la liste des autorités de madada, via un script sur le serveur
# qui exporte plus que le CSV obtenu sur le site (emails, tags)
autorites_existantes = pd.read_csv('authority-export.csv')

In [167]:
for n in autorites_existantes[autorites_existantes.name.str.contains('CIO')]['name']:
    print(n)

Centre d’information et d’orientation (CIO) - Ambérieu-en-Bugey
Centre d’information et d’orientation (CIO) - Bellegarde-sur-Valserine
Centre d’information et d’orientation (CIO) - Belley
Centre d’information et d’orientation (CIO) - Bourg-en-Bresse
Centre d’information et d’orientation (CIO) - Oyonnax
Centre d’information et d’orientation (CIO) - Trévoux


In [168]:
# pour éviter les doublons, on enlève de `emails_valides` les autorités déjà sur le serveur.
# NOTE: ceci signifie que l'upload de ce fichier ne mettra pas à jour les lignes déjà existantes.
difference = emails_valides.merge(autorites_existantes, how='left', on='name', indicator=True, suffixes=('', '_y'))
difference = difference[difference['_merge'] == 'left_only']
difference.drop(columns=['#id_y', 'request_email_y', 'home_page_y', 'tag_string_y', 'notes_y'], inplace=True)

In [169]:
print(len(difference[difference['_merge'] == 'both']))
difference

0


Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email,publication_scheme,_merge
13,cio-01004-01,Centre dinformation et dorientation (CIO) - ...,cio-amberieu@ac-lyon.fr,"Adresse : Rue Marcel-Paul - BP 512, 01505, Amb...",http://www2.ac-lyon.fr/orientation/ain/amberieu/,cio,True,,left_only
14,cio-01033-01,Centre dinformation et dorientation (CIO) - ...,cio-bellegarde@ac-lyon.fr,"Adresse : 12 rue Joliot-Curie - BP 612, 01206,...",http://bellegarde.cio.ac-lyon.fr,cio,True,,left_only
15,cio-01034-01,Centre dinformation et dorientation (CIO) - ...,cio-belley@ac-lyon.fr,Adresse : Ilôt Grammont - 56 rue du Lieutenant...,,cio,True,,left_only
16,cio-01053-01,Centre dinformation et dorientation (CIO) - ...,cio-bourg@ac-lyon.fr,"Adresse : 34 rue du Général-Delestraint, 01000...",http://bourg.cio.ac-lyon.fr/spip/,cio,True,,left_only
17,cio-01283-01,Centre dinformation et dorientation (CIO) - ...,cio-oyonnax@ac-lyon.fr,"Adresse : 22 rue Victor-Hugo, 01100, Oyonnax |...",http://www.ac-lyon.fr,cio,True,,left_only
18,cio-01427-01,Centre dinformation et dorientation (CIO) - ...,cio-trevoux@ac-lyon.fr,"Adresse : 627 route de Jassans, 01600, Trévoux...",http://www.ac-lyon.fr,cio,True,,left_only
66,gendarmerie-01173-01,Brigade de gendarmerie - Gex,cob.gex@gendarmerie.interieur.gouv.fr,"Adresse : 105 Rue de Domparon, 01170, Gex | Té...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
67,gendarmerie-01185-01,Brigade de gendarmerie - Hauteville-Lompnes,cob.hauteville-lompnes@gendarmerie.interieur.g...,Adresse : HLM Les Cornelles - 126 Rue du Pays-...,http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
68,gendarmerie-01194-01,Brigade de gendarmerie - Jassans-Riottier,cob.trevoux@gendarmerie.interieur.gouv.fr,"Adresse : 194 Rue du Collège, 01480, Jassans-R...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only
69,gendarmerie-01202-01,Brigade de gendarmerie - Lagnieu,cob.lagnieu@gendarmerie.interieur.gouv.fr,"Adresse : 719 Route du Port, 01150, Lagnieu | ...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie,True,,left_only


In [170]:
# exporter les autorités par batches de `file_size` pour faciliter l'upload sur le site
# on génère une série de fichiers "emails_valideN.csv" avec N l'index de la première ligne qu'il contient
# (index par rapport au DataFrame "emails_valides", donc sans valeur pour alaveteli)
file_size = 5000
for i in range(0, len(difference.index), file_size):
    difference[i:i+file_size].to_csv(f'emails_valide{i}.csv', index=False)


In [19]:
# pour plus tard:
# marquer les emails qui sont en fait un lien vers une page web
liste['links_to_webpage'] = liste.request_email.str.match("http(s)*:\/\/.+")

In [20]:
liste[liste.links_to_webpage == True]

Unnamed: 0,#id,name,request_email,notes,home_page,tag_string,valid_email,links_to_webpage
35,cirfa-01053-01,Centre d'information et de recrutement des for...,https://www.recrutement.terre.defense.gouv.fr/...,"Adresse : 8 boulevard du Maréchal Leclerc, 010...",https://www.recrutement.terre.defense.gouv.fr/...,cirfa,False,True
74,epci-01185-01,Communauté de communes - Plateau d'Hauteville,https://plateauhauteville.jimdo.com/contact/,Adresse : Haut Bugey Agglomération - 320 rue d...,https://plateauhauteville.jimdo.com/,epci,False,True
127,gendarmerie_moto-01004-01,Gendarmerie - Brigade motorisée - Ambérieu-en-...,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 14 rue Jean Mermoz, 01500, Ambérieu-...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
128,gendarmerie_moto-01034-01,Gendarmerie - Brigade motorisée - Belley,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 9 rue Mante - Caserne Sibuet, 01300,...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
129,gendarmerie_moto-01053-02,Gendarmerie - Peloton motorisé - Bourg-en-Bresse,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : Autoroute A40, sortie n°7 - Bourg-e...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
130,gendarmerie_moto-01091-01,Gendarmerie - Brigade motorisée - Valserhône,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 186 Allée Saint-Christophe, 01200, C...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
131,gendarmerie_moto-01427-01,Gendarmerie - Brigade motorisée - Trévoux,https://www.gendarmerie.interieur.gouv.fr/Cont...,"Adresse : 240 Rue des Frères Bacheville, 01600...",http://www.gendarmerie.interieur.gouv.fr,gendarmerie_moto,False,True
136,inspection_academique-01053-01,Direction des services départementaux de l'Édu...,http://www.ac-lyon.fr/pid33436/nous-contacter....,"Adresse : 10 rue de la Paix, 01000, Bourg-en-B...",http://www.ia01.ac-lyon.fr,inspection_academique,False,True
394,mairie-01286-01,Mairie - Parves-et-Nattages,http://www.parvesetnattages.fr/fr/nous-contacter,"Adresse : 67 route de Sorbier, 01300, Parves-e...",http://www.parvesetnattages.fr,mairie,False,True
445,mairie-01348-01,Mairie - Saint-Didier-sur-Chalaronne,http://www.saintdidiersurchalaronne.fr/fr/nous...,"Adresse : 1 place de la Fontaine, 01140, Saint...",http://www.saintdidiersurchalaronne.fr/,mairie,False,True


In [None]:
# code à exécuter dans la console RoR sur le serveur pour exporter un CSV plus complet
require 'csv'
CSV.open('authority-export.csv', 'w') do |csv|
  csv << ['#id', 'name', 'request_email', 'publication_scheme', 'home_page', 'tag_string', 'notes']
  PublicBody.find_in_batches.each do |batch|
    batch.each do |pb|
      csv << [ pb.id, pb.name, pb.request_email, pb.publication_scheme, pb.home_page, pb.tag_string, pb.notes ]
    end
  end
end