# Etude du jeu de données de la liste des établissements publics

Jeu de données : https://www.data.gouv.fr/fr/datasets/r/73302880-e4df-4d4c-8676-1a61bb997f3d

In [105]:
import xml.etree.ElementTree as ET
import os
import tqdm
import pandas as pd

In [99]:
path = 'all_20191212/organismes/'

files = []
# r=root, d=directories, f = files
for r, d, f in os.walk(path):
    for file in f:
        if '.xml' in file:
            files.append(os.path.join(r, file))


In [145]:
df_cols = ["idOrg", "codeInsee", "pivotLocal", "nom", "adresse", "codePostal", "nomCommune", "latitude", "longitude"]
rows = []

for f in files:
    tree = ET.parse(f)
    root = tree.getroot()
    
    idOrg = root.attrib.get("id")
    codeInsee = root.attrib.get("codeInsee")
    pivotLocal = root.attrib.get("pivotLocal")

    for node in root:
        if node.tag == 'Nom':
            nom = node.text
        if node.tag == 'Adresse':
            for node2 in list(node):
                if node2.tag == 'Ligne':
                    adresse = node2.text
                if node2.tag == 'CodePostal':
                    codePostal = node2.text
                if node2.tag == 'NomCommune':
                    nomCommune = node2.text
                if node2.tag == 'Localisation':
                    for node3 in list(node2):
                        if node3.tag == 'Latitude':
                            latitude = node3.text
                        if node3.tag == 'Longitude':
                            longitude = node3.text
    
    rows.append({"idOrg": idOrg, "codeInsee": codeInsee, "pivotLocal": pivotLocal, "nom": nom, "adresse": adresse, 
                 "codePostal": codePostal, "nomCommune": nomCommune, "latitude": latitude, "longitude": longitude})
    

In [146]:
out_df = pd.DataFrame(rows, columns = df_cols)

In [147]:
out_df

Unnamed: 0,idOrg,codeInsee,pivotLocal,nom,adresse,codePostal,nomCommune,latitude,longitude
0,accompagnement_personnes_agees-01322-01,01322,accompagnement_personnes_agees,Plateforme d'accompagnement et de répit pour l...,Rue du Collège,01600,Reyrieux,45.930657,4.814821
1,adil-01053-01,01053,adil,Agence départementale d'information sur le log...,34 rue du Général-Delestraint,01000,Bourg-en-Bresse,46.196535,5.2191997
2,afpa-01053-01,01053,afpa,Agence nationale pour la formation professionn...,17 route de Seillon,01000,Bourg-en-Bresse,46.1854081,5.2330388
3,anah-01053-01,01053,anah,Agence nationale de l'habitat (Anah) - Ain,CS 415,01000,Bourg-en-Bresse,46.2024681,5.2174282
4,banque_de_france-01053-01,01053,banque_de_france,Banque de France - Succursale départementale -...,CS 30001,01000,Bourg-en-Bresse,46.200193,5.216618
...,...,...,...,...,...,...,...,...,...
61810,te-98818-01,98818,te,Tribunal pour enfants de Nouméa,BP F4,98848,NOUMEA CEDEX,-22.2747558,166.4490616
61811,tgi-98811-01,98811,tgi,Section Détachée du Tribunal de Première Insta...,30 rue Lucien ALLARD,98859,KONE,-21.060339,164.865749
61812,tgi-98814-01,98814,tgi,Section Détachée du Tribunal de Première Insta...,LIFOU,98820,WE,-21.0384968,167.2405153
61813,tgi-98818-01,98818,tgi,Tribunal de Première Instance de Nouméa,BP F4,98848,NOUMEA CEDEX,-22.2771239522,166.447959765


In [109]:
out_df.count()

idOrg         61815
codeInsee     61815
pivotLocal    61815
nom           61815
adresse       61815
codePostal    61815
nomCommune    61815
latitude      61810
longitude     61809
dtype: int64

In [110]:
out_df.to_csv("liste_etablissements_publics.csv")

In [231]:
explore_df = out_df[out_df['nom'].str.contains('Matignon')]
explore_df

Unnamed: 0,idOrg,codeInsee,pivotLocal,nom,adresse,codePostal,nomCommune,latitude,longitude
12294,gendarmerie-22143-01,22143,gendarmerie,Brigade de gendarmerie - Matignon,13 Rue du Pont-Brûlé,22550,Matignon,48.59881457,-2.2890319
12460,mairie-22143-01,22143,mairie,Mairie - Matignon,7 rue Lédan,22550,Matignon,48.5869523,-2.2905033
12713,msap-22143-01,22143,msap,Maison de services au public (MSAP) - Matignon,1 place Rioust-des-Villes-Audrains,22550,Matignon,48.596892,-2.291807


In [148]:
out_df.pivotLocal.unique()

array(['accompagnement_personnes_agees', 'adil', 'afpa', 'anah',
       'banque_de_france', 'bav', 'bureau_de_douane', 'caf', 'cap_emploi',
       'cci', 'cdad', 'cdg', 'centre_impots_fonciers',
       'centre_penitentiaire', 'cg', 'chambre_agriculture',
       'chambre_metier', 'chambre_notaires', 'cicas', 'cidf', 'cij',
       'cio', 'cirfa', 'civi', 'clic', 'cnfpt', 'commissariat_police',
       'commission_conciliation', 'conciliateur_fiscal', 'cpam', 'crib',
       'ddcs', 'ddpp', 'ddt', 'direccte_ut', 'dreal_ut', 'epci', 'fdapp',
       'fdc', 'gendarmerie', 'gendarmerie_moto', 'greta',
       'huissiers_justice', 'hypotheque', 'inspection_academique', 'maia',
       'mairie', 'maison_handicapees', 'mission_locale', 'mjd', 'msa',
       'msap', 'onac', 'ordre_avocats', 'pcb', 'permanence_juridique',
       'pif', 'pmi', 'pole_emploi', 'prefecture',
       'prefecture_greffe_associations', 'prudhommes', 'sie', 'sip',
       'sous_pref', 'spip', 'te', 'tgi', 'ti', 'tresorerie',
   

In [216]:
df = out_df[out_df['pivotLocal'] == 'greta']

In [217]:
df.count()

idOrg         186
codeInsee     186
pivotLocal    186
nom           186
adresse       186
codePostal    186
nomCommune    186
latitude      186
longitude     186
dtype: int64

In [218]:
import folium

In [219]:
m = folium.Map(location=[46.759281,2.401860], tiles="OpenStreetMap", zoom_start=6)

In [220]:
data = df.dropna(subset=['longitude', 'latitude', 'nom'])

In [221]:
for index, row in data.iterrows():
    folium.Marker([row['latitude'],row['longitude']], popup='<i>'+row['nom']+'</i>', tooltip=row['nom'], icon=folium.Icon()).add_to(m)

In [222]:
m