# Pretraitement des données de la BPE 

## La BPE, qu'est-ce que c'est?

La source Base permanente des équipements (BPE) est une base à vocation statistique. Elle répertorie un large éventail d'équipements et de services, marchands ou non, accessibles au public sur l'ensemble de la France au 1ᵉʳ janvier de chaque année.

Elle est construite à partir de sources administratives diverses. Elle rassemble des données sur des points d'accès aux services destinés à la population, ou équipements, localisés à des niveaux géographiques fins : communes, territoires infra-communaux (Iris) et coordonnées `(x,y)`.


Pour en savoir plus - Définitions, méthodes et qualité, consultez :  [https://www.insee.fr/fr/metadonnees/source/serie/s1161](https://www.insee.fr/fr/metadonnees/source/serie/s1161)

## Règles de confidentialité

Conformément à l’arrêté du 3 janvier 2024 modifiant l'arrêté du 11 janvier 2008 portant création d'une base permanente des équipements, les noms, raisons sociales et adresses des équipements sont diffusés dans le fichier Equipements géolocalisés de la BPE.

Les données présentées sur cet outil tiennent compte de l'opposition de certains chefs d'entreprise à la diffusion de leurs données à caractère personnel sur sirene.fr. Des données nominatives (pour les entrepreneurs individuels), d’adressage et de géolocalisation sont anonymisées. Plus d'informations sur les modalités de diffusion des informations à caractère personnel sur [sirene.fr](https://www.sirene.fr)

## BPE - Données 2023

Les données utilisées dans ce notebook sont issues de la BPE de l'INSEE, édition 2023.
Cela correspond aux données disponibles au 1ᵉʳ janvier 2024 (mise à jour en mai 2024), relatives aux équipements et services recensés au 1ᵉʳ janvier 2023.

## Objectif de la section

Avant de se lancer dans les calculs, il est toujours utile de prendre un moment pour explorer les données.
Cette étape permet de se familiariser avec leur contenu, de comprendre comment elles sont organisées et de vérifier qu’elles correspondent bien à ce que l’on attend.

Dans le cas de la BPE, l’exploration sert par exemple à voir quels types d’équipements sont recensés, comment ils sont décrits et s’il y a des particularités à garder en tête pour la suite.
C’est aussi l’occasion de préparer le terrain : nettoyer, organiser et mettre en forme les données afin qu’elles soient directement exploitables pour l’analyse.

## Importation des bibliothèques nécessaires 

In [2]:
import geopandas as gpd

## Chargement des données de la BPE

In [17]:
# chemin vers le fichier GeoPackage contenant les données de la BPE filtré sur Marseille (zone d'étude)
data_path = "../proxy/data/processed/bpe23_Marseille.gpkg"
# Chargement des données de la BPE (points) sous forme de GeoDataFrame
data = gpd.read_file(data_path)

# Affichage des premières lignes du GeoDataFrame
data.head()

Unnamed: 0,AN,NOMRS,CNOMRS,NUMVOIE,INDREP,TYPVOIE,LIBVOIE,CADR,LIBCOM,CODPOS,...,QUALI_QVA,ZUS,QUALI_ZUS,EPCI,UU2020,BV2022,AAV2020,DENS3,DENS7,geometry
0,2023,DIR REG FIP PACA ET BOUCHES DU RHONE,TRESORERIE ALLAUCH,,,TRA,LA CHAP DES FILLES,,ALLAUCH,13190,...,_Z,CSZ,_Z,200054807,759,13055,3,1,1,POINT (901350.000 6251550.000)
1,2023,FRANCE SERVICES D’ALLAUCH - PLAN DE CUQUES,,17.0,,BD,CLEMENT ET JULES BARTHELEMY,,ALLAUCH,13190,...,_Z,CSZ,_Z,200054807,759,13055,3,1,1,POINT (899921.860 6251277.510)
2,2023,ALLAUCH,,1.0,,PL,DOCTEUR JOSEPH CHEVILLON,,ALLAUCH,13190,...,_Z,CSZ,_Z,200054807,759,13055,3,1,1,POINT (901355.700 6251704.700)
3,2023,CAISSE D'EPARGNE CEPAC,AGENCE ALLAUCH CANTON VERT,,,AV,DU CANTON VERT,CC ESPACE MELVILLE,ALLAUCH,13190,...,_Z,CSZ,_Z,200054807,759,13055,3,1,1,POINT (900461.000 6252323.800)
4,2023,BANQUE POPULAIRE MEDITERRANEE,,,,AV,LEI RIMA,LE LOGIS NEUF,ALLAUCH,13190,...,_Z,CSZ,_Z,200054807,759,13055,3,1,1,POINT (901698.290 6254031.270)


In [4]:
# Affichages des colonnes disponibles dans le GeoDataFrame
data.columns

Index(['AN', 'NOMRS', 'CNOMRS', 'NUMVOIE', 'INDREP', 'TYPVOIE', 'LIBVOIE',
       'CADR', 'LIBCOM', 'CODPOS', 'DEPCOM', 'DEP', 'REG', 'DOM', 'SDOM',
       'TYPEQU', 'SIRET', 'STATUT_DIFFUSION', 'CANTINE', 'INTERNAT', 'RPI',
       'EP', 'CL_PGE', 'SECT', 'ACCES_AIRE_PRATIQUE', 'ACCES_LIBRE',
       'ACCES_SANITAIRE', 'ACCES_VESTIAIRE', 'CAPACITE_D_ACCUEIL',
       'PRES_DOUCHE', 'PRES_SANITAIRE', 'SAISONNIER', 'COUVERT', 'ECLAIRE',
       'CATEGORIE', 'MULTIPLEXE', 'ACCUEIL', 'ITINERANCE', 'MODE_GESTION',
       'SSTYPHEB', 'TYPE', 'CAPACITE', 'INDIC_CAPA', 'NBEQUIDENT',
       'INDIC_NBEQUIDENT', 'NBSALLES', 'INDIC_NBSALLES', 'NBLIEUX',
       'INDIC_NBLIEUX', 'LAMBERT_X', 'LAMBERT_Y', 'LONGITUDE', 'LATITUDE',
       'QUALITE_XY', 'EPSG', 'QUALITE_GEOLOC', 'TR_DIST_PRECISION', 'DCIRIS',
       'QUALI_IRIS', 'IRISEE', 'QP2015', 'QUALI_QP2015', 'QP', 'QUALI_QP',
       'QVA', 'QUALI_QVA', 'ZUS', 'QUALI_ZUS', 'EPCI', 'UU2020', 'BV2022',
       'AAV2020', 'DENS3', 'DENS7', 'geometry'],
 

Le dictionnaire de ces variables (colonnes) est disponible dans le fichier `BPE23_anonymisee_dictionnaire_variables.html` dans le dossier `data/raw/docs` du projet.

## Categorisation des types d'équipements

Dans notre analyse, les équipements seront catégorisés en plusieurs groupes en fonction de leur type. Par exemple, les équipements de santé, d'éducation, de culture, de sport, etc. Ci dessous, nous définissons des ensembles de types d'équipements pour chaque catégorie. On le fait ici manuellement, mais cela peut etre automatisé avec une table de correspondance. Pour faire cette catégorisation, nous utilisons la colonne `TYPEQU` du GeoDataFrame, qui indique le type d'équipement. La categorisation peut etre revue et corrigée selon les besoins de l'analyse. La signification de chaque code `TYPEQU` est disponible dans le fichier `BPE23_liste_hierarchisee_TYPEQU.html` dans le dossier `data/raw/docs` du projet.

In [5]:
# Pour s'approvisionner
# supply = {'B104','B105','B201','B202','B204','B205','B206','B207','B208','B210'} # attention les typeq ont changé entre la bpe2021, 2023 et 2024 !
# hzm doit verifier
# PPour la culture
# culture = {'F303', 'F305', 'F307','F312', 'F313', 'F314', 'F315'}
# Pour la santé
# health = {
#     'D108', 'D113', 'D201', 'D221', 'D233', 'D235', 'D236', 'D243', 'D244', 'D302', 'D307',
#     'F101', 'F102', 'F103', 'F104', 'F105', 'F106', 'F107', 'F108', 'F109', 'F110', 'F111', 
#     'F112', 'F113', 'F114', 'F116', 'F117', 'F118', 'F120', 'F121', 'F123', 'F201', 'F203'
# }

health = {
    'D108', 'D113', 'D201', 'D233', 'D302', 'D307'
}
  
# # Obtenir les valeurs uniques dans la colonne "TYPEQU" (qui contient des chaînes)
# typequ_values = set(data["TYPEQU"])

# # Identifier les chaînes absentes pour chaque catégorie
# missing_supply = supply - typequ_values
# # missing_culture = culture - typequ_values
# # missing_health = health - typequ_values

# # Afficher les résultats
# print("Éléments absents dans supply:", missing_supply)
# # print("Éléments absents dans culture:", missing_culture)
# # print("Éléments absents dans health:", missing_health)

## La qualité de géolocalisation des équipements

Les équipements de la BPE sont géolocalisés avec différents niveaux de précision, indiqués dans la colonne `QUALITE_XY` du GeoDataFrame. Voici les différentes qualités de géolocalisation possibles :

In [6]:
print(data['QUALITE_XY'].unique())

['A' 'B' 'M' '_U']


QUALITE_XY 

  | Code | Libellé | Description |
  |------|---------|-------------|
  | B    | Bonne   | Précision < 100 m (adresse exacte ou voie exacte, précision < 100 m) |
  | A    | Acceptable | Précision [100 - 500[ m (voie exacte, précision entre 100 et 500 m) |
  | M    | Mauvaise | Précision ≥ 500 m (voie exacte, précision ≥ 500 m ou voie inconnue/probable, position aléatoire dans la commune) |
  | _Z   | Non-géolocalisé | Non-géolocalisé |
  | _U   | Indéterminée | Indéterminée |

Dans mon analyse, je ne retiens que les équipements avec une qualité de géolocalisation "Bonne" ou "Acceptable", c'est-à-dire ceux qui ont une précision de localisation inférieure à 500 mètres. Les équipements avec une qualité "Mauvaise", "Non-géolocalisé" ou "Indéterminée" sont exclus de l'analyse, car leur localisation est trop imprécise pour être utile.

In [7]:
print("Qualité des données génerale")
print(data['QUALITE_XY'].unique())

print('-----------------------------------')

data = data[data['QUALITE_XY'].isin(['B', 'A'])]
print("Qualité des données prises")
print(data['QUALITE_XY'].unique())

Qualité des données génerale
['A' 'B' 'M' '_U']
-----------------------------------
Qualité des données prises
['A' 'B']


## Pondération des équipements

Les équipements sont pondérés en fonction de leur type (leur importance) et de ce qu'il y a autour d'eux. Cette pondération est représentée par les colonnes `wi` (poids intrinsèque) et `wefs` (poids extrinsèque) du GeoDataFrame.

### Crétation des colonnes et initialisation

In [8]:
data["fs"] = "tbd"  # une chaîne de caractères (fonction sociale)
data["wi"] = 0.0    # un float (poids intrinsèque)
data["wefs"] = 0.0  # un float (poids extrinsèque)

# Vérification des premières lignes pour s'assurer que les colonnes ont été ajoutées correctement
data.head()

Unnamed: 0,AN,NOMRS,CNOMRS,NUMVOIE,INDREP,TYPVOIE,LIBVOIE,CADR,LIBCOM,CODPOS,...,EPCI,UU2020,BV2022,AAV2020,DENS3,DENS7,geometry,fs,wi,wefs
0,2023,DIR REG FIP PACA ET BOUCHES DU RHONE,TRESORERIE ALLAUCH,,,TRA,LA CHAP DES FILLES,,ALLAUCH,13190,...,200054807,759,13055,3,1,1,POINT (901350.000 6251550.000),tbd,0.0,0.0
1,2023,FRANCE SERVICES D’ALLAUCH - PLAN DE CUQUES,,17.0,,BD,CLEMENT ET JULES BARTHELEMY,,ALLAUCH,13190,...,200054807,759,13055,3,1,1,POINT (899921.860 6251277.510),tbd,0.0,0.0
2,2023,ALLAUCH,,1.0,,PL,DOCTEUR JOSEPH CHEVILLON,,ALLAUCH,13190,...,200054807,759,13055,3,1,1,POINT (901355.700 6251704.700),tbd,0.0,0.0
3,2023,CAISSE D'EPARGNE CEPAC,AGENCE ALLAUCH CANTON VERT,,,AV,DU CANTON VERT,CC ESPACE MELVILLE,ALLAUCH,13190,...,200054807,759,13055,3,1,1,POINT (900461.000 6252323.800),tbd,0.0,0.0
4,2023,BANQUE POPULAIRE MEDITERRANEE,,,,AV,LEI RIMA,LE LOGIS NEUF,ALLAUCH,13190,...,200054807,759,13055,3,1,1,POINT (901698.290 6254031.270),tbd,0.0,0.0


Ensuite je réduis le GeoDataFrame aux colonnes essentielles pour l'analyse, à savoir :

In [9]:
data = data[['TYPEQU', 'geometry', 'fs', 'wi', 'wefs']] # On réduit à 5 colonnes + l'ID

In [10]:
# Affichage des informations sur les colonnes retenues
data.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
Index: 54113 entries, 0 to 58686
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   TYPEQU    54113 non-null  object  
 1   geometry  54113 non-null  geometry
 2   fs        54113 non-null  object  
 3   wi        54113 non-null  float64 
 4   wefs      54113 non-null  float64 
dtypes: float64(2), geometry(1), object(2)
memory usage: 2.5+ MB


### Remplissage des colonnes "fs", "wi" et "wefs"

La colonne `fs` (fonction sociale) est remplie en fonction du type d'équipement (`TYPEQU`). Par exemple, les équipements de santé sont marqués comme "santé", les équipements d'éducation comme "éducation", etc. La colonne `wi` (poids intrinsèque) est également remplie en fonction du type d'équipement, avec des valeurs numériques représentant l'importance relative de chaque type d'équipement. Enfin, la colonne `wefs` (poids extrinsèque) est remplie en fonction de l'environnement et des infrastructures environnantes (la variété des services et équipements disponibles). Dans ce notebook, je ne remplis que la colonne `fs`. Les colonnes `wi` et `wefs` seront initialiser à zero, elles feront l'objet d'analyses dans d'autres notebooks ultérieures.

In [11]:
# hzm doit verifier
data['fs'] = 'tbd'

# culture = {'F303', 'F307', 'F314', 'F315', 'F113', 'F118', 'F305'}
# health = {'D307', 'D201', 'D232', 'F101', 'F118', 'F121', 'F120', 'F107', 'F108'}

# Normaliser les valeurs dans la base
data['TYPEQU'] = data['TYPEQU'].str.strip().str.upper()

# # Normaliser les listes
# supply = {item.strip().upper() for item in supply}
# culture = {item.strip().upper() for item in culture}
# health = {item.strip().upper() for item in health}

# Ajouter les fs
# data.loc[data['TYPEQU'].isin(supply), 'fs'] = 'supply'
# data.loc[data['TYPEQU'].isin(culture), 'fs'] = 'culture'
data.loc[data['TYPEQU'].isin(health), 'fs'] = 'health'

# Supprimer les lignes qui ne sont pas dans les listes
data = data[data['fs'] != 'tbd']

In [12]:
data["TYPEQU"].unique()

array(['D201', 'D233', 'D302', 'D307', 'D108', 'D113'], dtype=object)

In [13]:
# Réinitialisation de l'index 
data = data.reset_index(drop=True)

# Affichage de l'entête du tableau
data.head()

Unnamed: 0,TYPEQU,geometry,fs,wi,wefs
0,D201,POINT (901648.360 6253959.190),health,0.0,0.0
1,D201,POINT (901650.000 6253850.000),health,0.0,0.0
2,D201,POINT (901387.000 6251711.700),health,0.0,0.0
3,D201,POINT (901236.730 6251635.020),health,0.0,0.0
4,D201,POINT (901244.210 6251911.890),health,0.0,0.0


In [14]:
# Affichage des informations du nouveau GeoDataFrame
data.info()

<class 'geopandas.geodataframe.GeoDataFrame'>
RangeIndex: 4670 entries, 0 to 4669
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   TYPEQU    4670 non-null   object  
 1   geometry  4670 non-null   geometry
 2   fs        4670 non-null   object  
 3   wi        4670 non-null   float64 
 4   wefs      4670 non-null   float64 
dtypes: float64(2), geometry(1), object(2)
memory usage: 182.5+ KB


## Sauvegarde des données prétraitées

Je sauvegarde le GeoDataFrame prétraité jusqu'ici dans un nouveau fichier GeoPackage. Ce fichier contient les colonnes essentielles pour l'analyse et sera utilisé dans les étapes suivantes de l'analyse.

In [16]:
# Sauvegarde de la nouvelle base
data.to_file('../proxy/data/processed/b3_2501171030_health_mrs.gpkg', driver='GPKG')

## Conclusion

Dans ce notebook, j'ai effectué un prétraitement des données de la Base Permanente des Equipements (BPE, 2023) de l'INSEE. J'ai importé les données, filtré les équipements en fonction de leur qualité de géolocalisation, catégorisé les types d'équipements par fonction sociale. J'ai aussi introduit et initialisé les pondérations (poids intrinsèque et extrinsèque) qui seront explorées davantage dans d'autres notebooks. Enfin, j'ai sauvegardé le GeoDataFrame prétraité pour une utilisation ultérieure. Cette étape de prétraitement permet de passer de la BPE complète à un ensemble de données par catégorie d'équipements (comme par fonction sociale).