# Chapitre 4 - Récupération des données pour l'étude communale

In [1]:
# Paramètre(s) du notebook
ignore_warning=True
# ignore_warning=False

# VERBOSE=True
VERBOSE=False

OPTIONS=""
if not VERBOSE:
    OPTIONS="--quiet"

## 1- Importation des librairies externes et classiques

In [2]:
# Importation des librairies externes
!pip install git+https://github.com/InseeFrLab/Py-Insee-Data@52139da402bc33da6b8892d7d3208f1d2ddfaa02 --ignore-install PyYAML $OPTIONS
!pip install python-Levenshtein $OPTIONS
!pip install openpyxl $OPTIONS
!pip install fuzzywuzzy $OPTIONS

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
numba 0.54.1 requires numpy<1.21,>=1.17, but you have numpy 1.22.2 which is incompatible.[0m


In [3]:
# Importation des librairies classiques de python
import unicodedata
import requests
import time
import os
from tqdm import tqdm
import io
import warnings

# Importation des librairies de datascience et autres
import pandas as pd
import numpy as np
import pynsee
import pynsee.download
from pynsee.sirene import *
from pynsee.utils.init_conn import init_conn
from zipfile import ZipFile
from fuzzywuzzy import fuzz
from bs4 import BeautifulSoup

In [4]:
# token API insee
init_conn(insee_key=os.environ['INSEE_KEY'], insee_secret=os.environ['INSEE_SECRET'])

In [5]:
print("1 - Importation des librairies externes et classiques  ====> OK ")

1 - Importation des librairies externes et classiques  ====> OK 


## 2- Téléchargement du Code Officiel Géographique

* Pour des raisons de simplicité, nous travaillons en géographie 2021 :

In [6]:
cog_commune = pynsee.download.telechargerDonnees("COG_COMMUNE", date = "dernier")
URL_COG_2021="https://www.insee.fr/fr/statistiques/fichier/5057840/commune2021-csv.zip"

#Télécharger le zip de l'URL
r=requests.get(URL_COG_2021)

open("commune2021-csv.zip", 'wb').write(r.content)
    
    
with ZipFile("commune2021-csv.zip",'r') as myzip:
   data = myzip.open("commune2021.csv")

donnees_cog_2021=pd.read_csv(data,dtype=str)
# On enleve les communes associées,arrondissements et déléguées pour simplifier le dataframe
donnees_cog_2021=donnees_cog_2021[~donnees_cog_2021.TYPECOM.isin(["COMA","COMD","ARM"])]
donnees_cog_2021['NCC et DEP']= donnees_cog_2021['NCC'] + " " + donnees_cog_2021['DEP']
donnees_cog_2021['NCC et COM']= donnees_cog_2021['NCC'] + " ," + donnees_cog_2021['COM']

Data will be stored in the following location: /tmp/tmpejjpre2v


Downloading: : 1.93MiB [00:01, 1.72MiB/s]                         


No destination directory defined. Data have been written there: /tmp/tmpz1wjy_ub


Extracting: 100%|██████████| 9.00M/9.00M [00:00<00:00, 205MB/s]


In [7]:
if VERBOSE:
    display(donnees_cog_2021.describe())

* création d'une fonction permettant de trouver une commune à partir d'un libellé (codage/codification) à l'aide de la librairie fuzzywuzzy

In [8]:
def trouve_commune_with_fuzz(libelle,dep):
    mondf=donnees_cog_2021[donnees_cog_2021['DEP']==dep]
    mondf['score']=mondf['NCC'].apply(lambda x: fuzz.token_sort_ratio(x,libelle))
    mondf=mondf.sort_values(by="score",ascending=False)
    return mondf['NCC et COM'].iloc[0]

In [9]:
if not donnees_cog_2021.empty:
    print("2 - Téléchargement du Code Officiel Géographi  ====> OK ")
else:
    print("2 - Téléchargement du Code Officiel Géographi  ====> KO ")

2 - Téléchargement du Code Officiel Géographi  ====> OK 


## 3- Téléchargement des données de SIRENE

In [10]:
### Téléchargement des données Sirene sur les établissements Siret de boucherie-charcuterie (code 4722Z) à l'instant T
# Téléchargement via Insee sirene data  by sirene.fr website

session = requests.session()
URL_ACCUEIL = "https://www.sirene.fr/sirene/public/creation-fichier"
URL_REQUETE_POST = "https://www.sirene.fr/sirene/public/verifier-creation-fichier.action"
URL_DEVIS="https://www.sirene.fr/sirene/client//sirene/client/devis-demande.action"

URL_RECAP="https://www.sirene.fr/sirene/client/telechargement-pret-fichier.action"
URL_TELECHARGEMENT_POST="https://www.sirene.fr/sirene/client/telechargement-fichier"
POST_DATA={
'fichier.caracteristiques.etat.actif': 'true',
'__checkbox_fichier.caracteristiques.etat.actif': 'true',
'__checkbox_fichier.caracteristiques.etat.ferme': 'true',
'fichier.caracteristiques.typeEtablissement': '1',
'fichier.caracteristiques.geoFile': 'false',
'fichier.caracteristiques.cjFile': 'false',
'fichier.caracteristiques.apeFile': 'false',
'fichier.caracteristiques.sirenSiretFile': 'false',
'fichiersCriteres.criteresGeographie.upload': '(binaire)',
'__multiselect_fichier.criteres.geographie.region.modalites': '',
'__multiselect_fichier.criteres.geographie.departement.modalites': '',
'fichiersCriteres.criteresActivite.upload': '(binaire)',
'__multiselect_fichier.criteres.activite.section.modalites': '',
'__multiselect_fichier.criteres.activite.division.modalites': '',
'__multiselect_fichier.criteres.activite.groupe.modalites': '',
'fichier.criteres.activite.sousClasse.modalites': '4722Z',
'__multiselect_fichier.criteres.activite.sousClasse.modalites': '',
'fichiersCriteres.criteresNature.upload': '(binaire)',
'__multiselect_fichier.criteres.nature.entrepriseNiveau1.modalites': '',
'__multiselect_fichier.criteres.nature.entrepriseNiveau2.modalites': '',
'__multiselect_fichier.criteres.nature.entrepriseNiveau3.modalites': '',
'__multiselect_fichier.criteres.trancheEffectif.modalites': '',
'fichier.criteres.dateCreation.date': '',
'fichier.criteres.dateCreation.dateFin': '',
'fichier.criteres.dateMaj.date': '',
'fichier.criteres.dateMaj.dateFin': '',
'fichiersCriteres.criteresSirenSiret.upload': '(binaire)',
'__multiselect_fichier.criteres.criteresCatEnt.modalites': '',
'strutsLocale': 'fr_FR',
}

result=session.get(URL_ACCUEIL)
result=session.post(URL_REQUETE_POST, data=POST_DATA)


result=session.get(URL_RECAP)

result=session.get(URL_DEVIS)

result=session.post(URL_TELECHARGEMENT_POST)

donnees_sirene_fr=pd.read_csv(io.StringIO(result.content.decode('utf-8')),dtype=str)


* les données de Sirene.fr sont des données d'entreprises France entière. Pour l'étude, le nombre d'établissement par commune est considéré :

In [11]:
donnees_sirene_fr_agregees_par_com = donnees_sirene_fr.groupby("codeCommuneEtablissement").size().reset_index(name='NbBoucheriesParCom').set_index("codeCommuneEtablissement")

if VERBOSE:
    display(donnees_sirene_fr_agregees_par_com.describe())

In [12]:
if VERBOSE:
    display(donnees_sirene_fr_agregees_par_com)

In [13]:
if not donnees_sirene_fr_agregees_par_com.empty:
    print("3 - Téléchargement des données de SIRENE  ====> OK ")
else:
    print("3 - Téléchargement des données de SIRENE  ====> KO ")

3 - Téléchargement des données de SIRENE  ====> OK 


## 4- Téléchargement des données du ministère de l'intérieur

In [14]:
#Téléchargement des données de crimes et délits rapportés déclarés auprès des commissariats 
url_datagouv_min_interieur="https://www.data.gouv.fr/fr/datasets/r/d792092f-b1f7-4180-a367-d043200c1520"

donnees_police_nationale_2018=pd.read_excel(url_datagouv_min_interieur, sheet_name='Services PN 2018')
donnees_gendarmerie_nationale_2018=pd.read_excel(url_datagouv_min_interieur, sheet_name='Services GN 2018' )

del donnees_police_nationale_2018[donnees_police_nationale_2018.columns[0]]
del donnees_gendarmerie_nationale_2018[donnees_gendarmerie_nationale_2018.columns[0]]

url_localisation_pn="https://www.data.gouv.fr/fr/datasets/r/2cb2f356-42b2-4195-a35c-d4e4d986c62b"
url_localisation_gn="https://www.data.gouv.fr/fr/datasets/r/d6a43ef2-d302-4456-90e9-ff2c47cac562"
donnees_localisation_pn=pd.read_csv(url_localisation_pn,sep=';')
donnees_localisation_gn=pd.read_csv(url_localisation_gn,sep=';')



In [15]:
normalMap = {'À': 'A', 'Á': 'A', 'Â': 'A', 'Ã': 'A', 'Ä': 'A',
             'à': 'a', 'á': 'a', 'â': 'a', 'ã': 'a', 'ä': 'a', 'ª': 'A',
             'È': 'E', 'É': 'E', 'Ê': 'E', 'Ë': 'E',
             'è': 'e', 'é': 'e', 'ê': 'e', 'ë': 'e',
             'Í': 'I', 'Ì': 'I', 'Î': 'I', 'Ï': 'I',
             'í': 'i', 'ì': 'i', 'î': 'i', 'ï': 'i',
             'Ò': 'O', 'Ó': 'O', 'Ô': 'O', 'Õ': 'O', 'Ö': 'O',
             'ò': 'o', 'ó': 'o', 'ô': 'o', 'õ': 'o', 'ö': 'o', 'º': 'O',
             'Ù': 'U', 'Ú': 'U', 'Û': 'U', 'Ü': 'U',
             'ù': 'u', 'ú': 'u', 'û': 'u', 'ü': 'u',
             'Ñ': 'N', 'ñ': 'n',
             'Ç': 'C', 'ç': 'c',
             '§': 'S',  '³': '3', '²': '2', '¹': '1',
             'œ':'oe', 'Œ':'OE'}
normalize = str.maketrans(normalMap)
donnees_localisation_pn["service_sans_accent_upper"]=donnees_localisation_pn.service.apply(lambda x : x.translate(normalize).upper())
donnees_localisation_gn["service_sans_accent_upper"]=donnees_localisation_gn.service.apply(lambda x : x.translate(normalize).upper())

## Traitement des données de la Police Nationale

In [16]:
if ignore_warning:
    warnings.filterwarnings('ignore')


donnees_police_nationale_2018_travail=donnees_police_nationale_2018.T
donnees_police_nationale_2018_travail.columns = donnees_police_nationale_2018_travail.iloc[0]
donnees_police_nationale_2018_travail=donnees_police_nationale_2018_travail.iloc[1: , :]

# On retire les données COM par manque d'autres sources pour les autres données
donnees_police_nationale_2018_travail=donnees_police_nationale_2018_travail[donnees_police_nationale_2018_travail.index.str[:2]!='98']

# 1 - Traitements des commissariats

donnees_police_nationale_2018_commissariat_seulement=donnees_police_nationale_2018_travail[donnees_police_nationale_2018_travail['Libellé index \ CSP'].str.contains("CIAT")]


donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_travail['Libellé index \ CSP'].str.replace('CIAT','')
donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"].str.replace('CENTRAL','')
donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"].str.replace('DE ','')
donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"].str.replace('DES ','')
donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"].str.replace('DU ','')
donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"]=donnees_police_nationale_2018_commissariat_seulement["LIBELLE_A_RECHERCHER"].str.replace('D\'','')

donnees_police_nationale_2018_commissariat_seulement["DEP"]=np.where(donnees_police_nationale_2018_commissariat_seulement.index.str[:2]=='97', donnees_police_nationale_2018_commissariat_seulement.index.str[:3],donnees_police_nationale_2018_commissariat_seulement.index.str[:2])
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement.apply(lambda x: trouve_commune_with_fuzz(x['LIBELLE_A_RECHERCHER'], x.DEP), axis=1)

warnings.resetwarnings()

In [17]:
#Reprise manuelle
if ignore_warning:
    warnings.filterwarnings('ignore')

donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('SIGONCE ,04206',"DIGNE LES BAINS ,04070")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('EYBURIE ,19079',"BRIVE LA GAILLARDE ,19031")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('FONTANES ,42096',"FIRMINY ,42095")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('GUMIERES ,42107',"SAINT CHAMOND ,42207")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('NEUFBOURG ,50371',"CHERBOURG EN COTENTIN ,50129")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('BRULEY ,54102',"VAL DE BRIEY ,54099")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('BASLIEUX ,54049',"DOMBASLE SUR MEURTHE ,54159")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('BOUQUEHAULT ,62161',"TOUQUET PARIS PLAGE ,62826")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('CLERMONT ,74078',"THONON LES BAINS ,74281")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('MELZ SUR SEINE ,77289',"MELUN ,77288 ")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('MONTIGNY SUR LOING ,77312',"MORET LOING ET ORVANNE ,77316")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('SAINT RAPHAEL ,83118',"FREJUS ,83061")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('SALERNES ,83121',"SEYNE SUR MER ,83126")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('DESTORD ,88130',"SAINT DIE DES VOSGES ,88413")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('CERNY ,91129',"EVRY ,91228")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('CARRIERES SUR SEINE ,78124',"HOUILLES ,78311")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('DAGNY ,77151',"LAGNY SUR MARNE ,77243")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('MANAS ,26171',"ROMANS SUR ISERE ,26281")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('NOEUX LES MINES ,62617',"BARLIN ,62083")
donnees_police_nationale_2018_commissariat_seulement["COMMUNES"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].replace('POINTE A PITRE ,97120',"LES ABYMES, 97101")

# DIGNE	04	SIGONCE ,04206    -> DIGNE LES BAINS ,04070
# BRIVE	19	EYBURIE ,19079	-> BRIVE LA GAILLARDE ,19031
# ONDAINE	42	FONTANES ,42096 -> FIRMINY ,42095
# GIER	42	GUMIERES ,42107  -> SAINT CHAMOND ,42207
# CHERBOURG	50	NEUFBOURG ,50371  -> CHERBOURG EN COTENTIN ,50129
# BRIEY	54	BRULEY ,54102	-> VAL DE BRIEY ,54099
# DOMBASLE	54	BASLIEUX ,54049	-> DOMBASLE SUR MEURTHE ,54159	
# TOUQUET	62	BOUQUEHAULT ,62161	->TOUQUET PARIS PLAGE ,62826
# LEMAN	74	CLERMONT ,74078	->  THONON LES BAINS ,74281
# MELUN VAL SEINE	77  MELZ SUR SEINE ,77289  ->	MELUN ,77288        (il y a aussi 77350	LE MEE SUR SEINE)
# MORET SUR LOING	77	MONTIGNY SUR LOING ,77312		-> MORET LOING ET ORVANNE ,77316
# FREJUS ST RAPHAEL	83	SAINT RAPHAEL ,83118    -> FREJUS ,83061
# LA SEYNE	83	SALERNES ,83121	-> SEYNE SUR MER ,83126
# ST DIE	88	DESTORD ,88130	-> SAINT DIE DES VOSGES ,88413
# EVRY	91	CERNY ,91129 -> EVRY ,91228
# HOUILLES CARRIERES SUR SEINE	78	CARRIERES SUR SEINE ,78124   -> HOUILLES ,78311
# LAGNY	77	DAGNY ,77151   -> LAGNY SUR MARNE ,77243
# ROMANS	26	MANAS ,26171	-> ROMANS SUR ISERE ,26281
# NOEUX LES MINES ,62617 -> "BARLIN ,62083"
# POINTE A PITRE ,97120 -> "LES ABYMES, 97101"

warnings.resetwarnings()

In [18]:
if ignore_warning:
    warnings.filterwarnings('ignore')

donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"]=donnees_police_nationale_2018_commissariat_seulement["COMMUNES"].str.replace(r".*,","")
# donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"]=donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"].str.replace(r"[A-Z][A-Z]+","")
# donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"]=donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"].str.replace(r"[A-Z] ","")
donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"]=donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"].str.strip()
donnees_police_nationale_2018_commissariat_seulement["IN_LOC_PN"]=donnees_police_nationale_2018_commissariat_seulement["CODE_INSEE"].isin(donnees_localisation_pn["code_commune_insee"])

if VERBOSE:
    display(donnees_police_nationale_2018_commissariat_seulement[~donnees_police_nationale_2018_commissariat_seulement["IN_LOC_PN"]])
# donnees_police_nationale_2018_commissariat_seulement
#donnees_police_nationale_2018_commissariat_seulement[donnees_police_nationale_2018_commissariat_seulement.LIBELLE_A_RECHERCHER.str.contains("melun",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("DIGNE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("BRIVE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("ONDAINE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("GIER",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("CHERBOURG",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("BRIEY",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("DOMBASLE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("TOUQUET",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("LéMAN",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("MELUN",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("LOING",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("JUS",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("SEYNE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("DIé",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("EVRY",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("HOUILLES",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("LAGNY",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("ROMANS",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("PITRE",case=False)]
#donnees_localisation_pn[donnees_localisation_pn.service.str.contains("NOEUX",case=False)]

warnings.resetwarnings()

In [19]:
commissariat_xy=donnees_localisation_pn[["code_commune_insee","geocodage_x_GPS","geocodage_y_GPS"]]
commissariat_xy=commissariat_xy[commissariat_xy["code_commune_insee"].str[:2]!="98"]
commissariat_xy=commissariat_xy.set_index("code_commune_insee")
# !!!!! il existe des communes où il y a plusieurs commissariats => par hypothèse de parcimonie, on n'en garde une au hasard "first" !!!!!
commissariat_xy=commissariat_xy[~commissariat_xy.index.duplicated(keep="first")]

donnees_police_nationale_2018_commissariat_seulement=donnees_police_nationale_2018_commissariat_seulement.reset_index()
donnees_police_nationale_2018_commissariat_seulement=donnees_police_nationale_2018_commissariat_seulement.set_index("CODE_INSEE")
donnees_police_nationale_2018_commissariat_seulement=donnees_police_nationale_2018_commissariat_seulement.merge(commissariat_xy,how='inner', left_index=True, right_index=True)

if VERBOSE:
    display(donnees_police_nationale_2018_commissariat_seulement)

In [20]:
# donnees_police_nationale_2018_autres=donnees_police_nationale_2018_travail[~donnees_police_nationale_2018_travail['Libellé index \ CSP'].str.contains("CIAT")]


# # 2 - Traitements de Paris
# dpn2018_paris=donnees_police_nationale_2018_autres[donnees_police_nationale_2018_autres.index.str.contains('75')]
# dpn2018_paris['COM']="75056"

# # Les données 92-93-94-95 sont communales et départementales : à analyser finement
# dpn2018_92_93_94_95=donnees_police_nationale_2018_autres[
#     donnees_police_nationale_2018_autres.index.str.contains('92')
#     |donnees_police_nationale_2018_autres.index.str.contains('93')
#     |donnees_police_nationale_2018_autres.index.str.contains('94')
#     |donnees_police_nationale_2018_autres.index.str.contains('95')
# ]
# dpn2018_92_93_94_95["COMMUNES"]=dpn2018_92_93_94_95['Libellé index \ CSP'].apply(trouve_commune_with_fuzz)
# dpn2018_92_93_94_95


In [21]:
# dpn2018_hors_paris=donnees_police_nationale_2018_autres[~donnees_police_nationale_2018_autres.index.str.contains('75')]

# dpn2018_hors_paris[~dpn2018_hors_paris['Libellé index \ CSP'].str.contains("BMR")
#                                      &~dpn2018_hors_paris['Libellé index \ CSP'].str.contains("BCFZ")
#                                     &~dpn2018_hors_paris['Libellé index \ CSP'].str.contains("USG")]

## Traitement des données de la Gendarmerie Nationale

In [22]:
donnees_gendarmerie_nationale_2018_par_com=donnees_gendarmerie_nationale_2018.T
donnees_gendarmerie_nationale_2018_par_com.columns = donnees_gendarmerie_nationale_2018_par_com.iloc[0]
donnees_gendarmerie_nationale_2018_par_com=donnees_gendarmerie_nationale_2018_par_com.iloc[1: , :]
donnees_gendarmerie_nationale_2018_par_com.columns


# On retire les données COM par manque d'autres sources pour les autres données
donnees_gendarmerie_nationale_2018_par_com=donnees_gendarmerie_nationale_2018_par_com[donnees_gendarmerie_nationale_2018_par_com.index.str[:2]!='98']
donnees_gendarmerie_nationale_2018_par_com=donnees_gendarmerie_nationale_2018_par_com[donnees_gendarmerie_nationale_2018_par_com.index.str[:3]!='978']

donnees_gendarmerie_nationale_2018_par_com["LIBELLE_A_RECHERCHER"]=donnees_gendarmerie_nationale_2018_par_com['Libellé index \ CGD'].str.replace('CGD','')

donnees_gendarmerie_nationale_2018_par_com["DEP"]=np.where(donnees_gendarmerie_nationale_2018_par_com.index.str[:2]=='97', donnees_gendarmerie_nationale_2018_par_com.index.str[:3],donnees_gendarmerie_nationale_2018_par_com.index.str[:2])
donnees_gendarmerie_nationale_2018_par_com["COMMUNES"]=donnees_gendarmerie_nationale_2018_par_com.apply(lambda x: trouve_commune_with_fuzz(x['LIBELLE_A_RECHERCHER'], x.DEP), axis=1)

donnees_gendarmerie_nationale_2018_par_com["CODE_INSEE"]=donnees_gendarmerie_nationale_2018_par_com["COMMUNES"].str.replace(r".*,","")
donnees_gendarmerie_nationale_2018_par_com["CODE_INSEE"]=donnees_gendarmerie_nationale_2018_par_com["CODE_INSEE"].str.strip()
donnees_gendarmerie_nationale_2018_par_com["IN_LOC_GN"]=donnees_gendarmerie_nationale_2018_par_com["CODE_INSEE"].isin(donnees_localisation_gn["code_commune_insee"])
ll=list(donnees_gendarmerie_nationale_2018_par_com[~donnees_gendarmerie_nationale_2018_par_com["IN_LOC_GN"]]["LIBELLE_A_RECHERCHER"])

# Reprise manuelle

# '06029'	CANNES   = 601 chemin de Campane 06250 Mougins
# '10325'	ROSIERES PRES TROYES = 58 avenue du 28-Août-1944 10270 Lusigny-sur-Barse
# '11069'	CARCASSONNE = 2 rue Paul-Lacombe 11000 Carcassonne
# '13047'	ISTRES = 541 chemin des Pinèdes 13680 Lançon-Provence
# '17300'	LA ROCHELLE = Rue du Champ Pinson 17137 Nieul-sur-Mer
# '25388'	MONTBELIARD = 17 impasse du Chênois 25460 Étupes
# '28218'	LUCE = 2 rue Jean-Monnet 28000 Chartres
# '2B033'	BASTIA = Place de la Mairie Erbalunga 20222 Brando
# '33009'	ARCACHON = 28 route de Bordeaux Petit Piquey 33950 Lège-Cap-Ferret
# '33065'	BOULIAC = Quartier Béteille 33270 Bouliac
# '38185'	GRENOBLE = 24, avenue du Vercors 38170 Seyssinet-Pariset
# '40192'	MONT DE MARSAN = Caserne du Baradé 50, rue Pierre Benoît 40000 Mont-de-Marsan
# '41018'	BLOIS = 1, rue Paul Valéry 41350 Vineuil
# '44143'	REZE = 23, rue Gutemberg 44340 Bouguenais
# '45208'	MONTARGIS = 2, route de Mirebeau 45210 Ferrières-en-Gâtinais
# '47001'	AGEN = 15 Rue Valence 47000 Agen
# '49099'	CHOLET = 3, allée de Toscane 49450 Saint-Macaire-en-Mauges
# '49328'	SAUMUR = 1, rue Lespagnol de la Plante 49650 Allonnes
# '50129'	CHERBOURG EN COTENTIN = 28, rue d'Aurigny 50440 Beaumont-Hague
# '52448'	ST DIZIER = 13, avenue de la République 52100 Saint-Dizier
# '54099'	NANCY = 2, rue de la Grande Ozeraille 54280 Seichamps
# '54395'	VAL DE BRIEY = 3, place Jean Jaurès 54750 Trieux
# '56121'	LORIENT = 32, rue Du Couëdic 56100 Lorient
# '56260'	VANNES = Caserne Guillaudot 2 Place de la Libération 56000 Vannes
# '57227'	FORBACH = 10 Rue du Petit Bois 57460 Behren-lès-Forbach
# '57672'	THIONVILLE = 3, rue de la Gendarmerie 57330 Hettange-Grande
# '59178'	DOUAI = Caserne Conroux 240, rue des Wetz 59500 Douai
# '59183'	DUNKERQUE HOYMILLE = Chemin Départemental 916 A 59492 Hoymille
# '60159'	COMPIEGNE = 2, avenue Thiers 60200 Compiègne
# '62193'	CALAIS = 528, avenue Matisse 62730 Marck
# '62765'	ST OMER = Tatinghem 1 Allée du Centenaire 62500 Saint-Martin-lez-Tatinghem
# '69029'	BRON = 19, rue de la République 69740 Genas
# '69091'	GIVORS = 1, rue Louis Guillaumond 69440 Mornant
# '69123'	LYON = Caserne Général de Division Delfosse 2 Rue Bichat 69002 Lyon 02
# '71076'	CHALON SUR SAONE = 2, rue Lucie Aubrac 71880 Châtenoy-le-Royal
# '77186'	FONTAINEBLEAU = 27, rue des Bois 77300 Fontainebleau
# '82121'	MONTAUBAN = 19, avenue André Bonnet 82700 Montech
# '84031'	CARPENTRAS = 162, avenue John Kennedy 84200 Carpentras
# '85194'	LES SABLES D OLONNE = 130, rue du 8-Mai-1945 85440 Talmont-Saint-Hilaire
# '86066'	CHATELLERAULT = 5, boulevard Aristide Briand 86100 Châtellerault
# '97120'	POINTE A PITRE = 1 Impasse Joas Section Castaing 97180 Sainte-Anne
# '97416'	ST PIERRE = 20 Avenue Principale 97450 Saint-Louis


  donnees_gendarmerie_nationale_2018_par_com["LIBELLE_A_RECHERCHER"]=donnees_gendarmerie_nationale_2018_par_com['Libellé index \ CGD'].str.replace('CGD','')
  donnees_gendarmerie_nationale_2018_par_com["CODE_INSEE"]=donnees_gendarmerie_nationale_2018_par_com["COMMUNES"].str.replace(r".*,","")


In [23]:
# url_demarche_admin="https://demarchesadministratives.fr/gendarmerie/"
# url_annuaire_admin="https://www.annuaire-administration.com/gendarmerie/"

# r=requests.get(url_annuaire_admin)
# #donnees_localisation_gn[donnees_localisation_gn.adresse_geographique.str.contains("carcassonne",case=False)]
# #donnees_localisation_gn[donnees_localisation_gn.service.str.contains("carcassonne",case=False)]
# #donnees_localisation_gn[donnees_localisation_gn.departement=='11']["url"]

# soup = BeautifulSoup(r.text, 'html.parser')
# liste_url=[a["href"] for a in soup.find_all(attrs={"style": "color:#000000;"})]


In [24]:
#donnees_gendarmerie_nationale_2018_par_com
gendarmerie_xy=donnees_localisation_gn[['code_commune_insee',
       'geocodage_x_GPS', 'geocodage_y_GPS']]
gendarmerie_xy=gendarmerie_xy[gendarmerie_xy["code_commune_insee"].str[:2]!="98"]
# on prend les lignes avec geocodage_GPS
gendarmerie_xy=gendarmerie_xy[~gendarmerie_xy["geocodage_x_GPS"].isna()]
gendarmerie_xy=gendarmerie_xy[~gendarmerie_xy["geocodage_y_GPS"].isna()]
gendarmerie_xy=gendarmerie_xy.set_index("code_commune_insee")

# !!!!! il existe des communes où il y a plusieurs gendarmeries => par hypothèse de parcimonie, on n'en garde une au hasard "first" !!!!!
gendarmerie_xy=gendarmerie_xy[~gendarmerie_xy.index.duplicated(keep="first")]

donnees_gendarmerie_nationale_2018_par_com_geoloc=donnees_gendarmerie_nationale_2018_par_com.reset_index()
donnees_gendarmerie_nationale_2018_par_com_geoloc=donnees_gendarmerie_nationale_2018_par_com_geoloc.set_index("CODE_INSEE")
donnees_gendarmerie_nationale_2018_par_com_geoloc=donnees_gendarmerie_nationale_2018_par_com_geoloc.merge(gendarmerie_xy,how='left',right_index=True,left_index=True)
if VERBOSE:
    display(donnees_gendarmerie_nationale_2018_par_com_geoloc[~donnees_gendarmerie_nationale_2018_par_com_geoloc.IN_LOC_GN].index)


In [25]:
donnees_gendarmerie_nationale_2018_par_com_geoloc["ADRESSE"]=""
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="06029","ADRESSE"]=" 601 chemin de Campane 06250 Mougins"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="10325","ADRESSE"]=" 58 avenue du 28-Août-1944 10270 Lusigny-sur-Barse"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="11069","ADRESSE"]=" 2 rue Paul-Lacombe 11000 Carcassonne"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="13047","ADRESSE"]=" 541 chemin des Pinèdes 13680 Lançon-Provence"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="17300","ADRESSE"]=" Rue du Champ Pinson 17137 Nieul-sur-Mer"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="25388","ADRESSE"]=" 17 impasse du Chênois 25460 Étupes"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="28218","ADRESSE"]=" 2 rue Jean-Monnet 28000 Chartres"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="2B033","ADRESSE"]=" Place de la Mairie Erbalunga 20222 Brando"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="33009","ADRESSE"]=" 28 route de Bordeaux Petit Piquey 33950 Lège-Cap-Ferret"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="33065","ADRESSE"]=" Quartier Béteille 33270 Bouliac"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="38185","ADRESSE"]=" 24, avenue du Vercors 38170 Seyssinet-Pariset"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="40192","ADRESSE"]=" Caserne du Baradé 50, rue Pierre Benoît 40000 Mont-de-Marsan"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="41018","ADRESSE"]=" 1, rue Paul Valéry 41350 Vineuil"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="44143","ADRESSE"]=" 23, rue Gutemberg 44340 Bouguenais"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="45208","ADRESSE"]=" 2, route de Mirebeau 45210 Ferrières-en-Gâtinais"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="47001","ADRESSE"]=" 15 Rue Valence 47000 Agen"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="49099","ADRESSE"]=" 3, allée de Toscane 49450 Saint-Macaire-en-Mauges"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="49328","ADRESSE"]=" 1, rue Lespagnol de la Plante 49650 Allonnes"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="50129","ADRESSE"]=" 28, rue d'Aurigny 50440 Beaumont-Hague"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="52448","ADRESSE"]=" 13, avenue de la République 52100 Saint-Dizier"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="54099","ADRESSE"]=" 2, rue de la Grande Ozeraille 54280 Seichamps"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="54395","ADRESSE"]=" 3, place Jean Jaurès 54750 Trieux"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="56121","ADRESSE"]=" 32, rue Du Couëdic 56100 Lorient"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="56260","ADRESSE"]=" Caserne Guillaudot 2 Place de la Libération 56000 Vannes"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="57227","ADRESSE"]=" 10 Rue du Petit Bois 57460 Behren-lès-Forbach"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="57672","ADRESSE"]=" 3, rue de la Gendarmerie 57330 Hettange-Grande"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="59178","ADRESSE"]=" Caserne Conroux 240, rue des Wetz 59500 Douai"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="59183","ADRESSE"]=" Chemin Départemental 916 A 59492 Hoymille"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="60159","ADRESSE"]=" 2, avenue Thiers 60200 Compiègne"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="62193","ADRESSE"]=" 528, avenue Matisse 62730 Marck"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="62765","ADRESSE"]=" Tatinghem 1 Allée du Centenaire 62500 Saint-Martin-lez-Tatinghem"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="69029","ADRESSE"]=" 19, rue de la République 69740 Genas"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="69091","ADRESSE"]=" 1, rue Louis Guillaumond 69440 Mornant"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="69123","ADRESSE"]=" Caserne Général de Division Delfosse 2 Rue Bichat 69002 Lyon 02"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="71076","ADRESSE"]=" 2, rue Lucie Aubrac 71880 Châtenoy-le-Royal"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="77186","ADRESSE"]=" 27, rue des Bois 77300 Fontainebleau"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="82121","ADRESSE"]=" 19, avenue André Bonnet 82700 Montech"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="84031","ADRESSE"]=" 162, avenue John Kennedy 84200 Carpentras"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="85194","ADRESSE"]=" 130, rue du 8-Mai-1945 85440 Talmont-Saint-Hilaire"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="86066","ADRESSE"]=" 5, boulevard Aristide Briand 86100 Châtellerault"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="97120","ADRESSE"]=" 1 Impasse Joas Section Castaing 97180 Sainte-Anne"
donnees_gendarmerie_nationale_2018_par_com_geoloc.loc[donnees_gendarmerie_nationale_2018_par_com_geoloc.index=="97416","ADRESSE"]=" 20 Avenue Principale 97450 Saint-Louis"

if VERBOSE:
    donnees_gendarmerie_nationale_2018_par_com_geoloc[~donnees_gendarmerie_nationale_2018_par_com_geoloc.IN_LOC_GN]
# '10325'	ROSIERES PRES TROYES = 58 avenue du 28-Août-1944 10270 Lusigny-sur-Barse
# '11069'	CARCASSONNE = 2 rue Paul-Lacombe 11000 Carcassonne
# '13047'	ISTRES = 541 chemin des Pinèdes 13680 Lançon-Provence
# '17300'	LA ROCHELLE = Rue du Champ Pinson 17137 Nieul-sur-Mer
# '25388'	MONTBELIARD = 17 impasse du Chênois 25460 Étupes
# '28218'	LUCE = 2 rue Jean-Monnet 28000 Chartres
# '2B033'	BASTIA = Place de la Mairie Erbalunga 20222 Brando
# '33009'	ARCACHON = 28 route de Bordeaux Petit Piquey 33950 Lège-Cap-Ferret
# '33065'	BOULIAC = Quartier Béteille 33270 Bouliac
# '38185'	GRENOBLE = 24, avenue du Vercors 38170 Seyssinet-Pariset
# '40192'	MONT DE MARSAN = Caserne du Baradé 50, rue Pierre Benoît 40000 Mont-de-Marsan
# '41018'	BLOIS = 1, rue Paul Valéry 41350 Vineuil
# '44143'	REZE = 23, rue Gutemberg 44340 Bouguenais
# '45208'	MONTARGIS = 2, route de Mirebeau 45210 Ferrières-en-Gâtinais
# '47001'	AGEN = 15 Rue Valence 47000 Agen
# '49099'	CHOLET = 3, allée de Toscane 49450 Saint-Macaire-en-Mauges
# '49328'	SAUMUR = 1, rue Lespagnol de la Plante 49650 Allonnes
# '50129'	CHERBOURG EN COTENTIN = 28, rue d'Aurigny 50440 Beaumont-Hague
# '52448'	ST DIZIER = 13, avenue de la République 52100 Saint-Dizier
# '54099'	NANCY = 2, rue de la Grande Ozeraille 54280 Seichamps
# '54395'	VAL DE BRIEY = 3, place Jean Jaurès 54750 Trieux
# '56121'	LORIENT = 32, rue Du Couëdic 56100 Lorient
# '56260'	VANNES = Caserne Guillaudot 2 Place de la Libération 56000 Vannes
# '57227'	FORBACH = 10 Rue du Petit Bois 57460 Behren-lès-Forbach
# '57672'	THIONVILLE = 3, rue de la Gendarmerie 57330 Hettange-Grande
# '59178'	DOUAI = Caserne Conroux 240, rue des Wetz 59500 Douai
# '59183'	DUNKERQUE HOYMILLE = Chemin Départemental 916 A 59492 Hoymille
# '60159'	COMPIEGNE = 2, avenue Thiers 60200 Compiègne
# '62193'	CALAIS = 528, avenue Matisse 62730 Marck
# '62765'	ST OMER = Tatinghem 1 Allée du Centenaire 62500 Saint-Martin-lez-Tatinghem
# '69029'	BRON = 19, rue de la République 69740 Genas
# '69091'	GIVORS = 1, rue Louis Guillaumond 69440 Mornant
# '69123'	LYON = Caserne Général de Division Delfosse 2 Rue Bichat 69002 Lyon 02
# '71076'	CHALON SUR SAONE = 2, rue Lucie Aubrac 71880 Châtenoy-le-Royal
# '77186'	FONTAINEBLEAU = 27, rue des Bois 77300 Fontainebleau
# '82121'	MONTAUBAN = 19, avenue André Bonnet 82700 Montech
# '84031'	CARPENTRAS = 162, avenue John Kennedy 84200 Carpentras
# '85194'	LES SABLES D OLONNE = 130, rue du 8-Mai-1945 85440 Talmont-Saint-Hilaire
# '86066'	CHATELLERAULT = 5, boulevard Aristide Briand 86100 Châtellerault
# '97120'	POINTE A PITRE = 1 Impasse Joas Section Castaing 97180 Sainte-Anne
# '97416'	ST PIERRE = 20 Avenue Principale 97450 Saint-Louis

In [26]:
#50 appels par seconde autorisés
def geolocate_with_api_adresse(libelle):
    if libelle:
        url_api="https://api-adresse.data.gouv.fr/search/?q="
        response=requests.get(url_api+libelle)
        return response.json()['features'][0]['geometry']['coordinates']
    return []

In [27]:
donnees_gendarmerie_nationale_2018_par_com_geoloc[~donnees_gendarmerie_nationale_2018_par_com_geoloc.IN_LOC_GN]
donnees_gendarmerie_nationale_2018_par_com_geoloc["XY"]=donnees_gendarmerie_nationale_2018_par_com_geoloc.apply(lambda x: geolocate_with_api_adresse(x['ADRESSE']), axis=1)


In [28]:
gn_sans_geoloc=donnees_gendarmerie_nationale_2018_par_com_geoloc[~donnees_gendarmerie_nationale_2018_par_com_geoloc.IN_LOC_GN]
gn_avec_geoloc=donnees_gendarmerie_nationale_2018_par_com_geoloc[donnees_gendarmerie_nationale_2018_par_com_geoloc.IN_LOC_GN]
gn_sans_geoloc["geocodage_x_GPS"]=gn_sans_geoloc.apply(lambda x : x['XY'][0], axis=1)
gn_sans_geoloc["geocodage_y_GPS"]=gn_sans_geoloc.apply(lambda x : x['XY'][1], axis=1)
donnees_gendarmerie_nationale_2018_par_com_geoloc=gn_sans_geoloc.append(gn_avec_geoloc)
donnees_gendarmerie_nationale_2018_par_com_geoloc=donnees_gendarmerie_nationale_2018_par_com_geoloc.sort_values(by="index")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  gn_sans_geoloc["geocodage_x_GPS"]=gn_sans_geoloc.apply(lambda x : x['XY'][0], axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  gn_sans_geoloc["geocodage_y_GPS"]=gn_sans_geoloc.apply(lambda x : x['XY'][1], axis=1)


## Fusion des données de la Police Nationale et de la Gendarmerie Nationale 

In [29]:
# Traitements GN
gn_geo=donnees_gendarmerie_nationale_2018_par_com_geoloc[['geocodage_x_GPS', 'geocodage_y_GPS']]
gn_num=donnees_gendarmerie_nationale_2018_par_com_geoloc.drop(['LIBELLE_A_RECHERCHER', 'DEP', 'COMMUNES', 'IN_LOC_GN',
       'geocodage_x_GPS', 'geocodage_y_GPS', 'ADRESSE', 'XY','index', 'Libellé index \ CGD','Index non utilisé'],axis=1)
gn_num= gn_num.sum(axis=1).astype(int)
gn_num=gn_num.to_frame()
gn_num.rename(columns={0: "Total des crimes et délits"},inplace=True)
donnees_gendarmerie= gn_num.merge(gn_geo,how='inner',right_index=True,left_index=True)
donnees_gendarmerie["Police"]=0



  'geocodage_x_GPS', 'geocodage_y_GPS', 'ADRESSE', 'XY','index', 'Libellé index \ CGD','Index non utilisé'],axis=1)


In [30]:
# Traitements PN
donnees_police_nationale_2018_commissariat_seulement
pn_geo=donnees_police_nationale_2018_commissariat_seulement[['geocodage_x_GPS', 'geocodage_y_GPS']]
pn_num=donnees_police_nationale_2018_commissariat_seulement.drop(['LIBELLE_A_RECHERCHER', 'DEP', 'COMMUNES', 'IN_LOC_PN',
       'geocodage_x_GPS', 'geocodage_y_GPS','index','Périmètres', 'Libellé index \ CSP','Index non utilisé'],axis=1)
pn_num= pn_num.sum(axis=1).astype(int)
pn_num=pn_num.to_frame()
pn_num.rename(columns={0: "Total des crimes et délits"},inplace=True)
donnees_police= pn_num.merge(pn_geo,how='inner',right_index=True,left_index=True)
donnees_police["Police"]=1


  'geocodage_x_GPS', 'geocodage_y_GPS','index','Périmètres', 'Libellé index \ CSP','Index non utilisé'],axis=1)


In [31]:
donnees_min_int_2018=donnees_gendarmerie.append(donnees_police)


## Données communales (2 mars 2022)

In [13]:
#https://www.data.gouv.fr/fr/datasets/bases-communale-et-departementale-des-principaux-indicateurs-des-crimes-et-delits-enregistres-par-la-police-et-la-gendarmerie-nationales/
import tarfile
URL_FILE="https://www.data.gouv.fr/fr/datasets/r/3f51212c-f7d2-4aec-b899-06be6cdd1030"

r=requests.get(URL_FILE)

open("base-communale-csv.gz", 'wb').write(r.content)
    

donnees_communales_ssmsi=pd.read_csv("base-communale-csv.gz",compression='gzip', sep=";", dtype="str")
    
     

In [14]:
donnees_communales_ssmsi

Unnamed: 0,COG_COMMUNE_2021,Nom.de.la.commune,annee,classe,unité.de.compte,valeur.publiée,faits,tauxpourmille,complementinfoval,complementinfotaux,...,TUU2017,TDUU2017,UUSTATUT2017,AAV2020,TAAV2017,TDAAV2017,CATEAAV2020,ZE2020,BV2012,TypoRural2021
0,01001,L' Abergement-Clémenciat,16,Autres coups et blessures volontaires,victime,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,524,Aire de moins de 50 000 habitants,Aire de moins de 10 000 habitants,Commune de la couronne,8405,01093,rural autonome peu dense
1,01001,L' Abergement-Clémenciat,17,Autres coups et blessures volontaires,victime,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,524,Aire de moins de 50 000 habitants,Aire de moins de 10 000 habitants,Commune de la couronne,8405,01093,rural autonome peu dense
2,01001,L' Abergement-Clémenciat,18,Autres coups et blessures volontaires,victime,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,524,Aire de moins de 50 000 habitants,Aire de moins de 10 000 habitants,Commune de la couronne,8405,01093,rural autonome peu dense
3,01001,L' Abergement-Clémenciat,19,Autres coups et blessures volontaires,victime,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,524,Aire de moins de 50 000 habitants,Aire de moins de 10 000 habitants,Commune de la couronne,8405,01093,rural autonome peu dense
4,01001,L' Abergement-Clémenciat,20,Autres coups et blessures volontaires,victime,ndiff,,,14285714285714286,09513102136123843,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,524,Aire de moins de 50 000 habitants,Aire de moins de 10 000 habitants,Commune de la couronne,8405,01093,rural autonome peu dense
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2299171,88493,Varmonzey,17,Vols dans les véhicules,véhicule,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,095,Aire de 50 000 à moins de 200 000 habitants,Aire de 100 000 à moins de 125 000 habitants,Commune de la couronne,4407,88090,rural sous faible influence d'un pôle
2299172,88493,Varmonzey,18,Vols dans les véhicules,véhicule,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,095,Aire de 50 000 à moins de 200 000 habitants,Aire de 100 000 à moins de 125 000 habitants,Commune de la couronne,4407,88090,rural sous faible influence d'un pôle
2299173,88493,Varmonzey,19,Vols dans les véhicules,véhicule,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,095,Aire de 50 000 à moins de 200 000 habitants,Aire de 100 000 à moins de 125 000 habitants,Commune de la couronne,4407,88090,rural sous faible influence d'un pôle
2299174,88493,Varmonzey,20,Vols dans les véhicules,véhicule,diff,0,"0,00000000000000e+00",,,...,Commune hors unité urbaine,Commune hors unité urbaine,Hors unité urbaine,095,Aire de 50 000 à moins de 200 000 habitants,Aire de 100 000 à moins de 125 000 habitants,Commune de la couronne,4407,88090,rural sous faible influence d'un pôle


In [32]:
if VERBOSE:
    display(donnees_min_int_2018.sum())

In [33]:
if not donnees_min_int_2018.empty:
    print("4- Téléchargement des données du ministère de l'intérieur  ====> OK ")
else:
    print("4- Téléchargement des données du ministère de l'intérieur  ====> KO ")

4- Téléchargement des données du ministère de l'intérieur  ====> OK 


## 5 - Téléchargement des revenus localisés

In [34]:
URL_FILO_ZIP_2018="https://www.insee.fr/fr/statistiques/fichier/5009236/base-cc-filosofi-2018_CSV_geo2021.zip"
#Télécharger le zip de l'URL
r=requests.get(URL_FILO_ZIP_2018)

open("base-cc-filosofi-2018_CSV_geo2021.zip", 'wb').write(r.content)
    
    
with ZipFile("base-cc-filosofi-2018_CSV_geo2021.zip",'r') as myzip:
    data = myzip.open("cc_filosofi_2018_COM-geo2021.CSV")
    
donnees_filo_communes_2018=pd.read_csv(data,sep=';')       

  open("base-cc-filosofi-2018_CSV_geo2021.zip", 'wb').write(r.content)
  exec(code_obj, self.user_global_ns, self.user_ns)


In [35]:
donnees_filo_communes_2018=donnees_filo_communes_2018.set_index("CODGEO")

if VERBOSE:
    display(donnees_filo_communes_2018)

In [36]:
if not donnees_filo_communes_2018.empty:
    print("5 - Téléchargement des revenus localisés  ====> OK ")
else:
    print("5 - Téléchargement des revenus localisés  ====> KO ")

5 - Téléchargement des revenus localisés  ====> OK 


## 6 - Téléchargement des populations légales

In [37]:
#Téléchargement des populations légales du millénisme 2018 
URL_POP_LEG="https://www.insee.fr/fr/statistiques/fichier/4989724/ensemble.zip"

#Télécharger le zip de l'URL
r=requests.get(URL_POP_LEG)

open("ensemble.zip", 'wb').write(r.content)
    
    
with ZipFile("ensemble.zip",'r') as myzip:
    data = myzip.open("Communes.csv")

donnees_pop_leg_18=pd.read_csv(data,sep=';',dtype=str)
donnees_pop_leg_18["CODE_INSEE"]=donnees_pop_leg_18["CODDEP"]+donnees_pop_leg_18["CODCOM"]
donnees_pop_leg_18=donnees_pop_leg_18.set_index("CODE_INSEE")


  open("ensemble.zip", 'wb').write(r.content)


In [38]:
if VERBOSE:
    display(donnees_pop_leg_18.sample(10))

In [39]:
if VERBOSE:
    display(donnees_pop_leg_18.describe())

In [40]:
if not donnees_pop_leg_18.empty:
    print("6 - Téléchargement des populations légales  ====> OK ")
else:
    print("6 - Téléchargement des populations légales  ====> KO ")

6 - Téléchargement des populations légales  ====> OK 


## 7 - Téléchargement des données d'emplois localisées

In [41]:
URL_TAUX_CHOMAGE_15_24_PAR_COM="https://www.observatoire-des-territoires.gouv.fr/outils/cartographie-interactive/api/v1/functions/GC_API_download.php?type=stat&nivgeo=com2021&dataset=indic_sex_rp&indic=tx_chom1524"


donnees_chomage_15_24_par_com=pd.read_excel(URL_TAUX_CHOMAGE_15_24_PAR_COM, sheet_name='Data',skiprows=4)

if VERBOSE:
    display(donnees_chomage_15_24_par_com)

In [42]:
donnees_chomage_15_24_par_com_travail=donnees_chomage_15_24_par_com[donnees_chomage_15_24_par_com["an"]==2018]
donnees_chomage_15_24_par_com_travail=donnees_chomage_15_24_par_com_travail[donnees_chomage_15_24_par_com_travail["sexe"]=="T"]
donnees_chomage_15_24_par_com_travail=donnees_chomage_15_24_par_com_travail.set_index("codgeo")

if VERBOSE:
    display(donnees_chomage_15_24_par_com_travail)

In [43]:
if not donnees_chomage_15_24_par_com_travail.empty:
    print("7 - Téléchargement des données d'emplois localisées  ====> OK ")
else:
    print("7 - Téléchargement des données d'emplois localiséess  ====> KO ")

7 - Téléchargement des données d'emplois localisées  ====> OK 


## 8 - Fusion des données

In [44]:
# Partons du COG :
donnees_2018_com = donnees_cog_2021[["COM","NCC"]].astype(str)
donnees_2018_com=donnees_2018_com.set_index("COM")
donnees_2018_com = donnees_2018_com.merge(donnees_sirene_fr_agregees_par_com,how="left",left_index=True,right_index=True)
donnees_2018_com.NbBoucheriesParCom = donnees_2018_com.NbBoucheriesParCom.fillna(0).astype(int)
donnees_2018_com = donnees_2018_com.merge(donnees_police,how="left",left_index=True,right_index=True)
donnees_2018_com = donnees_2018_com.merge(donnees_gendarmerie,how="left",left_index=True,right_index=True)
donnees_2018_com = donnees_2018_com.merge(donnees_pop_leg_18,how="left",left_index=True,right_index=True)
donnees_2018_com = donnees_2018_com.merge(donnees_filo_communes_2018,how="left",left_index=True,right_index=True)
donnees_2018_com = donnees_2018_com.merge(donnees_chomage_15_24_par_com_travail,how="left",left_index=True,right_index=True)

if VERBOSE:
    display(donnees_2018_com[~donnees_2018_com["Total des crimes et délits_x"].isna()])


* On se restreint au champ métropolitain car les données d'outre mer ne sont pas exhaustives sur toutes nos sources 

In [45]:
donnees_2018_com = donnees_2018_com[donnees_2018_com.index.str[:2]!='97']
if VERBOSE:
    display(donnees_2018_com)
    display(donnees_2018_com.describe())

* On fait l'hypothèse d'unicité du dépôt de plainte ou de signalement en gardarmerie ou bien en commissariat, ce qui permet de sommer les crimes et délits au niveau communal

In [46]:
donnees_2018_com['Total des crimes et délits relevés par la PN et GN'] = donnees_2018_com[['Total des crimes et délits_x', 'Total des crimes et délits_y']].sum(axis=1)

In [47]:
# donnees_2018 = donnees_2018.rename(columns={"Total des crimes et délits relevés par la Police Nationale": "Crim_Del_PN", "Total des crimes et délits relevés par la Gendarmerie Nationale": "Crim_Del_GN", "Total des crimes et délits relevés par la PN et GN": "Crim_Del_PN_GN"})
if VERBOSE:
    display(donnees_2018_com)

In [48]:
if not donnees_2018_com.empty:
    print("8 - Fusion des données  ====> OK ")
else:
    print("8 - Fusion des données  ====> KO ")

8 - Fusion des données  ====> OK 


## 9 - On créé une base de données rapportant le nombre de crimes et délits, et le nombre de boucheries pour 100 000 habitants 


In [49]:
donnees_2018_com_hab = donnees_2018_com
donnees_2018_com_hab.columns
donnees_2018_com_hab.PTOT=donnees_2018_com_hab.PTOT.fillna(0).astype(int)
donnees_2018_com_hab['NbBoucheriesParComHab']=round(donnees_2018_com_hab['NbBoucheriesParCom']/donnees_2018_com_hab['PTOT']*100000)
donnees_2018_com_hab['Crim_Del_GN_hab']=round(donnees_2018_com_hab['Total des crimes et délits_x']/donnees_2018_com_hab['PTOT']*100000)
donnees_2018_com_hab['Crim_Del_PN_hab']=round(donnees_2018_com_hab['Total des crimes et délits_y']/donnees_2018_com_hab['PTOT']*100000)
donnees_2018_com_hab['Crim_Del_PN_GN_hab']=round(donnees_2018_com_hab['Total des crimes et délits relevés par la PN et GN']/donnees_2018_com_hab['PTOT']*100000)
donnees_2018_com_hab= donnees_2018_com_hab.drop(['Total des crimes et délits_x', 'Total des crimes et délits_y', 'PTOT', 'NbBoucheriesParCom'], axis=1)
if VERBOSE:
    display(donnees_2018_com_hab)


In [50]:
%store donnees_2018_com
%store donnees_2018_com_hab


Stored 'donnees_2018_com' (DataFrame)
Stored 'donnees_2018_com_hab' (DataFrame)


In [51]:
if not donnees_2018_com_hab.empty:
    print("9 - Export des données  ====> OK ")
else:
    print("9 - Export des données  ====> KO ")

9 - Export des données  ====> OK 


## 10 - Tentative de récupération d'un proxy d'un sentiment de sécurité au niveau communal


In [None]:
# import re

# import time
# headers = {
#     'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
# }

# url="https://www.ville-ideale.fr/villespardepts.php"
# url_cherche="https://www.ville-ideale.fr/scripts/cherche.php"
# base_url="https://www.ville-ideale.fr"
# s = requests.session()
# r=s.get(url,headers=headers)
# print(r)
# print(r.text)
# time.sleep(1)

# liste_departement=re.findall(r'affdept\(\'(\d+)\',',r.text)
# for _, numdep in enumerate(liste_departement):
#     r=s.post(url_cherche,data={'dept': numdep},headers=headers)
#     print(r)
#     soup = BeautifulSoup(r.text, 'html.parser')
#     for link in soup.find_all('a'):
#         time.sleep(1)
#         print(link.get('href'))
#         r=s.get(base_url+link.get('href'),headers=headers)
#         print(r)
#         soup = BeautifulSoup(r.text, 'html.parser')
#         print(soup.find(id="tablonotes").findAll("tr"))
#         print(type(soup.find(id="tablonotes").findAll("tr")))
#         liste_tr_securite=[tr.text for tr in list(soup.find(id="tablonotes").findAll("tr")) if "Sécurité" in tr.text ]
#         if liste_tr_securite:
#             note_securite=re.findall(r'\d+', liste_tr_securite[0])
#             print('.'.join(note_securite))
#         break
#     break

In [None]:
# !pip install lxml
# from lxml.html import fromstring
# import requests
# from itertools import cycle
# import traceback
# def get_proxies():
#     url = 'https://free-proxy-list.net/'
#     response = requests.get(url)
#     parser = fromstring(response.text)
#     proxies = set()
#     for i in parser.xpath('//tbody/tr'):
#         if i.xpath('.//td[7][contains(text(),"yes")]') and  i.xpath('.//td[5][contains(text(),"elite proxy")]'):
#             proxy = ":".join([i.xpath('.//td[1]/text()')[0], i.xpath('.//td[2]/text()')[0]])
#             proxies.add(proxy)
#     return proxies

# proxies = get_proxies()
# print(proxies)
# proxy_pool = cycle(proxies)
# url = 'https://www.ville-ideale.fr'

# bool_continue=True
# i=0
# while bool_continue and i <10:
# #Get a proxy from the pool
#     i+=1
#     proxy = next(proxy_pool)
#     print("Request #%d"%i)
#     try:
#         s = requests.Session()
#         s.proxies = {"http": proxy, "https": proxy}
#         response = s.get(url)
#         print(response.json())
#         bool_continue=False
#     except:
#         #Most free proxies will often get connection errors. You will have retry the entire request using another proxy to work. 
#         #We will just skip retries as its beyond the scope of this tutorial and we are only downloading a single url 
#         print("Skipping. Connnection error")