In [14]:
import os 
import pandas as pd
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


### Connexion à la base PostgreSQL

In [None]:
user = os.getenv('POSTGRES_USER')
password = os.getenv('POSTGRES_PWD')
host = os.getenv('POSTGRES_HOST')
%sql postgresql://{user}:{password}@{host}/kelrisks

### Récupération des données

On réalise une jointure entre la table *basias*
et la table *adresse_commune* et on filtre 
uniquement les données de l'île-de-France

In [27]:
%%sql result <<
SELECT 
  A.identifiant,
  A.adresse,
  A.raison_sociale,
  A.nom,
  B.code_postal,
  B.code_insee,
  B.nom_commune,
  ST_X(ST_CENTROID(A.geog)) as longitude,
  ST_Y(ST_CENTROID(A.geog)) as latitude
FROM kelrisks.basias as A
LEFT JOIN kelrisks.adresse_commune as B
ON A.commune = B.code_insee
WHERE 
    A.commune LIKE '75___' OR 
    A.commune LIKE '77___' OR 
    A.commune LIKE '78___' OR 
    A.commune LIKE '91___' OR 
    A.commune LIKE '92___' OR 
    A.commune LIKE '93___' OR 
    A.commune LIKE '94___' OR 
    A.commune LIKE '95___' 


 * postgresql://postgres:***@localhost/kelrisks
36741 rows affected.
Returning data to local variable result


In [28]:
## Get result into a pandas dataframe
basias = result.DataFrame()

### Aperçu du DataFrame

In [29]:
# imprime les caractéristiques du dataframe
basias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36741 entries, 0 to 36740
Data columns (total 9 columns):
identifiant       36741 non-null object
adresse           25075 non-null object
raison_sociale    36717 non-null object
nom               22930 non-null object
code_postal       36671 non-null object
code_insee        36671 non-null object
nom_commune       36671 non-null object
longitude         33914 non-null float64
latitude          33914 non-null float64
dtypes: float64(2), object(7)
memory usage: 2.5+ MB


In [40]:
# Imprime les premières lignes pour 
# avoir un aperçu du format des données
basias.head(n=30)

Unnamed: 0,identifiant,adresse,raison_sociale,nom,code_postal,code_insee,nom_commune,longitude,latitude
0,IDF7504328,,STATION SERVICE TOTAL S.A.,,75019,75119,Paris 19e Arrondissement,2.371314,48.899937
1,IDF7500902,,HERLICQ ET FILS,Usine de construction éléctrique,75015,75115,Paris 15e Arrondissement,2.276337,48.845673
2,IDF7710019,,Garage,Garage,77140,77156,Darvault,,
3,IDF7505612,,SERNAM,,75019,75119,Paris 19e Arrondissement,2.387832,48.899436
4,IDF7503815,,STERN,,75015,75115,Paris 15e Arrondissement,2.282561,48.847852
5,IDF9304307,ERNEST SAVART (1 rue),RYMLAND (M.),DEPOT DE FERRAILLES,93100,93048,Montreuil,2.434568,48.86759
6,IDF9302501,CANDALE (rue),X,,93500,93055,Pantin,2.413658,48.88533
7,IDF9302646,VINCENNES (61 rue de),X,,93170,93006,Bagnolet,2.419036,48.863798
8,IDF7502226,,FOUCHER,Usine de mécanique,75014,75114,Paris 14e Arrondissement,2.329383,48.82256
9,IDF7502350,,VUILLAUME,Boulonnerie,75019,75119,Paris 19e Arrondissement,2.378922,48.879845


In [31]:
# définit les colonnes 
IDENTIFIANT = 'identifiant'
ADRESSE = 'adresse'
RAISON_SOCIALE = 'raison_sociale'
NOM = 'nom'
CODE_POSTAL = 'code_postal'
CODE_INSEE = 'code_insee'
NOM_COMMUNE = 'nom_commune'
LONGITUDE = 'longitude'
LATITUDE = 'latitude'

### Comptage des enregistrements géoréférencés

In [32]:
# compte le nombre d'enregistrement non nuls 
# pour chaque colonne 
basias.count()

identifiant       36741
adresse           25075
raison_sociale    36717
nom               22930
code_postal       36671
code_insee        36671
nom_commune       36671
longitude         33914
latitude          33914
dtype: int64

In [35]:
# calcule le pourcentage d'enregistrements géoréférencés
total_count = len(basias)
basias_without_geocoding = basias[basias[LATITUDE].isnull() & basias[LONGITUDE].isnull()]
print('Il y a %d enregistrements non géoréférencés' % len(basias_without_geocoding))
basias_with_geocoding = basias[basias[LATITUDE].notnull() & basias[LONGITUDE].notnull()]
ratio = (len(basias_without_geocoding) / total_count) * 100.0
print('Cela représente %.2f%% du nombre total d\'enregistrements' % ratio)

Il y a 2827 enregistrements non géoréférencés
Cela représente 7.69% du nombre total d'enregistrements


### Lien entre le champ adresse et les champs (lat, long)

In [38]:
with_adress = basias_without_geocoding[basias_without_geocoding[ADRESSE].notnull()]
print('Parmi les enregistrements non géoréférencés, %d possède une adresse' % len(with_adress))

Parmi les enregistrements non géoréférencés, 1363 possède une adresse


In [41]:
# Imprime les 100 premiers enregistrements. 
with_adress.head(n=30)

Unnamed: 0,identifiant,adresse,raison_sociale,nom,code_postal,code_insee,nom_commune,longitude,latitude
28,IDF9500483,?,CAMUS,?,95360.0,95427.0,Montmagny,,
4180,IDF7800693,rue ?,SOC ?,,78125.0,78269.0,Gazeran,,
11156,IDF9502535,"Epiais, rue d'",SAMIR,?,95380.0,95154.0,Chennevières-lès-Louvres,,
15672,IDF7800567,rue ?,SOC ?,,78121.0,78189.0,Crespières,,
24319,IDF9401642,"Frileuse, 5 rue Frileuse",Gandon,Dépôt de déchets métalliques,94250.0,94037.0,Gentilly,,
26848,IDF7706112,"Paris, rue de",FAVIN (Garage),Garage,77720.0,77317.0,Mormant,,
26849,IDF7700295,RN 36,AGE,,77390.0,77222.0,Guignes,,
26854,IDF7701507,"Orgemont, rue d'",Station-service,Station-service,77124.0,77335.0,Chauconin-Neufmontiers,,
26855,IDF7802157,?,BOURGINIAT FRERES,,78190.0,78621.0,Trappes,,
26858,IDF7800101,Vaucresson (route de),BAILLY (COMMUNE DE),,78870.0,78043.0,Bailly,,
