In [1]:
import os
import sys
%load_ext sql

In [2]:
# Ajoute le dossier root du projet 
# au sys.path afin de pouvoir importer
# le module trackdechets
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

## Connexion à la base PostgreSQL

In [3]:
user = os.getenv('POSTGRES_USER')
password = os.getenv('POSTGRES_PWD')
host = os.getenv('POSTGRES_HOST')
port = os.getenv('POSTGRES_PORT')
%sql postgresql://{user}:{password}@{host}:{port}/trackdechets 

'Connected: benoit@trackdechets'

## Analyse des données ICPE

Les données ICPE sont téléchargeables depuis Georisques au format shapefile
en suivant ce lien [http://files.georisques.fr/ATOM/ICPE/georisques_atom_icpe_fxxx.atom](http://files.georisques.fr/ATOM/ICPE/georisques_atom_icpe_fxxx.atom) après avoir installé une extension sur son navigateur permettant de lire les flux RSS/Atom.

Les données au format shapefile sont ensuite chargées dans une table PostgreSQL à l'aide du logiciel QGIS.

In [4]:
%%sql result <<
select * from icpe

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
51099 rows affected.
Returning data to local variable result


In [5]:
icpe_df = result.DataFrame()

In [6]:
icpe_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51099 entries, 0 to 51098
Data columns (total 24 columns):
id            51099 non-null int64
geom          51099 non-null object
code_s3ic     51099 non-null object
x             51099 non-null int64
y             51099 non-null int64
epsg          51099 non-null int64
nom_ets       51099 non-null object
num_dep       51099 non-null object
cd_insee      51099 non-null object
cd_postal     51099 non-null object
nomcommune    51099 non-null object
code_naf      20890 non-null object
lib_naf       20890 non-null object
num_siret     40915 non-null object
regime        44416 non-null object
lib_regime    44416 non-null object
ippc          51099 non-null int64
seveso        51098 non-null object
lib_seveso    51098 non-null object
famille_ic    51099 non-null object
url_fiche     51099 non-null object
rayon         22744 non-null float64
precis_loc    51097 non-null float64
lib_precis    51099 non-null object
dtypes: float64(2), int64(5), 

Premier problème: les rubriques s3ic ne sont pas renseignées, nous avons uniquement un lien qui point vers l'url de la fiche. Il faut faire un script pour extraire cette information depuis les pages web.

In [7]:
icpe_df.head(n=100)

Unnamed: 0,id,geom,code_s3ic,x,y,epsg,nom_ets,num_dep,cd_insee,cd_postal,...,regime,lib_regime,ippc,seveso,lib_seveso,famille_ic,url_fiche,rayon,precis_loc,lib_precis
0,1,01040000206A0800000100000001010000000000000070...,0065.00509,684088,6863524,2154,SCETA,77,77111,77700,...,,,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,3.0,Valeur Initiale
1,2,01040000206A080000010000000101000000000000006A...,0030.12015,1035189,6829964,2154,SOCIETE CARRIERES DE L'EST,67,67045,67870,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centroïde Commune
2,3,01040000206A08000001000000010100000000000000AE...,0030.12102,1030999,6833537,2154,Commune de Dorlisheim,67,67101,67120,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,2.0,Coordonnées précises
3,4,01040000206A0800000100000001010000000000000032...,0030.12220,1025561,6821863,2154,SMICTOM AC - Déchèterie 2,67,67021,67140,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centroïde Commune
4,5,01040000206A08000001000000010100000000000000E2...,0030.12311,1031409,6803296,2154,MOLECULE,67,67462,67600,...,A,Soumis à Autorisation,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,3.0,0.0,Centroïde Commune
5,6,01040000206A0800000100000001010000000000000062...,0030.12314,1024945,6806977,2154,KGT,67,67073,67730,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centroïde Commune
6,7,01040000206A0800000100000001010000000000000083...,0030.12351,1051779,6882706,2154,Garage STOETZEL,67,67379,67250,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centroïde Commune
7,8,01040000206A08000001000000010100000000000000CE...,0030.12447,1041639,6860716,2154,FM FRANCE SAS,67,67301,67670,...,A,Soumis à Autorisation,0,SB,Seveso seuil bas,Industries,http://www.installationsclassees.developpement...,3.0,0.0,Centroïde Commune
8,9,01040000206A0800000100000001010000000000000017...,0030.12671,1055255,6850232,2154,Envirotech Services,67,67519,67610,...,A,Soumis à Autorisation,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,2.0,0.0,Centroïde Commune
9,10,01040000206A0800000100000001010000000000000026...,0067.00057,1053478,6867889,2154,KNEPFLER FRERES,67,67180,67500,...,,,0,NS,Non Seveso,Carrières,http://www.installationsclassees.developpement...,,2.0,Coordonnées précises


## Récupération des rubriques s3ic

In [9]:
import requests

from trackdechets.scrapers import IcpeScraper

In [12]:
url = """
http://www.installationsclassees.developpement-durable.gouv.fr
/ficheEtablissement.php?champEtablBase=30&champEtablNumero=12015"""
scraper = IcpeScraper(url)
with requests.Session() as session:
    scraper.fetch_url(session)
    scraper.parse()
    scraper.find_rubriques()
print(scraper.rubriques)

[{'Rubri. IC': '2760', 'Ali.': '3', 'Date auto.': '10/06/2009', "Etat d'activité": 'En fonct.', 'Régime autorisé(3)': 'E', 'Activité': 'Installations de stockage de déchets inertes', 'Volume': '1400000', 'Unité': '\xa0'}]


En répétant cette opération pour l'ensemble des enregistrements 
on peut récupérer les rubriques s3ic associées et créer la table
rubrique

In [14]:
%%sql
SELECT 
    A.rubrique, 
    A.activite,
    B.nom_ets
FROM rubrique as A
LEFT JOIN icpe as B
ON A.code_s3ic = B.code_s3ic
LIMIT 10

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
10 rows affected.


rubrique,activite,nom_ets
331BIS,PARCS DE STATIONNEMENT COUVERTS,SCETA
2712,"Stockage, dépollution, démontage, de VHU",Garage STOETZEL
1436,Liquides combustibles de point éclair compris entre 60° C et 93° C (stockage ou emploi de),FM FRANCE SAS
1450,Solides inflammables,FM FRANCE SAS
1510,Entrepôts couverts autres que 1511,FM FRANCE SAS
1511,Entrepôts frigorifiques,FM FRANCE SAS
1530,"Papiers, cartons ou analogues (dépôt de) hors ERP",FM FRANCE SAS
1532,Bois ou matériaux combustibles analogues (dépôt de),FM FRANCE SAS
1630,Soude ou potasse caustique,FM FRANCE SAS
2662,"MATIERES PLASTIQUES, CAOUTCHOUC...(STOCKAGE DE)",FM FRANCE SAS


Il est alors possible de filter uniquement les icpe 
pour les rubriques qui nous intéressent 27xx et 35xx 

## Filtrage de la table ICPE sur 27xx et 35xx

Comptons le nombre d'installations possédant une rubrique 27xx 
et/ou 35xx

In [69]:
%%sql result <<
SELECT COUNT(*) FROM
    (SELECT DISTINCT B.*
    FROM rubrique as A
    LEFT JOIN icpe as B
    ON A.code_s3ic = B.code_s3ic 
    WHERE 
        A.rubrique LIKE '27__' 
        OR A.rubrique LIKE '35__') 
    AS temp

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
1 rows affected.
Returning data to local variable result


In [72]:
print("Il y a %s établissements possédant une rubrique 27xx ou 35xx" % result.dict()['count'])

Il y a 9360 établissements possédant une rubrique 27xx ou 35xx


## Champs manquants

### SIRET

In [73]:
%%sql result << 
SELECT COUNT(*) 
FROM ICPE_27_35 
WHERE num_siret IS NULL

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
1 rows affected.
Returning data to local variable result


In [74]:
print("Il y a %s établissements avec un numéro de SIRET manquant" % result.dict()['count'])

Il y a 2624 établissements avec un numéro de SIRET manquant


### Précision Géométrie

In [79]:
%%sql
SELECT lib_precis, count(lib_precis)
FROM ICPE_27_35
GROUP BY lib_precis

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
5 rows affected.


lib_precis,count
Adresse postale,1531
Valeur Initiale,849
Coordonnées précises,5143
Centroïde Commune,1836
Inconnu,1


## Jointure ICPE x IREP 

Il est nécessaire de reformater l'identifiant IREP pour le faire matcher avec le code s3ic `068.11539` => `0068.11539`. Le résultat est stocké dans la table `irep_prepared`

In [29]:
%%sql 

SELECT identifiant, CONCAT('0', identifiant) as code_s3ic
FROM irep
LIMIT 3

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
3 rows affected.


identifiant,code_s3ic
68.11539,68.11539
61.10406,61.10406
124.00155,124.00155


In [27]:
%%sql 
SELECT identifiant, code_s3ic 
FROM irep_prepared
LIMIT 3


 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
3 rows affected.


identifiant,code_s3ic
68.11539,68.11539
61.10406,61.10406
124.00155,124.00155


On peut alors faire la jointure sur le champ `code_s3ic`
et stocker le résultat dans la table `icpe_join_irep`

In [85]:
%%sql 
SELECT 
    a.*,
    b.nom_etablissement as irep_nom_etablissement,
    b.numero_siret as irep_numero_siret,
    b.adresse as irep_adresse,
    b.code_postal as irep_code_postal,
    b.commune as irep_commune,
    b.departement as irep_departement,
    b.region as irep_region,
    "b"."coordonnees_X" as irep_coordonnees_X,
    "b"."coordonnees_Y" as irep_coordonnees_Y,
    b.code_ape as irep_code_ape,
    b.libelle_ape as irep_libelle_ape, 
    b.code_eprtr as irep_code_eprtr,
    b.libelle_eprtr as irep_libelle_eprtr
FROM icpe_27_35 as a 
LEFT JOIN irep_prepared as b 
ON a.code_s3ic = b.code_s3ic
limit 3

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
3 rows affected.


id,geom,code_s3ic,x,y,epsg,nom_ets,num_dep,cd_insee,cd_postal,nomcommune,code_naf,lib_naf,num_siret,regime,lib_regime,ippc,seveso,lib_seveso,famille_ic,url_fiche,rayon,precis_loc,lib_precis,irep_nom_etablissement,irep_numero_siret,irep_adresse,irep_code_postal,irep_commune,irep_departement,irep_region,irep_coordonnees_x,irep_coordonnees_y,irep_code_ape,irep_libelle_ape,irep_code_eprtr,irep_libelle_eprtr
2,01040000206A080000010000000101000000000000006A972F4100000000E30D5A41,30.12015,1035189,6829964,2154,SOCIETE CARRIERES DE L'EST,67,67045,67870,BISCHOFFSHEIM,,,42118530700046.0,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement-durable.gouv.fr/ficheEtablissement.php?champEtablBase=30&champEtablNumero=12015,,0,Centroïde Commune,,,,,,,,,,,,,
3,01040000206A08000001000000010100000000000000AE762F410000004060115A41,30.12102,1030999,6833537,2154,Commune de Dorlisheim,67,67101,67120,DORLISHEIM,,,,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement-durable.gouv.fr/ficheEtablissement.php?champEtablBase=30&champEtablNumero=12102,,2,Coordonnées précises,,,,,,,,,,,,,
7,01040000206A08000001000000010100000000000000830C30410000008064415A41,30.12351,1051779,6882706,2154,Garage STOETZEL,67,67379,67250,PREUSCHDORF,,,,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement-durable.gouv.fr/ficheEtablissement.php?champEtablBase=30&champEtablNumero=12351,,0,Centroïde Commune,,,,,,,,,,,,,


## Jointure ICPE x GEREP

In [96]:
%%sql 
SELECT COUNT(*) FROM (
    SELECT DISTINCT 
        code_s3ic, 
        numero_siret, 
        nom_etablissement, 
        type_etablissement,
        adresse_site_exploitation,
        code_postal_etablissement,
        commune,
        code_insee,
        code_ape,
        nom_contact,
        tel_contact,
        mail_contact
    FROM gerep_prepared) AS temp



 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
1 rows affected.


count
21100


In [100]:
%%sql
SELECT count(*) 
FROM ICPE_27_35 as a
LEFT JOIN (
    SELECT DISTINCT 
        code_s3ic, 
        numero_siret, 
        nom_etablissement, 
        type_etablissement,
        adresse_site_exploitation,
        code_postal_etablissement,
        commune,
        code_insee,
        code_ape,
        nom_contact,
        tel_contact,
        mail_contact
    FROM gerep_prepared) AS b
ON a.code_s3ic = b.code_s3ic
limit 10


 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
1 rows affected.


count
15026
