In [41]:
import os
import sys
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


In [42]:
# Ajoute le dossier root du projet 
# au sys.path afin de pouvoir importer
# le module trackdechets
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

## Connexion à la base PostgreSQL

In [2]:
user = os.getenv('POSTGRES_USER')
password = os.getenv('POSTGRES_PWD')
host = os.getenv('POSTGRES_HOST')
port = os.getenv('POSTGRES_PORT')
%sql postgresql://{user}:{password}@{host}:{port}/trackdechets 

'Connected: benoit@trackdechets'

## Analyse des données ICPE

Les données ICPE sont téléchargeables depuis Georisques au format shapefile
en suivant ce lien [http://files.georisques.fr/ATOM/ICPE/georisques_atom_icpe_fxxx.atom](http://files.georisques.fr/ATOM/ICPE/georisques_atom_icpe_fxxx.atom) après avoir installé une extension sur son navigateur permettant de lire les flux RSS/Atom.

Les données au format shapefile sont ensuite chargées dans une table PostgreSQL à l'aide du logiciel QGIS.

In [90]:
%%sql result <<
select * from icpe

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
600 rows affected.
Returning data to local variable result


In [4]:
icpe_df = result.DataFrame()

In [5]:
icpe_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51099 entries, 0 to 51098
Data columns (total 24 columns):
id            51099 non-null int64
geom          51099 non-null object
code_s3ic     51099 non-null object
x             51099 non-null int64
y             51099 non-null int64
epsg          51099 non-null int64
nom_ets       51099 non-null object
num_dep       51099 non-null object
cd_insee      51099 non-null object
cd_postal     51099 non-null object
nomcommune    51099 non-null object
code_naf      20890 non-null object
lib_naf       20890 non-null object
num_siret     40915 non-null object
regime        44416 non-null object
lib_regime    44416 non-null object
ippc          51099 non-null int64
seveso        51098 non-null object
lib_seveso    51098 non-null object
famille_ic    51099 non-null object
url_fiche     51099 non-null object
rayon         22744 non-null float64
precis_loc    51097 non-null float64
lib_precis    51099 non-null object
dtypes: float64(2), int64(5), 

Premier problème: les rubriques s3ic ne sont pas renseignées, nous avons uniquement un lien qui point vers l'url de la fiche. Il faut faire un script pour extraire cette information depuis les pages web.

In [6]:
icpe_df.head(n=100)

Unnamed: 0,id,geom,code_s3ic,x,y,epsg,nom_ets,num_dep,cd_insee,cd_postal,...,regime,lib_regime,ippc,seveso,lib_seveso,famille_ic,url_fiche,rayon,precis_loc,lib_precis
0,1,01040000206A0800000100000001010000000000000070...,0065.00509,684088,6863524,2154,SCETA,77,77111,77700,...,,,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,3.0,Valeur Initiale
1,2,01040000206A080000010000000101000000000000006A...,0030.12015,1035189,6829964,2154,SOCIETE CARRIERES DE L'EST,67,67045,67870,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centro�de Commune
2,3,01040000206A08000001000000010100000000000000AE...,0030.12102,1030999,6833537,2154,Commune de Dorlisheim,67,67101,67120,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,2.0,Coordonn�es pr�cises
3,4,01040000206A0800000100000001010000000000000032...,0030.12220,1025561,6821863,2154,SMICTOM AC - D�ch�terie 2,67,67021,67140,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centro�de Commune
4,5,01040000206A08000001000000010100000000000000E2...,0030.12311,1031409,6803296,2154,MOLECULE,67,67462,67600,...,A,Soumis � Autorisation,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,3.0,0.0,Centro�de Commune
5,6,01040000206A0800000100000001010000000000000062...,0030.12314,1024945,6806977,2154,KGT,67,67073,67730,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centro�de Commune
6,7,01040000206A0800000100000001010000000000000083...,0030.12351,1051779,6882706,2154,Garage STOETZEL,67,67379,67250,...,E,Enregistrement,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,,0.0,Centro�de Commune
7,8,01040000206A08000001000000010100000000000000CE...,0030.12447,1041639,6860716,2154,FM FRANCE SAS,67,67301,67670,...,A,Soumis � Autorisation,0,SB,Seveso seuil bas,Industries,http://www.installationsclassees.developpement...,3.0,0.0,Centro�de Commune
8,9,01040000206A0800000100000001010000000000000017...,0030.12671,1055255,6850232,2154,Envirotech Services,67,67519,67610,...,A,Soumis � Autorisation,0,NS,Non Seveso,Industries,http://www.installationsclassees.developpement...,2.0,0.0,Centro�de Commune
9,10,01040000206A0800000100000001010000000000000026...,0067.00057,1053478,6867889,2154,KNEPFLER FRERES,67,67180,67500,...,,,0,NS,Non Seveso,Carri�res,http://www.installationsclassees.developpement...,,2.0,Coordonn�es pr�cises


## Récupération des rubriques s3ic

In [43]:
from bs4 import BeautifulSoup
import requests

from trackdechets.utils import parse_icpe_fiche_detail

In [44]:
url = """
http://www.installationsclassees.developpement-durable.gouv.fr
/ficheEtablissement.php?champEtablBase=30&champEtablNumero=12015"""
response = requests.get(url) 
parse_icpe_fiche_detail(response.text)

[{'Rubri. IC': '2760',
  'Ali.': '3',
  'Date auto.': '10/06/2009',
  "Etat d'activité": 'En fonct.',
  'Régime autorisé(3)': 'E',
  'Activité': 'Installations de stockage de déchets inertes',
  'Volume': '1400000',
  'Unité': '\xa0'}]

En répétant cette opération pour l'ensemble des enregistrements 
on peut récupérer les rubriques s3ic associées et créer la table
rubrique

In [91]:
%%sql
SELECT 
    A.rubrique, 
    A.activite,
    B.nom_ets
FROM rubrique as A
LEFT JOIN icpe as B
ON A.icpe_id = B.id
LIMIT 10

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
10 rows affected.


rubrique,activite,nom_ets
331BIS,PARCS DE STATIONNEMENT COUVERTS,SCETA
2760,Installations de stockage de déchets inertes,SOCIETE CARRIERES DE L'EST
2760,Installations de stockage de déchets inertes,Commune de Dorlisheim
2710,collecte de déchets non dangereux-E,SMICTOM AC - D�ch�terie 2
2712,"Stockage, dépollution, démontage, de VHU",Garage STOETZEL
1436,Liquides combustibles de point éclair compris entre 60° C et 93° C (stockage ou emploi de),FM FRANCE SAS
1450,Solides inflammables,FM FRANCE SAS
1510,Entrepôts couverts autres que 1511,FM FRANCE SAS
1511,Entrepôts frigorifiques,FM FRANCE SAS
1530,"Papiers, cartons ou analogues (dépôt de) hors ERP",FM FRANCE SAS


Il est alors possible de filter uniquement les icpe 
pour les rubriques qui nous intéressent 27xx et 35xx 

## Filtrage de la table ICPE sur 27xx et 35xx

Comptons le nombre d'installations possédant une rubrique 27xx 
et/ou 35xx

In [97]:
%%sql
SELECT COUNT(*) FROM
    (SELECT DISTINCT B.*
    FROM rubrique as A
    LEFT JOIN icpe as B
    ON A.icpe_id = B.id 
    WHERE 
        A.rubrique LIKE '27__' 
        OR A.rubrique LIKE '35__') 
    AS temp

 * postgresql://benoit:***@db-postgresql-fra1-71263-do-user-3351636-0.db.ondigitalocean.com:25060/trackdechets
1 rows affected.


count
7
