# Librairies

In [1]:
import os
import time
import numpy as np
from shapely.geometry import box
from scipy.sparse import coo_matrix

# Intake
from dotenv import load_dotenv
from intake import open_catalog

# Pandas
import pandas as pd
import geopandas  as gpd

# H3
import h3
from h3pandas.util.functools import wrapped_partial
from h3pandas.util.decorator import catch_invalid_h3_address
from h3pandas.util import shapely
from tobler.util import h3fy
from tobler.area_weighted import area_interpolate

# SQL
from sqlalchemy import *
from geoalchemy2 import Geometry, WKTElement

# Dask
import dask_geopandas as ddg
from dask.distributed import Client

# Constantes

In [2]:
# Aire de chaque hexagone (de la résolution 0 à 15) en Km2
hex_area=[4250546.8477000, 607220.9782429, 86745.8540347, 12392.2648621, 1770.3235517, 252.9033645, 36.1290521,
              5.1612932, 0.7373276, 0.1053325, 0.0150475, 0.0021496, 0.0003071, 0.0000439, 0.0000063, 0.0000009]

In [3]:
# Chargement des constantes d'environnement
load_dotenv()

usr=os.getenv("DB_USER")
pswd=os.getenv("DB_PWD")
host=os.getenv("DB_HOST")
port=os.getenv("DB_PORT")
home=os.getenv("HOME_PATH")
db_traitement=os.getenv("DB_WORKSPACE")
db_ref=os.getenv("DB_REF")
db_externe=os.getenv("DB_EXT")
dwh_fact_strategy=os.getenv("DWH_FACT_STRATEGY")
dwh_dim_strategy=os.getenv("DWH_DIM_STRATEGY")


commun_path = os.getenv("COMMUN_PATH")
project_dir = os.getenv("PROJECT_PATH")
data_catalog_dir = os.getenv("DATA_CATALOG_DIR")
data_output_dir = os.getenv("DATA_OUTPUT_DIR")
sig_data_path = os.getenv("SIG_DATA_PATH")
db_workspace = os.getenv("DB_WORKSPACE")
db_workspace = os.getenv("DB_REF")

# Fonctions

## Fonctions de traitements

In [4]:
"""
Fonction associant 

"""
def create_link_table(name_src, schema_src, name_tar, schema_tar, engine, res_min):

    df_src = pd.read_sql_table(table_name=name_src, schema=schema_src, con=engine, columns=["hex_id"])
    df_src.insert(loc=0, column="hex_id_tar", value=None, allow_duplicates=True)
    df_src.set_index('hex_id', inplace=True)
    df_src.index.names = ["hex_id_src"]

    df_tar = pd.read_sql_table(table_name=name_tar, schema=schema_tar, con=engine, columns=["hex_id"])
    df_tar.set_index('hex_id', inplace=True)

    # output = pd.DataFrame(columns={"hex_id_src":df_src.index})
    # output.set_index('hex_id_src',inplace=True)

    def update(x):
        res = h3.h3_get_resolution(x.name)
        i = 0
        while(res-i>=res_min):
            if(not i):
                hex_id = x.name
            else:
                hex_id = h3.h3_to_parent(x.name, res-i)
            try:
                x["hex_id_tar"] = df_tar.loc[hex_id].name
                break
            except KeyError:
                i+=1
        return x
 
    df_src = df_src.apply(lambda x:update(x), axis=1)
    return df_src

In [5]:
link_table = create_link_table(name_src='test2', schema_src='bilbo', name_tar='faits_mos2014_8a13_n3', schema_tar='bilbo', engine=engine, res_min=7)

NameError: name 'engine' is not defined

In [None]:
link_table

In [5]:
"""
Fonction retournant un DataFrame après ajout d'une colonne hex_id en index.
En d'autres termes, cette fonction indexe un GeoDataFrame sur une grille uniforme.

param gdf: GeoDataFrame en entrée
param resolution: résolution des hexagones
return: DataFrame

"""
def indexation(gdf, resolution, geom=false):
    # Mise en conformité de la colonne "geometry"
    if(gdf.geometry.name != 'geometry'):
        gdf.rename_geometry('geometry',inplace=True)

    gdf = h3_polyfill(gdf.to_crs(epsg=4326), resolution) # Indexation du DataFrame
    if not geom:
        df = pd.DataFrame(gdf.drop(columns={gdf.geometry.name})) # Suppression de la colonne "geometry"
        df = df.explode('hex_id') # Explosion des liste d'identifiants hexagonaux
    else:
        gdf = gdf.to_crs(epsg=3163) # CRS local de la Nouvelle-Calédonie
        df = gdf.explode('hex_id') # Explosion des liste d'identifiants hexagonaux
    df.set_index('hex_id', inplace=True) # Définition de l'index
    
    return df

In [6]:
"""
Fonction indexant un GeoDataFrame sur une grille dynamique.

param gdf: GeoDataFrame en entrée
param tx_spatial: taux minimal de remplissage d'une zone de données pour chaque échelle de résolution
    (sous forme de dictionnaire)
param res_min: résolution minimale des hexagones
param res_max: résolution maximale des hexagones
return: DataFrame

"""
def compact(gdf, tx_spatial, res_min, res_max):
    
    tx_spatial[res_max] = 0.5
    
    # Création d'un GeoDataFrame vide
    output = pd.DataFrame(columns=gdf.drop(columns=[gdf.geometry.name]).columns.tolist())
    output.index.names = ['hex_id']

    len_buffer = np.sqrt(hex_area[res_min]*1000000)*0.6
    gdf_init = gpd.GeoDataFrame({'geometry': gdf.unary_union.buffer(len_buffer)}, geometry='geometry', crs="EPSG:3163")
    hex = h3fy(gdf_init,res_min)

    for index_obj, row_obj in gdf.iterrows():
        res = res_min
        gdf_invalid = hex

        while(res <= res_max):
            valid_cells = [] # Cellules n'ayant pas besoin d'être divisées
            valid_geom = []
            invalid_cells = [] # Cellules ayant besoin d'être divisées
            invalid_geom = []

            tx = tx_spatial[res]
            if res == res_max:
                tx = 0.5

            clip = to_children(gdf_invalid, res)
            for index_clip, row_clip in clip.iterrows():
                hex_geom = row_clip.geometry
                area = row_obj[gdf.geometry.name].intersection(hex_geom).area

                if area/hex_geom.area >= tx:
                    valid_cells.append(index_clip)
                    valid_geom.append(hex_geom)
                else:
                    invalid_cells.append(index_clip)
                    invalid_geom.append(hex_geom)
            data = {}
            for key, value in row_obj.iteritems():
                if key != gdf.geometry.name:
                    data[key] = value
            valid_gdf = pd.DataFrame(data, index=valid_cells)
            valid_gdf.index.name = "hex_id"
            gdf_invalid = clip.loc[invalid_cells]

            output = pd.concat([output, valid_gdf], ignore_index=False) 
            res+=1
    return output

In [36]:
test = compact(gdf=data_feux, tx_spatial=compute_dict_tx(7), res_min=8, res_max=12)

NameError: name 'data_feux' is not defined

In [7]:
"""
Fonction permettant l'indexation d'un GeodataFrame sur une grille adaptative.
Fonction dépréciée. Utiliser plutôt compact_partition_dask.

param gdf: GeoDataFrame en entrée
param list_col: liste des champs classifiants
param tx_theme: dictionnaire {résolution:taux} des taux à partir du quel un élément classifiant est considéré comme unique 
    dans l'hexagone considéré (entre 0 et 1) pour une résolution donnée
param tx_spatial: taux minimal de remplissage d'une zone de données pour chaque échelle de résolution
    (sous forme de dictionnaire)
param res_min: résolution minimale des hexagones
param res_max: résolution maximale des hexagones
param output: paramètre servant uniquement à la récursivité de la fonction (à laisser égal à None)
param geom_clip: paramètre servant uniquement à la récursivité de la fonction (à laisser égal à None)
return: DataFrame indexé

"""
def compact_partition(gdf, list_col, tx_theme, tx_spatial, res_min, res_max, output=None, geom_clip=None):
    
    # Création d'un GeoDataFrame vide
    if(output is None):
        output = gpd.GeoDataFrame(columns=list_col+['geometry'], geometry='geometry')
        output.index.names = ['hex_id']
        
    # Récupération des géométries des hexagones à la résolution donnée
    if(geom_clip is None):
        clip = h3fy(gdf, resolution=res_min).reset_index()
    else:
        clip = h3fy(geom_clip, resolution=res_min).reset_index() 
    
    # Condition d'arrêt de la récursivité
    if(res_min <= res_max):
        print('Résolution ' +  str(res_min))
        
        valid_cells = [] # Cellules n'ayant pas besoin d'être divisées
        valid_label = [] # Classe associée à la cellule
        labels = gdf[list_col[0]].unique() # Liste des différentes classes possibles

        # Association des taux d'occupation de chaque classe pour chaque hexagone
        gdf_interp = area_interpolate(source_df=gdf, target_df=clip, categorical_variables=list_col)
        # Peuplement de la colonne hex_id par jointure avec la table des géométries
        gdf_interp['hex_id'] = gdf_interp.join(clip, rsuffix='clip')['hex_id']
        gdf_interp.set_index('hex_id', inplace=True)
        
        # Pour chaque enregistrement
        for index, row in gdf_interp.iterrows():
            for i in range(gdf_interp.columns.size-1): # Pour chaque colonne (sauf la géométrie)
                if(res_min < res_max): # Si la résolution maximale n'est pas atteinte
                    # Si le pourcentage de présence de la classe dans la cellule est supérieure à tx_spatial et est supérieure à tx_theme de l'ensemble des classes
                    if((row[gdf_interp.columns][i] >= tx_theme[res_min] * row[gdf_interp.columns][:-1].sum()) & (row[gdf_interp.columns][i] >= tx_spatial)):
                        valid_cells.append(index)
                        nom_colonne = gdf_interp.columns[i]
                        valid_label.append(labels[gdf_interp.columns.get_loc(nom_colonne)])
                        break
                else: # Si la résolution maximale est atteinte
                    # La valeur de cellule est déterminée par la classe majoritaire même si tx_theme n'est pas atteint
                    if(row[gdf_interp.columns][i] == max(row[gdf_interp.columns][:-1])):
                        valid_cells.append(index)
                        nom_colonne = gdf_interp.columns[i]
                        valid_label.append(labels[gdf_interp.columns.get_loc(nom_colonne)])
                        break

        if(valid_cells): # Si des cellules sont compactes
            # Création d'un GeoDataFrame contenant les cellules valides avec leur classe associée
            gdf_valid = gdf_interp.loc[valid_cells]
            data = {list_col[0]: valid_label, 'geometry': gdf_valid['geometry']}
            gdf_valid_bdd = gpd.GeoDataFrame(data, geometry='geometry', crs="EPSG:3163", index=gdf_valid.index)
            # Concaténation des cellules compactées de résolution plus faible avec les nouvelles cellules
            output = pd.concat([output, gdf_valid_bdd], ignore_index=False) 
        
        if(res_min < res_max): # Si la résolution max n'est pas atteinte
            if(valid_cells): # Génération d'une géométrie excluant les cellules valides
                if(geom_clip is None):
                    geom_clip = gpd.GeoDataFrame({'geometry':gdf.geometry.unary_union.difference(gdf_valid.geometry.unary_union)}, geometry='geometry', crs="EPSG:3163")
                else:
                    geom_clip = gpd.GeoDataFrame({'geometry':geom_clip.geometry.unary_union.difference(gdf_valid.geometry.unary_union)}, geometry='geometry', crs="EPSG:3163")
                return compact(gdf, list_col, tx_theme, tx_spatial, res_min+1, res_max, output, geom_clip) # Récursion suivante à une résolution supérieure
            else:
                if(geom_clip is None):
                    return compact(gdf, list_col, tx_theme, tx_spatial, res_min+1, res_max, output) # Récursion suivante à une résolution supérieure
                else:
                    return compact(gdf, list_col, tx_theme, tx_spatial, res_min+1, res_max, output, geom_clip) # Récursion suivante à une résolution supérieure
        else:
            output = pd.DataFrame(output.drop(columns={output.geometry.name})) # Suppression de la colonne des géométries
            return output

## Fonctions BDD

In [8]:
"""
Fonction retournant l'engine de connexion à la base de données.

param user: user
param pswd: mot de passe
param host: hôte
param dbase: nom de la base de données

"""
def getEngine(user=usr, pswd=pswd, host=host, dbase=db_traitement):
    connection = f'postgresql://{user}:{pswd}@{host}:{port}/{dbase}'
    return create_engine(connection)

In [9]:
"""
Fonction d'intégration ou de mise à jour des données dans le DWH.

param new_lines: DataFrame contenant les données à intégrer
param table_name: nom de la table de destination 
    (en mode 'append' si la table est inexistante ou en mode 'replace', une nouvelle table sera créee)
param engine: engine de connexion à la base de données
param schema: schéma dans lequel se trouve la table de destination
param methode: 'append' pour ajouter des données à une table déjà existante ou 
    'replace' pour écraser la table de destination si elle existe déjà
param geom: Boolean indiquant si les données contiennent une dimension géométrique
param dtype: dictionnaire {nom_champ:type} permettant d'indique le type de certains champs

"""

def updateTable(new_lines, table_name, engine, schema, methode='append', geom=True, dtype=None, geometry_type='POLYGON'):
    dict_types = {'geometry': Geometry(geometry_type, srid=3163)}
    
    if(methode=='replace'): # Suppression de la table de destination si elle existe déjà
        engine.execute(f'DROP TABLE IF EXISTS {schema}.{table_name} CASCADE')
    if(dtype is not None): # Mise à jour du dictionnaire des types de champs
        dict_types.update(dtype)
        
    if(not new_lines.empty): # Si des données sont à integrer
        if(geom): # Si les données contiennent une dimension géométrique
            if(new_lines.geometry.name != 'geom'):
                new_lines = new_lines.rename_geometry('geom')
            new_lines['geometry'] = new_lines['geom'].apply(lambda x: WKTElement(x.wkt, srid=3163))
            new_lines.drop('geom', 1, inplace=True)
            new_lines.to_sql(name=table_name, con=engine, schema=schema, if_exists=methode, index=True, index_label='hex_id', dtype=dict_types)
        else:
            new_lines.to_sql(name=table_name, con=engine, schema=schema, if_exists=methode, index=True, index_label='hex_id', dtype=dict_types)
    return new_lines

In [10]:
"""
Génération d'une vue ajoutant une colonne de géométrie à la table donnée en argument.

param table_name: nom de la table
param engine: engine de connexion à la base de données
param schema: schéma

"""
def geomView(table_name, engine, schema):
    query = f'DROP VIEW IF EXISTS {schema}.view_{table_name};' + f'CREATE VIEW {schema}.view_{table_name} AS (SELECT row_number() OVER() AS id, *, h3_to_geo_boundary(hex_id::h3index)::geometry AS geometry FROM {schema}.{table_name})'
    engine.execute(query)

## Fonctions Dask

In [32]:
# Récupération du scheduler orchestrant les workers
client = Client("192.168.1.24:8786") # Scheduler / Workers locaux  "192.168.1.24:8786"

In [33]:
client # Infos sur le client

0,1
Connection method: Direct,
Dashboard: http://192.168.1.24:60567/status,

0,1
Comm: tcp://192.168.1.24:8786,Workers: 6
Dashboard: http://192.168.1.24:60567/status,Total threads: 12
Started: 1 hour ago,Total memory: 21.00 GiB

0,1
Comm: tcp://192.168.1.24:63100,Total threads: 3
Dashboard: http://192.168.1.24:63101/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.24:63088,
Local directory: C:\dask-worker-space\worker-6llyisp5,Local directory: C:\dask-worker-space\worker-6llyisp5
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 72.24 MiB,Spilled bytes: 0 B
Read bytes: 4.76 kiB,Write bytes: 2.23 kiB

0,1
Comm: tcp://192.168.1.24:63106,Total threads: 3
Dashboard: http://192.168.1.24:63107/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.24:63086,
Local directory: C:\dask-worker-space\worker-zi5p8z55,Local directory: C:\dask-worker-space\worker-zi5p8z55
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 69.68 MiB,Spilled bytes: 0 B
Read bytes: 4.43 kiB,Write bytes: 813.5433315230041 B

0,1
Comm: tcp://192.168.1.24:63108,Total threads: 3
Dashboard: http://192.168.1.24:63109/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.24:63087,
Local directory: C:\dask-worker-space\worker-enmj70py,Local directory: C:\dask-worker-space\worker-enmj70py
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 70.04 MiB,Spilled bytes: 0 B
Read bytes: 4.18 kiB,Write bytes: 767.2687524729578 B

0,1
Comm: tcp://192.168.1.26:56716,Total threads: 1
Dashboard: http://192.168.1.26:56717/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.26:56699,
Local directory: C:\dask-worker-space\worker-5hpckfd4,Local directory: C:\dask-worker-space\worker-5hpckfd4
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 109.94 MiB,Spilled bytes: 0 B
Read bytes: 14.20 kiB,Write bytes: 8.50 kiB

0,1
Comm: tcp://192.168.1.26:56718,Total threads: 1
Dashboard: http://192.168.1.26:56719/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.26:56698,
Local directory: C:\dask-worker-space\worker-546pcjr_,Local directory: C:\dask-worker-space\worker-546pcjr_
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 109.14 MiB,Spilled bytes: 0 B
Read bytes: 15.06 kiB,Write bytes: 8.63 kiB

0,1
Comm: tcp://192.168.1.26:56720,Total threads: 1
Dashboard: http://192.168.1.26:56721/status,Memory: 3.50 GiB
Nanny: tcp://192.168.1.26:56700,
Local directory: C:\dask-worker-space\worker-oz1riofh,Local directory: C:\dask-worker-space\worker-oz1riofh
Tasks executing: 0,Tasks in memory: 0
Tasks ready: 0,Tasks in flight: 0
CPU usage: 0.0%,Last seen: Just now
Memory usage: 108.89 MiB,Spilled bytes: 0 B
Read bytes: 14.25 kiB,Write bytes: 8.51 kiB


In [11]:
"""
Fonction retournant un DataFrame après ajout d'une colonne hex_id en index.
En d'autres termes, cette fonction indexe un GeoDataFrame sur une grille uniforme.
Elle utilise les procédés de parallélisation et de clustering de la librairie Dask 
afin d'accélérer les temps de calculs.

param gdf: GeoDataFrame en entrée
param npartitions: nombre de tâches à effectuer en parallèle
param resolution: résolution des hexagones

return: DataFrame 

"""
def indexation_dask(gdf, npartitions, resolution):

    # Structure du DataFrame renvoyé en sortie
    # On ne conserve pas la colonne géométrie
    df_meta = pd.DataFrame(columns=list(gdf.columns[:-1]))
    df_meta.index.names = ['hex_id']
    
    data = ddg.from_geopandas(gdf,npartitions)
    gdf_map = data.map_partitions(func=indexation, resolution=resolution, meta=df_meta)
    client.persist(gdf_map)
    return gdf_map.compute()

In [12]:
"""
Fonction indexant un GeoDataFrame sur une grille dynamique.
Elle utilise les procédés de parallélisation et de clustering de la librairie Dask 
afin d'accélérer les temps de calculs.

param gdf: GeoDataFrame en entrée
param tx_spatial: taux minimal de remplissage d'une zone de données pour chaque échelle de résolution
    (sous forme de dictionnaire)
param res_min: résolution minimale des hexagones
param res_max: résolution maximale des hexagones
return: DataFrame

"""
def compact_dask(gdf, npartitions, tx_spatial, res_min, res_max):

    # Structure du DataFrame renvoyé en sortie
    # On ne conserve pas la colonne géométrie
    df_meta = pd.DataFrame(columns=gdf.drop(columns=[gdf.geometry.name]).columns.tolist())
    df_meta.index.names = ['hex_id']
    
    data = ddg.from_geopandas(gdf,npartitions)
    gdf_map = data.map_partitions(func=compact, tx_spatial=tx_spatial, res_min=res_min, res_max=res_max, meta=df_meta)
    client.persist(gdf_map)
    return gdf_map.compute()

In [36]:
test = compact_dask(gdf=data_feux, npartitions=len(data_feux)-1, tx_spatial=compute_dict_tx(7), res_min=8, res_max=13)

In [13]:
def segmentation(gdf, res_min):
    # Application d'un buffer de la taille d'un demi-hexagone
    len_buffer = np.sqrt(hex_area[res_min]*1000000)*0.5
    geom_init = gdf.geometry.unary_union.buffer(len_buffer)
    gdf_init = gpd.GeoDataFrame({'geometry': geom_init}, geometry='geometry', crs="EPSG:3163")
    return h3fy(gdf_init,res_min)

In [14]:
def compact_dask_partition(gdf, decoupage, nb_cluster, npartitions, colonne, tx, res_min, res_max):   
    gdf.index.names = ['index']
    if nb_cluster > len(decoupage):
        nb_cluster = len(decoupage)
        
    # Création d'un GeoDataFrame vide
    output = pd.DataFrame(columns=[colonne])
    output.index.names = ['hex_id']

    list_of_sep = np.linspace(0, len(decoupage)-1, num=nb_cluster+1, endpoint=True, dtype=int)
    for i in range (len(list_of_sep)-1):
        start_time = time.time()
        print('Cluster ' +  str((i+1)))
        decoupage_cluster = decoupage.iloc[list_of_sep[i]:list_of_sep[i+1]]
        # gdf_cluster = gpd.clip(gdf.to_crs(4326), gpd.GeoDataFrame(columns={'geometry':decoupage_cluster.geometry.union}, geometry='geometry', crs="EPSG:4326"), keep_geom_type=True)
        gdf_cluster = gpd.sjoin(gdf, decoupage_cluster).drop(columns=['index_right']).groupby('index').first()
        cluster_output = compact_dask_partition_fct(gdf_cluster, decoupage_cluster, npartitions, colonne, tx, res_min, res_max)
        # Concaténation avec les cellules valides de la résolution précédente
        output = pd.concat([output, cluster_output], ignore_index=False) 
        print("   --- %s secs ---" % (round((time.time() - start_time),2)))
        return output
    return output

In [15]:
def compact_dask_partition_fct(gdf, decoupage, npartitions, colonne, tx, res_min, res_max):   
    
    gdf_invalid = decoupage
    # Fonction utilisée lors de la parallélisation
    def my_fct(geom_clip, gdf, colonne, tx, res_min, res_max):
        clip = to_children(geom_clip, res_min)
        gdf_valid_bdd = compact_for_dask_use(clip=clip, gdf=gpd.clip(gdf, clip, keep_geom_type=True), colonne=colonne, tx=tx, res_min=res_min, res_max=res_max)
        return gdf_valid_bdd

    # Création d'un GeoDataFrame vide
    output = gpd.GeoDataFrame(columns=[colonne,'geometry'], geometry='geometry')
    output.index.names = ['hex_id']
    
    # Structure du DataFrame renvoyé en sortie
    df_meta = pd.DataFrame(columns=[colonne,'geometry','type'])
    df_meta.index.names = ['hex_id']

    while(res_min <= res_max):
        print('   Résolution ' +  str(res_min))

        # return my_fct(gdf_invalid, gdf=gdf, colonne=colonne, tx=tx, res_min=res_min, res_max=res_max)
        data = ddg.from_geopandas(gdf_invalid, npartitions)
        gdf_map = data.map_partitions(func=my_fct, gdf=gdf, colonne=colonne, tx=tx, res_min=res_min, res_max=res_max, meta=df_meta)
        client.persist(gdf_map)
        gdf_bdd = gdf_map.compute()
        
        gdf_valid = gdf_bdd[gdf_bdd['type']=='valid'].drop(columns=['type'])
        gdf_invalid = gdf_bdd[gdf_bdd['type']=='invalid'].drop(columns=['type',colonne])

        # Concaténation avec les cellules valides de la résolution précédente
        output = pd.concat([output, gdf_valid], ignore_index=False) 
        # Incrémentation de la résolution
        res_min+=1
    output.drop('geometry', axis=1, inplace=True) # Suppression de la colonne des géométries
    return output

In [36]:
%%time
segmentation_idp = segmentation(data_mos2014,8)

Wall time: 2.54 s


In [31]:
%%time
segmentation_nc = segmentation(data_mos2014_nc,8)

Wall time: 9min 27s


In [186]:
%%time
faits_mos2014_7a13 = compact_dask_partition(gdf=data_mos2014, decoupage=segmentation_idp, nb_cluster=1, npartitions=9, colonne='l_2014_n3', tx=compute_dict_tx(7), res_min=8, res_max=10)

Cluster 1
   Résolution 8
   Résolution 9
   Résolution 10
   --- 8.99 secs ---
Wall time: 8.99 s


In [47]:
%%time
faits_mos2014_7a13 = compact_dask_partition(gdf=data_mos2014_nc, decoupage=segmentation_nc, nb_cluster=70, npartitions=8, colonne='l_2014_n3', tx=compute_dict_tx(7), res_min=8, res_max=13)

Cluster 1
   Résolution 8


In [178]:
faits_mos2014_7a13

Unnamed: 0_level_0,l_2014_n3
hex_id,Unnamed: 1_level_1
889f54a131fffff,Strate arborée
889f54a139fffff,Strate arborée
889f54a881fffff,Strate arborée
889f54a885fffff,Strate arborée
889f54a887fffff,Strate arborée
...,...
8a9f54af6d8ffff,Strate herbacée
8a9f54af6db7fff,Strate herbacée
8a9f54af6d9ffff,Strate arbustive
8a9f54af6da7fff,Strate arbustive


## Fonctions utiles

In [16]:
"""
Fonction permettant de charger une table sous forme de DataFrame à partir 
d'un catalogue Intake.

param catalog: catalogue intake
param table_name: nom de la table référencé dans le catalogue

return: DataFrame

"""

def loadData(catalog, table_name):
    dataName = f"{table_name}"
    entryCatalog = getattr(open_catalog(catalog),dataName)
    data = entryCatalog
    return data.read()

In [17]:
"""
Fonction permettant de remplacer les valeurs d'un ou plusieurs champ(s) 
d'une table par les valeurs d'un champ d'une autre table (appelé champ 
de standardisation) suivant une jointure définie.

param df: DataFrame en entrée
df_right: DataFrame de jointure indexé sur son champ de jointure
std_field_right: champ de standardisation de field_right
dic: {join_field_df: champ de jointure de df, num_col: numéro de colonne du futur champ standardisé}

return: DataFrame standardisé

"""

def standardizeField(df, df_right, std_field_right, dic):
    for join_field_df, num_col in dic.items():
        std_field_df = df.join(df_right, on=join_field_df)[std_field_right] # Création du champ standardisé
        df = df.drop(join_field_df, axis= 1) # Suppression du champ non standardisé
        df.insert(num_col, join_field_df, std_field_df, allow_duplicates=True) # Insertion du champ standardisé
    return df

In [18]:
"""
Fonction retourant un dictionnaire associant à chaque résolution le taux à partir duquel un 
élément classifiant est considéré comme unique dans chaque cellule.

param min_carto_unit_m: unité minimale de cartographie (plus petit détail visible) en m
return: dictionnaire

"""
def compute_dict_tx(min_carto_unit_m):
    dic = {}
    for i in range (16):
        val = 1-(((min_carto_unit_m**2)/1000000)/hex_area[i])
        if val >= 0:
            dic[i] = val
        else:
            dic[i] = 0
    return dic

In [19]:
"""
Fonction adaptée de h3pandas.polyfill. 
Fonction ajoutant une colonne contenant les idenifiants des hexagones relatifs à 
l'objet concerné pour la résolution donnée.

param gdf: GeoDataFrame en entrée
param resolution: résolution des hexagones

return: GeoDataFrame

"""
def h3_polyfill(gdf, resolution):
    def func(row):
        return list(shapely.polyfill(row.geometry, resolution, True))
    result = gdf.apply(func, axis=1) # Application de la fonction à chaque ligne
    assign_args = {"hex_id": result}
    return gdf.assign(**assign_args)

In [20]:
"""
Fonction retournant la liste des enfants (et leur géométrie) des hexagones 
stockés dans un GeoDataFrame.

param gdf: GeoDataFrame en entrée (hex_id doit être en index)
param resolution: résolution des hexagones enfants

return: GeoDataFrame

"""

def to_children(gdf, resolution=None):
    list_index = []
    list_coord = []
    # Pour chaque hexagone en entrée
    for index, row in gdf.iterrows():
        id_children = h3.h3_to_children(index,resolution) # Index des enfants
        list_index += list(id_children)
    list_geom = [h3.h3_to_geo_boundary(index) for index in list_index] # Géométrie des enfants

    # Inversion des coordonnées
    for elem in list_geom:
        coord = []
        for point in elem:
            point = tuple(reversed(point))
            coord.append(point)
        list_coord.append(tuple(coord))

    list_geom = [shapely.Polygon(elem) for elem in list_coord] # Conversion des coordonnées en type Polygon
    output = gpd.GeoDataFrame({'geometry': list_geom}, geometry='geometry', crs='EPSG:4326', index=list_index)
    output.index.name = "hex_id"
    return output.to_crs(3163)

In [21]:
to_children(h3fy(data_mos2014,8), 9)

NameError: name 'data_mos2014' is not defined

In [21]:
"""
Source: https://snorfalorpagus.net/blog/2016/03/13/splitting-large-polygons-for-faster-intersections
Fonction permettant la subdivision d'une géométrie en zones plus ou moins régulières.

param geometry: géométrie de départ
param threshold: longueur maximale d'une subdivision (en m)

"""

def fishnet(geometry, threshold):
            bounds = geometry.bounds
            xmin = int(bounds[0] // threshold)
            xmax = int(bounds[2] // threshold)
            ymin = int(bounds[1] // threshold)
            ymax = int(bounds[3] // threshold)
            result = []
            for i in range(xmin, xmax+1):
                for j in range(ymin, ymax+1):
                    b = box(i*threshold, j*threshold, (i+1)*threshold, (j+1)*threshold)
                    g = geometry.intersection(b)
                    if g.is_empty:
                        continue
                    result.append(g)
            return result

In [22]:
"""
Fonction adaptée de tobler.area_interpolate.

"""
def area_tables(source_df, target_df):

    # Il est en général plus performant d'utiliser le plus long DataFrame comme index spatial
    if source_df.shape[0] > target_df.shape[0]:
        spatial_index = "source"
    else:
        spatial_index = "target"

    # Index de liaison entre la source et la target par intersection
    if spatial_index == "source":
        ids_tgt, ids_src = source_df.sindex.query_bulk(target_df.geometry, predicate="intersects")
    elif spatial_index == "target":
        ids_src, ids_tgt = target_df.sindex.query_bulk(source_df.geometry, predicate="intersects")

    # Liste des aires d'intersection
    areas = source_df.geometry.values[ids_src].intersection(target_df.geometry.values[ids_tgt]).area

    # Co-matrice des aires
    table = coo_matrix((areas,(ids_src, ids_tgt)), shape=(source_df.shape[0], target_df.shape[0]), dtype=np.float32)
    table = table.tocsr()

    return table

In [23]:
"""
Fonction adaptée de tobler.area_interpolate.

"""

def h3_area_interpolate(source_df, target_df, categorical_variables):

    table = area_tables(source_df, target_df)
    for variable in categorical_variables: # Pour chaque champ de classe
        unique = source_df[variable].unique() # Liste des classes d'un champ
        for value in unique: # Pour chaque classe
            mask = source_df[variable] == value # Dataframe composé uniquement de la même classe
            target_df[value] = pd.DataFrame(np.asarray(table[mask].sum(axis=0))[0]).div(target_df.area.values, axis="rows")

    target_df.set_index("hex_id", inplace=True, drop=True)
    return target_df

In [24]:
"""
Fonction utilisée dans compact_partition_dask.

"""

def compact_for_dask_use(clip, gdf, colonne, tx, res_min, res_max):
        
    valid_cells = [] # Cellules n'ayant pas besoin d'être divisées
    valid_label = [] # Classe associée à chaque cellule
    list_geom_valid = [] # Géométrie associée à chaque cellule
    invalid_cells=[]
    list_geom_invalid = []

    # Association des taux d'occupation de chaque classe pour chaque hexagone
    gdf_interp = h3_area_interpolate(source_df=gdf, target_df=clip.reset_index(), categorical_variables=[colonne])

    # Pour chaque enregistrement
    if len(gdf_interp.columns[1:]):
        for index, row in gdf_interp.iterrows():
            maximum = max(row[gdf_interp.columns[1:]])
            somme = row[gdf_interp.columns][1:].sum()
            end=False

            if (res_min < res_max) and (somme < 1-tx[res_min]):
                end = True
            
            else:
                for i in range(1,gdf_interp.columns.size): # Pour chaque colonne (sauf la géométrie)
                    valeur_i = row[gdf_interp.columns[i]]

                    if res_min < res_max: # Si la résolution maximale n'est pas atteinte
                        # Si le pourcentage de présence de la classe dans la cellule est supérieure à tx_spatial et est supérieure à tx_theme de l'ensemble des classes
                        if valeur_i >= tx[res_min]:
                            valid_cells.append(index)
                            valid_label.append(gdf_interp.columns[i])
                            list_geom_valid.append(row['geometry'])
                            end = True
                            break
                    else: # Si la résolution maximale est atteinte
                        # La valeur de cellule est déterminée par la classe majoritaire même si tx_theme n'est pas atteint
                        if(valeur_i == maximum) and (somme >= 0.5):
                            valid_cells.append(index)
                            valid_label.append(gdf_interp.columns[i])
                            list_geom_valid.append(row['geometry'])
                            end = True
                            break
            if not end:
                invalid_cells.append(index)
                list_geom_invalid.append(row['geometry'])

        # Création d'un GeoDataFrame contenant les cellules valides avec leur classe associée
        gdf_valid_bdd = gpd.GeoDataFrame({colonne: valid_label, 'geometry': list_geom_valid, 'type':'valid'}, geometry='geometry', crs="EPSG:3163", index=valid_cells)
        gdf_valid_bdd.index.name = "hex_id"
        gdf_invalid_bdd = gpd.GeoDataFrame({colonne: None, 'geometry': list_geom_invalid, 'type':'invalid'}, geometry='geometry', crs="EPSG:3163", index=invalid_cells)
        gdf_invalid_bdd.index.name = "hex_id"
        return pd.concat([gdf_valid_bdd, gdf_invalid_bdd], ignore_index=False) 
    else:
        return gpd.GeoDataFrame({colonne: None, 'geometry': clip['geometry'], 'type':'invalid'}, geometry='geometry', crs="EPSG:3163", index=clip.index)

In [30]:
compact_for_dask_use(h3fy(data_mos2014, 7), data_mos2014, "l_2014_n1", tx=compute_dict_tx(7), res_min=7, res_max=10)

Unnamed: 0_level_0,l_2014_n1,geometry,type
hex_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
879f54a88ffffff,Formation végétale,"POLYGON ((553501.884 180855.319, 552983.003 18...",valid
879f54aaaffffff,,"POLYGON ((557419.569 177534.149, 556900.547 17...",invalid
879f54a89ffffff,,"POLYGON ((551140.661 180065.319, 550621.812 18...",invalid
879f54ae6ffffff,,"POLYGON ((549530.251 170257.881, 549011.239 17...",invalid
879f54ad6ffffff,,"POLYGON ((549181.628 181726.104, 548662.850 18...",invalid
879f54ae2ffffff,,"POLYGON ((547570.390 171919.353, 547051.450 17...",invalid
879f54aaeffffff,,"POLYGON ((559378.422 175873.583, 558859.328 17...",invalid
879f54a1bffffff,,"POLYGON ((551892.642 171049.206, 551373.600 17...",invalid
879f54aabffffff,,"POLYGON ((555058.748 176743.783, 554539.756 17...",invalid
879f54aa9ffffff,,"POLYGON ((554656.687 174292.335, 554137.654 17...",invalid


# Données

Récupération des données sources

In [25]:
# Connexion à la base de données "oeil_traitement"
engine = getEngine()

In [26]:
# Connexion à la base de données du RDS
engineRDS = getEngine(user='postgres',pswd='XwUxFfrL6yRK5Wz',host='oeil-pg-aws.cluster-ck8dgtf46vxd.ap-southeast-2.rds.amazonaws.com',dbase='oeil')

In [27]:
catalog = f"{data_catalog_dir}bilbo_data.yaml" # Choix du catalogue de données

In [28]:
# Coordonnées d'une bbox sur l'île des Pins
xmin = 536159
xmax = 571819
ymin = 156515
ymax = 190058

## Tables de dimensions

### communes

In [32]:
%%time
# Récupétation de la table des communes sur l'emprise souhaitée
data_communes = loadData(catalog,'communes') # .cx[xmin:xmax, ymin:ymax]

Wall time: 2.85 s


In [25]:
data_communes # Visualisation de la table

Unnamed: 0,objectid,nom,nom_minus,code_com,code_post,nom_fichier,shape_length,shape_area,shape
0,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,636181900.0,MULTIPOLYGON Z (((450513.398 219933.702 -10000...
1,2,LA FOA,La Foa,98813,98880,LA_FOA,298739.0472,460955300.0,MULTIPOLYGON Z (((371445.862 277499.216 -10000...
2,3,POUM,Poum,98826,98826,POUM,676002.442656,470295900.0,"MULTIPOLYGON Z (((191490.890 456172.812 1.000,..."
3,4,OUEGOA,Ouégoa,98819,98821,OUEGOA,365782.158975,649195700.0,MULTIPOLYGON Z (((235001.134 434615.994 -10000...
4,5,MOINDOU,Moindou,98816,98819,MOINDOU,207876.89136,321459700.0,MULTIPOLYGON Z (((371445.862 277499.216 -10000...
5,6,SARRAMEA,Sarraméa,98828,98882,SARRAMEA,58079.79504,105401900.0,MULTIPOLYGON Z (((376716.288 288761.483 9999.0...
6,7,POUEBO,Pouébo,98824,98824,POUEBO,178372.386245,195788700.0,MULTIPOLYGON Z (((272317.912 407594.073 -10000...
7,8,YATE,Yaté,98832,98834,YATE,351071.233169,1332883000.0,MULTIPOLYGON Z (((456960.568 261512.590 -10000...
8,9,PAITA,Païta,98821,98889,PAITA,398184.267799,692047300.0,MULTIPOLYGON Z (((439992.642 225404.891 -10000...
9,10,VOH,Voh,98831,98833,VOH,387363.290562,797185100.0,MULTIPOLYGON Z (((266338.429 348818.522 -10000...


### dim_dates

In [31]:
%%time
# Récupétation de la table de standardisation des dates
# Le set_index sur le champ de jointure est nécessaire à l'application de la fonction "standardizeField"
data_date = pd.read_sql("SELECT * FROM pression_eau.dim_date",engine).set_index('date')

Wall time: 116 ms


In [29]:
data_date # Visualisation de la table

NameError: name 'data_date' is not defined

## Tables de faits

### incendies_Sentinel

In [28]:
%%time
# Récupétation de la table des incendies sur l'emprise souhaitée
data_feux_raw = loadData(catalog,'incendies_Sentinel').cx[xmin:xmax, ymin:ymax]

Wall time: 4.28 s


In [38]:
data_feux_raw # Visualisation de la table

Unnamed: 0,objectid,province,commune,surface_ha,idfusion,classification,begdate,enddate,fs_x,fs_y,...,pentemediane,penteminimale,pentemaximale,tailleincendie,derniere_detection,debutviirs,finviirs,shape_starea__,shape_stlength__,geom
117,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,2020-11-26,2020-11-26,557910,172898,...,,,,0ha - 10ha ...,2020-11-26,NaT,NaT,11092.3,879.694444,"POLYGON ((557883.772 172965.653, 557933.753 17..."
122,11385,Province Sud,ILE DES PINS,14.311355,941,Valide,2017-01-06,2017-01-06,547895,178828,...,,,,,2017-01-06,NaT,NaT,143113.6,5638.296097,"POLYGON ((547722.914 179070.783, 547723.057 17..."
923,13509,Province Sud,ILE DES PINS,3.517956,1126,Valide,2017-11-17,2017-11-17,548112,174638,...,,,,,2017-11-17,NaT,NaT,35179.56,1519.558478,"POLYGON ((548153.733 174755.040, 548153.877 17..."
1038,14190,PROVINCE SUD,Ile des Pins,1.019392,S11647,Valide,2020-08-13,2020-08-13,548490,176350,...,,,,0ha - 10ha ...,2020-08-13,NaT,NaT,10193.92,999.701704,"POLYGON ((548411.811 176406.448, 548441.802 17..."
1257,14512,PROVINCE SUD,Ile des Pins,1.35905,SGroup_90j_82,Valide,2020-01-26,2020-01-26,559470,170398,...,,,,0ha - 10ha ...,2020-01-26,NaT,NaT,13590.5,619.78356,"POLYGON ((559521.892 170388.482, 559521.893 17..."
1381,16237,PROVINCE SUD,Ile des Pins,3.258223,S23691,Valide,2020-12-21,2020-12-21,550116,165331,...,,,,0ha - 10ha ...,2020-12-21,NaT,NaT,32582.23,1679.541881,"POLYGON ((550120.275 165461.609, 550140.269 16..."
1520,10967,Province Sud,ILE DES PINS,14.191474,942,Valide,2017-01-06,2017-01-16,548398,177246,...,,,,,2017-01-16,NaT,NaT,141914.7,6598.018461,"MULTIPOLYGON (((548175.509 177294.512, 548275...."
1602,13892,PROVINCE SUD,Ile des Pins,1.259256,S11666,Valide,2020-08-18,2020-08-18,548458,175581,...,,,,0ha - 10ha ...,2020-08-18,NaT,NaT,12592.56,619.816959,"POLYGON ((548426.971 175686.752, 548456.961 17..."
1751,12265,,,3.947643,1032,Valide,2019-01-21,2019-01-21,546611,180302,...,2.0,0.0,9.013878,0ha - 10ha ...,2019-01-21,NaT,NaT,39476.43,1779.468467,"POLYGON ((546593.564 180422.339, 546593.635 18..."
1789,11211,Province Sud,ILE DES PINS,34.69821,1125,Valide,2017-12-27,2017-12-31,549509,179439,...,,,,,2018-01-06,NaT,NaT,346982.1,6597.926979,"MULTIPOLYGON (((549596.280 179923.944, 549616...."


In [32]:
# Standardisation des champs de dates
data_feux = standardizeField(data_feux_raw, data_date, 'date_id', {'begdate':5, 'enddate':6, 'derniere_detection':21})

In [42]:
data_feux # Visualisation de la table

Unnamed: 0,objectid,province,commune,surface_ha,idfusion,begdate,enddate,classification,fs_x,fs_y,...,pentemediane,penteminimale,pentemaximale,derniere_detection,tailleincendie,debutviirs,finviirs,shape_starea__,shape_stlength__,geom
117,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,20201126,20201126,Valide,557910,172898,...,,,,20201126,0ha - 10ha ...,NaT,NaT,11092.3,879.694444,"POLYGON ((557883.772 172965.653, 557933.753 17..."
122,11385,Province Sud,ILE DES PINS,14.311355,941,20170106,20170106,Valide,547895,178828,...,,,,20170106,,NaT,NaT,143113.6,5638.296097,"POLYGON ((547722.914 179070.783, 547723.057 17..."
923,13509,Province Sud,ILE DES PINS,3.517956,1126,20171117,20171117,Valide,548112,174638,...,,,,20171117,,NaT,NaT,35179.56,1519.558478,"POLYGON ((548153.733 174755.040, 548153.877 17..."
1038,14190,PROVINCE SUD,Ile des Pins,1.019392,S11647,20200813,20200813,Valide,548490,176350,...,,,,20200813,0ha - 10ha ...,NaT,NaT,10193.92,999.701704,"POLYGON ((548411.811 176406.448, 548441.802 17..."
1257,14512,PROVINCE SUD,Ile des Pins,1.35905,SGroup_90j_82,20200126,20200126,Valide,559470,170398,...,,,,20200126,0ha - 10ha ...,NaT,NaT,13590.5,619.78356,"POLYGON ((559521.892 170388.482, 559521.893 17..."
1381,16237,PROVINCE SUD,Ile des Pins,3.258223,S23691,20201221,20201221,Valide,550116,165331,...,,,,20201221,0ha - 10ha ...,NaT,NaT,32582.23,1679.541881,"POLYGON ((550120.275 165461.609, 550140.269 16..."
1520,10967,Province Sud,ILE DES PINS,14.191474,942,20170106,20170116,Valide,548398,177246,...,,,,20170116,,NaT,NaT,141914.7,6598.018461,"MULTIPOLYGON (((548175.509 177294.512, 548275...."
1602,13892,PROVINCE SUD,Ile des Pins,1.259256,S11666,20200818,20200818,Valide,548458,175581,...,,,,20200818,0ha - 10ha ...,NaT,NaT,12592.56,619.816959,"POLYGON ((548426.971 175686.752, 548456.961 17..."
1751,12265,,,3.947643,1032,20190121,20190121,Valide,546611,180302,...,2.0,0.0,9.013878,20190121,0ha - 10ha ...,NaT,NaT,39476.43,1779.468467,"POLYGON ((546593.564 180422.339, 546593.635 18..."
1789,11211,Province Sud,ILE DES PINS,34.69821,1125,20171227,20171231,Valide,549509,179439,...,,,,20180106,,NaT,NaT,346982.1,6597.926979,"MULTIPOLYGON (((549596.280 179923.944, 549616...."


### mos_2014

In [40]:
%%time
# Récupétation de la table de MOS de 2014 sur l'emprise souhaitée
data_mos2014 = loadData(catalog,'mos2014').cx[xmin:xmax, ymin:ymax]

Wall time: 2min 39s


In [29]:
%%time
# Récupétation de la table de MOS de 2014 sur l'emprise souhaitée
data_mos2014_nc = loadData(catalog,'mos2014') #.cx[xmin:xmax, ymin:ymax]

Wall time: 2min 47s


In [30]:
data_mos2014 = data_mos2014_nc.cx[xmin:xmax, ymin:ymax]

In [97]:
data_mos2014 # Visualisation de la table

Unnamed: 0,objectid,idobj,c_2014_n1,c_2014_n2,c_2014_n3,l_2014_n1,l_2014_n2,l_2014_n3,source_14,d_srce_14,...,observ,surface,ombre,d_arbore,d_arbustif,d_herbace,d_autre,shape_length,shape_area,shape
63989,65684,65567.0,1,11,112,Territoires artificialisés,Zones urbanisées,Tissu urbain discontinu,SPOT6,29-06-2013,...,,107476.627135,0,0.0,0.0,0.0,0.0,2427.771791,107476.627135,"MULTIPOLYGON (((550250.573 180865.721, 550283...."
64338,66338,66342.0,1,11,113,Territoires artificialisés,Zones urbanisées,Habitat isolé,SPOT6,29-06-2013,...,,16058.550956,0,0.0,0.0,0.0,0.0,636.977211,16058.550956,"MULTIPOLYGON (((549233.485 170283.621, 549237...."
64353,66348,66352.0,1,11,113,Territoires artificialisés,Zones urbanisées,Habitat isolé,SPOT6,29-06-2013,...,,13666.539589,0,0.0,0.0,0.0,0.0,497.477330,13666.539589,"MULTIPOLYGON (((553491.915 173790.477, 553436...."
64579,69550,69549.0,3,31,311,Formation végétale,Formation arborée,Strate arborée,google earth - MOS2010,2013-2014,...,,17053.682250,1,0.0,0.0,0.0,0.0,608.379883,17053.682250,"MULTIPOLYGON (((550257.722 171406.377, 550244...."
65817,65648,65533.0,1,11,112,Territoires artificialisés,Zones urbanisées,Tissu urbain discontinu,SPOT6,29-06-2013,...,,24086.665232,0,0.0,0.0,0.0,0.0,647.001537,24086.665232,"MULTIPOLYGON (((552834.537 169426.364, 552832...."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
110401,110413,110418.0,5,51,510,Surfaces en eau,Eaux continentales,Eaux continentales,SPOT6,29-06-2013,...,,31638.104523,0,0.0,0.0,0.0,0.0,796.320340,31638.104523,"MULTIPOLYGON (((551107.798 175053.187, 551050...."
110403,110417,110422.0,5,51,510,Surfaces en eau,Eaux continentales,Eaux continentales,SPOT6,29-06-2013,...,,319423.218084,0,0.0,0.0,0.0,0.0,5151.010276,319423.218084,"MULTIPOLYGON (((552139.619 176476.590, 552169...."
110404,110418,110423.0,5,51,510,Surfaces en eau,Eaux continentales,Eaux continentales,SPOT6,29-06-2013,...,,33090.483115,0,0.0,0.0,0.0,0.0,843.625612,33090.483115,"MULTIPOLYGON (((549376.792 177662.598, 549377...."
110406,110419,110424.0,5,51,510,Surfaces en eau,Eaux continentales,Eaux continentales,SPOT6,29-06-2013,...,,83562.732784,0,0.0,0.0,0.0,0.0,2430.093709,83562.732783,"MULTIPOLYGON (((550575.416 177939.257, 550600...."


# Indexation des données

## Maillage simple

### communes

In [26]:
%%time
# Indexation des communes sur une grille régulière à l'échelle 8
dim_communes_8 = indexation(data_communes, 8) 

Wall time: 9.15 s


In [126]:
%%time
# Indexation des communes sur une grille régulière à l'échelle 8 
# utilisation des fonctionnalité de parallélisation et de clustering de Dask.
dim_communes_8 = indexation_dask(gdf=data_communes, npartitions=32, resolution=8)

ValueError: The columns in the computed data do not match the columns in the provided metadata
  Extra:   ['geometry']
  Missing: []

In [27]:
dim_communes_8 # Visualisation de la table

Unnamed: 0_level_0,objectid,nom,nom_minus,code_com,code_post,nom_fichier,shape_length,shape_area
hex_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
889f554f19fffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f55419bfffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f554acbfffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f554027fffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f554addfffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
...,...,...,...,...,...,...,...,...
889f50ad65fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f502237fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f502445fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f502621fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08


## Maillage adaptatif

### mos_2014

In [96]:
# Choix de l'unité minimale de cartographie.
compute_dict_tx(7)

{0: 0.9999999999884721,
 1: 0.9999999999193045,
 2: 0.9999999994351315,
 3: 0.9999999960459205,
 4: 0.9999999723214438,
 5: 0.9999998062501062,
 6: 0.9999986437507449,
 7: 0.9999905062552927,
 8: 0.9999335437870494,
 9: 0.9995348064462535,
 10: 0.9967436451237747,
 11: 0.9772050614067733,
 12: 0.8404428524910452,
 13: 0,
 14: 0,
 15: 0}

In [30]:
%%time
# Indexation du MOS sur une grille adaptative
faits_mos2014_7A12 = compact(gdf=data_mos2014, list_col=['l_2014_n1'], tx_theme=compute_dict_tx(7), tx_spatial=0.95, res_min=7, res_max=10)

Résolution 7
Résolution 8
Résolution 9
Résolution 10
Wall time: 19.2 s


In [60]:
faits_mos2014_7A12 = compact_dask(gdf=data_mos2014, npartitions=200, list_col=['l_2014_n1'], tx_theme=compute_dict_tx(7), tx_spatial=0.95, res_min=7, res_max=10)

KeyError: 'hex_id'

In [43]:
faits_mos2014_7A12 # Visualisation de la table

Unnamed: 0_level_0,l_2014_n1
hex_id,Unnamed: 1_level_1
8a9f54ae6d0ffff,Territoires artificialisés
8a9f54a89cd7fff,Territoires artificialisés
8a9f54a89557fff,Territoires artificialisés
8a9f54a89577fff,Territoires artificialisés
8a9f54a89ceffff,Territoires artificialisés
...,...
8a9f54a8da57fff,Surfaces en eau
8a9f54af2da7fff,Surfaces en eau
8a9f54af2db7fff,Surfaces en eau
8a9f54af2d97fff,Surfaces en eau


# Intégration des données

## Tables de dimensions

### communes

In [36]:
%%time
# Intégration de la table dans le DWH
updateTable(dim_communes_8, 'dim_communes_8', engine, 'bilbo', methode='replace', geom=False)

CPU times: user 998 ms, sys: 0 ns, total: 998 ms
Wall time: 2.05 s


Unnamed: 0_level_0,objectid,nom,nom_minus,code_com,code_post,nom_fichier,shape_length,shape_area
hex_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
889f554f37fffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f50b615fffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f50b689fffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f55436dfffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
889f55796dfffff,1,MONT DORE,Mont Dore,98817,98809,MONT_DORE,400107.916505,6.361819e+08
...,...,...,...,...,...,...,...,...
889f50228dfffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f503535fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f50ad81fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08
889f51c9e5fffff,33,THIO,Thio,98829,98829,THIO,303539.628921,9.889216e+08


In [42]:
# Génération d'une vue ajoutant une colonne de géométrie à la table
geomView(table_name='dim_communes_8', engine=engine, schema='bilbo')

## Tables de faits

### incendies_Sentinel

In [130]:
%%time
# Intégration de la table dans le DWH
updateTable(faits_feux_13, 'faits_feux_13', engine, 'bilbo', methode='replace', geom=False)

CPU times: user 6.56 s, sys: 23.4 ms, total: 6.59 s
Wall time: 12 s


Unnamed: 0_level_0,objectid,province,commune,surface_ha,idfusion,classification,begdate,enddate,fs_x,fs_y,...,pentemoyenne,pentemediane,penteminimale,pentemaximale,tailleincendie,derniere_detection,debutviirs,finviirs,shape_starea__,shape_stlength__
hex_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
8d9f54aac8095bf,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,20201126,20201126,557910,172898,...,,,,,0ha - 10ha ...,20201126,NaT,NaT,11092.295708,879.694444
8d9f54aac80e8bf,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,20201126,20201126,557910,172898,...,,,,,0ha - 10ha ...,20201126,NaT,NaT,11092.295708,879.694444
8d9f54aac80e8ff,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,20201126,20201126,557910,172898,...,,,,,0ha - 10ha ...,20201126,NaT,NaT,11092.295708,879.694444
8d9f54aac80e6ff,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,20201126,20201126,557910,172898,...,,,,,0ha - 10ha ...,20201126,NaT,NaT,11092.295708,879.694444
8d9f54aac80c77f,15865,PROVINCE SUD,Ile des Pins,1.10923,S19698,Valide,20201126,20201126,557910,172898,...,,,,,0ha - 10ha ...,20201126,NaT,NaT,11092.295708,879.694444
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8d9f54af57a363f,11163,Province Sud,ILE DES PINS,1.79896,1157,Valide,20171227,20171227,548288,173846,...,,,,,,20171227,NaT,NaT,17989.599846,1039.699343
8d9f54af578d07f,11163,Province Sud,ILE DES PINS,1.79896,1157,Valide,20171227,20171227,548288,173846,...,,,,,,20171227,NaT,NaT,17989.599846,1039.699343
8d9f54af57aa2ff,11163,Province Sud,ILE DES PINS,1.79896,1157,Valide,20171227,20171227,548288,173846,...,,,,,,20171227,NaT,NaT,17989.599846,1039.699343
8d9f54af57ac53f,11163,Province Sud,ILE DES PINS,1.79896,1157,Valide,20171227,20171227,548288,173846,...,,,,,,20171227,NaT,NaT,17989.599846,1039.699343


### mos_2014

In [171]:
%%time
# Intégration de la table dans le DWH
updateTable(faits_mos2014_7A12, 'faits_mos2014_7A13', engine, 'bilbo', methode='replace', geom=False)

Wall time: 4.8 s


Unnamed: 0_level_0,l_2014_n1
hex_id,Unnamed: 1_level_1
879f54a88ffffff,Formation végétale
889f54a131fffff,Formation végétale
889f54a139fffff,Formation végétale
889f54aab9fffff,Formation végétale
889f54af4dfffff,Territoires agricoles
...,...
8d9f54aa14d467f,Formation végétale
8d9f54aa14d0cff,Formation végétale
8d9f54aa14d0c3f,Formation végétale
8d9f54aa14d0c7f,Formation végétale


In [176]:
# Génération d'une vue ajoutant une colonne de géométrie à la table
geomView(table_name='faits_mos2014_7a13', engine=engine, schema='bilbo')

In [253]:
# Génération d'une vue ajoutant une colonne de géométrie à la table
geomView(table_name='test3', engine=engine, schema='bilbo')

In [252]:
%%time
# Intégration de la table dans le DWH
updateTable(faits_mos2014_7a13, 'test3', engine, 'bilbo', methode='replace', geom=False)

Wall time: 148 ms


Unnamed: 0_level_0,l_2014_n3
hex_id,Unnamed: 1_level_1
889f543259fffff,Strate arborée
889f54325bfffff,Strate arborée
889f54325dfffff,Strate arborée
889f54a025fffff,Strate arborée
889f54a027fffff,Strate arborée
...,...
8d9f54af1a2d9bf,Strate arbustive
8d9f54af1a2d93f,Strate arbustive
8d9f54af1a65dbf,Strate arbustive
8d9f54af1a65d3f,Strate arbustive


In [52]:
faits_mos2014_7a13