In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Etat actuel des expérimentations

Solutions explorées : 
* Dénormalisation
    * Id : Id de la géométrie
    * project_id : id du projet
    * project_name : nom du projet
    * areas_rank_3 : Array d'IDs, quartiers auxquels la géométrie appartient
    * areas_rank_2 : Array d'IDs, les villes auxquelles la géométrie appartient
    * areas_rank_1 : Array d'IDs, le territoire auquel la géométrie appartient
    * layer_id : id de la couche de la géométrie
    * layer_code : Code de la couche de la géométrie
    * geom : objet géométrie
    * geom_data : JSON Array, geom_data de la géométrie. Chaque object JSON contient { id, code, data, type }
    * name : le nom de la géométrie le cas échéant
    * type : le type de la géométrie le cas échéant
    * facultatifs: 
        * centroid : Centroid de la géometrie

* Segmentation par quartiers
    * Buffers
    * Built-in Function : ST DWithin

* Tile38
    * NearBy (equivalent de ST DWithin)
    * Intersects
        * Best perf
        * Création des buffers on the fly
        * Sauvegarde des buffers dans Tile38
    
* **Sauvegarde de l'information : un geom A à une distance D d'un autre B**
    * Postgres/PostGIS
    * Tile38

* Conclusions :
    * Dans tous les cas la disposition des géométries est importante
    * PostGIS
        * Buffers : 
            * Parfois invalides (même avec un makeValid). Aucun controle sur les géométries concernées.
            * Temps d'insertion > 12s (10s en moyenne pour la mise à jour des buffers)
        * Buffers & STD Within: Requètes les plus longues > 15 s (par quartier) et 1 min sur l'ensemble du territoire.
    * Tile38 (Tests Partiels) + Turf
        * recherche et insertion unitaire performante
        * Charge en parallelisation
        * Calcul de buffer après insertion unitaire ~ 4s
        * Coût en mémoire important (opérations d'union des buffers réalisées par turf)
  * Recommandations :
      * Voir batch de requètes
      * Dénormalisation : Area et GeomData au moins
      * Utilisation du Centroid (?)
      * Segmentation par quartier (X)
      * Précalcul des rapports :
          Modalités : Précalcul des rapports :
              Sauvegarder les géométrie à distance de pour chaque géométrie de chaque couche
      

In [4]:
def get_test_results(filename):
    return pd.read_json('/Users/yoann/dev/RAndD/nest-map-server/results/ ' + filename)

# Nevers

In [19]:
nevers_test_results_postgis = pd.read_csv('/Users/yoann/dev/RAndD/pg-smart-data-optimized/results/after_insert_update_4_10_2018_11_0_41.csv')

Les calculs les plus les couteux sont (a priori) les moins fréquents.

In [30]:
nevers_test_results_postgis[nevers_test_results_postgis.dimension_layer != nevers_test_results_postgis.comparison_layer].sort_values(by=['compute_time'], ascending=False).head()

Unnamed: 0,project_id,dimension_layer,comparison_layer,area_id,results_count,compute_time
12784,890000,plots,districts,890004,40,41.863704
12650,890000,plots,pedestrian_route,890003,58,37.605065
12787,890000,plots,districts,890007,100,36.991515
12792,890000,plots,districts,890012,80,34.934554
12679,890000,plots,public_transportation,890009,33,29.828532


In [33]:
nevers_test_results_postgis[nevers_test_results_postgis.dimension_layer != nevers_test_results_postgis.comparison_layer].sort_values(by=['compute_time'], ascending=False)

Unnamed: 0,project_id,dimension_layer,comparison_layer,area_id,results_count,compute_time
12784,890000,plots,districts,890004,40,41.863704
12650,890000,plots,pedestrian_route,890003,58,37.605065
12787,890000,plots,districts,890007,100,36.991515
12792,890000,plots,districts,890012,80,34.934554
12679,890000,plots,public_transportation,890009,33,29.828532
12789,890000,plots,districts,890009,40,24.705448
12782,890000,plots,districts,890003,60,24.292492
12676,890000,plots,public_transportation,890006,27,23.300489
12677,890000,plots,public_transportation,890007,80,23.101059
12791,890000,plots,districts,890011,80,21.936138


In [26]:
nevers_test_results = get_test_results('tile38_unit_perf_890000_3_10_2018_16_4_39.json')

In [27]:
ordered = nevers_test_results.where(
    (nevers_test_results.nb_elements_comparison_layer != 0) & (nevers_test_results.nb_elements_dimension_layer != 0) 
) .sort_values(by=['execution_time'], ascending=False).dropna()

In [34]:
ordered

Unnamed: 0,area_id,area_name,comparison_layer,dimension_layer,execution_time,nb_elements_comparison_layer,nb_elements_dimension_layer,project_id,result
1299,890003.0,Eduens Montapins,plots,road,5.331211,1775.0,227.0,890000.0,"[{'count': 183, 'distance': 100}, {'count': 18..."
4635,890004.0,Montôts - Grande Pâture,plots,habitat,5.057754,1917.0,132.0,890000.0,"[{'count': 131, 'distance': 100}, {'count': 13..."
5062,890004.0,Montôts - Grande Pâture,plots,health_facilities,5.049078,1917.0,2.0,890000.0,"[{'count': 2, 'distance': 100}, {'count': 2, '..."
4991,890004.0,Montôts - Grande Pâture,plots,school,5.043009,1917.0,10.0,890000.0,"[{'count': 10, 'distance': 100}, {'count': 10,..."
5984,890004.0,Montôts - Grande Pâture,plots,habitat,4.990772,1917.0,132.0,890000.0,"[{'count': 131, 'distance': 100}, {'count': 13..."
4707,890004.0,Montôts - Grande Pâture,plots,administrative_facilities,4.892038,1917.0,3.0,890000.0,"[{'count': 3, 'distance': 100}, {'count': 3, '..."
5133,890004.0,Montôts - Grande Pâture,plots,trade_facilities,4.881351,1917.0,6.0,890000.0,"[{'count': 6, 'distance': 100}, {'count': 6, '..."
6481,890004.0,Montôts - Grande Pâture,plots,undeveloped_spaces,4.881333,1917.0,4.0,890000.0,"[{'count': 4, 'distance': 100}, {'count': 4, '..."
5914,890004.0,Montôts - Grande Pâture,plots,bicycle_path,4.724095,1917.0,5.0,890000.0,"[{'count': 5, 'distance': 100}, {'count': 5, '..."
163,890003.0,Eduens Montapins,plots,administrative_facilities,4.692826,1775.0,1.0,890000.0,"[{'count': 1, 'distance': 100}, {'count': 1, '..."
