In [1]:
'''
Objet : Test opendata des données IRVE
Points identifiés :
    - capacité de l'objet Ilist à traiter des volumes de données importants (1 million de données indexées)
    - temps de réponse linéaires / nombre de lignes (proportionnels sur les opérations de création)
    - temps de réponses d'un facteur 10 entre données simple et données ESValue
    - complémentation des données et génération Xarray opérationnel

api : https://static.data.gouv.fr/resources/fichier-consolide-des-bornes-de-recharge-pour-vehicules-electriques/20220629-080611/consolidation-etalab-schema-irve-v-2.0.2-20220628.csv
'''
from collections import Counter
from time import time
import csv
import os
os.chdir('C:/Users/a179227/OneDrive - Alliance/perso Wx/ES standard/python ESstandard/ES')
from iindex import Iindex, util
from iindexset import Iindexset

chemin = 'C:/Users/a179227/OneDrive - Alliance/perso Wx/ES standard/python ESstandard/validation/irve/'

file = chemin + 'consolidation-etalab-schema-irve-v-2.0.2-20220606-propre.csv'

print('file size : ', os.stat(file).st_size)

file size :  7467244


In [2]:
t0 = time()
with open(file, newline='', encoding='utf-8') as f:
    reader = csv.reader(f, delimiter=';')
    names = next(reader)
    data = []
    for row in reader: data.append(row)
data2 = util.list(list(zip(*data)))
print('data', time()-t0)

data 1.0431461334228516


In [3]:
t0=time()
idxs = Iindexset.Iext(data2, names, fast=True)
print('idxs (len, lenlidx, sumcodec) : ', len(idxs), len(idxs.idxlen), sum(idxs.idxlen), time()-t0)
t0=time()
fullsize = len(idxs.to_obj(encoded=True, fullcodec=True))
print('fullsize', fullsize, time()-t0)
t0=time()
minsize = len(idxs.to_obj(encoded=True, defaultcodec=True, fullcodec=True))
print('minsize', minsize, time()-t0)

idxs (len, lenlidx, sumcodec) :  11163 49 64775 7.785003900527954
fullsize 9615178 29.250075817108154
minsize 1388222 4.15327000617981


In [4]:
t0=time()
defaultsize = len(idxs.to_obj(encoded=True, defaultcodec=True))
print('defaultsize', defaultsize, time()-t0)
print('indicator default : ', idxs.indicator(fullsize, defaultsize))
t0=time()
infos = idxs.coupling(fast=True)
print('coupling', time()-t0)
t0=time()
optimizesize = len(idxs.to_obj(indexinfos=infos, encoded=True))
print('optimizesize ', optimizesize, time()-t0)
print('indicator optimize : ', idxs.indicator(fullsize, optimizesize))
t0=time()
js = idxs.to_obj(indexinfos=infos, encoded=True, encode_format='cbor')
cborsize = len(js)
print('cborsize', cborsize, time()-t0)
print('indicator cbor : ', idxs.indicator(fullsize, cborsize))

defaultsize 3700384 4.343551397323608
indicator default :  {'unicity level': 0.11614082235958076, 'object lightness': 0.3040160582775324, 'gain': 0.6151517943817577}
coupling 73.7478539943695
optimizesize  2495367 13.075262308120728
indicator optimize :  {'unicity level': 0.12067902893487414, 'object lightness': 0.1578999253744256, 'gain': 0.740476255353775}
cborsize 1713945 13.688610553741455
indicator cbor :  {'unicity level': 0.12067902893487414, 'object lightness': 0.06547675227136632, 'gain': 0.8217458896756773}


In [5]:
t0=time()
idxs2 = Iindexset.from_obj(js)
print('fromcbor', len(idxs2), time()-t0)
t0=time()
verif = idxs2 == idxs
print('controle égalité :', verif, time()-t0)


fromcbor 11163 6.525427579879761
controle égalité : True 0.48717617988586426


In [11]:
print('Couplage entre ', idxs[13].name, ' et ', idxs[9].name, ' : ', idxs[13].couplinginfos(idxs[9])['typecoupl'])
infosdefault = idxs[9].couplinginfos(idxs[13], default=True)
print('Ecart : ', infosdefault['disttomin'], 'positions sur ', infosdefault['distmin']) # moins de 1%
nom_station = idxs[9].tostdcodec(full=False)
coordonneesXY = idxs[13].tostdcodec(full=False) 
coordonneesXY.coupling(nom_station)
c = Counter(coordonneesXY.codec).most_common(5)
print('les 5 positions avec le plus de stations: ', c)
print('liste des stations associées à la position', c[0][0], ' : ', 
      [nom_station[i] for i in coordonneesXY.recordfromvalue(c[0][0])])

Couplage entre  coordonneesXY  et  nom_station  :  derived
Ecart :  44 positions sur  4503
les 5 positions avec le plus de stations:  [('[1.106329, 49.474202]', 10), ('[1.313367, 49.137233]', 6), ('[3.080477, 50.675889]', 6), ('[2.523685, 48.9908]', 5), ('[3.1557445, 50.5161745]', 4)]
liste des stations associées à la position [1.106329, 49.474202]  :  ['SCH01', 'SCH10', 'SCH09', 'SCH07', 'SCH06', 'SCH05', 'SCH04', 'SCH03', 'SCH02', 'SCH08']
