# Objet : Test opendata des données de qualité de l'air

## Objectif

- valider sur des cas réels l'outil de traitement des "listes indexées"
- identifier les apports que pourraient avoir ce type d'outil

## Résultats
- gain de taille de fichier très important (15 Mo pour un fichier csv "quoté" et 11 Mo pour un fichier csv non "quoté" contre 0,9 Mo pour un fichier texte optimisé et 0,5 Mo pour un fichier binaire) !
- on a donc un gain d'un facteur 10 à 20 sur le format texte 

## Usages possibles 
- à compléter

## Autres points
- chargement sur MongoDB à tester
- Outil de requète à tester

données utilisées : https://files.data.gouv.fr/lcsqa/concentrations-de-polluants-atmospheriques-reglementes/temps-reel/2022/

------
## Initialisation
- lecture des fichiers de 01/2022 issus de l'api (un fichier par jour)

In [1]:
from pprint import pprint
from collections import Counter
from time import time
from datetime import datetime
import csv
from util import util
from observation import Ilist, Iindex
from copy import copy
import pandas as pd

chemin = 'https://raw.githubusercontent.com/loco-philippe/Environmental-Sensing/main/python/Validation/air/data_lcsqa/'

In [17]:

data = []
t0 = time()
nb_fichiers = 1
annee = 2022
mois = 1
jour = 1
for i in range(nb_fichiers):
    file = chemin + 'FR_E2_' + str(annee) + '-' + format(mois, '02d') +'-' + format(jour+i, '02d') +'.csv'
    data.append(pd.read_csv(file, sep=';'))
data2 = pd.concat(data, ignore_index=True, join='inner')
data2[['Date de début','Date de fin']] = data2[['Date de début','Date de fin']].astype('datetime64')
data2 = data2.astype('category')
#data2.pop('valeur brute')
print('data2 : \n', len(data2), '\n', list(data2), '\n', time()-t0)


data2 : 
 49392 
 ['Date de début', 'Date de fin', 'Organisme', 'code zas', 'Zas', 'code site', 'nom site', "type d'implantation", 'Polluant', "type d'influence", 'discriminant', 'Réglementaire', "type d'évaluation", 'procédure de mesure', 'type de valeur', 'valeur', 'valeur brute', 'unité de mesure', 'taux de saisie', 'couverture temporelle', 'couverture de données', 'code qualité', 'validité'] 
 12.010825157165527


----
## initialisation de l'objet Ilist
- l'initialisation pourrait être automatisée à partir du fichier csv
- identification de 64 775 valeurs différentes sur un total de 11 163 x 49 valeurs ("taux d'unicité" de 12%)
- la taille minimale serait de 1,4 Mo (données csv "quotées") pour un maximum de 9,6 Mo (données csv "quotées")

In [18]:
t0=time()
idxs2 = Ilist.obj(data2)
print('idxs (len, lenlidx, sumcodec) : ', len(idxs2), len(idxs2.idxlen), sum(idxs2.idxlen), time()-t0)
idxs3 = Ilist(idxs2)
print(idxs3 == idxs2)

idxs (len, lenlidx, sumcodec) :  49392 23 8471 7.370067834854126
True


In [4]:
t0=time()
pprint(idxs2.category)
print('\n')
pprint(idxs2.groups)
print('\n', idxs2.tree(), '\n')
print(idxs2.tree(mode='diff'))
print(time()-t0)

{'Date de début': 'secondary',
 'Date de fin': 'coupled',
 'Organisme': 'secondary',
 'Polluant': 'secondary',
 'Réglementaire': 'unique',
 'Zas': 'coupled',
 'code qualité': 'secondary',
 'code site': 'secondary',
 'code zas': 'secondary',
 'couverture de données': 'unique',
 'couverture temporelle': 'unique',
 'discriminant': 'secondary',
 'nom site': 'secondary',
 'procédure de mesure': 'secondary',
 'taux de saisie': 'unique',
 "type d'implantation": 'secondary',
 "type d'influence": 'secondary',
 "type d'évaluation": 'secondary',
 'type de valeur': 'unique',
 'unité de mesure': 'secondary',
 'valeur': 'secondary',
 'validité': 'secondary'}


[{'Date de début',
  'Polluant',
  'code qualité',
  'code site',
  'discriminant',
  'nom site',
  'procédure de mesure',
  "type d'influence",
  "type d'évaluation",
  'unité de mesure'}]

 -1: root-derived (49392)
   0 : Date de début (24)
      1 : Date de fin (24)
   5 : code site (532)
      2 : Organisme (18)
      3 : code zas (70)
   

## formats de base

In [5]:
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='full')
fullsize = len(js)
print('fullsize', len(js), time()-t0)

fullsize 14988223 3.472689151763916


In [6]:
t0=time()
idxs4 = Ilist.from_obj(js)
print('new', len(idxs4), time()-t0)
t0=time()
verif = idxs4 == idxs2
print('controle égalité :', verif, time()-t0)

new 49392 12.629045009613037
controle égalité : True 0.33821749687194824


In [7]:
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='nokeys')
minsize = len(js)
print('minsize', len(js), time()-t0)

t0=time()
js = idxs2.to_obj(encoded=True, encode_format='cbor', modecodec='nokeys')
print('mincborsize', len(js), time()-t0)


minsize 34498 0.012993574142456055
mincborsize 33259 0.0110015869140625


----
## format default
- 

In [8]:
champ = idxs2.nindex
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='default')
defaultsize = len(js)
print('defaultsize : ', defaultsize, time()-t0, '\n')
print('indicator default : ', idxs2.indicator(fullsize, defaultsize), '\n')

t0=time()
pprint(champ('code site').couplinginfos(champ('Date de début')))
print('\n', idxs2.tree(mode='diff'))
print('\nanalyse : ', time()-t0)

defaultsize :  3830328 0.15708541870117188 

indicator default :  {'total values': 1136016, 'mean size': 13.194, 'unique values': 3366, 'mean coding size': 3.343, 'unicity level': 0.003, 'optimize level': 0.256, 'object lightness': 0.253, 'maxgain': 0.997, 'gain': 0.744} 

{'diff': 508,
 'dist': 12768,
 'distance': 12744,
 'distmax': 12768,
 'distmin': 532,
 'distrate': 1.0,
 'disttomax': 0,
 'disttomin': 12236,
 'rate': 1.0,
 'typecoupl': 'crossed'}

 -1: root-diff (49392)
   11: Réglementaire (0.00e+00 - 1)
   14: type de valeur (0.00e+00 - 1)
   15: valeur (1.00e+00 - 1956)
      0 : Date de début (2.67e-01 - 24)
         1 : Date de fin (0.00e+00 - 24)
      5 : code site (3.45e-02 - 532)
         2 : Organisme (0.00e+00 - 18)
         3 : code zas (0.00e+00 - 70)
            4 : Zas (0.00e+00 - 70)
         6 : nom site (7.08e-06 - 532)
         7 : type d implantation (0.00e+00 - 5)
         9 : type d influence (1.32e-02 - 3)
         10: discriminant (3.87e-02 - 26)
         12

In [9]:
print(idxs2.analysis.getmatrix(['Polluant', 'unité de mesure']))
notcoupl = champ('Polluant').coupling(champ('unité de mesure'), derived=True)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = [(champ('Polluant')[i], champ('unité de mesure')[i]) for i in notcoupl[:2000]]
pprint(set(liste), width=120)

{'dist': 16, 'distrate': 0.3888888888888889, 'disttomin': 7, 'disttomax': 11, 'distmin': 9, 'distmax': 27, 'diff': 6, 'distance': 13, 'rate': 0.5416666666666666, 'typecoupl': 'link'}
nombre de non couplés :  48840

liste des premières incohérences : 
{('PM10', 'µg-m3')}


In [10]:
print(idxs2.analysis.getmatrix(['code site', 'nom site']))
notcoupl = champ('code site').coupling(champ('nom site'), derived=False)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = [(champ('code site')[notcoupl[i]], champ('nom site')[notcoupl[i]]) for i in range(len(notcoupl))]
pprint(set(liste), width=120)

{'dist': 534, 'distrate': 7.079846508927687e-06, 'disttomin': 2, 'disttomax': 282490, 'distmin': 532, 'distmax': 283024, 'diff': 0, 'distance': 2, 'rate': 7.079846508927687e-06, 'typecoupl': 'link'}
nombre de non couplés :  168

liste des premières incohérences : 
{('FR19007', 'HALLES'), ('FR19053', 'QUIMPER ZOLA'), ('FR19007', 'Rennes Les Halles'), ('FR19053', 'Quimper Zola')}


In [11]:
notcoupl = champ('nom site').coupling(champ('code site'), derived=False)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = [(champ('code site')[notcoupl[i]], champ('nom site')[notcoupl[i]]) for i in range(len(notcoupl))]
pprint(set(liste), width=120)

nombre de non couplés :  384

liste des premières incohérences : 
{('FR23078', 'SAINT EXUPERY'), ('FR33101', 'PASTEUR'), ('FR20048', 'SAINT EXUPERY'), ('FR23004', 'PASTEUR')}


In [12]:
print('controle égalité :', Ilist.from_obj(js) == idxs2)

controle égalité : True


----
## Format optimisé
- 

In [13]:
idxs4.reindex()
idxs4.coupling(param='distance', level=500)
print(idxs4.tree())
t0=time()
js = idxs4.to_obj(modecodec='optimize', encoded=True)
optimizesize = len(js)
print('optimizesize : ', optimizesize, time()-t0, '\n')
print('indicator optimize : ', idxs2.indicator(fullsize, optimizesize), '\n')

t0=time()
js = idxs4.to_obj(encoded=True, modecodec='optimize', encode_format='cbor')
cborsize = len(js)
print('cborsize : ', cborsize, time()-t0, '\n')
print('indicator cbor : ', idxs2.indicator(fullsize, cborsize))

-1: root-derived (49392)
   0 : Date de début (24)
      1 : Date de fin (24)
   5 : code site (2616)
      3 : code zas (2143)
         2 : Organisme (18)
         4 : Zas (70)
         13: procédure de mesure (1299)
            8 : Polluant (310)
               7 : type d implantation (101)
                  12: type d évaluation (49)
                     16: unité de mesure (21)
                        9 : type d influence (9)
                           20: code qualité (3)
                              21: validité (2)
            10: discriminant (26)
      6 : nom site (2616)
   11: Réglementaire (1)
   14: type de valeur (1)
   15: valeur (1956)
   17: taux de saisie (1)
   18: couverture temporelle (1)
   19: couverture de données (1)
optimizesize :  933220 0.51163649559021 

indicator optimize :  {'total values': 1136016, 'mean size': 13.194, 'unique values': 3377, 'mean coding size': 0.785, 'unicity level': 0.003, 'optimize level': 0.062, 'object lightness': 0.059, 'maxgain':

In [14]:
print('controle égalité :', Ilist.from_obj(js) == idxs2)

controle égalité : True


----
## Format BD
- 

In [15]:
t0=time()
js = idxs2.to_obj(modecodec='dict', encoded=True)
dictsize = len(js)
print('dictsize : ', dictsize, time()-t0, '\n')
print('indicator dict : ', idxs2.indicator(fullsize, dictsize), '\n')

dictsize :  7472334 5.660573244094849 

indicator dict :  {'total values': 1136016, 'mean size': 13.194, 'unique values': 3377, 'mean coding size': 6.558, 'unicity level': 0.003, 'optimize level': 0.499, 'object lightness': 0.497, 'maxgain': 0.997, 'gain': 0.501} 



In [16]:
print('controle égalité :', Ilist.from_obj(js) == idxs2)

controle égalité : True


synthèse:

1  fichier  : full  14.4, def  3.8, opt 0.9 cbor 0.3 dic 7.5    500     
3  fichiers : full  43.1, def 11.5, opt 2.5 cbor 1.3 dic 23.7   500    
5  fichiers : full  71.9, def 19.3, opt 4.1 cbor 2.1 dic 41.1   500    
10 fichiers : full 143.7, def 39.0, opt 8.2 cbor 4.0 dic 84.5   500         493 225 lignes