# Objet : Test opendata des données de qualité de l'air

## Objectif

- valider sur des cas réels l'outil de traitement des "listes indexées"
- identifier les apports que pourraient avoir ce type d'outil

## Résultats
- interêt d'utiliser les outils Pandas
- à compléter

## Usages possibles 
- à compléter

## Autres points
- chargement sur MongoDB à tester
- Outil de requète à tester

données utilisées : https://files.data.gouv.fr/lcsqa/concentrations-de-polluants-atmospheriques-reglementes/temps-reel/2022/

------
## Initialisation
- lecture des fichiers de 01/2022 issus de l'api (un fichier par jour)

In [1]:
from pprint import pprint
from collections import Counter
from time import time
import csv
import os
#os.chdir('C:/Users/a179227/OneDrive - Alliance/perso Wx/ES standard/python ESstandard/ES')
from util import util
from observation import Ilist, Iindex
from copy import copy
import pandas as pd

chemin = 'https://raw.githubusercontent.com/loco-philippe/Environmental-Sensing/main/python/Validation/air/data_lcsqa/'

In [15]:

data = []
t0 = time()
nb_fichiers = 1
annee = 2022
mois = 1
jour = 1
for i in range(nb_fichiers):
    file = chemin + 'FR_E2_' + str(annee) + '-' + format(mois, '02d') +'-' + format(jour+i, '02d') +'.csv'
    data.append(pd.read_csv(file, sep=';'))
data2 = pd.concat(data, ignore_index=True, join='inner').astype('category')
data2.pop('valeur brute')
print('data2 : \n', len(data2), '\n', list(data2), '\n', time()-t0)


data2 : 
 49392 
 ['Date de début', 'Date de fin', 'Organisme', 'code zas', 'Zas', 'code site', 'nom site', "type d'implantation", 'Polluant', "type d'influence", 'discriminant', 'Réglementaire', "type d'évaluation", 'procédure de mesure', 'type de valeur', 'valeur', 'unité de mesure', 'taux de saisie', 'couverture temporelle', 'couverture de données', 'code qualité', 'validité'] 
 3.9732325077056885


----
## initialisation de l'objet Ilist
- l'initialisation pourrait être automatisée à partir du fichier csv
- identification de 64 775 valeurs différentes sur un total de 11 163 x 49 valeurs ("taux d'unicité" de 12%)
- la taille minimale serait de 1,4 Mo (données csv "quotées") pour un maximum de 9,6 Mo (données csv "quotées")

In [37]:
t0=time()
idxs2 = Ilist.obj(data2)
print('idxs (len, lenlidx, sumcodec) : ', len(idxs2), len(idxs2.idxlen), sum(idxs2.idxlen), time()-t0)
idxs2.setvar('valeur')
idxs3 = Ilist(idxs2)
print(idxs3 == idxs2)

idxs (len, lenlidx, sumcodec) :  49392 22 3344 0.843726396560669
True


## formats de base

In [38]:
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='full')
fullsize = len(js)
print('fullsize', len(js), time()-t0)

fullsize 14395523 4.743796110153198


In [39]:
t0=time()
new = Ilist.from_obj(js)
print('new', len(new), time()-t0)
t0=time()
verif = new == idxs2
print('controle égalité :', verif, time()-t0)

new 49392 18.871871948242188
controle égalité : True 0.6411688327789307


In [40]:
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='nokeys')
minsize = len(js)
print('minsize', len(js), time()-t0)

t0=time()
js = idxs2.to_obj(encoded=True, encode_format='cbor', modecodec='nokeys')
print('mincborsize', len(js), time()-t0)


minsize 302565 0.22206664085388184
mincborsize 393572 0.21484732627868652


----
## format default
- 

In [41]:
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='default')
defaultsize = len(js)
print('defaultsize : ', len(js), time()-t0, '\n')
print('indicator default : ', idxs2.indicator(fullsize, defaultsize), '\n')
t0=time()
pprint(idxs2.indexinfos(keys=['num', 'name', 'lencodec', 'parent', 'typecoupl']), width=120)
pprint(idxs2.indexinfos(keys=['linkrate']))
print('analyse : ', time()-t0)

defaultsize :  3841287 0.4627699851989746 

indicator default :  {'init values': 1086624, 'mean size': 13.248, 'unique values': 1409, 'mean coding size': 3.522, 'unicity level': 0.001, 'object lightness': 0.266, 'gain': 0.733} 

[{'lencodec': 24, 'name': 'Date de début', 'num': 0, 'parent': 0, 'typecoupl': 'crossed'},
 {'lencodec': 24, 'name': 'Date de fin', 'num': 1, 'parent': 0, 'typecoupl': 'coupled'},
 {'lencodec': 18, 'name': 'Organisme', 'num': 2, 'parent': 5, 'typecoupl': 'derived'},
 {'lencodec': 70, 'name': 'code zas', 'num': 3, 'parent': 5, 'typecoupl': 'derived'},
 {'lencodec': 70, 'name': 'Zas', 'num': 4, 'parent': 3, 'typecoupl': 'coupled'},
 {'lencodec': 532, 'name': 'code site', 'num': 5, 'parent': 0, 'typecoupl': 'crossed'},
 {'lencodec': 532, 'name': 'nom site', 'num': 6, 'parent': 5, 'typecoupl': 'linked'},
 {'lencodec': 5, 'name': "type d'implantation", 'num': 7, 'parent': 5, 'typecoupl': 'derived'},
 {'lencodec': 9, 'name': 'Polluant', 'num': 8, 'parent': 13, 'typec

In [52]:
idxs4 = copy(idxs2)
champ = idxs4.nindex



In [53]:
print(idxs2.analysis.getmatrix(['Polluant', 'unité de mesure']))
notcoupl = champ('Polluant').coupling(champ('unité de mesure'), derived=True)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = [(champ('Polluant')[i], champ('unité de mesure')[i]) for i in notcoupl[:2000]]
print('liste')
#liste = []
#for i in range(6000): liste.append((champ('Polluant')[notcoupl[i]], champ('unité de mesure')[notcoupl[i]]))
pprint(set(liste), width=120)

{'lencoupling': 16, 'rate': 0.3888888888888889, 'disttomin': 7, 'disttomax': 11, 'distmin': 9, 'distmax': 27, 'diff': 6, 'typecoupl': 'link'}
nombre de non couplés :  48840

liste des premières incohérences : 
liste
{('PM2.5', 'µg/m3'), ('PM2.5', 'µg-m3')}


In [28]:
print(idxs2.analysis.getmatrix(['code site', 'nom site']))
notcoupl = champ('code site').coupling(champ('nom site'), derived=False)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = []
for i in range(len(notcoupl)): liste.append((champ('code site')[notcoupl[i]], champ('nom site')[notcoupl[i]]))
pprint(set(liste), width=120)

{'lencoupling': 534, 'rate': 0.0, 'disttomin': 0, 'disttomax': 284622, 'distmin': 534, 'distmax': 285156, 'diff': 0, 'typecoupl': 'coupled'}
nombre de non couplés :  168

liste des premières incohérences : 
{('FR19007', 'HALLES'), ('FR19053', 'QUIMPER ZOLA'), ('FR19053', 'Quimper Zola'), ('FR19007', 'Rennes Les Halles')}


In [29]:
print(idxs2.analysis.getmatrix(['code site', 'nom site']))
champ = idxs2.nindex 
notcoupl = champ('nom site').coupling(champ('code site'), derived=False)
print('nombre de non couplés : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = []
for i in range(len(notcoupl)): liste.append((champ('code site')[notcoupl[i]], champ('nom site')[notcoupl[i]]))
pprint(set(liste), width=120)

{'lencoupling': 534, 'rate': 0.0, 'disttomin': 0, 'disttomax': 284622, 'distmin': 534, 'distmax': 285156, 'diff': 0, 'typecoupl': 'coupled'}
nombre de non couplés :  384

liste des premières incohérences : 
{('FR20048', 'SAINT EXUPERY'), ('FR23004', 'PASTEUR'), ('FR33101', 'PASTEUR'), ('FR23078', 'SAINT EXUPERY')}


In [21]:
t0=time()
new = Ilist.from_obj(js)
print('new', len(new), time()-t0)
print(idxs3 == idxs2)
t0=time()
verif = new == idxs2
print('controle égalité :', verif, time()-t0)

new 49392 1.3752326965332031
True
controle égalité : True 0.6421430110931396


----
## Format optimisé
- 

In [22]:
t0=time()
js = idxs2.to_obj(modecodec='optimize', encoded=True)
optimizesize = len(js)
print('optimizesize : ', optimizesize, time()-t0, '\n')
print('indicator optimize : ', idxs2.indicator(fullsize, optimizesize), '\n')
t0=time()
js = idxs2.to_obj(encoded=True, modecodec='optimize', encode_format='cbor')
cborsize = len(js)
print('cborsize : ', cborsize, time()-t0, '\n')
print('indicator cbor : ', idxs2.indicator(fullsize, cborsize))

optimizesize :  2082081 0.708590030670166 

indicator optimize :  {'init values': 1086624, 'mean size': 13.248, 'unique values': 1409, 'mean coding size': 1.901, 'unicity level': 0.001, 'object lightness': 0.144, 'gain': 0.855} 

cborsize :  1066949 0.6317660808563232 

indicator cbor :  {'init values': 1086624, 'mean size': 13.248, 'unique values': 1409, 'mean coding size': 0.966, 'unicity level': 0.001, 'object lightness': 0.073, 'gain': 0.926}


In [23]:
t0=time()
new = Ilist.from_obj(js)
print('new', len(new), time()-t0)
print(idxs3 == idxs2)
t0=time()
verif = new == idxs2
print('controle égalité :', verif, time()-t0)

new 49392 1.2968769073486328
True
controle égalité : True 0.6662161350250244


----
## Format BD
- 

In [11]:
t0=time()
js = idxs2.to_obj(modecodec='dict', encoded=True)
dictsize = len(js)
print('dictsize : ', dictsize, time()-t0, '\n')
print('indicator dict : ', idxs2.indicator(fullsize, dictsize), '\n')

dictsize :  49784605 6.336913585662842 

indicator dict :  {'init values': 6507754, 'mean size': 13.246, 'unique values': 1654, 'mean coding size': 7.649, 'unicity level': 0.0, 'object lightness': 0.577, 'gain': 0.422} 



In [14]:
t0=time()
new = Ilist.from_obj(js)
print('new', len(new), time()-t0)
print(idxs3 == idxs2)
t0=time()
verif = new == idxs2
print('controle égalité :', verif, time()-t0)

new 295807 6.778273344039917
True
controle égalité : True 2.6191530227661133
