# Objet : Test opendata des données de qualité de l'air

## Objectif

- valider sur des cas réels l'outil de traitement des "listes indexées"
- identifier les apports que pourraient avoir ce type d'outil

## Résultats
- l'outil fonctionne correctement (pas d'erreur identifiées, les temps de réponse restent néanmoins à améliorer).
- l'analyse identifie des données anormales qui seraient à corriger (ou à expliquer) -> cf exemple dans la dernière cellule
- le gain en taille de fichier varie de 50% (format texte non optimisé) à 80% (taille divisée par 5 !) dans un format optimisé et binaire. Ce niveau d'optimisation est tout à fait notable.
- l'analyse permet de (re)trouver la logique de dépendance entre les colonnes qui minimise les incohérences
- elle permet également de vérifier que les données respectent bien une structure imposée

## Usages possibles 
- les indicateurs utilisés permettent de qualifier le fichier csv et sont déployables simplement:
    - niveau de duplication des données
    - lien de dépendance entre les colonnes (permet un codage réduit des données).
- l'usage de format de données moins gourmand (sans dégradation des données) peut également être intéressant à déployer
- les schémas de données pourraient intégrer cette dépendance entre colonnes (ex. s'il y a une colonne "mois" et une colonne "trimestre", on peut indiquer que la colonne "trimestre" est "dérivée" de la colonne "mois", ou bien si on a une colonne "nom prénom" et une colonne "n° sécurité sociale", on peut indiquer que les deux colonnes sont "couplées". 
- la qualité des données peut faire l'objet d'un indicateur qui mesure l'écart (existant / attendu) des relations entre colonnes
- l'identification des enregistrements ne respectant pas une structure imposée permet de les éliminer ou de les corriger

## Autres points
- capacité ok de l'objet Iindexset à traiter des structures de données importantes (50 colonnes)
- indicateurs et fonctions de conversion pertinentes
- temps de réponse de la fonction 'coupling' à regarder
- tests complémentaires à effectuer sur d'autres jeux de données
- représentation graphique de la structure des données à regarder
- indicateur qualité à regarder

données utilisées : https://files.data.gouv.fr/lcsqa/concentrations-de-polluants-atmospheriques-reglementes/temps-reel/2022/

------
## Initialisation
- lecture des fichiers de 01/2022 issus de l'api (un fichier par jour)

In [1]:
from pprint import pprint
from collections import Counter
from time import time
import csv
import os
#os.chdir('C:/Users/a179227/OneDrive - Alliance/perso Wx/ES standard/python ESstandard/ES')
from util import util
from observation import Ilist, Iindex
from copy import copy

chemin = 'C:/Users/a179227/OneDrive - Alliance/perso Wx/ES standard/Environnemental-Sensing/python/validation/air/data_lcsqa/'
file = chemin + 'FR_E2_2022-01-01.csv'

print('file size : ', os.stat(file).st_size)

file size :  11132340


In [14]:
import pandas as pd
data = []
t0 = time()
annee = 2022
mois = 1
jour = 1
for i in range(4):
    file = chemin + 'FR_E2_' + str(annee) + '-' + format(mois, '02d') +'-' + format(jour+i, '02d') +'.csv'
    data.append(pd.read_csv(file, sep=';'))
data2 = pd.concat(data, ignore_index=True, join='inner').astype('category')

print('data2', len(data2), list(data2), time()-t0)


data2 197455 ['Date de début', 'Date de fin', 'Organisme', 'code zas', 'Zas', 'code site', 'nom site', "type d'implantation", 'Polluant', "type d'influence", 'discriminant', 'Réglementaire', "type d'évaluation", 'procédure de mesure', 'type de valeur', 'valeur', 'valeur brute', 'unité de mesure', 'taux de saisie', 'couverture temporelle', 'couverture de données', 'code qualité', 'validité'] 2.812849283218384


In [15]:
t0=time()
idxs2 = Ilist([Iindex(list(data2.loc[:,idx].cat.categories), idx, 
                     list(data2.loc[:,idx].cat.codes), lendefault=len(data2), castobj=False)
              for idx in list(data2)])
print('idxs (len, lenlidx, sumcodec) : ', len(idxs2), len(idxs2.idxlen), sum(idxs2.idxlen), time()-t0)
t0=time()
idxs.delindex('valeur brute')
idxs.setvar('valeur')
fullsize = len(idxs.to_obj(encoded=True, modecodec='full'))
print('fullsize', fullsize, time()-t0)
t0=time()
minsize = len(idxs.to_obj(encoded=True, modecodec='nokeys'))
print('minsize', minsize, time()-t0)

idxs (len, lenlidx, sumcodec) :  197455 23 13078 3.4289703369140625
[96, 96, 18, 70, 70, 533, 533, 5, 9, 3, 26, 1, 4, 59, 2, 2926, 8616, 3, 1, 1, 1, 3, 2]


In [29]:
t0=time()
for idx in idxs2.lindex:
    val = idx.values
print(time()-t0)
pdkeys=[]
for idx in idxs2.lindex:
    pdkeys.append(pd.Series(idx.keys, dtype='category'))
t0=time()
for idx, keys in zip(idxs2.lindex,pdkeys):
    #val = list(pd.DataFrame(keys.cat.rename_categories(zip(idx.codec, range(len(idx.codec)))).tolist())[0])
    val = list(pd.DataFrame(keys.cat.rename_categories(pd.Series(zip(idx.codec, range(len(idx.codec))))).tolist())[0])
    #val = idx.values
print(time()-t0)
t0=time()
for idx, keys in zip(idxs2.lindex,pdkeys):
    val = list(keys.cat.rename_categories(idx.codec))
    #val = idx.values
print(time()-t0)


1.296959400177002
4.681127071380615
0.32598447799682617


In [10]:
data1=[]
t0 = time()
annee = 2022
mois = 1
jour = 1
for i in range(4):
    file = chemin + 'FR_E2_' + str(annee) + '-' + format(mois, '02d') +'-' + format(jour+i, '02d') +'.csv'
    with open(file, newline='', encoding='utf-8') as f:
        reader = csv.reader(f, delimiter=';')
        names = next(reader)
        data = []
        for row in reader: data.append(row)
    data1 += data
data2 = util.list(list(zip(*data1)))
print('data', len(data2[0]), time()-t0)

data 197455 4.903850555419922


----
## initialisation de l'objet Ilist
- l'initialisation pourrait être automatisée à partir du fichier csv
- identification de 64 775 valeurs différentes sur un total de 11 163 x 49 valeurs ("taux d'unicité" de 12%)
- la taille minimale serait de 1,4 Mo (données csv "quotées") pour un maximum de 9,6 Mo (données csv "quotées")

In [12]:
t0=time()
idxs = Ilist.ext(data2, names)
print('idxs (len, lenlidx, sumcodec) : ', len(idxs), len(idxs.idxlen), sum(idxs.idxlen), time()-t0)
t0=time()
idxs.delindex('valeur brute')
idxs.setvar('valeur')
fullsize = len(idxs.to_obj(encoded=True, modecodec='full'))
print('fullsize', fullsize, time()-t0)
t0=time()
minsize = len(idxs.to_obj(encoded=True, modecodec='nokeys'))
print('minsize', minsize, time()-t0)

idxs (len, lenlidx, sumcodec) :  197455 23 13081 77.94894552230835
fullsize 58218429 54.055302143096924
minsize 1454420 2.4215452671051025


In [16]:
print(idxs.idxlen)

[96, 96, 18, 70, 70, 533, 533, 5, 9, 3, 27, 1, 4, 59, 2, 3, 1, 1, 1, 3, 2]


----
## format non optimisé
- le "taux d'unicité" reste à 12% (pas de modification des index)
- le "taux de codage" est de 30% (remplacement des données dupliquées par un entier)
- le gain de taille de fichier par rapport à un fichier "quoté" est de 61%
- l'analyse de la structure montre que les données sont principalement du type "linked" (non ou peu structuré)
- quelques colonnes sont de type "derived". Par exemple les index longitude(43) et latitude(44) sont bien dérivés de l'index coordonneesXY(13)
- le taux de couplage ("linkrate") pour chacun des index est très proche de 0, ce qui signifie que les données devraient être de type "derived" (lien de dépendance par exemple comme entre les trimestres et les mois) ou "coupled" (lien biunivoque).

In [None]:
t0=time()
defaultsize = len(idxs.to_obj(encoded=True, modecodec='default'))
print('defaultsize', defaultsize, time()-t0)
print('indicator default : ', idxs.indicator(fullsize, defaultsize))
pprint(idxs.indexinfos(keys=['num', 'name', 'lencodec', 'parent', 'typecoupl']), width=120)
pprint(idxs.indexinfos(keys=['linkrate']))

----
## Format optimisé
- le "taux d'unicité" se dégrade légèrement (passage de 11,6% à 12,1%) par l'ajout d'index supplémentaires
- le "taux de codage" par contre passe de 30% à 16% de par l'optimisation 
- le gain de taille de fichier par rapport à un fichier "quoté" est maintenant de 74%
- l'utilisation d'un format binaire (codage CBOR pour Concise Binary Object Representation RFC 8949) permet d'améliorer encore le gain de taille de fichier (82%)

In [None]:
#idxs.setcanonorder().sort()
t0=time()
optimizesize = len(idxs.to_obj(modecodec='optimize', encoded=True))
print('optimizesize ', optimizesize, time()-t0)
print('indicator optimize : ', idxs.indicator(fullsize, optimizesize))
t0=time()
js = idxs.to_obj(encoded=True, modecodec='optimize', encode_format='cbor')
cborsize = len(js)
print('cborsize', cborsize, time()-t0)
print('indicator cbor : ', idxs.indicator(fullsize, cborsize))

----
## Intégrité
- la transformation inverse des données binaires permet de vérifier qu'on retombe bien sur les mêmes données (pas de dégradation)

In [None]:
t0=time()
idxs2 = Ilist.from_obj(js)
print('fromcbor', len(idxs2), time()-t0)
t0=time()
verif = idxs2 == idxs
print('controle égalité :', verif, time()-t0)


----
## Exemple de données anormales
- l'index coordonneesXY(13) est lié à l'index nom_station(9) avec un taux de couplage très faible, par ailleurs, le nombre de valeurs de ces deux index sont très proches (4503 nom_station pour 4459 coordonneesXY), ce qui signifie que dans la majorité des cas, on associe de façon unique une station et une position
- les exemples ci-dessous montrent les écarts les plus important :
    - la position [1.106329, 49.474202] est associée à 10 stations
    - la station Camping Arinella est associée à 5 positions
    
- de même pour l'index coordonneesXY(13) qui est lié à l'index adresse_station(11), le taux de couplage est très faible avec 44 enregistrements sur 4456 en écart. On a par exemple quatre enregistrements avec la position (6.3491347, 47.3517596) et des adresses différentes ('58 Avenue du PrÃ©sident Kennedy 26', '58 Avenue du PrÃ©sident Kennedy 28', '58 Avenue du PrÃ©sident Kennedy 27', '58 Avenue du PrÃ©sident Kennedy 25')

In [None]:
champ = idxs.lindex
print('Couplage entre ', champ[13].name, ' et ', champ[9].name, ' : ', champ[13].couplinginfos(champ[9])['typecoupl'])
infosdefault = champ[9].couplinginfos(champ[13], default=True)
print('Ecart : ', infosdefault['disttomin'], 'positions sur ', infosdefault['distmin'], '\n') # moins de 1%
nom_station = champ[9].tostdcodec(full=False)
coordonneesXY = champ[13].tostdcodec(full=False) 
coordonneesXY.coupling(nom_station)
c = Counter(coordonneesXY.codec).most_common(5)
print('les 5 positions avec le plus de stations: ', c, '\n')
print('liste des stations associées à la position', c[0][0], ' : ', 
      set([nom_station[i] for i in coordonneesXY.recordfromvalue(c[0][0])]), '\n')
coordonneesXY = champ[13].tostdcodec(full=False)
nom_station.coupling(coordonneesXY)
c = Counter(nom_station.codec).most_common(5)
print('les 5 stations avec le plus de positions: ', c, '\n')
print('liste des positions associées à la station', c[0][0], ' : ', 
      set([coordonneesXY[i] for i in nom_station.recordfromvalue(c[0][0])]))

In [None]:
print('Couplage entre ', champ[11].name, ' et ', champ[13].name, ' : ', champ[11].couplinginfos(champ[13])['typecoupl'])
infosdefault = champ[13].couplinginfos(champ[11], default=True)
print('Ecart : ', infosdefault['disttomin'], 'positions sur ', infosdefault['distmin'], '\n') # moins de 1%
coordonneesXY = champ[13].tostdcodec(full=False)
adresse_station = champ[11].tostdcodec(full=False) 
adresse_station.coupling(coordonneesXY)
c = Counter(adresse_station.codec).most_common(5)
print('les 5 adresses avec le plus de positions : ', c, '\n')
print('liste des position associées à l adresse :', c[0][0], ' : ', 
      set([coordonneesXY[i] for i in adresse_station.recordfromvalue(c[0][0])]), '\n')
adresse_station = champ[11].tostdcodec(full=False)
coordonneesXY.coupling(adresse_station)
c = Counter(coordonneesXY.codec).most_common(5)
print('les 5 positions avec le plus d adresses: ', c, '\n')
print('liste des adresses associées à la position', c[0][0], ' : ', 
      set([adresse_station[i] for i in coordonneesXY.recordfromvalue(c[0][0])]))

----
## Détection des incohérences de relations entre champs
- la fonction coupling permet de réorganiser la structure des relations en isolant les enregistrements incohérents
- dans le cas ci-dessous, elle est appliquée de façon automatique (minimisation des incohérences)
- les incohérences minimales sont dans le cas présent de 12%

In [None]:
idxs3 = Ilist.from_obj(js)
idxs3.coupling()
duplic = idxs3.getduplicates(resindex=ES.filter)
#duplic = idxs3.getduplicates(idxs3.lname, ES.filter)
print('nombre d enregistrements incohérents : ', len(duplic))
idxs3.applyfilter()
print('nombre d enregistrements cohérents et liste des indexs non dérivés : ', len(idxs3), idxs3.primary)

----
## Vérification simple
- on peut vérifier par exemple qu'une position est associée à une unique station et que réciproquement chaque station n'a qu'une seule position (relation 1-1 entre les deux champs).

In [None]:
idxs4 = copy(idxs2)
champ = idxs4.lindex
notcoupl = champ[13].coupling(champ[9], derived=False)
print('nombre de pdc avec position/station non couplées : ', len(notcoupl))
print('\nliste des premières incohérences : ')
liste = []
for i in range(100): liste.append((champ[9][notcoupl[i]], champ[13][notcoupl[i]]))
pprint(set(liste), width=120)

## Vérification par rapport à une structure imposée
- une autre utilisation possible est de vérifier les données par rapport à un modèle de données défini
- dans cet exemple, on peut regrouper les colonnes suivant quatre entités (ceci revient à considérer les colonnes comme des attributs de chacune des entités) : les opérateurs (colonne 6), les aménageurs (colonne 1), les stations (colonne 9), les pdc (colonne 15) -> cf quatre premières lignes ci-dessous
- on peut également indiquer les dépendances entre les quatre entités (les opérateurs et aménageurs sont dérivés par rapport aux stations qui elles sont dérivées par rapport aux pdc.

In [None]:
row_operateur   = [6,3,4,5]
row_amenageur   = [1,0,2]
row_station     = [9,10,11,12,13,14,23,24,25,26,27,28,29,30,31,32,33,34,35,36,
                   43,44,45,46,47,48]
row_pdc         = [15,16,17,18,19,20,21,22,7,8,37,38,39,40,41,42]

champ = idxs2.lindex
operateur       = [champ[i] for i in row_operateur]
amenageur       = [champ[i] for i in row_amenageur]
station         = [champ[i] for i in row_station]
pdc             = [champ[i] for i in row_pdc]

operateur[0].coupling(operateur[1:])
amenageur[0].coupling(amenageur[1:])
station  [0].coupling(station  [1:])
pdc      [0].coupling(pdc      [1:])

station  [0].coupling([operateur[0], amenageur[0]])
pdc      [0].coupling(station[0])
pprint(idxs2.indexinfos(keys=['num', 'name', 'parent', 'typecoupl']), width=120)



## Mise en cohérence des données
- l'application de la structure imposée permet d'identifie les enregistrements qui ne respectent pas la structure (cf exemples indiqués plus haut).
- dans l'exemple proposé, on identifie 48% des données ne respectant pas la structure
- on vérifie également qu'avec les données restantes, la structure est bien respectée

In [None]:
duplic = idxs2.getduplicates(idxs2.lname, ES.filter)
print(Counter(idxs2.lidx[49].keys))
idxs2.applyfilter()
idxs2.to_csv()
print(len(idxs2), idxs2.primary)
pprint(idxs2.indexinfos(keys=['num', 'name', 'parent', 'typecoupl']), width=120)