-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Ne traiter que le flux, pas le stock #48
Comments
Pour les fichiers de la DGFiP, deux données peuvent être utilisées pour extraire les fichiers du jour :
Exemples des marchés transmis le 3 octobre 2020 :
|
Une des principales difficulté de cet est de, pour une date de traitement donné, d'identifier les dates de publication (par exemple la valeur de Si on lance decp-rama les mêmes jours que dgfip-gw, alors on pourrait programmer decp-rama de façon à ce que seuls les fichiers dont la date de publication est égale la date du jour soient traités. Cette approche est cependant fragile, car si le traitement échoue jour J, à J+1 decp-rama ne traitera que les fichiers publiés à la date J+1, pas ceux publiés à la date J. À noter que l'outil bash |
Une approche hybride pourrait consister à traiter non pas les tout derniers fichiers de chaque source, mais de traiter les 3, 5 ou 7 derniers, puis de ne garder que les nouveaux en utilisant la même technique de soustraction d'array : nouvellesDonnées - anciennesDonnées = vraimentNouvellesDonnées, où nouvellesDonnées : données des 7 derniers jours (et non le nouvel ensemble de données consolidées) Problème : après avoir testé, le temps de traitement ne dépend pas tant de la taille des fichiers comparés mais du nombre de nouvelles données. Ce ne serait donc pas une avancée par rapport à l'approche actuelle. |
Pour les données PES marché, nous avons l'avantage d'avoir le contrôle sur la publication des données. Je propose l'approche suivante :
* effectivement traité = traité sans erreur et publié sans erreur. La mise en cache se fait donc une fois la publication sur data.gouv.fr effectuée. @strainel Tu valides ? On en parle au téléphone ? |
Cette approche de "listes de fichiers" peut être appliquée à toutes les sources qui publient les nouvelles données dans des nouveaux fichiers :
|
|
Le temps de traitement ayant été diminué, je clos cette demande. |
Sur proposition de @strainel : afin de réduire le temps de traitement et donc :
Il s'agit :
Les enjeux :
datePublicationDonnees
est fiableuid
ainsi que la production de statistiques sont effectués sur l'ensemble des données. Une comparaison avec le stock reste donc nécessaireThe text was updated successfully, but these errors were encountered: