PROJET DECP - Données Essentielles de la Commande Publique

Description

Les éléments nécessaires

Version

Pour l'instant (21/08/2023) le script est fonctionnel uniquement sur Python 3.9.

Les librairies Python utilisées

Sont renseignées dans le fichier requirements.txt

Données

Format des données

Cette version de augmenté est relié à la sortie de decp-rama-V2

JSON

Le fichier des DECP utilisés dans ce projet est en format JSON, il se nomme : 'decpv2.json'. Ce fichier est mis à jour régulièrement sur le site de data.gouv : https://www.data.gouv.fr/fr/datasets/fichiers-consolides-des-donnees-essentielles-de-la-commande-publique/

CSV

cpv_2008_ver_2013.xlsx : https://simap.ted.europa.eu/fr/web/simap/cpv

Pour lancer en local

S'assurer que les données sont dans les bons sous-chemins, placer les fichiers dans le dossier data (cpv_2008_ver_2013.xlsx et decpv2.json)
Exécuter tout le code en lançant le script main.py

Fonctionnement général

En amont

En amont de cette pipeline les données sont traitées par decp-rama-v2 puis uploadés sur data.gouv "decpv2.json".

La pipeline

1. Code sur Github
2. Tests de non-régression sur CircleCI (en cours)
3. Exécution du code sur un échantillon fixe du dataset sur CircleCI
4. Exécution du code chez Axus pour générer les csv
5. Upload des csv sur dataeco via lftp

Choix des données exportées

marchés valides
marchés non valides
concessions valides
concessions non valides

Autre scripts

upload_dataeco.py

Non utilisé actuelement !

le script permet de mettre sur le serveur dataeco le résultat des pipelines. Ainsi, le fichier uploadé via lftp est visible à l'adresse data eco souhaitée.

Comment fonctionne la CI sur ce projet ?

La branche utilisée actuellement pour la CI est :

🌜 master 🌛

CI (Github - circleCI

Lorsqu'on push le code sur Github, on effectue via un workflow CircleCI des tests de non-régression (via le job pytest). Puis, on exécute tout le code sur un échantillon fixe du dataset. 💂‍♂️

Quelques remarques

pour le moment, tout s'effectue sur la branche master en local
le fichier upload_dataeco.py n'est pas utilisé actuellement mais permet de mettre sur le serveur dataeco le résultat des pipelines. Ainsi, le fichier uploadé via lftp est visible à l'adresse data eco souhaitée.

Réalisation d'un tableau de bord

📈 Un dashboard a été fait et est disponible ici

Name		Name	Last commit message	Last commit date
Latest commit History 369 Commits
.circleci		.circleci
analysis		analysis
confs		confs
.gitignore		.gitignore
README.md		README.md
convert_json_to_pandas.py		convert_json_to_pandas.py
decp-augmente.png		decp-augmente.png
main.py		main.py
nettoyage.py		nettoyage.py
requirements.txt		requirements.txt
schema_pipeline.jpg		schema_pipeline.jpg
schema_pipeline.odg		schema_pipeline.odg
upload_dataeco.py		upload_dataeco.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PROJET DECP - Données Essentielles de la Commande Publique

Description

Les éléments nécessaires

Version

Les librairies Python utilisées

Données

Format des données

JSON

CSV

Pour lancer en local

Fonctionnement général

En amont

La pipeline

Choix des données exportées

Autre scripts

upload_dataeco.py

Comment fonctionne la CI sur ce projet ?

CI (Github - circleCI

Quelques remarques

Réalisation d'un tableau de bord

About

Releases

Packages

Contributors 10

Languages

139bercy/decp-augmente

Folders and files

Latest commit

History

Repository files navigation

PROJET DECP - Données Essentielles de la Commande Publique

Description

Les éléments nécessaires

Version

Les librairies Python utilisées

Données

Format des données

JSON

CSV

Pour lancer en local

Fonctionnement général

En amont

La pipeline

Choix des données exportées

Autre scripts

upload_dataeco.py

Comment fonctionne la CI sur ce projet ?

CI (Github - circleCI

Quelques remarques

Réalisation d'un tableau de bord

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 10

Languages

Packages