# Filtre sur le périmètre d'ÉTat

Ce notebook a pour fonction de proposer une liste des couples (idAcheteur, nomAcheteur), dans le but de produir eune table de sélection, en indiquant les couples relevant du périmètre de l'État. Cela s'insière dans le projet de produire une simulton de l’effet qu’aurait un « choc d’inflation » sur les marchés publics conclus par l'État.

In [1]:
import pandas as pd

In [2]:
# Données sources
decp_safe = pd.read_csv("data/decp_augmente.csv", sep = ";", dtype={'idAcheteur': str}, encoding="UTF-8")
#passage_safe = pd.read_excel("data/Copie de RestitCalculReferentiel-20211013_13h13m25s-SUPERADM.xls")
#p166_safe = pd.read_excel('data/sortieP166.xlsx')
etat_safe = pd.read_csv('data/ZBUD51 budget Etat 2020.csv', sep = ";", thousands=" ", decimal=",", dtype={'EUR' : float})

In [3]:
# Copies de travail
decp = decp_safe.copy()
#passage = passage_safe.copy()
#p166 = p166_safe.copy()
etat = etat_safe.copy()

In [4]:
# Cette table présente toutes les dépenses du budget 2020 de l’Etat 
# Elle permet de définir la base des dépenses à prendre en compte pour l’inflation
etat.head()

Unnamed: 0,Centre financier,Compte budgétaire,Référentiel de programmation,Compte général,Groupe de marchandises,Type d'opération,Type de flux,EUR
0,0101-CCAS-C001,61,10101010106,6512300000,#,#,Flux 4 Autres,412013.71
1,0101-CCAS-C001,61,10101010113,6512300000,#,#,Flux 4 Autres,13731.25
2,0101-CCAS-C001,61,10101010114,6512300000,#,#,Flux 4 Autres,4688.0
3,0101-CSAD-C001,31,10101010114,6212810000,24.01.08,ZCTR,Flux 1,11397.12
4,0101-CSAD-C001,31,10101060102,6113110000,#,#,Flux 4 Autres,122843.08


In [5]:
# Cette table contient les données essentielles de leurs marchés publics sur leur profil d'acheteur, agrégées et augmentées par le BercyHub
decp.shape

(277055, 68)

In [6]:
# On ne conserve que les données de l'État, provenant de l'Agence pour l'information financière de l'ÉTat (AIFE)
decp_aife = decp[decp['source'] == 'data.gouv.fr_aife']
decp_aife.shape

(148029, 68)

In [7]:
# On ne conserve que les informations (vraiment) essentielles à ce stade, en excluant notamment la géolocalisation, etc.
keep_cols_work = ['type', 'natureObjetMarche', 'objetMarche',
       'codeCPV_Original', 'codeCPV', 'codeCPV_division', 'referenceCPV',
       'dateNotification', 'anneeNotification', 'moisNotification',
       'datePublicationDonnees', 'dureeMois', 'dureeMoisEstimee',
       'dureeMoisCalculee', 'montant', 'nombreTitulaireSurMarchePresume',
       'montantCalcule', 'formePrix', 'nature',
       'accord-cadrePresume', 'procedure', 'idAcheteur', 'sirenAcheteurValide',
       'nomAcheteur']

In [8]:
decp_work = decp_aife[keep_cols_work]

In [9]:
# On ne conserve que les colonnes nécessaires à l'identification de l'acheteur
keep_cols_acheteur = ['idAcheteur',
       'nomAcheteur', 'libelleRegionAcheteur',
       'libelleDepartementAcheteur',
       'codePostalAcheteur', 'libelleCommuneAcheteur']

In [10]:
decp_acheteur = decp_aife[keep_cols_acheteur]

In [11]:
res = decp_acheteur.groupby(['idAcheteur', 'nomAcheteur']).all().sort_values('idAcheteur')

In [12]:
res.to_csv("select_acheteurs_grouped.csv", sep = ";", encoding="UTF-8")