## Qui sont les bénéficiaires de la Politique agricole commune en France ? Données 2018-2019

Cette analyse de données reprend le canevas utilisé pour l'analyse des bénéficiaires de la Politique agricole commune en Pologne au cours des années [2018](https://github.com/echapelier/eu-agri-subsidies/blob/master/cap-2018-poland.ipynb) et [2019](https://github.com/echapelier/eu-agri-subsidies/blob/master/cap-2019-poland.ipynb). À la différence de la pratique en Pologne, les [données publiées par les autorités françaises](https://www.telepac.agriculture.gouv.fr/telepac/tbp/accueil/accueil.action) ne sont pas découpées en années calendaires mais en campagnes de paiement qui s'étendent d'octobre à octobre de l'année suivante. Nous allons analyser la campagne 2018-2019, qui s'était étendue du 16 octobre 2018 au 15 octobre 2019 et dont les données ont été publiées au printemps 2020.

Avant de générer un dataframe à partir du fichier CSV fourni par l'agence de paiement, nous allons en tirer un aperçu à l'aide de commandes shell.

In [1]:
!head cap-2019-france.csv

Nom / Raison sociale; Commune; Code postal; Libell� rubrique; Montant rubrique
XXX;XXX;01XXX;III.7 - Aide dans le secteur de l'apiculture;460,00
XXX;XXX;01XXX;III.7 - Aide dans le secteur de l'apiculture;796,00
XXX;XXX;01XXX;III.7 - Aide dans le secteur de l'apiculture;1000,00
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);246,83
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);467,72
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);222,65
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);535,70
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);232,10
XXX;XXX;01XXX;II.1 - Aide de base d�coupl�e � la surface (DPB);407,21


In [2]:
# Problème d'encodage, conversion des données en UTF-8
!iconv -f ISO-8859-1 -t UTF-8 cap-2019-france.csv > cap-2019-france-utf8.csv

In [3]:
!head cap-2019-france-utf8.csv | column -s";" -t

Nom / Raison sociale   Commune   Code postal   Libellé rubrique                                  Montant rubrique
XXX                   XXX       01XXX         III.7 - Aide dans le secteur de l'apiculture      460,00
XXX                   XXX       01XXX         III.7 - Aide dans le secteur de l'apiculture      796,00
XXX                   XXX       01XXX         III.7 - Aide dans le secteur de l'apiculture      1000,00
XXX                   XXX       01XXX         II.1 - Aide de base découplée à la surface (DPB)  246,83
XXX                   XXX       01XXX         II.1 - Aide de base découplée à la surface (DPB)  467,72
XXX                   XXX       01XXX         II.1 - Aide de base découplée à la surface (DPB)  222,65
XXX                   XXX       01XXX         II.1 - Aide de base découplée à la surface (DPB)  535,70
XXX                   XXX       01XXX         II.1 - Aide de base découplée à la surface (DPB)  232,10
XXX                   XXX       01XXX         II.1 -

In [4]:
print('Nombre de lignes :')
!wc -l cap-2019-france-utf8.csv

Nombre de lignes :
 1728447 cap-2019-france-utf8.csv


In [5]:
print('Nombre de colonnes :')
!head -n 1 cap-2019-france-utf8.csv | sed 's/[^;]//g' | wc -c

Nombre de colonnes :
       5


## Génération du dataframe

In [6]:
import pandas as pd

In [7]:
noms_colonnes = ['nom', 'commune', 'codepostal', 'mesure', 'montant']
dtypes_colonnes = {'nom': 'object', 'commune': 'object', 'codepostal': 'object', 'mesure': 'object', 'montant': 'float64'}
df = pd.read_csv('cap-2019-france-utf8.csv', sep=';', encoding='utf-8', header=0, decimal=',', names=noms_colonnes, dtype=dtypes_colonnes)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728446 entries, 0 to 1728445
Data columns (total 5 columns):
 #   Column      Dtype  
---  ------      -----  
 0   nom         object 
 1   commune     object 
 2   codepostal  object 
 3   mesure      object 
 4   montant     float64
dtypes: float64(1), object(4)
memory usage: 65.9+ MB


In [9]:
df.head()

Unnamed: 0,nom,commune,codepostal,mesure,montant
0,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,460.0
1,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,796.0
2,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,1000.0
3,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),246.83
4,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),467.72


In [10]:
df.describe(include='all')

Unnamed: 0,nom,commune,codepostal,mesure,montant
count,1728446,1728446,1728446.0,1728446,1728446.0
unique,291340,34774,6300.0,33,
top,XXX,XXX,64120.0,II.3 - Soutien supplémentaire aux premiers hec...,
freq,111748,89664,3996.0,312365,
mean,,,,,5946.062
std,,,,,58572.73
min,,,,,-46089010.0
25%,,,,,522.7125
50%,,,,,2493.57
75%,,,,,7367.752


On observe un grand nombre de valeurs "XXX" dans les colonnes "nom" et "commune". Ceci devrait correspondre aux "petits" bénéficiaires, qui apparaissent de façon anonyme lorsque les montants totaux perçus sont inférieurs ou égaux à 1 250 euros, ainsi qu'aux communes qui comptent moins de 11 bénéficiaires ainsi anonymisés – seul le numéro de département est alors indiqué.

In [11]:
df[(df['nom'] == 'XXX') & (df['montant'] > 1250)]

Unnamed: 0,nom,commune,codepostal,mesure,montant
4761,XXX,BOHAS-MEYRIAT-RIGNAT,01250,III.5 - Soutien au secteur vitivinicole,1838.44
33857,XXX,XXX,03XXX,II.3 - Soutien supplémentaire aux premiers hec...,1860.89
79533,XXX,XXX,07XXX,III.5 - Soutien au secteur vitivinicole,3139.41
79971,XXX,XXX,07XXX,IV/A.16 - Aides à l'agriculture biologique,2862.00
106505,XXX,XXX,09XXX,II.1 - Aide de base découplée à la surface (DPB),1990.32
...,...,...,...,...,...
1713571,XXX,LE VAUCLIN,97280,VI/C.1 - Aides POSEI,1750.00
1722391,XXX,ST ANDRE,97440,VI/C.1 - Aides POSEI,1258.00
1725143,XXX,ST JOSEPH,97480,VI/C.1 - Aides POSEI,1500.00
1725452,XXX,KOUNGOU,97600,VI/C.1 - Aides POSEI,4180.77


On trouve 244 lignes anonymisées qui correspondent pourtant à des montants totaux supérieurs à 1 250 euros. Ceci peut s'expliquer par un mode de présentation différent des données polonaises, puisque premièrement, chaque ligne correspond à un paiement et non à un bénéficiaire (un bénéficiaire peut donc apparaître sur plusieurs lignes), et deuxièmement, sont aussi affichées des opérations comptables comme des remboursements de trop perçus.

In [12]:
df[(df['commune'] == 'XXX') & (df['codepostal'].str.contains('XX') == False)]

Unnamed: 0,nom,commune,codepostal,mesure,montant


Les communes "XXX" sont effectivement associées à des codes postaux en partie effacés pour ne laisser apparaître que le numéro de département.

In [13]:
n_total_paiements = df.shape[0]
n_total_paiements_horsremb = df[df['montant'] >= 0].shape[0]
somme_paiements_horsremb = df.loc[(df['montant'] >= 0), 'montant'].sum()
solde_net_paiements = df['montant'].sum()
print('Nombre total de paiements :', f'{n_total_paiements:,}')
print('Nombre total de paiements hors remboursements d\'indus par les bénéficiaires :', f"{n_total_paiements_horsremb:,}")
print("Somme des paiements versés à l'ensemble des bénéficiaires hors remboursements d\'indus par les bénéficiaires :", f"{somme_paiements_horsremb.round(2):,}", "euros")
print("Solde net des paiements versés à l'ensemble des bénéficiaires après remboursements d\'indus par les bénéficiaires :", f"{solde_net_paiements.round(2):,}", "euros")

Nombre total de paiements : 1,728,446
Nombre total de paiements hors remboursements d'indus par les bénéficiaires : 1,684,472
Somme des paiements versés à l'ensemble des bénéficiaires hors remboursements d'indus par les bénéficiaires : 10,405,023,380.66 euros
Solde net des paiements versés à l'ensemble des bénéficiaires après remboursements d'indus par les bénéficiaires : 10,277,447,718.46 euros


In [14]:
n_total_paiements_petits = df[(df['nom'] == 'XXX') & (df['montant'] >= 0)].shape[0]
somme_paiements_petits = df.loc[(df['nom'] == 'XXX') & (df['montant'] >= 0), 'montant'].sum()
print('Nombre de paiements versés à des "petits" bénéficiaires :', f"{n_total_paiements_petits:,}")
print('Somme des paiements versés à des petits bénéficiaires :', f"{somme_paiements_petits:,}", "\n")
print('Nombre de paiements versés à des "petits" bénéficiaires en proportion du total :', n_total_paiements_petits / n_total_paiements_horsremb)
print('Somme des paiements versés à des "petits" bénéficiaires  en proportion du total :', somme_paiements_petits / somme_paiements_horsremb)

Nombre de paiements versés à des "petits" bénéficiaires : 107,052
Somme des paiements versés à des petits bénéficiaires : 29,430,173.37 

Nombre de paiements versés à des "petits" bénéficiaires en proportion du total : 0.06355225851186604
Somme des paiements versés à des "petits" bénéficiaires  en proportion du total : 0.0028284581680712386


À la différence de la Pologne, où les petits bénéficiaires anonymes représentent 46% de l'ensemble des bénéficiaires et 8% du montant total des paiements, de tels paiements ne représentent en France que 6% de l'ensemble des paiements et moins de 0.01% de leur valeur totale.

In [15]:
print('Top 20 des paiements les plus élevés en France')
df.sort_values(by='montant', ascending=False).head(20)

Top 20 des paiements les plus élevés en France


Unnamed: 0,nom,commune,codepostal,mesure,montant
1722744,SAS SUCRIERE DE LA REUNION,STE SUZANNE,97441,VI/C.1 - Aides POSEI,30914000.0
542159,CERAFEL,SAINT-MARTIN-DES-CHAMPS,29600,III.4 - Aide dans le secteur des fruits et lég...,19210952.51
1722763,SUCRERIE DE BOIS ROUGE,STE SUZANNE,97441,VI/C.1 - Aides POSEI,13249000.0
1723687,URCOOPA,SAINT PAUL CEDEX,97460,VI/C.1 - Aides POSEI,12571910.09
1709054,SA GARDEL,LE MOULE,97160,VI/C.1 - Aides POSEI,12028545.49
538388,COOPERATIVE MARAICHERE DE L'OUEST,PLOUGASTEL-DAOULAS,29470,III.4 - Aide dans le secteur des fruits et lég...,6687179.41
1714830,ARIBEV,SAINT DENIS CEDEX,97404,VI/C.1 - Aides POSEI,6617189.95
1648269,AGENCE DE SERVICES ET DE PAIEMENT,LIMOGES,87000,IV/A.25 - Assistance technique,6114866.57
1703048,CONSEIL REGIONAL DE LA GUADELOUPE,BASSE TERRE,97100,IV/A.4 - Soutien aux investissements physiques,5718442.44
1456247,CENTRE NAT INTERPRO ECONOMIE LAITIERE,PARIS 9,75009,VI/A.1 - Soutien actions information et promot...,5678224.78


Compte tenu de la faible proportion des paiements allant aux "petits" bénéficiaires anonymisés, nous allons les écarter de la suite de l'analyse afin de pouvoir regrouper les paiements par bénéficiaire unique. Nous allons aussi écarter les remboursements d'indu qui, en plus de représenter une part limitée de l'ensemble des paiements, se réfèrent en réalité à la précédente campagne de paiement.

In [16]:
df_reduit = df[(df['nom'] != 'XXX') & (df['montant'] >= 0)].copy()

In [17]:
grouped = df_reduit.groupby(by=['nom', 'commune','codepostal'])
print('Nombre total de bénéficiaires uniques en France, hors "petits" :', len(grouped.groups))

Nombre total de bénéficiaires uniques en France, hors "petits" : 324150


In [18]:
print('Top 20 des plus grands bénéficiaires en France')
grouped.sum().sort_values(by='montant', ascending=False).head(20)

Top 20 des plus grands bénéficiaires en France


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,montant
nom,commune,codepostal,Unnamed: 3_level_1
SAS SUCRIERE DE LA REUNION,STE SUZANNE,97441,30914000.0
CERAFEL,SAINT-MARTIN-DES-CHAMPS,29600,19210952.51
SUCRERIE DE BOIS ROUGE,STE SUZANNE,97441,13249000.0
URCOOPA,SAINT PAUL CEDEX,97460,12571910.09
SA GARDEL,LE MOULE,97160,12028545.49
CENTRE NAT INTERPRO ECONOMIE LAITIERE,PARIS 9,75009,6861786.34
COOPERATIVE MARAICHERE DE L'OUEST,PLOUGASTEL-DAOULAS,29470,6687179.41
ARIBEV,SAINT DENIS CEDEX,97404,6617189.95
AGENCE DE SERVICES ET DE PAIEMENT,LIMOGES,87000,6114866.57
CONSEIL REGIONAL DE LA GUADELOUPE,BASSE TERRE,97100,5718442.44


Comme dans le cas polonais, un classement "brut" des plus grands bénéficiaires montre qu'un certain nombre d'entre eux sont des institutions publiques qui reçoivent des fonds de la PAC au titre de l'assistance technique ou du développement rural.

In [19]:
print('Liste des "millionnaires" de la PAC en France')
pd.set_option('display.max_rows', 200)
grouped.sum().loc[lambda x: x['montant'] >= 1000000].sort_values(by='montant', ascending=False)

Liste des "millionnaires" de la PAC en France


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,montant
nom,commune,codepostal,Unnamed: 3_level_1
SAS SUCRIERE DE LA REUNION,STE SUZANNE,97441,30914000.0
CERAFEL,SAINT-MARTIN-DES-CHAMPS,29600,19210952.51
SUCRERIE DE BOIS ROUGE,STE SUZANNE,97441,13249000.0
URCOOPA,SAINT PAUL CEDEX,97460,12571910.09
SA GARDEL,LE MOULE,97160,12028545.49
CENTRE NAT INTERPRO ECONOMIE LAITIERE,PARIS 9,75009,6861786.34
COOPERATIVE MARAICHERE DE L'OUEST,PLOUGASTEL-DAOULAS,29470,6687179.41
ARIBEV,SAINT DENIS CEDEX,97404,6617189.95
AGENCE DE SERVICES ET DE PAIEMENT,LIMOGES,87000,6114866.57
CONSEIL REGIONAL DE LA GUADELOUPE,BASSE TERRE,97100,5718442.44


Plus largement, parmi les "millionnaires" de la PAC, on trouve un grand nombre d'entités publiques ou privées situées dans des départements d'outre-mer et identifiés par un code postal commençant par 97.

In [20]:
print('Distribution des bénéficiaires uniques en fonction du montant total des subventions reçues')
pd.set_option('display.float_format', '{:.2f}'.format)
grouped.sum().describe(percentiles=[.1, .2, .3, .4, .5, .6, .7, .8, .9], include=[float])

Distribution des bénéficiaires uniques en fonction du montant total des subventions reçues


Unnamed: 0,montant
count,324150.0
mean,32008.62
std,96894.85
min,1250.03
10%,3103.9
20%,6564.82
30%,11530.32
40%,16907.73
50%,22531.99
60%,28794.7


Les "millionnaires" français de la PAC sont néanmoins très minoritaires : ils ne sont que 161 alors que 90% des bénéficiaires reçoivent moins de 65 439 euros (neuvième décile).