## Download

Download data from [here](https://www2.telepac.agriculture.gouv.fr/telepac/tbp/accueil/accueil.action)

Link to 2022 data: https://www2.telepac.agriculture.gouv.fr/telepac/tbp/feader/afficher.action

In [2]:
import pandas as pd

In [3]:
YEAR = 2022

In [4]:
df = pd.read_csv('fr_{YEAR}.csv'.format(YEAR=YEAR), delimiter=';', encoding='latin1')
df.head()

Unnamed: 0,Nom / Raison sociale,Commune,Code postal,Libellé rubrique,Montant rubrique
0,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,59416
1,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,64700
2,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),-548
3,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),221
4,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),45293


In [5]:
list(df.columns)

['Nom / Raison sociale',
 ' Commune',
 ' Code postal',
 ' Libellé rubrique',
 ' Montant rubrique']

In [6]:
df['amount'] = pd.to_numeric(df[' Montant rubrique'].str.replace(',', '.'))
df.head()

Unnamed: 0,Nom / Raison sociale,Commune,Code postal,Libellé rubrique,Montant rubrique,amount
0,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,59416,594.16
1,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,64700,647.0
2,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),-548,-5.48
3,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),221,2.21
4,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),45293,452.93


In [9]:
df[' Code postal'].value_counts()

50XXX    4525
64120    4171
64XXX    3860
24XXX    3177
32XXX    3052
64220    2949
47XXX    2787
31XXX    2724
53XXX    2618
64160    2588
38XXX    2490
64130    2446
40XXX    2431
12120    2428
35XXX    2411
14XXX    2283
64240    2255
65XXX    2215
32300    2184
35133    2163
63XXX    2091
81XXX    2059
12170    2055
17XXX    2043
40320    1985
56500    1982
12240    1904
12290    1859
80XXX    1835
40700    1830
         ... 
78145       1
06410       1
06810       1
40003       1
13960       1
92290       1
14193       1
13181       1
42405       1
55013       1
44323       1
28104       1
91265       1
31703       1
34730       1
77186       1
69001       1
22501       1
02404       1
14063       1
35404       1
16105       1
75570       1
13323       1
60008       1
93270       1
80097       1
77184       1
37032       1
10606       1
Name:  Code postal, Length: 7132, dtype: int64

In [7]:
df.groupby('Nom / Raison sociale')['amount'].sum().sort_values(ascending=False)

Nom / Raison sociale
SAS SUCRERIE DU GOL           31644000.00
XXX                           17006619.42
SANDERS BRETAGNE              14395334.07
COOPERATIVE EUREDEN           14039416.65
SAS SUCRERIE DE BOIS ROUGE    13944286.60
                                 ...     
GAEC DU VALLON D ANDIGNAC         1250.18
LASSEE CLAUDE                     1250.14
LESTRADE SANDRINE                 1250.08
LOUBATIERES CHRISTOPHE            1250.06
PILLAULT PASCAL                   1250.04
Name: amount, Length: 281011, dtype: float64

In [8]:
df.head()

Unnamed: 0,Nom / Raison sociale,Commune,Code postal,Libellé rubrique,Montant rubrique,amount
0,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,59416,594.16
1,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,64700,647.0
2,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),-548,-5.48
3,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),221,2.21
4,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),45293,452.93


In [10]:
df = df.rename(columns={
    'Nom / Raison sociale': 'recipient_name',
    ' Commune': 'recipient_location',
    ' Code postal': 'recipient_postcode',
    u' Libellé rubrique': 'scheme'
})
df = df.drop(' Montant rubrique', axis=1)
df.head()

Unnamed: 0,recipient_name,recipient_location,recipient_postcode,scheme,amount
0,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,594.16
1,XXX,XXX,01XXX,III.7 - Aide dans le secteur de l'apiculture,647.0
2,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),-5.48
3,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),2.21
4,XXX,XXX,01XXX,II.1 - Aide de base découplée à la surface (DPB),452.93


In [11]:
df['recipient_location'] = df['recipient_location'].where(df['recipient_location'] != 'XXX', '')
df.head()

Unnamed: 0,recipient_name,recipient_location,recipient_postcode,scheme,amount
0,XXX,,01XXX,III.7 - Aide dans le secteur de l'apiculture,594.16
1,XXX,,01XXX,III.7 - Aide dans le secteur de l'apiculture,647.0
2,XXX,,01XXX,II.1 - Aide de base découplée à la surface (DPB),-5.48
3,XXX,,01XXX,II.1 - Aide de base découplée à la surface (DPB),2.21
4,XXX,,01XXX,II.1 - Aide de base découplée à la surface (DPB),452.93


In [12]:
df['recipient_name'] = df['recipient_name'].where(df['recipient_name'] != 'XXX', '')
df.head()

Unnamed: 0,recipient_name,recipient_location,recipient_postcode,scheme,amount
0,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,594.16
1,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,647.0
2,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),-5.48
3,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),2.21
4,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),452.93


In [13]:
from slugify import slugify

df['year'] = YEAR
df['recipient_id'] = df.apply(lambda x: 'FR-%s-%s' % (x['recipient_postcode'],
                                                     slugify(x['recipient_name']) if x['recipient_name'] else '%s-%s' % (x['year'], x.name)), 1)
df.head()

Unnamed: 0,recipient_name,recipient_location,recipient_postcode,scheme,amount,year,recipient_id
0,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,594.16,2022,FR-01XXX-2022-0
1,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,647.0,2022,FR-01XXX-2022-1
2,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),-5.48,2022,FR-01XXX-2022-2
3,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),2.21,2022,FR-01XXX-2022-3
4,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),452.93,2022,FR-01XXX-2022-4


In [14]:
df['recipient_id'].value_counts().count()

417225

In [15]:
df['currency'] = 'EUR'
df['country'] = 'FR'
df.head()

Unnamed: 0,recipient_name,recipient_location,recipient_postcode,scheme,amount,year,recipient_id,currency,country
0,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,594.16,2022,FR-01XXX-2022-0,EUR,FR
1,,,01XXX,III.7 - Aide dans le secteur de l'apiculture,647.0,2022,FR-01XXX-2022-1,EUR,FR
2,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),-5.48,2022,FR-01XXX-2022-2,EUR,FR
3,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),2.21,2022,FR-01XXX-2022-3,EUR,FR
4,,,01XXX,II.1 - Aide de base découplée à la surface (DPB),452.93,2022,FR-01XXX-2022-4,EUR,FR


In [16]:
df.to_csv('fr_{YEAR}.csv.gz'.format(YEAR=YEAR), index=False, encoding='utf-8', compression='gzip')